L’IA crée désormais de la musique avec un son de qualité CD à partir de texte, et cela s’améliore

Illustration 3D d'un robot jouet chantant.

Imaginez-vous écrire une « musique d’introduction dramatique » et entendre une symphonie forte, ou écrire des « pas effrayants » et obtenir des effets sonores de haute qualité. C’est la promesse de Consistent Voice, un modèle d’IA pour convertir du texte en voix Annoncé mercredi Propulsé par Stability AI qui peut régler la stéréo 44,1 kHz Musique ou sons issus de descriptions écrites. D’ici peu, une technologie similaire pourrait mettre les musiciens au défi dans leur carrière.

Si vous vous en souvenez, Stability AI est la société qui a aidé à financer la création de Propagation stableun modèle de synthèse d’images pour diffusion latente sorti en août 2022. L’entreprise ne s’est pas limitée à la création d’images, mais s’est diversifiée dans le domaine de l’audio en prenant en charge harmoniele laboratoire d’intelligence artificielle qui a lancé le générateur de musique Diffusion de la danse en septembre.

Désormais, Stability et Harmonai souhaitent se lancer dans la production audio commerciale d’IA avec Stable Audio. à en juger par Échantillons de productioncela semble être une amélioration significative de la qualité sonore par rapport aux précédents générateurs de sons IA que nous avons vus.

Sur sa page promotionnelle, Stability fournit des exemples du modèle d’IA en action avec des affirmations telles que “musique de bande-annonce épique, rythmes tribaux intenses et cuivres” et “lofi hip hop beat mélodique chillhop 85 bpm”. Il propose également des échantillons d’effets sonores créés à l’aide d’audio statique, comme un pilote de ligne parlant dans un interphone et des personnes parlant dans un restaurant bondé.

Pour former son modèle, Stability s’est associé à un fournisseur de musique étincelles audio et autorisez un ensemble de données « composé de plus de 800 000 fichiers audio contenant de la musique, des effets sonores et des parties d’instruments, ainsi que les métadonnées textuelles correspondantes ». Après avoir introduit 19 500 heures d’audio dans le modèle, la technologie de Stable Audio sait comment imiter des sons spécifiques entendus à la demande, car les sons ont été associés à des descriptions textuelles au sein de son réseau neuronal.

Schéma d'architecture audio stable fourni par Stability AI.
Agrandir / Schéma d’architecture audio stable fourni par Stability AI.

IA de stabilité

Un son statique comporte plusieurs parties qui fonctionnent ensemble pour créer rapidement un son personnalisé. Un volet réduit la taille d’un fichier audio de manière à préserver ses fonctionnalités importantes tout en supprimant le bruit inutile. Cela rend le système plus rapide à apprendre et à créer de nouveaux sons. Une autre partie utilise du texte (descriptions de métadonnées de la musique et des sons) pour aider à guider le type de son créé.

Pour accélérer les choses, l’architecture audio statique fonctionne sur une représentation audio hautement compressée et simplifiée afin de réduire le temps d’inférence (le temps qu’il faut à un modèle d’apprentissage automatique pour générer une sortie une fois qu’il reçoit une entrée). Selon Stability AI, Stable Audio peut fournir 95 secondes d’audio stéréo 16 bits à une fréquence d’échantillonnage de 44,1 kHz (souvent appelée «Qualité du CD“Parce qu’il est conforme aux spécifications techniques du format CD) en moins d’une seconde GPU Nvidia A100. L’A100 est un puissant GPU de centre de données conçu pour une utilisation par l’IA et est bien plus performant qu’un GPU de jeu de bureau classique.

Bien que l’audio généré puisse répondre aux spécifications du CD en termes de profondeur de bits et de fréquence d’échantillonnage, il convient de noter que la qualité perceptuelle réelle de la musique produite par l’audio fixe peut varier considérablement, d’autant plus que l’audio est généré à partir d’une représentation compressée dans les données. ensemble.

Comme mentionné précédemment, Stable Audio n’est pas le premier générateur de musique à s’appuyer sur des techniques de publication sous-jacentes. En décembre dernier, nous vous avons couvert Propagé, une version amateur d’une copie audio de Stable Diffusion, même si les générations résultantes étaient loin des échantillons Stable Audio en qualité. En janvier, Google a publié MusiqueLMun générateur de musique IA pour l’audio 24 kHz, et Meta a lancé un ensemble d’outils audio open source (y compris un générateur de texte en musique) appelé artisanat audio en août. Désormais, avec un son stéréo de 44,1 kHz, Stable Diffusion place la barre plus haut.

Stable indique que Stable Audio sera disponible dans un niveau gratuit et un forfait Pro mensuel de 12 $. Avec l’option gratuite, les utilisateurs peuvent créer jusqu’à 20 pistes par mois, chacune d’une durée maximale de 20 secondes. Le plan Pro étend ces limites, autorisant 500 générations de pistes par mois et des durées de piste allant jusqu’à 90 secondes. Les futures versions de stabilité devraient inclure des modèles open source basés sur l’architecture sonore stable, ainsi qu’un code de formation pour ceux qui souhaitent développer des modèles de génération sonore.

Dans l’état actuel des choses, il semble que nous soyons sur le point de produire de la musique générée par l’IA de haute qualité en utilisant un son cohérent, en tenant compte de la fidélité audio. Les musiciens seraient-ils heureux s’ils étaient remplacés par des modèles d’IA ? Probablement pas, si l’on en croit l’histoire. Manifestations sur l’intelligence artificielle dans le domaine des arts visuels. À l’heure actuelle, les humains peuvent facilement surpasser tout ce que l’IA peut produire, mais cela pourrait ne pas durer longtemps. Quoi qu’il en soit, l’audio généré par l’IA pourrait devenir un autre outil dans la boîte à outils de production audio professionnelle.

Leave a Comment