NVIDIA анонсировалановую генеративную ИИ-модель под названием Foundational Generative Audio Transformer Opus 1, или просто Fugatto. Опираясь на текстовые подсказкинейросеть может создавать музыку и даже не существовавшие ранее звуки с нуля, а также редактировать существующие аудиофайлы.
По словам разработчиков, их цель заключалась в создании ИИ-модели, которая сможет «понимать и генерировать музыкутак, как это делает человек». По мнению компании, работа Fugatto может быть музыкальным продюсерам в создании прототипа песен с их дальнейшим редактированием. Кроме того, нейросеть пригодится пользователям при создании аудиоматериалов для изучения языка, и разработчикам видеоигр дляозвучки персонажей в зависимости от действий геймера.
Исследователитакже обнаружили, что модель может выполнять задачи, не входящие в её предварительноеобучение. В частности, Fugatto способнаобъединять различные инструкции: например, создавать речь,которая звучит сердито и с определённым акцентом, или звук пения птиц во времягрозы. Модель также может генерировать звуки, которые меняются со временем, вроде шума ливня, движущегося по земле.
Дата выхода нейросети в открытый доступ разработчиками пока не объявлена.