
MusicLM — это новейший генеративный ИИ от Google, который способен преобразовывать текстовые описания различной сложности в музыку с высоким качеством звучания.
MusicLM рассматривает процесс условной генерации музыки как иерархическую задачу последовательного моделирования, и генерирует музыку с частотой 24 кГц, которая остается последовательной в течение нескольких минут.
Модели преобразования текста в музыку не новы, но Google заявляет (через TechCrunch), что «MusicLM превосходит предыдущие системы как по качеству звука, так и по соответствию текстовому описанию». Приведенные ниже примеры с подробными описаниями сгенерировали 30-секундные аудиофрагменты:
- «Главная музыкальная тема аркадной игры. Она быстрая и энергичная, с запоминающимся риффом электрогитары. Музыка повторяющаяся и легко запоминающаяся, но с неожиданными звуками, такими как удары по тарелкам или барабанные сбивки».
- «Эпический саундтрек с использованием оркестровых инструментов. Композиция нагнетает напряжение, создает ощущение срочности. Хор а капелла поет в унисон, создавая чувство силы и мощи».
- «Это музыкальная композиция в стиле R&B/хип-хоп. Присутствует мужской вокал, читающий рэп, и женский вокал, поющий в манере рэпа. Бит состоит из фортепиано, играющего аккорды мелодии, с поддержкой электронных барабанов. Атмосфера композиции игривая и энергичная. Этот трек мог бы быть использован в саундтреке к молодежному драматическому фильму/сериалу. Его также можно было бы проигрывать на вечеринках по случаю дня рождения или пляжных вечеринках».
Один из особенно интересных примеров — описание картины, которое затем было преобразовано в музыку:
- «Переход Наполеона через Альпы» Жака-Луи Давида: «Композиция демонстрирует сильно идеализированный вид реального перехода, который Наполеон и его армия совершили через Альпы по Большому Сен-Бернарскому перевалу в мае 1800 года». [Wikipedia]
Затем следует пятиминутная генерация для «мелодичного техно» (ниже) и «свинг»:
MusicLM способен генерировать музыку в различных жанрах и даже имитировать «уровень мастерства музыканта» (например, новичок, средний уровень, профессионал). В будущем Google может заняться генерацией текстов песен, улучшением качества вокала и повышением частоты дискретизации.
Google «не планирует выпускать модели на данном этапе», ссылаясь на необходимость дальнейшей доработки. Больше примеров сгенерированной музыки можно найти здесь. Это дополняет работу компании над генерацией изображений по тексту и генерацией видео по тексту.