Музыка и искусственный интеллект (ИИ) — это разработка музыкальных программ, которые используют ИИ для создания музыки. [1] Как и в приложениях в других областях, ИИ в музыке также имитирует умственные задачи. Важной особенностью является способность алгоритма ИИ обучаться на основе прошлых данных, например, в технологии компьютерного аккомпанемента, где ИИ способен слушать исполнителя-человека и исполнять аккомпанемент. [2] Искусственный интеллект также управляет технологией интерактивной композиции, где компьютер сочиняет музыку в ответ на живое выступление. Существуют и другие приложения ИИ в музыке, которые охватывают не только сочинение музыки, производство и исполнение, но и то, как музыка продается и потребляется. Также было разработано несколько программ музыкальных проигрывателей, использующих технологию распознавания голоса и обработки естественного языка для голосового управления музыкой. Текущие исследования включают применение ИИ в сочинении музыки , исполнении , теории и цифровой обработке звука .
Эрвин Панофски предположил, что во всем искусстве существует три уровня смысла: первичный смысл, или естественный субъект; вторичный смысл, или условный субъект; и третичное значение, внутреннее содержание субъекта. [3] [4] Музыка ИИ исследует самые главные из них, создавая музыку без «намерения», которое обычно за ней стоит, оставляя композиторов, которые слушают созданные машиной произведения, чувствовать себя обеспокоенными из-за отсутствия явного смысла. [5]
Искусственный интеллект берет свое начало в музыке с проблемой транскрипции: точной записи исполнения в нотную запись по мере исполнения. Схема «рояльной ленты» Пера Энграмелля , режим автоматической записи нотного времени и длительности таким образом, чтобы их можно было легко переписать в надлежащую нотную запись вручную, была впервые реализована немецкими инженерами Дж. Ф. Унгером и Дж. Хольфилдом в 1752 году. [6]
В 1957 году ILLIAC I (Illinois Automatic Computer) создал «Illiac Suite for String Quartet», полностью сгенерированную компьютером музыкальную пьесу. Компьютер был запрограммирован для выполнения этой задачи композитором Лежареном Хиллером и математиком Леонардом Айзексоном . [5] : v–vii В 1960 году русский исследователь Рудольф Зарипов опубликовал первую в мире статью об алгоритмическом сочинении музыки с использованием компьютера Урал-1 . [7]
В 1965 году изобретатель Рэй Курцвейл разработал программное обеспечение, способное распознавать музыкальные образцы и синтезировать из них новые композиции. Впервые компьютер появился в викторине « У меня есть секрет» . [8]
К 1983 году музыкальная система Kansei корпорации Yamaha набрала обороты, и в 1989 году была опубликована статья о ее разработке. Программное обеспечение использовало обработку музыкальной информации и методы искусственного интеллекта, чтобы по сути решить проблему транскрипции для более простых мелодий, хотя мелодии более высокого уровня и музыкальные сложности даже сегодня считаются трудными задачами глубокого обучения, а почти идеальная транскрипция все еще является предметом исследований. [6] [9]
В 1997 году программа искусственного интеллекта под названием Experiments in Musical Intelligence (EMI) превзошла композитора-человека в задаче сочинения музыкального произведения, имитирующего стиль Баха . [10] Позднее EMI станет основой для более сложного алгоритма под названием Emily Howell , названного в честь его создателя.
В 2002 году группа исследователей музыки в Sony Computer Science Laboratory в Париже под руководством французского композитора и ученого Франсуа Паше разработала Continuator — уникальный алгоритм, способный возобновлять композицию после того, как живой музыкант остановился. [11]
Эмили Хауэлл продолжила совершенствовать музыкальный искусственный интеллект, выпустив свой первый альбом From Darkness, Light в 2009 году. [12] С тех пор было опубликовано еще много произведений искусственного интеллекта и различных групп.
В 2010 году Iamus стал первым ИИ, который создал фрагмент оригинальной современной классической музыки в своем собственном стиле: «Iamus' Opus 1». Расположенный в Университете Малаги (Университет Малаги) в Испании, компьютер может генерировать полностью оригинальное произведение в различных музыкальных стилях. [13] [5] : 468–481 Август 2019 года, большой набор данных, состоящий из 12 197 песен MIDI, каждая со своими текстами и мелодиями (https://github.com/yy1lab/Lyrics-Conditioned-Neural-Melody-Generation), был создан для исследования возможности нейронной генерации мелодий из текстов песен с использованием метода глубокой условной LSTM-GAN.
С прогрессом в области генеративного ИИ начали появляться модели, способные создавать полноценные музыкальные композиции (включая тексты песен) из простого текстового описания. Два заметных веб-приложения в этой области — Suno AI , запущенное в декабре 2023 года, и Udio , которое последовало за ним в апреле 2024 года. [14]
ChucK, разработанный в Принстонском университете Ге Вангом и Перри Куком, представляет собой текстовый кроссплатформенный язык. [15] Извлекая и классифицируя теоретические методы, которые оно находит в музыкальных произведениях, программное обеспечение способно синтезировать совершенно новые произведения на основе изученных им методов. [16] Эту технологию используют SLOrk (Stanford Laptop Orchestra) [17] и PLOrk (Princeton Laptop Orchestra).
Jukedeck был веб-сайтом, который позволял людям использовать искусственный интеллект для создания оригинальной музыки без уплаты роялти для использования в видео. [18] [19] Команда начала разрабатывать технологию генерации музыки в 2010 году, [20] сформировала вокруг нее компанию в 2012 году, [21] и запустила веб-сайт публично в 2015 году. [19] Первоначально используемая технология представляла собой основанную на правилах алгоритмическую систему композиции , [22] которая позже была заменена искусственными нейронными сетями . [18] Веб-сайт использовался для создания более 1 миллиона музыкальных произведений, и бренды, которые его использовали, включали Coca-Cola , Google , UKTV и Музей естественной истории в Лондоне . [23] В 2019 году компания была приобретена ByteDance . [24] [25] [26]
MorpheuS [27] — исследовательский проект Дориен Херреманс и Элейн Чу в Лондонском университете королевы Марии , финансируемый проектом ЕС Марии Склодовской-Кюри. Система использует подход оптимизации, основанный на алгоритме поиска переменного соседства, для преобразования существующих шаблонных фрагментов в новые фрагменты с заданным уровнем тонального напряжения, который динамически меняется на протяжении всего фрагмента. Этот подход оптимизации позволяет интегрировать технику обнаружения шаблонов для обеспечения долгосрочной структуры и повторяющихся тем в сгенерированной музыке. Произведения, составленные MorpheuS, исполнялись на концертах как в Стэнфорде, так и в Лондоне.
Созданная в феврале 2016 года в Люксембурге , AIVA — это программа, которая производит саундтреки для любого типа медиа. Алгоритмы, лежащие в основе AIVA, основаны на архитектурах глубокого обучения [28]. AIVA также использовалась для сочинения рок-трека под названием On the Edge [29], а также поп-мелодии Love Sick [30] в сотрудничестве с певицей Тарин Саузерн [31] для создания ее альбома 2018 года «I am AI».
Команда Magenta из Google опубликовала несколько музыкальных приложений AI и технических документов с момента их запуска в 2016 году. [32] В 2017 году они выпустили алгоритм и набор данных NSynth , [33] а также аппаратный музыкальный инструмент с открытым исходным кодом , разработанный для того, чтобы облегчить музыкантам использование алгоритма. [34] Инструмент использовался такими известными артистами, как Grimes и YACHT, в их альбомах. [35] [36] В 2018 году они выпустили приложение для импровизации на фортепиано под названием Piano Genie. Позже за ним последовала Magenta Studio, набор из 5 плагинов MIDI, которые позволяют музыкальным продюсерам разрабатывать существующую музыку в их DAW. [37] В 2023 году их команда машинного обучения опубликовала на GitHub техническую статью, в которой описывался MusicLM, частный генератор текста в музыку, который они разработали. [38] [39]
Riffusion — это нейронная сеть , разработанная Сетом Форсгреном и Айком Мартиросом, которая генерирует музыку, используя звуковые образы, а не аудио. [40] Она была создана как тонкая настройка Stable Diffusion , существующей модели с открытым исходным кодом для генерации изображений из текстовых подсказок на спектрограммах . [40] Это приводит к модели, которая использует текстовые подсказки для генерации файлов изображений, которые можно подвергнуть обратному преобразованию Фурье и преобразовать в аудиофайлы. [41] Хотя эти файлы длятся всего несколько секунд, модель также может использовать скрытое пространство между выходами для интерполяции разных файлов вместе. [40] [42] Это достигается с помощью функциональности модели Stable Diffusion, известной как img2img . [43]
Полученную музыку описывают как « de otro mundo » (потустороннюю), [44] хотя она вряд ли заменит музыку, созданную человеком. [44] Модель была представлена 15 декабря 2022 года, а код также свободно доступен на GitHub . [41] Это одна из многих моделей, полученных из Stable Diffusion. [43]
Riffusion классифицируется в подмножестве генераторов текста в музыку на основе ИИ. В декабре 2022 года Mubert [45] аналогичным образом использовал Stable Diffusion для превращения описательного текста в музыкальные циклы. В январе 2023 года Google опубликовал статью о собственном генераторе текста в музыку под названием MusicLM. [46] [47]Искусственный интеллект имеет возможность влиять на то, как продюсеры создают музыку, давая повторы трека, которые следуют подсказке, данной создателем. Эти подсказки позволяют ИИ следовать определенному стилю, к которому стремится артист. [5]
ИИ также использовался в музыкальном анализе, где он использовался для извлечения признаков, распознавания образов и музыкальных рекомендаций. [48]
Искусственный интеллект оказал большое влияние на сектор композиции, поскольку он повлиял на идеи композиторов/продюсеров и имеет потенциал сделать отрасль более доступной для новичков. С его развитием в музыке он уже использовался в сотрудничестве с продюсерами. Артисты используют это программное обеспечение, чтобы помочь генерировать идеи и выявлять музыкальные стили, побуждая ИИ следовать определенным требованиям, которые соответствуют их потребностям. Будущие композиционные воздействия технологии включают эмуляцию и слияние стилей, а также пересмотр и уточнение. Разработка этих типов программного обеспечения может облегчить доступ новичкам в музыкальной индустрии. [5] Такое программное обеспечение, как ChatGPT , использовалось продюсерами для выполнения этих задач, в то время как другое программное обеспечение, такое как Ozone11, использовалось для автоматизации трудоемких и сложных действий, таких как мастеринг . [49]
В Соединенных Штатах действующая правовая база имеет тенденцию применять традиционные законы об авторском праве к ИИ, несмотря на его различия с человеческим творческим процессом. [50] Однако музыкальные произведения, созданные исключительно ИИ, не защищены авторским правом. В сборнике практик Бюро по авторским правам США Бюро по авторским правам заявило, что не будет предоставлять авторские права на «работы, не имеющие человеческого авторства», и «Бюро не будет регистрировать работы, созданные машиной или просто механическим процессом, который работает случайным образом или автоматически без какого-либо творческого вклада или вмешательства со стороны автора-человека». [51] В феврале 2022 года Совет по рассмотрению авторских прав отклонил заявку на авторское право на произведение искусства, созданное ИИ, на том основании, что оно «не имело требуемого человеческого авторства, необходимого для поддержания иска об авторском праве». [52]
Ситуация в Европейском союзе (ЕС) похожа на ситуацию в США, поскольку его правовая база также подчеркивает роль человеческого участия в работе, защищенной авторским правом. [53] Согласно Управлению интеллектуальной собственности Европейского союза и недавней судебной практике Суда Европейского союза , критерий оригинальности требует, чтобы работа была собственным интеллектуальным творением автора, отражающим личность автора, подтвержденную творческим выбором, сделанным во время ее создания, требующим особого уровня человеческого участия. [53] Проект reCreating Europe, финансируемый исследовательской и инновационной программой Европейского союза Horizon 2020, углубляется в проблемы, связанные с контентом, созданным ИИ, включая музыку, предлагая правовую определенность и сбалансированную защиту, которая поощряет инновации при соблюдении норм авторского права. [53] Признание AIVA знаменует собой значительный отход от традиционных взглядов на авторство и авторские права в сфере музыкальной композиции, позволяя исполнителям ИИ выпускать музыку и получать гонорары. Это признание делает AIVA пионером в деле официального признания ИИ в музыкальном производстве. [54]
Недавние достижения в области искусственного интеллекта, достигнутые такими группами, как Stability AI , OpenAI и Google, повлекли за собой огромное количество исков о нарушении авторских прав, поданных против генеративных технологий, включая музыку ИИ. Если эти иски будут успешными, наборы данных моделей машинного обучения, лежащих в основе этих технологий, будут ограничены общественным достоянием. [55]
Более зарождающееся развитие ИИ в музыке — это применение аудиодипфейков для подделки текста или музыкального стиля уже существующей песни под голос или стиль другого исполнителя. Это вызвало много опасений относительно законности технологии, а также этики ее использования, особенно в контексте художественной идентичности. [56] Кроме того, это также подняло вопрос о том, кому приписывается авторство этих работ. Поскольку ИИ не может иметь собственное авторство, текущие предположения предполагают, что не будет четкого ответа, пока не будут приняты дальнейшие решения относительно технологий машинного обучения в целом. [57] Самые последние превентивные меры начали разрабатываться Google и группой Universal Music, которые приняли во внимание роялти и атрибуцию кредита, чтобы позволить продюсерам копировать голоса и стили исполнителей. [58]
В 2023 году артист, известный как ghostwriter977, создал музыкальный deepfake под названием « Heart on My Sleeve », который клонировал голоса Дрейка и The Weeknd , введя набор вокальных треков соответствующих артистов в алгоритм глубокого обучения, создав искусственную модель голосов каждого артиста, с которой эта модель могла быть сопоставлена с оригинальным эталонным вокалом с оригинальными текстами песен. [59] Трек был представлен на рассмотрение Грэмми в номинации «Лучшая рэп-песня и песня года». [60] Он стал вирусным и набрал популярность на TikTok и получил положительный отклик от аудитории, что привело к его официальному релизу на Apple Music , Spotify и YouTube в апреле 2023 года. [61] Многие считали, что трек был полностью написан с помощью программного обеспечения ИИ, но продюсер утверждал, что написание песен, продакшн и оригинальный вокал (до преобразования) по-прежнему были сделаны им. [59] Позже песня была исключена из списка номинантов на премию Грэмми, поскольку не соответствовала требованиям, необходимым для рассмотрения на премию Грэмми. [61] Трек был удален со всех музыкальных платформ компанией Universal Music Group . [61] Песня стала переломным моментом для клонирования голоса с помощью искусственного интеллекта, и с тех пор были созданы модели для сотен, если не тысяч, популярных певцов и рэперов.
В 2013 году кантри-певец Рэнди Трэвис перенес инсульт , из-за которого он не мог петь. Тем временем вокалист Джеймс Дюпре гастролировал от его имени, исполняя его песни. Трэвис и давний продюсер Кайл Ленинг выпустили новую песню в мае 2024 года под названием « Where That Came From », первую новую песню Трэвиса после инсульта. Запись использует технологию искусственного интеллекта для воссоздания вокала Трэвиса, составленного из более чем 40 существующих вокальных записей вместе с записями Дюпре. [62] [63]
Ларсон был задет, когда зрители пришли к выводу, что его произведение — простая, увлекательная форма, называемая двухчастной инвенцией — было написано компьютером. Но он несколько успокоился, когда слушатели решили, что инвенция, составленная EMI (произносится как
Эмми
), была подлинным Бахом.