ElevenLabs — компания-разработчик программного обеспечения, специализирующаяся на разработке программного обеспечения для синтеза естественной речи с использованием глубокого обучения .
Она была признана одной из основных компаний, стоящих за продолжающимся бумом ИИ . [1]
ElevenLabs была основана в 2022 году Петром Домбковским, бывшим инженером по машинному обучению Google , и Матеушем Станишевским, бывшим стратегом развертывания Palantir . [2] Оба выросли в Польше, и, как сообщается, вдохновением для основания ElevenLabs они послужили просмотры плохо дублированных американских фильмов. [3] [4]
Домбковски и Станишевски изначально рассматривали различные варианты финансирования, включая возможность сотрудничества с акселератором стартапов. В январе 2023 года они сообщили, что получили предварительный раунд в размере 2 миллионов долларов. Специализация стартапа на голосовом интеллекте ИИ, все еще формирующейся области в Европе, сыграла значительную роль в привлечении инвесторов. Предварительное финансирование в основном осуществлялось Credo Ventures, к которому присоединилась Concept Ventures. [5]
В январе 2023 года ElevenLabs публично выпустила свою бета-версию платформы . [6]
В июне 2023 года ElevenLabs привлекла $19 млн в рамках раунда финансирования серии A при оценке около $100 млн, [7] [8] несмотря на то, что у компании не было офиса и было всего 15 сотрудников. [4] [8] Раунд финансирования совместно возглавляли венчурная фирма Andreessen Horowitz , бывший генеральный директор GitHub Нэт Фридман и предприниматель Дэниел Гросс . В нем также приняли участие такие известные личности, как SV Angel , Майк Кригер (соучредитель Instagram), Брендан Ирибе (соучредитель Oculus), Мустафа Сулейман (соучредитель Deepmind) и Тим О'Рейли (основатель O'Reilly Media). Также было объявлено, что Andreessen Horowitz войдет в совет директоров ElevenLabs. [3]
22 января 2024 года ElevenLabs привлекла дополнительно $80 млн в рамках финансирования серии B , увеличив общую оценку компании до $1,1 млрд. Раунд финансирования возглавили Andreessen Horowitz, Friedman, Gross и Sequoia Capital . Кроме того, компания анонсировала ряд новых продуктов, включая Voice Marketplace, AI Dubbing Studio и мобильное приложение. [9]
ElevenLabs в первую очередь известна своим браузерным программным обеспечением для преобразования текста в речь с помощью искусственного интеллекта Speech Synthesis, которое может воспроизводить реалистичную речь, синтезируя голосовые эмоции и интонацию . [10] Компания заявляет, что ее модели обучены интерпретировать контекст в тексте и соответствующим образом корректировать интонацию и темп. [11] Она использует передовые алгоритмы для анализа контекстных аспектов текста, стремясь обнаружить такие эмоции, как гнев, грусть, счастье или тревога, что позволяет системе понимать настроение пользователя, [12] что приводит к достижению более реалистичной и человеческой интонации. Стартап находится в процессе патентования этой технологии. [5] На своем бета-сайте пользователи могут отправлять текст и генерировать аудиофайлы из набора голосов по умолчанию. Платным пользователям предоставляется возможность загружать собственные образцы голоса для создания новых вокальных стилей с помощью инструмента клонирования голоса компании. [13]
Voice Library — это функция компании для обмена уникальными голосовыми профилями, созданными с помощью их технологии Voice Design. Эти предварительно разработанные голосовые профили позволяют пользователям выбирать голос, который лучше всего соответствует их потребностям, а не создавать его с нуля. [14] Сейчас в библиотеке более 1000 голосов, созданных сообществом. Другой инструмент под названием VoiceLab позволяет пользователям клонировать голоса всего из нескольких коротких фрагментов аудио и может создавать совершенно новые синтетические голоса. [3]
20 июня 2023 года компания ElevenLabs выпустила инструмент распознавания ИИ под названием AI Speech Classifier, который, по ее словам, является первым в своем роде. [3] Инструмент доступен через API и предназначен для определения того, исходит ли загруженный аудиообразец из собственной технологии ИИ компании ElevenLabs. [4] Компания выразила намерение сотрудничать с другими разработчиками ИИ для создания универсальной системы обнаружения, которая может быть принята во всей отрасли. [15]
В июле 2023 года ElevenLabs анонсировала «Проекты» — инструмент для создания длинного устного контента, такого как аудиокниги и диалоговые сегменты с контекстно-зависимыми синтетическими или пользовательскими голосами. [4] [16] Инструмент был выпущен в сентябре. В августе ElevenLabs расширила свои возможности генерации голоса до 28 языков. Используя внутреннюю модель ИИ, она автоматически определяет такие языки, как корейский , голландский и вьетнамский , что позволяет генерировать «эмоционально насыщенную» многоязычную речь. Компания также объявила, что ее технология официально вышла из фазы бета-тестирования . [17] [18]
В октябре 2023 года ElevenLabs представила «AI Dubbing» — инструмент, способный переводить речь на более чем 20 языков. Функция способна сохранять оригинальный голос, эмоции и интонацию говорящего, используя запатентованные методы для решения таких задач, как удаление шума, дифференциация говорящего, транскрипция и синхронизация переведенной речи с исходным звуком. [19]
В мае 2024 года ElevenLabs запустила модель преобразования текста в музыку . [20] В июне 2024 года ElevenLabs выпустила приложение ElevenLabs Reader для iOS и Android, которое позволяет пользователям прослушивать статьи, PDF-файлы и ePub-файлы с помощью голосов AI на своем телефоне. [21] В июле 2024 года ElevenLabs выпустила «Voice Isolator», который удаляет фоновый шум из аудио. [22]
Варианты использования ElevenLabs охватывают целый ряд секторов.
Создатели контента использовали ElevenLabs для подкастов, озвучивания и комедийных шоу. [23] [24] [25] В марте 2023 года комик Дрю Кэри использовал инструмент клонирования голоса ElevenLabs, чтобы воссоздать свой голос для эпизода своего радиошоу Friday Night Freakout . [11] В апреле 2023 года польский теле- и радиоведущий Ярослав Кузняр использовал синтезированную версию своего голоса для выпуска серии подкастов о российском вторжении в Украину . [26] Сет Годин также использовал ElevenLabs для озвучивания своего подкаста, посвященного искусственному интеллекту. [3]
Тим Грин , бывший игрок НФЛ и автор, использует технологию клонирования голоса на основе искусственного интеллекта ElevenLabs для своего подкаста «Ничего не сказано Тимом Грином». [27] У Грина диагностирована медленно прогрессирующая форма бокового амиотрофического склероза , и его способность общаться вербально была нарушена. Технология искусственного интеллекта позволяет ему вести и участвовать в глубоких беседах с различными гостями, используя клонированную версию своего голоса из более ранних записей. Это инновационное использование технологии ElevenLabs позволяет Грину продолжать участвовать в важных дискуссиях, несмотря на его состояние.
В марте 2023 года Super-Hi-Fi, служба автоматизации потоковой передачи, объединилась с ElevenLabs для запуска полностью автоматизированной радиослужбы под названием «AI Radio», используя программное обеспечение ElevenLabs для озвучивания своего виртуального диджея с помощью подсказок, сгенерированных с помощью ChatGPT . [28] ElevenLabs также использовалась для озвучивания игр и игровых персонажей в партнерстве со шведским разработчиком игр Paradox Interactive и базирующейся в Великобритании Magicave. [3] [29]
Издатели и авторы использовали ElevenLabs для озвучивания аудиокниг и информационных бюллетеней. [5] [30] 13 июня 2023 года Storytel объявила об эксклюзивном партнерстве с ElevenLabs. Благодаря этому сотрудничеству ElevenLabs будет создавать голоса, специально адаптированные для основных рынков Storytel, и производить аудиокниги с озвучиванием с помощью ИИ. Была реализована функция изменения голоса под названием VoiceSwitcher для улучшения персонализации пользователей, предоставляя уникальные возможности прослушивания, настроенные для каждого человека. [31] [32]
ElevenLabs использовался для создания аудио для дубляжа видео на разных языках, в том числе создателями контента. [5] [8] Платформа имеет возможность точно воспроизводить практически любой акцент на любом языке. [33] Поклонники знаменитостей использовали ElevenLabs для создания вдохновляющих сообщений, используя голоса своих любимых знаменитостей. [34]
В феврале репортер VICE Джозеф Кокс опубликовал результаты исследования, согласно которым он записал пять минут своего разговора, а затем использовал ElevenLabs для создания поддельных голосов, которые обошли систему голосовой аутентификации банка . [35]
В июле представительница США Дженнифер Векстон воспользовалась услугами ElevenLabs для создания копии своего голоса после потери голоса из-за прогрессирующего надъядерного паралича (ПНП), похожего на болезнь Паркинсона. [36]
ElevenLabs устанавливает четкие правила относительно использования своей технологии, запрещая клонирование голосов в оскорбительных целях, таких как мошенничество, дискриминация, разжигание ненависти или оскорбления в Интернете, хотя она поддерживает использование своей платформы для «карикатуры, пародии и сатиры» и «художественной и политической речи, способствующей публичным дебатам». Компания заявляет о своих полномочиях приостанавливать действия учетных записей и контента пользователей, уличенных в нарушении этих правил, а также подчеркивает свою приверженность сотрудничеству с властями и сообщению о любой незаконной деятельности в соответствии с действующим законодательством. [3] В январе компания признала, что ее платформа использовалась для «дел о неправомерном использовании клонирования голоса» [37] и ужесточила меры защиты от недобросовестного использования своей технологии. [38]
После запуска в январе 2023 года ElevenLabs быстро набрал обороты и получил высокую оценку за качество голосового вывода, быстрое время генерации и «щедрый бесплатный уровень». Его также хвалили за его способность точно произносить имена с уникальным или необычным произношением, устраняя распространенный недостаток в подобных инструментах, которые часто ориентированы в первую очередь на западные имена. [39] Компания достигла более миллиона зарегистрированных пользователей между запуском и июнем 2023 года. [3] [4] [40]
ElevenLabs подверглась критике после того, как пользователи смогли злоупотребить ее программным обеспечением для генерации спорных заявлений в вокальном стиле знаменитостей, государственных должностных лиц и других известных личностей, [41] [42] [43] [44] [38] особенно привлекая внимание после того, как пользователи на 4chan использовали инструмент для обмена оскорбительными сообщениями. [45] [15] Способность программного обеспечения точно воспроизводить реальные голоса вызвала этические проблемы , и критики сравнили это с дипфейком . [46] В ответ компания заявила, что будет работать над смягчением потенциальных злоупотреблений с помощью мер безопасности и проверки личности . [6] Впоследствии компания ограничила доступ к своей функции клонирования голоса для платных подписчиков, [47] сославшись на требование предоставлять платежную информацию как средство повышения ответственности, [48] и ввела запреты для пользователей, которые неоднократно нарушают условия обслуживания.
В преддверии демократических праймериз в Нью-Гемпшире в январе 2024 года тысячи жителей получили автоматические звонки, сгенерированные искусственным интеллектом, якобы от Джо Байдена, призывающего избирателей пропустить голосование в день праймериз. Генеральная прокуратура Нью-Гемпшира начала расследование инцидента и связала его с компанией, базирующейся в Техасе, а эксперты по аудио пришли к выводу, что звонок был сделан с помощью ElevenLabs. В ответ на инцидент генеральный директор Мати Станишевски заявил, что компания «стремится предотвратить неправомерное использование аудиоинструментов искусственного интеллекта», но не прокомментировал конкретные инциденты. [49]
Дополнительные опасения были высказаны по поводу этики источника данных для обучения ElevenLabs, поскольку несколько актеров озвучивания утверждали, что ElevenLabs использовала образцы их голосов без их согласия. [50] Таким образом, ElevenLabs, наряду с другими компаниями в своей категории, рассматривается как потенциальный вызов сектору озвучивания. [18]
{{cite web}}
: CS1 maint: несколько имен: список авторов ( ссылка )