- Published on
Создатель голоса ChatGPT запускает аудиомодель стартап привлекает 40 млн долларов
WaveForms AI: Пионер эмоционального общего интеллекта
Сфера искусственного интеллекта постоянно развивается, и новые инновации и прорывы появляются стремительными темпами. Одной из самых захватывающих областей развития является область аудио-ИИ, где компании расширяют границы возможного с помощью распознавания речи, обработки естественного языка и эмоционального понимания. Недавним событием, которое привлекло значительное внимание, стал запуск WaveForms AI, стартапа, основанного Алексисом Конно, бывшим руководителем передового голосового режима в OpenAI, компании, стоящей за ChatGPT. WaveForms AI сосредоточена на разработке передовых аудио больших языковых моделей (LLM) с миссией сделать ИИ более эмпатичным и эмоционально интеллектуальным. Это предприятие уже получило значительное начальное финансирование в размере 40 миллионов долларов от известной венчурной фирмы a16z, оценив компанию в несколько сотен миллионов долларов.
WaveForms AI — это не просто еще один технологический стартап; это компания со смелым видением. По своей сути WaveForms стремится создавать аудио LLM, которые могут обрабатывать аудио напрямую, а не полагаться на традиционный метод преобразования речи в текст, а затем обратно в речь. Этот сквозной подход обеспечивает более интерактивное, человекоподобное и эмоционально интеллектуальное взаимодействие в реальном времени. Конечная цель компании — разработать то, что они называют эмоциональным общим интеллектом (EGI), то есть ИИ, который может понимать человеческие эмоции и реагировать на них с сочувствием.
Эта амбициозная цель обусловлена убеждением, что будущее ИИ заключается не только в его способности обрабатывать информацию, но и в его способности понимать человеческие эмоции и реагировать на них. Алексис Конно, основатель WaveForms, рассматривает эмоциональный интеллект как важнейший компонент для достижения искусственного общего интеллекта (AGI). Он подчеркивает, что ИИ должен быть не только функциональным, но и эмпатичным, способным устанавливать связь с людьми на эмоциональном уровне. Эта перспектива отличает WaveForms от многих других компаний, занимающихся ИИ, которые в первую очередь сосредоточены на технических возможностях.
Технология WaveForms
Технология WaveForms — это то, где действительно заключается инновация. В отличие от традиционного подхода преобразования речи в текст, а затем использования моделей преобразования текста в речь, аудио LLM WaveForms предназначены для прямой обработки аудио. Это означает, что ИИ может анализировать нюансы человеческой речи, такие как тон, паузы и эмоциональные интонации, в режиме реального времени. Обходя этап перевода текста, WaveForms стремится создать более естественное и отзывчивое взаимодействие.
Этот подход является значительным отходом от того, как работают большинство современных голосовых моделей. Традиционный метод включает в себя несколько этапов, каждый из которых имеет свой потенциал для задержки и потери информации. Обрабатывая аудио напрямую, модели WaveForms могут уменьшить задержку и улавливать тонкие эмоциональные сигналы, которые могут быть потеряны в процессе перевода. Это имеет решающее значение для создания ИИ, который может по-настоящему понимать человеческие эмоции и реагировать на них.
Команда основателей: Сочетание опыта
Команда, стоящая за WaveForms, так же впечатляет, как и технология, которую они разрабатывают. Алексис Конно, генеральный директор и основатель, является ведущим экспертом в области аудио- и текстовых LLM. Он сыграл ключевую роль в разработке передового голосового режима GPT-4o в OpenAI. До работы в OpenAI Конно был научным сотрудником в Google и Meta, где он разрабатывал маскированные языковые модели для понимания текста и распознавания речи. Его опыт как в исследованиях, так и в практическом применении делает его уникально квалифицированным для руководства WaveForms в ее миссии.
Соучредитель Корали Леметр привносит богатый опыт в области бизнеса и стратегии. Имея десятилетний опыт работы в области стратегии и операций в Google и BCG, она руководила продуктовыми и рыночными стратегиями для многочисленных ведущих технологических компаний. Опыт Леметр в бизнесе и стратегии будет иметь решающее значение для управления ростом и позиционированием WaveForms на рынке.
Третьим ключевым членом команды основателей является технический директор Картикай Ханделвал, который ранее руководил экосистемой ИИ для PyTorch. Опыт Ханделвала в области инфраструктуры и разработки ИИ необходим для создания сложных моделей, которые разрабатывает WaveForms. Помимо трех основателей, в компании также есть два других технических сотрудника, что делает команду небольшой, но высококвалифицированной.
Видение эмоционального общего интеллекта (EGI)
Конечная цель WaveForms — создать эмоциональный общий интеллект (EGI). Это ИИ, который может не только понимать, что говорят люди, но и то, что они чувствуют. Это ИИ, который может устанавливать связь с людьми на эмоциональном уровне, способствуя более естественному и значимому взаимодействию. Это видение амбициозно, но оно согласуется с растущим признанием того, что ИИ должен быть не просто интеллектуальным; он должен быть эмпатичным.
Компания считает, что для создания по-настоящему человекоподобного взаимодействия с ИИ требуется нечто большее, чем просто передовые возможности обработки языка. Это требует понимания эмоций, отношений и нюансов человеческого общения. WaveForms работает над тем, чтобы наделить ИИ этими человеческими качествами, стремясь создать будущее, в котором ИИ будет не просто инструментом, а партнером в человеческих начинаниях.
Конкурентная среда: Уникальный подход WaveForms
Рынок аудио-ИИ становится все более переполненным, и несколько компаний работают над аналогичными технологиями. Однако у WaveForms есть уникальный подход, который отличает ее от конкурентов. В то время как многие компании сосредоточены на моделях преобразования речи в текст и текста в речь, WaveForms стремится разрабатывать сквозные аудио LLM, которые могут обрабатывать аудио напрямую. Этот подход, по их мнению, приведет к более естественному и эмоционально интеллектуальному взаимодействию.
Одним из ключевых отличий WaveForms является ее ориентация на эмоциональный интеллект. В то время как другие компании могут стремиться улучшить распознавание речи или генерацию текста, WaveForms сосредоточена на создании ИИ, который может понимать человеческие эмоции и реагировать на них. Эта ориентация на эмпатию — то, что отличает WaveForms и дает ей уникальное ценностное предложение на рынке.
Сравнение с другими аудиомоделями
Чтобы понять положение WaveForms на рынке, полезно сравнить их технологию с другими известными аудиомоделями.
- Whisper от OpenAI: Whisper — это универсальная аудиомодель с открытым исходным кодом, которая поддерживает преобразование речи в текст на 99 языках. Она обучена на огромном наборе данных и известна своей точностью в шумных условиях. Хотя Whisper впечатляет своими возможностями распознавания речи, она не фокусируется на том эмоциональном понимании, к которому стремится WaveForms.
- Fugatto от NVIDIA AI: Fugatto — это модель с 2,5 миллиардами параметров, которая может генерировать звуковые эффекты, изменять голоса и создавать музыку на основе подсказок на естественном языке. Fugatto мощна в создании аудио, но не делает акцент на эмоциональном интеллекте так, как это делает WaveForms.
- Moshi от Kyutai: Moshi — это аудиомодель с открытым исходным кодом, работающая в режиме реального времени, которая использует многопоточную модель и методы внутреннего монолога для повышения качества и реалистичности генерируемой речи. Хотя Moshi является передовой с точки зрения генерации аудио, она не ориентирована на эмоциональный ИИ в том же смысле, что и WaveForms.
Подход WaveForms отличается от всех этих моделей. Вместо того чтобы сосредотачиваться на распознавании речи, генерации аудио или обработке в реальном времени, WaveForms сосредоточена на создании ИИ, который может понимать человеческие эмоции и реагировать на них. Эта ориентация на эмоциональный интеллект — то, что отличает WaveForms и дает ей уникальное ценностное предложение на рынке.
Раунд финансирования: Вотум доверия
Раунд начального финансирования в размере 40 миллионов долларов, возглавляемый a16z, является убедительным подтверждением видения и технологии WaveForms. A16z известна своими инвестициями в прорывные технологии, что делает ее поддержку значительным одобрением WaveForms. Финансирование позволит WaveForms расширить свою команду и ускорить свои исследования и разработки.
Инвестиции от a16z подчеркивают растущую важность эмоционального интеллекта в ИИ. Это также подчеркивает веру в то, что будущее ИИ будет зависеть от его способности устанавливать связь с людьми на более эмоциональном уровне. Эти инвестиции сигнализируют о сдвиге в индустрии ИИ, где акцент делается не только на технических возможностях, но и на человеко-ориентированном дизайне.
Будущее WaveForms: Видение связи между человеком и ИИ
WaveForms не просто строит технологию; она строит видение будущего, в котором ИИ будет более человекоподобным и эмпатичным. Компания считает, что это ключ к раскрытию всего потенциала ИИ и созданию будущего, в котором ИИ сможет по-настоящему служить человечеству.
В ближайшей перспективе WaveForms сосредоточена на разработке своей основной технологии и выпуске потребительских программных продуктов в 2025 году. Эти продукты, вероятно, бросят вызов существующим решениям аудио-ИИ от таких компаний, как OpenAI и Google. Однако, помимо просто продуктов, WaveForms привержена своей миссии по созданию EGI, ИИ, который может понимать человеческие эмоции и реагировать на них.
Заключение: Переосмысление взаимодействия человека и ИИ
WaveForms AI готова стать крупным игроком на рынке аудио-ИИ. Благодаря своей сильной команде, инновационным технологиям и ориентации на эмоциональный интеллект компания имеет все возможности для того, чтобы переосмыслить то, как люди взаимодействуют с ИИ. Запуск WaveForms знаменует собой важный шаг на пути к созданию ИИ, который будет не только интеллектуальным, но и эмпатичным, прокладывая путь к будущему, в котором ИИ сможет по-настоящему понимать человеческие эмоции и реагировать на них.
Стремление к эмоциональному общему интеллекту — это смелое начинание, и WaveForms AI находится в авангарде этого движения. Приверженность компании к тому, чтобы сделать ИИ более эмпатичным и эмоционально отзывчивым, является не только технологическим достижением, но и философским. Это видение будущего, в котором ИИ будет не просто инструментом, а партнером, способным понимать и реагировать на весь спектр человеческих эмоций. По мере того как WaveForms продолжает свой путь, она, вероятно, будет играть решающую роль в формировании будущего взаимодействия человека и ИИ.