- Published on
Аудио стартъп на създателя на ChatGPT събира 40 милиона долара
Въведение в бързо развиващия се свят на аудио AI
Пейзажът на изкуствения интелект (AI) непрекъснато се развива, с нови иновации и проби, които се появяват с бързи темпове. Една от най-вълнуващите области на развитие е в сферата на аудио AI, където компаниите разширяват границите на възможното с разпознаване на реч, обработка на естествен език и емоционално разбиране. Скорошно развитие, което привлече значително внимание, е стартирането на WaveForms AI, стартъп, основан от Алексис Коно, бивш ръководител на усъвършенствания гласов режим в OpenAI, компанията зад ChatGPT. WaveForms AI е фокусиран върху разработването на усъвършенствани аудио големи езикови модели (LLM), с мисия да направи AI по-емпатичен и емоционално интелигентен. Това начинание вече е осигурило забележителните 40 милиона долара начално финансиране от известната фирма за рисков капитал a16z, оценявайки компанията на няколкостотин милиона долара.
WaveForms AI: Пионер в емоционалния общ интелект
WaveForms AI не е просто поредният технологичен стартъп; това е компания със смела визия. В основата си WaveForms е посветена на създаването на аудио LLM, които могат да обработват аудио директно, вместо да разчитат на традиционния метод за преобразуване на реч в текст и след това обратно в реч. Този подход от край до край позволява по-реалистични, човекоподобни и емоционално интелигентни взаимодействия в реално време. Крайната цел на компанията е да разработи това, което те наричат Емоционален Общ Интелект (EGI), който е AI, който може да разбира и реагира на човешките емоции с емпатия.
Тази амбициозна цел е водена от убеждението, че бъдещето на AI се крие не само в способността му да обработва информация, но и в капацитета му да разбира и реагира на човешките емоции. Алексис Коно, основателят на WaveForms, разглежда емоционалната интелигентност като критичен компонент за постигане на Изкуствен Общ Интелект (AGI). Той подчертава, че AI трябва да бъде не само функционален, но и емпатичен, способен да се свързва с хората на емоционално ниво. Тази перспектива отличава WaveForms от много други AI компании, които се фокусират предимно върху техническите възможности.
Технологията зад WaveForms
Технологията зад WaveForms е мястото, където наистина се крие иновацията. За разлика от конвенционалния подход за преобразуване на реч в текст и след това използване на модели за преобразуване на текст в реч, аудио LLM на WaveForms са проектирани да обработват аудио директно. Това означава, че AI може да анализира нюансите на човешката реч, като тон, паузи и емоционални инфлексии, в реално време. Чрез заобикаляне на стъпката за превод на текст, WaveForms се стреми да създаде по-естествени и отзивчиви взаимодействия.
Този подход е значително отклонение от начина, по който работят повечето съвременни гласови модели. Традиционният метод включва няколко стъпки, всяка от които има свой потенциал за латентност и загуба на информация. Чрез директна обработка на аудио, моделите на WaveForms могат да намалят латентността и да уловят фини емоционални сигнали, които могат да бъдат загубени в процеса на превод. Това е от решаващо значение за създаването на AI, който наистина може да разбира и реагира на човешките емоции.
Основателският екип: Сливане на експертиза
Екипът зад WaveForms е толкова впечатляващ, колкото и технологията, която разработват. Алексис Коно, главен изпълнителен директор и основател, е водещ експерт в аудио и текстови LLM. Той изигра ключова роля в разработването на усъвършенствания гласов режим на GPT-4o в OpenAI. Преди времето си в OpenAI, Коно беше научен изследовател в Google и Meta, където разработи маскирани езикови модели за разбиране на текст и разпознаване на реч. Неговият опит както в научните изследвания, така и в практическите приложения го прави уникално квалифициран да ръководи WaveForms в неговата мисия.
Съоснователят, Корали Леметр, носи богатство от бизнес и стратегическа експертиза на масата. С десетилетие опит в стратегията и операциите в Google и BCG, тя е ръководила продуктови и пазарни стратегии за множество водещи технологични компании. Опитът на Леметр в бизнеса и стратегията ще бъде от решаващо значение за насочване на растежа и пазарното позициониране на WaveForms.
Третият ключов член на основателския екип е CTO Картикай Ханделвал, който преди това е ръководил AI екосистемата за PyTorch. Експертизата на Ханделвал в AI инфраструктурата и развитието е от съществено значение за изграждането на сложните модели, които WaveForms разработва. В допълнение към тримата основатели, компанията има и двама други технически служители, което прави малък, но висококвалифициран екип.
Визията за емоционален общ интелект (EGI)
Крайната визия на WaveForms е да създаде Емоционален Общ Интелект (EGI). Това е AI, който може не само да разбира какво казват хората, но и как се чувстват. Това е AI, който може да се свързва с хората на емоционално ниво, насърчавайки по-естествено и смислено взаимодействие. Тази визия е амбициозна, но е в съответствие с нарастващото признание, че AI трябва да бъде повече от просто интелигентен; той трябва да бъде емпатичен.
Компанията вярва, че създаването на наистина човекоподобно взаимодействие с AI изисква повече от просто усъвършенствани възможности за обработка на език. Изисква разбиране на емоциите, взаимоотношенията и нюансите на човешката комуникация. WaveForms работи за вливане на AI с тези човешки качества, като се стреми да създаде бъдеще, в което AI не е просто инструмент, а партньор в човешките начинания.
Конкурентната среда: Уникалният подход на WaveForms
Пазарът на аудио AI става все по-пренаселен, като няколко компании работят върху подобни технологии. Въпреки това, WaveForms има уникален подход, който го отличава от конкурентите. Докато много компании се фокусират върху модели за преобразуване на реч в текст и текст в реч, WaveForms се ангажира с разработването на аудио LLM от край до край, които могат да обработват аудио директно. Този подход, според тях, ще доведе до по-естествени и емоционално интелигентни взаимодействия.
Един от ключовите диференциатори за WaveForms е неговият фокус върху емоционалната интелигентност. Докато други компании може да се стремят да подобрят разпознаването на реч или генерирането на текст, WaveForms се фокусира върху създаването на AI, който може да разбира и реагира на човешките емоции. Този фокус върху емпатията е това, което отличава WaveForms и му дава уникално предложение за стойност на пазара.
Сравнение с други аудио модели
За да разберете позицията на WaveForms на пазара, е полезно да сравните тяхната технология с други забележителни аудио модели.
- Whisper на OpenAI: Whisper е универсален аудио модел с отворен код, който поддържа преобразуване на реч в текст на 99 езика. Той е обучен върху огромен набор от данни и е известен със своята точност в шумна среда. Въпреки че Whisper е впечатляващ със своите възможности за разпознаване на реч, той не се фокусира върху вида емоционално разбиране, което WaveForms преследва.
- Fugatto на NVIDIA AI: Fugatto е модел с 2,5 милиарда параметъра, който може да генерира звукови ефекти, да модифицира гласове и да създава музика въз основа на подкани на естествен език. Fugatto е мощен в създаването на аудио, но не набляга на емоционалната интелигентност по същия начин, както WaveForms.
- Moshi на Kyutai: Moshi е модел за аудио в реално време с отворен код, който използва многопотоково моделиране и техники за вътрешен монолог, за да подобри качеството и реализма на генерираната реч. Въпреки че Moshi е усъвършенстван по отношение на генерирането на аудио, той не е фокусиран върху емоционален AI в същия смисъл като WaveForms.
Подходът на WaveForms е различен от всички тези. Вместо да се фокусира върху разпознаването на реч, генерирането на аудио или обработката в реално време, WaveForms се фокусира върху създаването на AI, който може да разбира и реагира на човешките емоции. Този фокус върху емоционалната интелигентност е това, което отличава WaveForms и му дава уникално предложение за стойност на пазара.
Кръгът на финансиране: вот на доверие
Началният кръг на финансиране от 40 милиона долара, воден от a16z, е силно потвърждение на визията и технологията на WaveForms. A16z е известен с инвестициите си в разрушителни технологии, което прави подкрепата му значително одобрение на WaveForms. Финансирането ще позволи на WaveForms да разшири екипа си и да ускори своите изследователски и развойни усилия.
Инвестицията от a16z подчертава нарастващото значение на емоционалната интелигентност в AI. Тя също така подчертава убеждението, че бъдещето на AI ще зависи от способността му да се свързва с хората на по-емоционално ниво. Тази инвестиция сигнализира за промяна в AI индустрията, където фокусът вече не е само върху техническите възможности, но и върху ориентирания към човека дизайн.
Бъдещето на WaveForms: Визия за връзка човек-AI
WaveForms не просто изгражда технология; тя изгражда визия за бъдещето, където AI е по-човекоподобен и емпатичен. Компанията вярва, че това е ключът към отключването на пълния потенциал на AI и създаването на бъдеще, в което AI наистина може да служи на човечеството.
В близко бъдеще WaveForms е фокусиран върху разработването на основната си технология и пускането на потребителски софтуерни продукти през 2025 г. Тези продукти вероятно ще предизвикат съществуващите аудио AI решения от компании като OpenAI и Google. Въпреки това, отвъд просто продуктите, WaveForms е ангажиран с мисията си за създаване на EGI, AI, който може да разбира и реагира на човешките емоции.
Заключение: Предефиниране на взаимодействието човек-AI
WaveForms AI е готов да се превърне в основен играч на пазара на аудио AI. Със своя силен екип, иновативна технология и фокус върху емоционалната интелигентност, компанията е добре позиционирана да предефинира начина, по който хората взаимодействат с AI. Стартирането на WaveForms бележи значителна стъпка към създаването на AI, който е не само интелигентен, но и емпатичен, проправяйки пътя за бъдеще, в което AI наистина може да разбира и реагира на човешките емоции.
Стремежът към Емоционален Общ Интелект е смел и WaveForms AI е начело на това движение. Ангажиментът на компанията да направи AI по-емпатичен и емоционално отзивчив е не само технологичен напредък, но и философски. Това е визия за бъдещето, в което AI не е просто инструмент, а партньор, способен да разбира и реагира на пълния спектър от човешки емоции. Тъй като WaveForms продължава своето пътуване, той вероятно ще играе решаваща роля в оформянето на бъдещето на взаимодействието човек-AI.