Published on

前OpenAI語音主管創立情感AI新創 WaveForms獲A16Z巨額投資

Authors
  • avatar
    Name
    Ajax
    Twitter

情感智能:AI發展的下一個前沿

在人工智慧領域日新月異的今天,一家名為WaveForms AI的新創公司,猶如一顆冉冉升起的新星,吸引了全球科技界的目光。這家由前OpenAI高級語音模型研發者Alexis Conneau創立的公司,致力於開發音頻大型語言模型(LLMs),並以其獨特的「情感通用智能」(EGI)願景,以及在種子輪融資中獲得的4000萬美元巨額投資,迅速成為行業焦點。WaveForms AI的出現,不僅標誌著AI語音技術進入了一個新的發展階段,也預示著人機互動模式即將迎來一場深刻的變革。

WaveForms AI的核心理念並非僅僅追求技術上的突破,更在於賦予人工智慧「情感」和「同理心」。創始人Alexis Conneau認為,真正的AGI(通用人工智慧)應該具備理解和響應人類情感的能力,而不僅僅是機械地執行指令。這種觀點與當前許多AI公司的發展方向形成了鮮明對比,後者往往更注重AI在功能和效率上的提升。WaveForms AI則將情感連結置於智能發展的前沿,力圖打造一種更自然、更人性化的人機互動體驗。

在傳統語音模型中,語音互動通常需要經過多個步驟:首先將用戶的語音轉換為文字,然後通過文字生成回覆,最後再將文字轉換為語音輸出。這種模式不僅效率較低,而且無法捕捉到用戶語音中的情感細節。WaveForms AI則採用了創新的端到端音頻處理技術,其音頻模型可以直接處理音頻信號,無需經過文字轉換,從而實現更即時、更自然的對話。這種技術上的突破,使得AI能夠更加精準地理解用戶的意圖和情感,並以恰當的方式做出回應。

WaveForms的獨特之處:端到端音頻模型

WaveForms AI的端到端音頻模型是其核心競爭力之一。與傳統的語音模型相比,這種模型能夠直接處理音頻,無需先將語音轉換為文字,再將文字轉換為語音。這種直接處理模式不僅提高了效率,還能夠更好地捕捉到語音中的情感細微之處。例如,當用戶表達悲傷或興奮時,WaveForms的AI模型能夠識別這些情感,並以相應的語調做出回應,從而實現更自然、更人性化的對話。

這種技術上的突破,使得WaveForms AI在語音互動領域具備了獨特的優勢。其模型不僅能夠準確理解用戶的語音內容,還能夠理解語音背後的情感,從而實現更深層次的溝通。這種能力在許多應用場景中都具有重要意義,例如:

  • 教育領域: AI可以通過識別學生的挫折感,調整教學方式,提供更個性化的輔導。
  • 客戶服務: AI可以通過識別客戶的情緒,提供更貼心的服務,提高客戶滿意度。
  • 人機互動: AI可以與用戶進行更自然、更人性化的對話,從而提高用戶體驗。

創始人:GPT-4o語音模式的締造者

WaveForms AI的創始人Alexis Conneau是前OpenAI高級語音模式研發者,他曾參與了GPT-4o模型的語音模式功能研發。GPT-4o以其低延遲的即時響應和處理能力而著稱,這讓人們對Conneau的技術實力有了更深刻的認識。Conneau在AI領域擁有豐富的經驗,曾在Google和Meta擔任研究科學家,並開發了用於文字理解和語音識別的編碼語言模型。他的加入,無疑為WaveForms AI帶來了強大的技術保障。

Conneau對於人工智慧的未來有著深刻的思考。他認為,與生成式人工智慧交談將成為與各種技術互動最常見的模式,而WaveForms AI的目標就是提供能夠促進這種互動的「情感智能」人工智慧。他的願景並非僅僅是開發一種更高級的語音助手,而是希望通過AI技術,建立更自然、更深入的人際連結。

並非AI伴侶:WaveForms的獨特視角

與許多致力於開發AI陪伴產品的公司不同,Conneau對於人工智慧陪伴領域持謹慎態度。他認為,AI的核心價值不應僅限於陪伴,而應在於幫助人類更好地理解和表達情感。WaveForms AI的使命是讓AI真正關心人類,將同理心和情感連結置於超智能的單一追求之上。

Conneau對於電影《Her》中的虛擬語音技術Samantha抱有濃厚的興趣,他希望能夠將這種技術變為現實。他認為,當人們能夠與AGI交談、聽見AGI,甚至能夠與Transformer本身交談時,他們將更能感受到AI的存在。這種觀點體現了Conneau對於人機互動的深刻理解,以及他對於AI技術在情感層面應用的獨特思考。

擁擠的賽道:WaveForms的差異化競爭策略

儘管音頻模型賽道已經非常擁擠,但WaveForms AI憑藉其獨特的技術和理念,依然具備強大的競爭力。目前,市場上已經存在一些知名的音頻模型,例如:

  • OpenAI Whisper: 一款開源通用音頻模型,支持多語言語音轉文本和多任務處理。
  • NVIDIA Fugatto: 一款能夠根據自然語言提示生成音效、調整人聲和創作音樂的音頻模型。
  • Kyutai Moshi: 一款開源端到端實時音頻模型,採用了多流建模技術和內心獨白技術。

儘管這些模型在功能和性能上各有優勢,但WaveForms AI的獨特之處在於其對情感智能的重視,以及其端到端音頻模型的技術優勢。WaveForms AI並非僅僅追求技術上的突破,更注重讓AI理解和響應人類的情感,從而實現更自然、更人性化的人機互動。

團隊:技術與商業的完美結合

WaveForms AI的團隊由技術專家和商業領袖組成,創始人Alexis Conneau負責技術研發,聯合創始人Coralie Lemaitre負責商業戰略,CTO Kartikay Khandelwal負責技術生態。這種組合使得WaveForms AI在技術研發、商業運營和市場推廣方面都具備了強大的實力。

  • Alexis Conneau: 前OpenAI高級語音模式研發者,是全球領先的音頻+文本大型語言模型專家之一。
  • Coralie Lemaitre: 前Google和BCG的戰略與運營專家,擁有豐富的商業戰略經驗。
  • Kartikay Khandelwal: 前PyTorch的AI生態負責人,在AI技術生態方面擁有豐富的經驗。

這種多元化的團隊組合,使得WaveForms AI在技術研發和商業運營方面都能夠保持領先地位。

a16z的巨額投資:對情感智能的認可

WaveForms AI在種子輪融資中獲得了4000萬美元的投資,估值達到2億美元,由知名風投機構a16z領投。這筆巨額投資不僅是對WaveForms AI技術實力的認可,也是對情感智能在AI領域未來發展前景的肯定。a16z認為,為了創造更具沉浸感和類人體驗,我們需要真正感覺像在與人交談的AI,而這包括給AI一個聲音。

a16z的投資也表明了風投機構對於人機互動未來發展方向的看好。他們認為,AI互動正在從功能性向情感化邁進,而WaveForms AI正是這一趨勢的引領者。a16z相信,WaveForms AI的團隊是應對這一挑戰的最佳人選,並對公司的未來發展充滿信心。

未來展望:情感通用智能的實現

WaveForms AI的願景是打造情感通用智能(EGI),創造自然、個人化且深刻的人類與AI連結。他們相信,實現AGI的關鍵在於一種感覺,而不是達到某種基準,而音頻LLMs將是這種感覺的關鍵。WaveForms AI計劃在2025年發布能夠與OpenAI和Google競爭的AI音頻產品,並將其技術應用於教育、客戶服務、人機互動等多個領域。

WaveForms AI的創新標誌著AI互動正在從功能性向情感化邁進,這或將重新定義人機互動的邊界。他們的出現,不僅為AI語音技術的發展注入了新的活力,也為人類與AI的未來互動模式帶來了新的可能性。隨著技術的不斷進步,我們有理由相信,WaveForms AI將在未來的人工智慧領域發揮越來越重要的作用,為人類帶來更加智能、更加人性化的科技體驗。