- Published on
WaveForms AI เปิดตัวโมเดลเสียงระดมทุน 40 ล้านเหรียญ
WaveForms AI: ผู้บุกเบิกปัญญาประดิษฐ์ทั่วไปทางอารมณ์
WaveForms AI ไม่ได้เป็นเพียงสตาร์ทอัพด้านเทคโนโลยีทั่วไป แต่เป็นบริษัทที่มีวิสัยทัศน์ที่กล้าหาญ โดยมีเป้าหมายหลักในการสร้าง audio LLMs ที่สามารถประมวลผลเสียงได้โดยตรง แทนที่จะใช้วิธีการแปลงเสียงเป็นข้อความแบบเดิม ๆ แนวทางแบบ end-to-end นี้ช่วยให้เกิดการโต้ตอบที่เหมือนมนุษย์และชาญฉลาดทางอารมณ์มากขึ้นแบบเรียลไทม์ เป้าหมายสูงสุดของบริษัทคือการพัฒนาสิ่งที่พวกเขาเรียกว่า Emotional General Intelligence (EGI) ซึ่งเป็น AI ที่สามารถเข้าใจและตอบสนองต่ออารมณ์ของมนุษย์ด้วยความเห็นอกเห็นใจ
เป้าหมายที่ทะเยอทะยานนี้ขับเคลื่อนด้วยความเชื่อที่ว่าอนาคตของ AI ไม่ได้อยู่ที่ความสามารถในการประมวลผลข้อมูลเท่านั้น แต่ยังอยู่ที่ความสามารถในการเข้าใจและตอบสนองต่ออารมณ์ของมนุษย์ Alexis Conneau ผู้ก่อตั้ง WaveForms มองว่าความฉลาดทางอารมณ์เป็นองค์ประกอบสำคัญสำหรับการบรรลุ Artificial General Intelligence (AGI) เขาเน้นว่า AI ไม่ควรเพียงแค่ใช้งานได้ แต่ควรมีความเห็นอกเห็นใจ สามารถเชื่อมต่อกับมนุษย์ในระดับอารมณ์ได้ มุมมองนี้ทำให้ WaveForms แตกต่างจากบริษัท AI อื่น ๆ ที่มุ่งเน้นไปที่ความสามารถทางเทคนิคเป็นหลัก
เทคโนโลยีเบื้องหลัง WaveForms
เทคโนโลยีเบื้องหลัง WaveForms คือจุดที่นวัตกรรมที่แท้จริงอยู่ ต่างจากแนวทางเดิมในการแปลงเสียงเป็นข้อความแล้วใช้โมเดลแปลงข้อความเป็นเสียง audio LLMs ของ WaveForms ได้รับการออกแบบมาเพื่อประมวลผลเสียงโดยตรง ซึ่งหมายความว่า AI สามารถวิเคราะห์ความแตกต่างของเสียงพูดของมนุษย์ เช่น น้ำเสียง การหยุด และการผันผวนทางอารมณ์ได้แบบเรียลไทม์ ด้วยการข้ามขั้นตอนการแปลข้อความ WaveForms ตั้งเป้าที่จะสร้างการโต้ตอบที่เป็นธรรมชาติและตอบสนองได้มากขึ้น
แนวทางนี้เป็นการเปลี่ยนแปลงที่สำคัญจากวิธีการทำงานของโมเดลเสียงส่วนใหญ่ในปัจจุบัน วิธีการแบบดั้งเดิมเกี่ยวข้องกับหลายขั้นตอน ซึ่งแต่ละขั้นตอนมีความเป็นไปได้ที่จะเกิดความล่าช้าและการสูญเสียข้อมูล ด้วยการประมวลผลเสียงโดยตรง โมเดลของ WaveForms สามารถลดความล่าช้าและจับสัญญาณทางอารมณ์ที่ละเอียดอ่อนซึ่งอาจสูญหายไปในกระบวนการแปลได้ สิ่งนี้มีความสำคัญอย่างยิ่งสำหรับการสร้าง AI ที่สามารถเข้าใจและตอบสนองต่ออารมณ์ของมนุษย์ได้อย่างแท้จริง
ทีมผู้ก่อตั้ง: การรวมตัวของความเชี่ยวชาญ
ทีมงานเบื้องหลัง WaveForms นั้นน่าประทับใจพอ ๆ กับเทคโนโลยีที่พวกเขากำลังพัฒนา Alexis Conneau ซีอีโอและผู้ก่อตั้ง เป็นผู้เชี่ยวชาญชั้นนำด้าน audio และ text LLMs เขามีบทบาทสำคัญในการพัฒนาโหมดเสียงขั้นสูงของ GPT-4o ที่ OpenAI ก่อนที่เขาจะมาอยู่ที่ OpenAI Conneau เป็นนักวิทยาศาสตร์การวิจัยที่ Google และ Meta ซึ่งเขาได้พัฒนาโมเดลภาษาแบบ masked สำหรับการทำความเข้าใจข้อความและการรู้จำเสียงพูด ประสบการณ์ของเขาในการวิจัยและการใช้งานจริงทำให้เขามีคุณสมบัติเหมาะสมที่จะนำ WaveForms ในภารกิจของตน
Coralie Lemaitre ผู้ร่วมก่อตั้ง นำความเชี่ยวชาญด้านธุรกิจและกลยุทธ์มาสู่โต๊ะ ด้วยประสบการณ์กว่าทศวรรษในด้านกลยุทธ์และการดำเนินงานที่ Google และ BCG เธอได้นำกลยุทธ์ผลิตภัณฑ์และการตลาดสำหรับบริษัทเทคโนโลยีชั้นนำมากมาย ภูมิหลังของ Lemaitre ในด้านธุรกิจและกลยุทธ์จะมีความสำคัญในการชี้นำการเติบโตและการวางตำแหน่งทางการตลาดของ WaveForms
สมาชิกหลักคนที่สามของทีมผู้ก่อตั้งคือ CTO Kartikay Khandelwal ซึ่งก่อนหน้านี้เป็นผู้นำระบบนิเวศ AI สำหรับ PyTorch ความเชี่ยวชาญของ Khandelwal ในด้านโครงสร้างพื้นฐานและการพัฒนา AI เป็นสิ่งจำเป็นสำหรับการสร้างโมเดลที่ซับซ้อนที่ WaveForms กำลังพัฒนา นอกจากผู้ก่อตั้งทั้งสามแล้ว บริษัทยังมีพนักงานด้านเทคนิคอีกสองคน ทำให้เป็นทีมขนาดเล็กแต่มีทักษะสูง
วิสัยทัศน์สำหรับปัญญาประดิษฐ์ทั่วไปทางอารมณ์ (EGI)
วิสัยทัศน์สูงสุดของ WaveForms คือการสร้าง Emotional General Intelligence (EGI) ซึ่งเป็น AI ที่ไม่เพียงแต่เข้าใจสิ่งที่มนุษย์พูด แต่ยังเข้าใจว่าพวกเขารู้สึกอย่างไร เป็น AI ที่สามารถเชื่อมต่อกับมนุษย์ในระดับอารมณ์ ส่งเสริมการโต้ตอบที่เป็นธรรมชาติและมีความหมายมากขึ้น วิสัยทัศน์นี้มีความทะเยอทะยาน แต่สอดคล้องกับการยอมรับที่เพิ่มขึ้นว่า AI จำเป็นต้องเป็นมากกว่าแค่ฉลาด แต่ต้องมีความเห็นอกเห็นใจด้วย
บริษัทเชื่อว่าการสร้างปฏิสัมพันธ์ที่เหมือนมนุษย์อย่างแท้จริงกับ AI ต้องใช้มากกว่าแค่ความสามารถในการประมวลผลภาษาขั้นสูง ต้องมีความเข้าใจในอารมณ์ ความสัมพันธ์ และความแตกต่างของการสื่อสารของมนุษย์ WaveForms กำลังทำงานเพื่อเติมเต็ม AI ด้วยคุณสมบัติของมนุษย์เหล่านี้ โดยมีเป้าหมายที่จะสร้างอนาคตที่ AI ไม่ได้เป็นเพียงเครื่องมือ แต่เป็นหุ้นส่วนในความพยายามของมนุษย์
ภูมิทัศน์การแข่งขัน: แนวทางที่เป็นเอกลักษณ์ของ WaveForms
ตลาด AI เสียงกำลังมีการแข่งขันมากขึ้น โดยมีหลายบริษัทที่ทำงานเกี่ยวกับเทคโนโลยีที่คล้ายคลึงกัน อย่างไรก็ตาม WaveForms มีแนวทางที่เป็นเอกลักษณ์ซึ่งทำให้แตกต่างจากคู่แข่ง ในขณะที่หลายบริษัทมุ่งเน้นไปที่โมเดลแปลงเสียงเป็นข้อความและข้อความเป็นเสียง WaveForms มุ่งมั่นที่จะพัฒนา audio LLMs แบบ end-to-end ที่สามารถประมวลผลเสียงได้โดยตรง พวกเขาเชื่อว่าแนวทางนี้จะนำไปสู่การโต้ตอบที่เป็นธรรมชาติและชาญฉลาดทางอารมณ์มากขึ้น
หนึ่งในความแตกต่างที่สำคัญสำหรับ WaveForms คือการมุ่งเน้นไปที่ความฉลาดทางอารมณ์ ในขณะที่บริษัทอื่น ๆ อาจกำลังมองหาการปรับปรุงการรู้จำเสียงพูดหรือการสร้างข้อความ WaveForms มุ่งเน้นไปที่การสร้าง AI ที่สามารถเข้าใจและตอบสนองต่ออารมณ์ของมนุษย์ การมุ่งเน้นที่ความเห็นอกเห็นใจนี้คือสิ่งที่ทำให้ WaveForms แตกต่างและให้ข้อเสนอที่มีคุณค่าที่ไม่เหมือนใครในตลาด
การเปรียบเทียบกับโมเดลเสียงอื่น ๆ
เพื่อให้เข้าใจตำแหน่งของ WaveForms ในตลาด การเปรียบเทียบเทคโนโลยีของพวกเขากับโมเดลเสียงที่โดดเด่นอื่น ๆ จะเป็นประโยชน์
Whisper ของ OpenAI: Whisper เป็นโมเดลเสียงสากลโอเพนซอร์สที่รองรับการแปลงเสียงเป็นข้อความใน 99 ภาษา ได้รับการฝึกฝนจากชุดข้อมูลขนาดใหญ่และเป็นที่รู้จักในด้านความแม่นยำในสภาพแวดล้อมที่มีเสียงดัง แม้ว่า Whisper จะน่าประทับใจในด้านความสามารถในการรู้จำเสียงพูด แต่ก็ไม่ได้มุ่งเน้นไปที่ความเข้าใจทางอารมณ์ที่ WaveForms กำลังดำเนินการอยู่
Fugatto ของ NVIDIA AI: Fugatto เป็นโมเดลพารามิเตอร์ 2.5 พันล้านตัวที่สามารถสร้างเอฟเฟกต์เสียง ปรับเปลี่ยนเสียง และสร้างเพลงตามคำสั่งภาษาธรรมชาติ Fugatto มีประสิทธิภาพในการสร้างเสียง แต่ไม่ได้เน้นที่ความฉลาดทางอารมณ์ในลักษณะเดียวกับที่ WaveForms ทำ
Moshi ของ Kyutai: Moshi เป็นโมเดลเสียงแบบเรียลไทม์โอเพนซอร์สที่ใช้การสร้างแบบจำลองหลายสตรีมและเทคนิคการพูดในใจเพื่อปรับปรุงคุณภาพและความสมจริงของเสียงที่สร้างขึ้น แม้ว่า Moshi จะมีความก้าวหน้าในแง่ของการสร้างเสียง แต่ก็ไม่ได้มุ่งเน้นไปที่ AI ทางอารมณ์ในความหมายเดียวกับ WaveForms
แนวทางของ WaveForms แตกต่างจากทั้งหมดนี้ แทนที่จะมุ่งเน้นไปที่การรู้จำเสียงพูด การสร้างเสียง หรือการประมวลผลแบบเรียลไทม์ WaveForms มุ่งเน้นไปที่การสร้าง AI ที่สามารถเข้าใจและตอบสนองต่ออารมณ์ของมนุษย์ การมุ่งเน้นที่ความฉลาดทางอารมณ์นี้คือสิ่งที่ทำให้ WaveForms แตกต่างและให้ข้อเสนอที่มีคุณค่าที่ไม่เหมือนใครในตลาด
รอบการระดมทุน: การลงคะแนนเสียงแห่งความเชื่อมั่น
รอบการระดมทุน seed 40 ล้านเหรียญที่นำโดย a16z เป็นการตรวจสอบความถูกต้องอย่างมากสำหรับวิสัยทัศน์และเทคโนโลยีของ WaveForms a16z เป็นที่รู้จักจากการลงทุนในเทคโนโลยีที่ก่อกวน ทำให้การสนับสนุนเป็นเครื่องยืนยันที่สำคัญของ WaveForms การระดมทุนจะช่วยให้ WaveForms สามารถขยายทีมและเร่งความพยายามในการวิจัยและพัฒนาได้
การลงทุนจาก a16z ตอกย้ำถึงความสำคัญที่เพิ่มขึ้นของความฉลาดทางอารมณ์ใน AI นอกจากนี้ยังเน้นถึงความเชื่อที่ว่าอนาคตของ AI จะขึ้นอยู่กับความสามารถในการเชื่อมต่อกับมนุษย์ในระดับอารมณ์มากขึ้น การลงทุนนี้ส่งสัญญาณถึงการเปลี่ยนแปลงในอุตสาหกรรม AI ซึ่งการมุ่งเน้นไม่ได้อยู่ที่ความสามารถทางเทคนิคเท่านั้น แต่ยังรวมถึงการออกแบบที่เน้นมนุษย์เป็นศูนย์กลางด้วย
อนาคตของ WaveForms: วิสัยทัศน์ของการเชื่อมต่อระหว่างมนุษย์กับ AI
WaveForms ไม่ได้สร้างแค่เทคโนโลยี แต่กำลังสร้างวิสัยทัศน์แห่งอนาคตที่ AI มีความเป็นมนุษย์และเห็นอกเห็นใจมากขึ้น บริษัทเชื่อว่านี่เป็นกุญแจสำคัญในการปลดล็อกศักยภาพสูงสุดของ AI และสร้างอนาคตที่ AI สามารถรับใช้มนุษยชาติได้อย่างแท้จริง
ในระยะใกล้ WaveForms มุ่งเน้นไปที่การพัฒนาเทคโนโลยีหลักและการเปิดตัวผลิตภัณฑ์ซอฟต์แวร์สำหรับผู้บริโภคในปี 2025 ผลิตภัณฑ์เหล่านี้มีแนวโน้มที่จะท้าทายโซลูชัน AI เสียงที่มีอยู่จากบริษัทต่าง ๆ เช่น OpenAI และ Google อย่างไรก็ตาม นอกเหนือจากผลิตภัณฑ์ WaveForms ยังมุ่งมั่นในภารกิจในการสร้าง EGI ซึ่งเป็น AI ที่สามารถเข้าใจและตอบสนองต่ออารมณ์ของมนุษย์ได้