Published on

o1 ไม่ใช่แชทบอท ทำความเข้าใจโมเดลใหม่ที่ Altman และ Brockman จับตา

ผู้เขียน
  • avatar
    ชื่อ
    Ajax
    Twitter

o1 ไม่ใช่โมเดลแชททั่วไป

บทความนี้กล่าวถึงความสนใจล่าสุดเกี่ยวกับโมเดล o1 โดยชี้แจงว่าไม่ได้ออกแบบมาเพื่อเป็นโมเดลแชท แม้ว่าผู้ใช้หลายคนจะมองว่าเป็นเช่นนั้นก็ตาม การเปิดเผยนี้เกิดขึ้นหลังจากบล็อกโพสต์ชื่อ "o1 ไม่ใช่โมเดลแชท (และนั่นคือประเด็น)" ได้รับความสนใจ แม้กระทั่งดึงดูดความสนใจของ Sam Altman ซีอีโอของ OpenAI และ Greg Brockman ประธานบริษัท

ความเข้าใจผิดและความไม่พอใจ

Ben Hylak อดีตวิศวกรซอฟต์แวร์ที่ SpaceX และนักออกแบบปฏิสัมพันธ์สำหรับ Apple VisionOS ได้แบ่งปันประสบการณ์ที่น่าหงุดหงิดของเขากับ o1 เขาพบว่าการตอบสนองของมันช้า มักจะขัดแย้งกันเอง และเต็มไปด้วยแผนภาพสถาปัตยกรรมและรายการข้อดีข้อเสียที่ไม่พึงประสงค์ ปฏิกิริยาเริ่มต้นของ Hylak คือ o1 เป็นเพียง "ขยะ"

  • Hylak ประสบกับเวลารอ 5 นาทีสำหรับการตอบสนอง
  • การตอบสนองมักจะขัดแย้งกันเองและไร้สาระ
  • โมเดลให้แผนภาพและรายการที่ไม่พึงประสงค์

ความหงุดหงิดของเขาทำให้เกิดโพสต์บนโซเชียลมีเดียแสดงความผิดหวัง โดยระบุว่า o1 pro "แย่มาก" และผลลัพธ์ของมัน "เกือบจะเป็นภาษาที่ไร้สาระ" เขาให้ตัวอย่างของการขอคำแนะนำในการปรับโครงสร้าง ซึ่งโมเดลแนะนำให้รวมไฟล์ ให้โค้ดที่ไม่รวมไฟล์ และจากนั้นก็กระโดดไปยังข้อสรุปที่ไม่เกี่ยวข้อง

การเปลี่ยนมุมมอง

ประสบการณ์ของ Hylak ไม่ได้เป็นสากล ผู้ใช้บางคนพบว่า o1 มีประสิทธิภาพสูง ซึ่งนำไปสู่การอภิปรายเพิ่มเติม จากการโต้ตอบเหล่านี้ Hylak ตระหนักถึงความผิดพลาดของเขา: เขาใช้ o1 เป็นโมเดลแชทเมื่อไม่ได้ตั้งใจให้ทำงานเป็นเช่นนั้น

การเปลี่ยนมุมมองนี้ได้รับการต้อนรับจาก Altman ซึ่งกล่าวว่า "น่าสนใจที่ได้เห็นทัศนคติของผู้คนเปลี่ยนไปเมื่อพวกเขาเรียนรู้วิธีใช้ o1 (รวมถึงเวอร์ชันโปร)" Greg Brockman กล่าวเสริมโดยชี้ให้เห็นว่า o1 เป็นโมเดลประเภทอื่นและต้องใช้วิธีการที่แตกต่างกันเพื่อประสิทธิภาพสูงสุด

o1: เครื่องมือสร้างรายงาน

บทความนี้แนะนำว่าแทนที่จะเป็นโมเดลแชท ควรพิจารณา o1 เป็น "เครื่องมือสร้างรายงาน" เมื่อได้รับบริบทที่เพียงพอและข้อกำหนดผลลัพธ์ที่ชัดเจน o1 สามารถให้โซลูชันได้อย่างมีประสิทธิภาพ กุญแจสำคัญอยู่ที่วิธีการใช้โมเดล

จากข้อความแจ้งเป็นข้อมูลสรุป

เมื่อใช้โมเดลแชททั่วไป ผู้ใช้มักจะเริ่มต้นด้วยคำถามง่ายๆ และเพิ่มบริบทตามความจำเป็น โดยมีปฏิสัมพันธ์แบบไปมา แต่ o1 ไม่ได้แสวงหาบริบทเพิ่มเติม ผู้ใช้ต้องให้บริบทจำนวนมากตั้งแต่เริ่มต้น ซึ่งอธิบายว่าเป็นข้อมูลจำนวน "มาก" หรือประมาณสิบเท่าของบริบทที่คุณใช้สำหรับข้อความแจ้งมาตรฐาน

  • ให้รายละเอียดทั้งหมดของโซลูชันที่พยายาม
  • รวมการถ่ายโอนข้อมูลสคีมาฐานข้อมูลทั้งหมด
  • อธิบายธุรกิจ ขนาด และคำศัพท์เฉพาะของบริษัท

ขอแนะนำให้ปฏิบัติต่อ o1 เหมือนพนักงานใหม่ โดยให้ข้อมูลที่จำเป็นทั้งหมดตั้งแต่เริ่มต้น

มุ่งเน้นไปที่ผลลัพธ์ที่ต้องการ

หลังจากให้บริบทที่กว้างขวางแล้ว ผู้ใช้ต้องกำหนดผลลัพธ์ที่ต้องการอย่างชัดเจน ไม่เหมือนกับโมเดลอื่นๆ ที่ผู้ใช้อาจระบุบุคลิกหรือกระบวนการคิด ด้วย o1 คุณควรมุ่งเน้นไปที่ "สิ่งที่คุณต้องการ" ไม่ใช่ "วิธี" ที่โมเดลควรทำ สิ่งนี้ช่วยให้ o1 วางแผนและดำเนินการตามขั้นตอนที่จำเป็นได้อย่างอิสระ นำไปสู่ผลลัพธ์ที่รวดเร็วและมีประสิทธิภาพยิ่งขึ้น

จุดแข็งและจุดอ่อนของ o1

o1 มีความโดดเด่นในหลายด้าน:

  • การประมวลผลไฟล์ทั้งหมด: สามารถจัดการบล็อกโค้ดขนาดใหญ่และบริบทที่กว้างขวาง โดยมักจะทำไฟล์ทั้งหมดให้เสร็จสมบูรณ์โดยมีข้อผิดพลาดน้อยที่สุด
  • ลดอาการประสาทหลอน: o1 มีความแม่นยำในด้านต่างๆ เช่น ภาษาคิวรีแบบกำหนดเอง (เช่น ClickHouse และ New Relic) ในขณะที่โมเดลอื่นๆ อาจผสมไวยากรณ์
  • การวินิจฉัยทางการแพทย์: o1 สามารถให้การวินิจฉัยเบื้องต้นที่แม่นยำอย่างน่าประหลาดใจจากภาพและคำอธิบาย
  • การอธิบายแนวคิด: มีทักษะในการอธิบายแนวคิดทางวิศวกรรมที่ซับซ้อนผ่านตัวอย่าง
  • การสร้างแผนสถาปัตยกรรม: o1 สามารถสร้างแผนได้หลายแผน เปรียบเทียบ และแสดงรายการข้อดีข้อเสีย
  • การประเมิน: แสดงให้เห็นถึงความหวังในฐานะเครื่องมือที่มีประสิทธิภาพสำหรับการประเมินผลลัพธ์

อย่างไรก็ตาม o1 ก็มีข้อจำกัดเช่นกัน:

  • การเขียนในรูปแบบเฉพาะ: มีแนวโน้มที่จะสร้างรายงานในรูปแบบทางวิชาการหรือองค์กร และมีปัญหาในการปรับตัวให้เข้ากับโทนเสียงเฉพาะ
  • การสร้างแอปพลิเคชันทั้งหมด: ในขณะที่มีความเชี่ยวชาญในการสร้างไฟล์ทั้งหมด แต่ไม่สามารถสร้างแอปพลิเคชัน SaaS เต็มรูปแบบผ่านการทำซ้ำได้ อย่างไรก็ตาม สามารถทำคุณสมบัติทั้งหมดให้เสร็จสมบูรณ์ได้ โดยเฉพาะอย่างยิ่งฟังก์ชันการทำงานส่วนหน้าหรือส่วนหลังอย่างง่าย

ความสำคัญของความล่าช้า

บทความนี้ตั้งข้อสังเกตว่าความล่าช้าเปลี่ยนแปลงการรับรู้ผลิตภัณฑ์ของเราอย่างสิ้นเชิง โดยอ้างถึงตัวอย่างเช่น อีเมลเทียบกับข้อความ และข้อความเสียงเทียบกับโทรศัพท์

Hylak เปรียบเทียบ o1 กับอีเมลมากกว่าโมเดลแชท เนื่องจากความล่าช้าในการตอบสนอง ความล่าช้านี้ทำให้เกิดผลิตภัณฑ์ประเภทใหม่ที่ได้รับประโยชน์จากความชาญฉลาดเบื้องหลังที่มีความหน่วงสูงและใช้งานได้นาน คำถามจึงกลายเป็น: ผู้คนเต็มใจรอ 5 นาที ชั่วโมง วัน หรือแม้แต่ 3-5 วันทำการสำหรับงานอะไร

สิ่งสำคัญที่ควรทราบคือ o1-preview และ o1-mini รองรับการสตรีม แต่ไม่รองรับการสร้างแบบมีโครงสร้างหรือข้อความแจ้งของระบบ ในขณะที่ o1 รองรับการสร้างแบบมีโครงสร้างและข้อความแจ้งของระบบ แต่ไม่รองรับการสตรีม การทำความเข้าใจความแตกต่างเหล่านี้จะมีความสำคัญอย่างยิ่งสำหรับนักพัฒนาเมื่อออกแบบผลิตภัณฑ์ในปี 2025