Published on

OpenAI o3 Model: ก้าวกระโดดด้านการให้เหตุผลและการบรรลุ ARC AGI

ผู้เขียน
  • avatar
    ชื่อ
    Ajax
    Twitter

OpenAI's o3 Model: ก้าวกระโดดด้านการให้เหตุผลและการบรรลุ ARC AGI

OpenAI ได้เปิดตัวโมเดล o3 ซึ่งเป็นการพัฒนาต่อยอดจากความสำเร็จในการฝึกโมเดลภาษาด้วย o1 เพื่อใช้ในการให้เหตุผล โมเดลนี้เริ่มต้นด้วย o3-mini และคาดว่าจะเปิดให้ใช้งานแก่สาธารณชนในปลายเดือนมกราคม 2025 การเปิดตัว o3 นับเป็นการเปลี่ยนแปลงครั้งสำคัญหลังจากปี 2024 ที่ AI เน้นไปที่การบูรณาการและหลายบริษัทได้พัฒนาโมเดลเทียบเท่า GPT-4

สิ่งที่น่าตื่นเต้นเกี่ยวกับ o3 คือความก้าวหน้าด้านการให้เหตุผลที่เหนือความคาดหมาย ซึ่งแตกต่างจาก o1 ที่มีการเตรียมการมาอย่างยาวนาน การเปิดตัว o3 ที่รวดเร็วและมีประสิทธิภาพทำให้เรามีความคาดหวังสูงสำหรับการพัฒนาในปี 2025

แม้ว่าจะมีข้อสงสัยเกี่ยวกับความเหมาะสมของโมเดล o1 ในสาขาอื่น ๆ นอกเหนือจากคณิตศาสตร์ การเขียนโปรแกรม ฟิสิกส์ และวิทยาศาสตร์ แต่โมเดลเหล่านี้กำลังจะถูกนำไปใช้อย่างกว้างขวางในระบบนิเวศของการวิจัย AI ซึ่งจะช่วยเร่งการพัฒนาอย่างมาก

OpenAI's o3 แสดงให้เห็นว่าอุตสาหกรรมกำลังก้าวขึ้นสู่จุดสูงสุดใหม่ เนื่องจากผลประโยชน์จากการฝึกอบรมล่วงหน้าโดยใช้ข้อมูลจากอินเทอร์เน็ตเริ่มลดลง o3 ได้สร้างความก้าวหน้าครั้งใหญ่ในการประเมินการให้เหตุผล โดยมีรายละเอียดดังนี้:

  • เป็นโมเดลแรกที่ทำคะแนนได้มากกว่า 85% ใน ARC AGI Prize (บนชุดข้อมูลสาธารณะ)
  • มีประสิทธิภาพเพิ่มขึ้นจาก 2% เป็น 25% ใน Frontier Math benchmark
  • ปรับปรุงประสิทธิภาพในการทดสอบการเขียนโปรแกรมชั้นนำ เช่น SWE-Bench-Verified

ความก้าวหน้าเหล่านี้เกิดขึ้นภายในสามเดือนนับตั้งแต่การประกาศเปิดตัวโมเดลเวอร์ชันแรก และจะส่งผลให้การวิจัย AI ก้าวหน้าเร็วขึ้น รวมถึงลดต้นทุนการให้เหตุผล ซึ่งจะเปลี่ยนแปลงบทบาทของวิศวกรซอฟต์แวร์หลายตำแหน่งในปัจจุบัน

นอกจากนี้ OpenAI ยังได้เผยแพร่บทความและงานวิจัยเกี่ยวกับการจัดตำแหน่งอย่างระมัดระวัง ซึ่งแสดงให้เห็นว่าโมเดลระดับ o1 สามารถเสริมสร้างความปลอดภัยและการวิจัยด้านการจัดตำแหน่งได้อย่างไร นี่เป็นหลักฐานเชิงบวกเบื้องต้นที่แสดงให้เห็นว่าความสามารถในการให้เหตุผลที่เพิ่มขึ้นสามารถสร้างคุณค่าได้นอกเหนือจากขอบเขตที่ตรวจสอบได้

ภาพรวมของ o3

โมเดล o3 ของ OpenAI ได้รับการประกาศในวันสุดท้ายของ "กิจกรรมการเปิดตัว 12 วันของ OpenAI" โดยมีผลลัพธ์ที่น่าทึ่งในการเอาชนะโมเดลที่ทันสมัยก่อนหน้า (Gemini 1.5 Pro และ Claude 3.5 Sonnet New) ในหลายด้าน

รายละเอียดที่มักถูกมองข้ามในบทความและบทสนทนาเกี่ยวกับโมเดล o1 คือความหมายของเงาในกราฟแท่ง ในบทความแรกเกี่ยวกับ o1 มีการกล่าวถึงเรื่องนี้ในคำอธิบายของกราฟผลลัพธ์แรก: แท่งทึบแสดงถึงความแม่นยำของ pass@1 และพื้นที่เงาแสดงถึงประสิทธิภาพของการลงคะแนนเสียงส่วนใหญ่ (ฉันทามติ) โดยใช้ 64 ตัวอย่าง

รายละเอียดนี้ชี้ให้เห็นว่าฉันทามติจากการสร้างหลายครั้งเป็นสิ่งสำคัญอย่างยิ่งสำหรับประสิทธิภาพที่ดีที่สุดของโมเดล o1 นี่เป็นจริงสำหรับการคำนวณในทุกขั้นตอนของการให้เหตุผล ซึ่งหมายความว่าไม่ควรพึ่งพาเพียงการสร้างผลลัพธ์เดียวเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด อย่างไรก็ตาม นี่ไม่ได้หมายความว่าจะต้องใช้การค้นหาแบบต้นไม้หรือการแสดงระดับกลางใด ๆ โหมดมืออาชีพของ o1 และผลลัพธ์ของ ARC Prize ที่เราจะกล่าวถึงนั้นขึ้นอยู่กับการสร้างแบบขนานนี้เพื่อให้ได้คะแนนสูงสุด

สำหรับความคิดเห็นเชิงคุณภาพเกี่ยวกับ Frontier Math benchmark สามารถดูความคิดเห็นจากผู้ได้รับรางวัล Fields Medal สองคน ซึ่งความคิดเห็นเหล่านี้มุ่งเน้นไปที่ส่วนที่ยากที่สุดของ benchmark ซึ่งแสดงให้เห็นถึงเป้าหมายเชิงคุณภาพได้เป็นอย่างดี:

  • “โจทย์เหล่านี้มีความท้าทายอย่างยิ่ง... ผมคิดว่าอย่างน้อยในอีกไม่กี่ปีข้างหน้า AI ก็จะไม่สามารถแก้ได้” - Terence Tao ผู้ได้รับรางวัล Fields Medal ปี 2006
  • “ปัญหาที่ผมเห็นไม่ได้อยู่ในสาขาการวิจัยของผม และดูเหมือนว่าผมจะไม่สามารถแก้ไขได้เลย... ดูเหมือนจะยากกว่าปัญหา IMO (International Mathematical Olympiad) ไปอีกระดับ” - Timothy Gowers ผู้ได้รับรางวัล Fields Medal ปี 2006

benchmark นี้เปิดตัวเมื่อวันที่ 7 พฤศจิกายน และได้รับการระบุว่าเป็นหนึ่งในแนวหน้าของการพัฒนาความสามารถของ AI ที่ยังไม่สามารถเอาชนะได้ การเปิดตัวครั้งนี้ทำให้ o3 ของ OpenAI เป็นโมเดลเดียวที่ทำคะแนนได้สองหลักและก้าวกระโดดไปถึง 25% โดยตรง

ผลลัพธ์ที่โดดเด่นประการที่สองคือด้านการเขียนโปรแกรม ในการถ่ายทอดสด OpenAI ได้แสดงคะแนน 71.7% ใน SWE-Bench Verified (ซึ่งถือเป็นระดับที่ทันสมัยในปัจจุบัน) รวมถึงผลลัพธ์ที่กว้างขวางใน Codeforces (เว็บไซต์การแข่งขันเขียนโปรแกรม)

o3 ทำคะแนนได้ 2727 ผ่านการลงคะแนนเสียงฉันทามติที่ค่า N ที่ไม่เปิดเผย ซึ่งอยู่ในระดับ International Grandmaster ซึ่งอยู่ในอันดับประมาณ 200 อันดับแรกของโปรแกรมเมอร์ที่เข้าร่วมการแข่งขันทั่วโลก o3-mini มีประสิทธิภาพดีกว่า o1 ในขณะที่ต้นทุนลดลงอย่างมาก เมื่อพิจารณาจากแนวโน้มที่เราเห็นในปี 2024 นี่อาจเป็นโมเดลที่มีอิทธิพลมากขึ้นสำหรับผู้ใช้ในวงกว้างมากขึ้น สิ่งนี้ทำให้ผลลัพธ์ที่ก้าวหน้าครั้งสุดท้ายในการถ่ายทอดสด o3 เป็นไปได้ นั่นคือการแก้ปัญหา ARC AGI Challenge ได้อย่างมีประสิทธิภาพ

การรับมือกับการประเมิน ARC

Abstract and Reasoning Corpus (ARC) เป็นวิธีการประเมิน AI ที่เสนอโดย François Chollet ในบทความปี 2019 เรื่อง "On the Measure of Intelligence" การประเมิน ARC ได้รับการออกแบบมาเพื่อให้ใกล้เคียงกับการประเมินสติปัญญาของมนุษย์มากขึ้น:

ARC AGI Prize เปิดตัวในเดือนมิถุนายน 2024 โดยมีเงินรางวัล 1 ล้านดอลลาร์สำหรับโซลูชันแรกที่ตรงตามเกณฑ์ที่กำหนดและแก้ปัญหา ARC ส่วนตัวชุดหนึ่ง เกณฑ์ในการ "แก้" ปัญหาคือการทำคะแนนให้ได้ 85% วันนี้ OpenAI และ ARC Prize ได้แบ่งปันผลลัพธ์ดังต่อไปนี้:

ก่อนที่โมเดลประเภท o1 จะปรากฏขึ้น โมเดลที่ดีที่สุดของ OpenAI อย่าง GPT-4o ทำคะแนนได้เพียง 5% เท่านั้น ความก้าวหน้าอย่างรวดเร็วของ OpenAI ในโมเดลการให้เหตุผลใหม่ได้รับการสรุปโดย Mike Knoop ผู้ร่วมก่อตั้ง ARC Prize ดังนี้:

  • GPT-2 (2019): 0%
  • GPT-3 (2020): 0%
  • GPT-4 (2023): 2%
  • GPT-4o (2024): 5%
  • o1-preview (2024): 21%
  • o1 high (2024): 32%
  • o1 Pro (2024): ประมาณ 50%
  • o3 tuned low (2024): 76%
  • o3 tuned high (2024): 87%

เมื่อเดือนมิถุนายนที่ผ่านมา เป็นที่ยอมรับกันโดยทั่วไปว่าการแก้ปัญหา ARC-AGI นั้นยากอย่างยิ่ง อย่างไรก็ตาม เพียงไม่กี่เดือนต่อมา ความคิดเห็นนี้ก็เปลี่ยนไปอย่างสิ้นเชิง แม้แต่ผู้ที่มองโลกในแง่ดีเกี่ยวกับ Q* และวิธีการให้เหตุผลอื่น ๆ ก็ไม่ได้คาดหวังว่าจะประสบความสำเร็จในระดับนี้

Chollet ได้แบ่งปันรายละเอียดเพิ่มเติมบนเว็บไซต์ทางการของ ARC Prize:

เราทดสอบ o3 กับชุดข้อมูล ARC-AGI สองชุด:

  • การประเมินแบบกึ่งส่วนตัว: 100 งานส่วนตัวเพื่อประเมินสถานการณ์การปรับให้เข้ากับข้อมูลมากเกินไป
  • การประเมินสาธารณะ: 400 งานสาธารณะภายใต้การดูแลของ OpenAI เราทำการทดสอบในสองระดับการคำนวณ โดยมีขนาดตัวอย่างที่แตกต่างกัน: 6 (โหมดประสิทธิภาพ) และ 1024 (โหมดไม่มีประสิทธิภาพ โดยมีปริมาณการคำนวณมากกว่า 172 เท่า)

ต่อไปนี้เป็นผลการทดสอบ:

โปรดทราบ: ข้อมูลเฉพาะเกี่ยวกับต้นทุนการคำนวณสูงของ o3 ยังไม่ได้รับการเผยแพร่ เนื่องจากราคาและความพร้อมใช้งานของคุณสมบัติยังอยู่ระหว่างการพิจารณา ปริมาณการคำนวณมีประมาณ 172 เท่าของค่ากำหนดการคำนวณต่ำ

ตัวอย่างเช่น นี่คือปัญหาที่ยังไม่ได้รับการแก้ไข:

ปัญหามากมายนั้นค่อนข้างตรงไปตรงมาสำหรับมนุษย์ ในการป้อนปัญหาเหล่านี้ให้กับโมเดล สีจะถูกเข้ารหัสเป็นตัวเลขและป้อนเป็นบริบทในรูปแบบตารางดังที่ Greg Kamradt เน้น:

ในทางเทคนิค รางวัลยังไม่ได้รับ เนื่องจากต้นทุนของโซลูชันเกินเกณฑ์ที่กำหนดและไม่ได้เป็นโอเพนซอร์ส การแข่งขันยังคงดำเนินต่อไป ในอีกไม่กี่ปีข้างหน้า สติปัญญาประเภทนี้จะกลายเป็นของฟรีเกือบทั้งหมด ฟรีในที่นี้หมายถึงต้นทุนของการดำเนินการให้เหตุผลจะต่ำกว่ามูลค่าทางการเงินของข้อมูลโฆษณาของผู้ใช้

ขณะนี้ ราคาของ o3 ที่อ้างถึงในบล็อกของ ARC Prize (ซึ่งเปลี่ยนเป็นราคาที่สัมพันธ์กับ o1 ในการสื่อสารของ OpenAI) ได้เปิดเผยรายละเอียดมากมายเกี่ยวกับวิธีการทำงานของเทคโนโลยี o3

สถาปัตยกรรม ต้นทุน และวิธีการฝึกอบรมของ o3

ทีม ARC AGI ได้ทำงานร่วมกับ OpenAI โดยตรงเพื่อรับประมาณการราคาของโมเดล o3 ราคาขั้นสุดท้ายของ o3 เมื่อเปิดตัวอย่างเป็นทางการใน API อาจแตกต่างกันไป ตามความสำคัญของกฎการขยายการให้เหตุผล ทีม ARC-AGI ได้เพิ่มข้อกำหนดพิเศษสำหรับการประเมินส่วนตัวสำหรับการส่งโซลูชัน ในบทความบล็อก ทีมงานได้บันทึกต้นทุนรวมและต้นทุนต่อภารกิจ ซึ่งเป็นตัวแทนของ FLOPs หรือการคำนวณโดยตรงของปริมาณการใช้ทรัพยากรการคำนวณ

สิ่งนี้สอดคล้องกับกฎในประกาศรางวัล ARC เกี่ยวกับกระดานผู้นำสาธารณะ (ซึ่งไม่เกี่ยวข้องกับเงินรางวัล 1 ล้านดอลลาร์):

10,000 ดอลลาร์สหรัฐฯ คือขีดจำกัดของต้นทุนการดำเนินการที่สามารถใช้ในการแก้ไขปัญหา 500 งาน (รวมถึง 400 งานในชุดการประเมินสาธารณะและ 100 งานในชุดการประเมินกึ่งส่วนตัวใหม่) ซึ่งรวมถึงค่าใช้จ่ายในการเรียก API เชิงพาณิชย์

ใน 500 งานในชุดการประเมินสาธารณะหรือกึ่งสาธารณะ ต้นทุนของ o3 เกินขีดจำกัดนี้อย่างมาก ARC Prize แสดงให้เห็นว่าต้นทุนต่อการสืบค้นของ o3 นั้นสูงกว่า 1,000 ดอลลาร์อย่างมาก พวกเขายังได้ทำการสมมติฐานเกี่ยวกับลักษณะของโมเดล สิ่งต่อไปนี้มีจุดมุ่งหมายเพื่อลดความกังวลเกี่ยวกับการที่ o3 ใช้เทคนิคการฝึกอบรมที่แตกต่างจาก o1 โดยเฉพาะอย่างยิ่ง Chollet ระบุอย่างชัดเจนว่าเขากำลังคาดเดา:

ในปัจจุบัน เราทำได้เพียงคาดการณ์เกี่ยวกับกลไกการทำงานที่เฉพาะเจาะจงของ o3 เท่านั้น แต่กลไกหลักของ o3 ดูเหมือนจะเป็นการค้นหาและดำเนินการโปรแกรมภาษาธรรมชาติภายในพื้นที่โทเค็น ในระหว่างการทดสอบ โมเดลจะค้นหาพื้นที่ของห่วงโซ่ความคิด (CoTs) ที่เป็นไปได้ ซึ่งอธิบายขั้นตอนที่จำเป็นในการแก้ไขปัญหาในลักษณะที่อาจคล้ายกับการค้นหาแบบมอนติคาร์โลทรีสไตล์ AlphaZero ในกรณีของ o3 การค้นหาอาจได้รับคำแนะนำจากโมเดลประเมินบางประเภท

อีกครั้ง การอ้างอิงและการสมมติฐานเกี่ยวกับ MCTS (Monte Carlo Tree Search) นั้นทำให้เข้าใจผิด แต่ก็เข้าใจได้ เนื่องจากคนฉลาดหลายคนต่างก็ประหลาดใจกับความสามารถของ o1 และ o3 ที่สามารถทำได้โดยการส่งต่อโมเดลภาษาเดียวเท่านั้น

บทความล่าสุดของฉันอธิบายว่าสิ่งนี้เป็นไปได้อย่างไรผ่านการฝึกอบรมการเรียนรู้เสริมกำลังขนาดใหญ่ และแสดงให้เห็นว่าเหตุใดกราฟบางส่วนของ OpenAI จึงทำให้เข้าใจผิดเกี่ยวกับต้นทุนการคำนวณในขั้นตอนการให้เหตุผล พนักงานของ OpenAI ยังเน้นย้ำถึงสาระสำคัญของ o3 ว่า "เป็นเพียงโมเดลที่ได้รับการฝึกฝนผ่านการเรียนรู้เสริมกำลัง"

ถึงกระนั้น เรายังคงวิเคราะห์โดยอิงจากต้นทุนที่ทีม ARC บันทึกไว้ และรวมเข้ากับราคาของ o1 ของ OpenAI (60.00 ดอลลาร์ต่อล้านโทเค็นเอาต์พุต) ตามกราฟผลลัพธ์ของ ARC Prize ต้นทุนต่อการสืบค้นของ o3 แบบเต็มอยู่ที่ประมาณ 5,000 ดอลลาร์ การหารต้นทุนรวมด้วยราคาต่อโทเค็น จะได้ผลลัพธ์ว่าโมเดลสร้างโทเค็น 80 ล้านครั้งต่อคำตอบ ซึ่งเป็นไปไม่ได้หากไม่มีการปรับปรุงโมเดลบริบทที่ยาวอย่างมาก ดังนั้น การคาดเดาเกี่ยวกับสถาปัตยกรรมการค้นหาที่แตกต่างกันจึงตามมา

ประเด็นสำคัญอยู่ที่รายละเอียดบางอย่างในบทความบล็อกของ ARC Prize ซึ่งกล่าวถึง:

ภายใต้การดูแลของ OpenAI เราทำการทดสอบในสองระดับการคำนวณ โดยมีขนาดตัวอย่างที่แตกต่างกัน: 6 (โหมดประสิทธิภาพ) และ 1024 (โหมดไม่มีประสิทธิภาพ โดยมีปริมาณการคำนวณมากกว่า 172 เท่า)

ตามข้อมูลของ SemiAnalysis o1 pro ใช้วิธีการ self-consistency หรือการตรวจสอบ consensus@N อย่างง่าย โดยเลือกคำตอบที่พบบ่อยที่สุดจากคำตอบแบบขนานหลายรายการสำหรับคำถามเดียวกันเพื่อปรับปรุงประสิทธิภาพ ในที่นี้ ขนาดตัวอย่าง N อาจสอดคล้องกับค่าตัวเลขของ consensus@N ซึ่งบ่งชี้ว่าการกำหนดค่าการประเมินของ o3 ใกล้เคียงกับการกำหนดค่า o1 pro ที่ลูกค้าสามารถใช้ได้ นั่นคือ ปริมาณการคำนวณ 6 เท่า และการกำหนดค่าที่สูงมากที่มีปริมาณการคำนวณ 1024 เท่าต่อปัญหา

ขนาดการให้เหตุผลนี้จะไม่เปิดให้ผู้ใช้ที่ชำระเงินทั่วไปใช้งานได้ในระยะเวลานาน ผู้ใช้ส่วนใหญ่จะสัมผัสได้เพียงผลลัพธ์จากการสร้างครั้งเดียวไปจนถึง consensus@10 ขึ้นอยู่กับข้อกำหนดของโมเดล o1 เวอร์ชัน "มืออาชีพ"

สมมติว่าราคาต่อล้านโทเค็นเอาต์พุตยังคงอยู่ที่ 60 ดอลลาร์ การหารด้วย 1024 สตรีม หมายความว่าโมเดลสร้างโทเค็นประมาณ 78,000 ครั้งต่อการตอบสนอง ในความเป็นจริง o3 ดูเหมือนจะได้รับประโยชน์จากโมเดลพื้นฐานที่ใหญ่กว่า เนื่องจากต้นทุนการคำนวณของ o1 เพิ่มขึ้นอย่างมากจากแกน x ของการคำนวณแบบลอการิทึมทั้งหมดที่ OpenAI แสดงในการถ่ายทอดสด เมื่อใช้โมเดลพื้นฐานที่ใหญ่กว่า ตัวเลขเหล่านี้ก็สมเหตุสมผลและไม่ได้บ่งบอกถึงการเพิ่มองค์ประกอบ "การค้นหา" เพิ่มเติม

เรื่องราวหลักที่ขับเคลื่อนความก้าวหน้าของการเรียนรู้เชิงลึกในช่วงไม่กี่ปีที่ผ่านมาคือการค้นหาพื้นที่ที่มีศักยภาพและไต่ขึ้นไปอย่างต่อเนื่อง ความก้าวหน้าครั้งแรกมาจากการฝึกอบรมล่วงหน้าขนาดอินเทอร์เน็ต ขณะนี้ OpenAI ได้พบทิศทางการไต่ขึ้นใหม่โดยการขยายการฝึกอบรมการเรียนรู้เสริมกำลังและการให้เหตุผลในบริบทที่ยาว เมื่อพิจารณาว่า o3 อยู่ห่างจากการเปิดตัว o1 ของ OpenAI เพียงประมาณสามเดือน คำอธิบายที่ง่ายที่สุดคือ o3 ใช้สถาปัตยกรรมและวิธีการฝึกอบรมเดียวกัน เพียงแต่มีขนาดใหญ่กว่า

ไม่มีหลักฐานใด ๆ ที่แสดงว่า o3 ได้เปลี่ยนสถาปัตยกรรมการให้เหตุผลโดยการเพิ่มการค้นหาแบบต้นไม้ คำกล่าวอ้างทั้งหมดเป็นเพียงข่าวลือ กฎหลักของกฎการขยายการให้เหตุผลคือการสุ่มตัวอย่างเนื้อหาเพิ่มเติมจากการสร้างสตรีมเดียวเดียวกันสามารถนำไปสู่การปรับปรุงประสิทธิภาพได้

คำถามสำคัญคือ โมเดลพื้นฐานของ o3 คือ Orion (ชื่อรหัสภายในของ OpenAI ซึ่งอาจเป็น GPT-5) หรือว่าโมเดลพื้นฐานใหม่ได้รับประโยชน์จาก Orion ในระหว่างการฝึกอบรมเท่านั้น หากขนาดของโมเดลพื้นฐานเพิ่มขึ้น 2 ถึง 5 เท่า ข้อมูลเหล่านี้จะสอดคล้องกับราคา API ที่รายงานจาก ARC Prize อย่างสมบูรณ์

รายละเอียดเฉพาะของ o3 ยังคงมีความไม่แน่นอน ในกราฟที่ทีม ARC เผยแพร่ โมเดล o3 ถูกระบุด้วยคำว่า "(tuned)" แต่ยังไม่มีคำอธิบายโดยละเอียดเกี่ยวกับ o3 อย่างไรก็ตาม เมื่อเราให้ความสำคัญกับแนวโน้มของความก้าวหน้า เป็นที่ชัดเจนว่าโมเดลระดับ o1 จะยังคงมีอยู่ต่อไปในระยะยาว

สุดท้าย เพื่อรักษาความอ่อนน้อมถ่อมตน นี่คือตัวอย่างของรางวัล ARC ที่ o3 ไม่สามารถแก้ไขได้ มันง่ายมาก

เห็นได้ชัดว่าเรายังมีเส้นทางอีกยาวไกล แต่คุณควรรู้สึกตื่นเต้นและคาดหวังว่าความเป็นจริงของการใช้โมเดลเหล่านี้อย่างแพร่หลายจะมาถึงเร็วกว่าที่คนส่วนใหญ่คาดการณ์ไว้ การสมมติว่า AI จะพัฒนาต่อไปอย่างต่อเนื่องเป็นทางเลือกที่ปลอดภัยที่สุด

2024: RL กลับมา

เมื่อต้นวันนี้ Anthropic ได้เผยแพร่วิดีโอเกี่ยวกับกระบวนการสร้าง Anthropic โดยมีผู้ร่วมก่อตั้งหลายคนเข้าร่วม มีรายละเอียดที่ไม่คาดคิดซึ่งแบ่งปันโดย Dario Amodei ผู้ร่วมก่อตั้งและ CEO:

"...เหตุผลทั้งหมดในการขยายโมเดลเหล่านี้ก็คือสติปัญญาของพวกมันยังไม่เพียงพอที่จะให้เราดำเนินการ RLHF (Reinforcement Learning from Human Feedback) บนพื้นฐานของพวกมัน"

ในฐานะหนึ่งในผู้ก่อตั้งแนวคิด RLHF สมัยใหม่ Dario มีแนวโน้มที่จะเข้าใจโดยสัญชาตญาณว่าความก้าวหน้าทั้งหมดในเทคนิคการปรับแต่งกำลังจะมาถึง มุมมองนี้เกี่ยวกับศักยภาพของ RLHF นั้นกว้างขวางและลึกซึ้งกว่าความเข้าใจของผู้ปฏิบัติงานส่วนใหญ่

ปีนี้เป็นปีที่การเรียนรู้เสริมกำลัง (RL) และวิธีการที่เกี่ยวข้องได้รับการยอมรับว่าเป็นหัวใจสำคัญของปัญญาประดิษฐ์อีกครั้งอย่างไม่ต้องสงสัย

กระบวนการเขียนบทความนี้คือการโน้มน้าวตัวเองให้ฝึกโมเดลภาษาที่ใช้การให้เหตุผลเช่นนี้ในปี 2025 ความรู้สึกนี้เหมือนกับว่าในปี 2024 การฝึกอบรมล่วงหน้ามาตรฐานได้กลายเป็นข้อกำหนดพื้นฐานของอุตสาหกรรมสำหรับบริษัทเทคโนโลยี เป็นที่คาดการณ์ได้ว่าโมเดลสไตล์ o1 จะกลายเป็นเครื่องมือเริ่มต้นในกล่องเครื่องมือ AI ในอนาคตอันใกล้นี้ ฉันตั้งตารอที่จะเปิดรับโลกทัศน์ใหม่นี้และเรียนรู้หลักการทำงานของการฝึกอบรมโมเดลเหล่านี้ด้วยตนเอง