- Published on
Mô Hình O3 của OpenAI: Bước Nhảy Vọt trong Tư Duy và Đột Phá ARC AGI
Tổng quan về Mô hình O3 của OpenAI
OpenAI đã công bố mô hình O3, một bước tiến đáng kể trong việc đào tạo các mô hình ngôn ngữ để suy luận, tiếp nối những thành công gần đây với mô hình O1. Các mô hình này, bắt đầu với phiên bản O3-mini, dự kiến sẽ được công bố rộng rãi vào cuối tháng 1 năm 2025. Năm 2024 được nhiều người đánh giá là năm của sự hợp nhất AI, khi nhiều tổ chức đã đạt được trình độ tương đương GPT-4 và bắt đầu khám phá các ứng dụng thực tế.
Sự ra mắt của O3 đã tạo nên một sự phấn khích mới, vượt xa sự mong đợi so với O1. Mô hình này đánh dấu một bước tiến nhanh chóng trong các mô hình suy luận. Trong khi O1 đã được chuẩn bị trong một thời gian dài, thì O3 lại được phát hành một cách nhanh chóng và hiệu quả, hứa hẹn những phát triển lớn hơn nữa trong năm 2025.
Mặc dù nhiều người nghi ngờ về tính ứng dụng của các mô hình O1 trong các lĩnh vực ngoài toán học, lập trình, vật lý và khoa học cứng, chúng sẽ sớm được sử dụng rộng rãi trong toàn bộ hệ sinh thái nghiên cứu AI, đẩy nhanh tiến độ phát triển. Một quan điểm lạc quan cho rằng, hiện chưa có đủ thời gian để khám phá hết các ứng dụng của các mô hình này, cũng như chưa có các phương pháp đào tạo học tăng cường công khai để mở rộng các mô hình suy luận sang các lĩnh vực khác.
O3 của OpenAI cho thấy rằng ngành công nghiệp đang tiến lên một tầm cao mới, khi lợi ích từ việc đào tạo trước chỉ dựa trên văn bản internet đang giảm dần. O3 đã đạt được những đột phá lớn trong đánh giá suy luận, thể hiện ở một số khía cạnh sau:
- Đạt tỷ lệ hoàn thành trên 85% trong giải thưởng ARC AGI: Đây là mô hình đầu tiên vượt qua mốc này trong bộ dữ liệu công khai (không phải bộ kiểm thử), mặc dù vượt quá giới hạn chi phí.
- Cải thiện đáng kể trong Frontier Math Benchmark: Hiệu suất tăng từ 2% lên 25%, một bước nhảy vọt lớn.
- Cải tiến rõ rệt trên các benchmarks lập trình hàng đầu: Ví dụ như SWE-Bench-Verified.
Tất cả những điều này chỉ diễn ra trong vòng 3 tháng kể từ khi phiên bản đầu tiên của mô hình được công bố. Những thay đổi này sẽ sớm được thấy rõ qua việc thúc đẩy các tiến bộ trong nghiên cứu AI. Việc giảm chi phí suy luận sẽ là một bước tiến nữa trong việc thay đổi nhiều vai trò kỹ sư phần mềm hiện nay.
Đồng thời, OpenAI đã xuất bản một bài đăng trên blog và một bài nghiên cứu về việc điều chỉnh thận trọng, cho thấy các mô hình cấp O1 có thể tăng cường nghiên cứu về an toàn và điều chỉnh như thế nào. Điều này cung cấp bằng chứng tích cực ban đầu cho một câu hỏi mở rộng hơn: liệu khả năng suy luận nâng cao có mang lại giá trị ngoài các lĩnh vực có thể kiểm chứng hay không? Vấn đề này sẽ được xem xét lại nhiều lần vào năm 2025.
Chi tiết về Mô hình O3
Mô hình O3 của OpenAI được công bố vào ngày cuối cùng của "Sự kiện ra mắt 12 ngày của OpenAI". Sự ra mắt này đi kèm với những thành tích ấn tượng trong việc vượt qua các mô hình tiên tiến trước đó (Gemini 1.5 Pro và Claude 3.5 Sonnet New) ở nhiều lĩnh vực.
Một chi tiết thường bị bỏ qua trong các bài đăng trên blog và các trao đổi liên quan đến các mô hình dòng O1 là ý nghĩa của các bóng mờ trong các biểu đồ cột. Trong bài đăng blog đầu tiên về O1, điều này đã được đề cập trong chú thích của hình kết quả đầu tiên: cột đặc biểu thị độ chính xác pass@1, và vùng bóng mờ biểu thị hiệu suất khi sử dụng 64 mẫu để bỏ phiếu đa số (đồng thuận).
Chi tiết này cho thấy rằng sự đồng thuận của nhiều thế hệ là rất quan trọng đối với hiệu suất tốt nhất của các mô hình O1. Điều này áp dụng cho tất cả các giai đoạn suy luận của quá trình tính toán—không thể chỉ dựa vào một luồng đầu ra duy nhất để có kết quả tốt nhất. Tuy nhiên, điều này không có nghĩa là phải sử dụng tìm kiếm cây hoặc một số biểu diễn trung gian. Chế độ chuyên nghiệp của O1, cũng như các kết quả giải thưởng ARC mà chúng ta sẽ thảo luận, dựa vào việc tạo ra song song để đạt được điểm số cao tuyệt đối.
Về đánh giá định tính về Frontier Math Benchmark, có thể tham khảo nhận xét của hai người đoạt giải Fields. Nhận xét của họ nhắm vào phần khó nhất của benchmark, nhưng điều này thể hiện rõ mục tiêu định tính của nó:
- “Những câu hỏi này cực kỳ thách thức… Tôi nghĩ rằng chúng sẽ khiến AI bế tắc trong ít nhất vài năm tới.” - Terence Tao, người đoạt giải Fields năm 2006.
- “Những vấn đề tôi thấy không thuộc lĩnh vực nghiên cứu của tôi, và có vẻ như hoàn toàn nằm ngoài khả năng giải quyết của tôi… Chúng dường như khó hơn một bậc so với các bài toán IMO (Olympic Toán Quốc tế).” - Timothy Gowers, người đoạt giải Fields năm 2006.
Benchmark này được giới thiệu vào ngày 7 tháng 11 và được liệt kê là một trong số ít các biên giới mở chưa được chinh phục trong khả năng AI. Bản phát hành này định vị O3 của OpenAI là mô hình duy nhất đạt được điểm hai chữ số và nhảy vọt lên 25%.
Kết quả hàng đầu thứ hai xuất hiện trong lĩnh vực lập trình. Trong buổi phát trực tiếp, OpenAI đã trình bày điểm số 71,7% của SWE-Bench Verified (một thành tích ở mức độ tiên tiến hiện tại), cũng như các kết quả mở rộng trên Codeforces (một trang web thi lập trình).
O3 đạt điểm 2727 thông qua bỏ phiếu đồng thuận ở một giá trị N chưa được tiết lộ, đạt đến cấp độ Đại kiện tướng quốc tế, xếp hạng trong số 200 lập trình viên cạnh tranh hàng đầu thế giới. O3-mini có hiệu suất tốt hơn O1, đồng thời chi phí thấp hơn đáng kể. Dựa trên xu hướng mà chúng ta đã quan sát được trong năm 2024, điều này có thể trở thành một mô hình có ảnh hưởng hơn được sử dụng bởi một nhóm người dùng rộng lớn hơn. Điều này đã làm cho thành tựu đột phá cuối cùng trong buổi phát trực tiếp của O3 trở nên khả thi—giải quyết hiệu quả Thử thách ARC AGI.
Đánh Giá ARC AGI
Kho dữ liệu Trừu tượng và Suy luận (ARC) là một phương pháp đánh giá trí tuệ nhân tạo được đề xuất bởi François Chollet trong luận văn năm 2019 của ông, "Về Đo lường Trí tuệ". Đánh giá ARC được thiết kế để gần hơn với đánh giá trí thông minh của con người:
- Chúng tôi đã đề xuất một định nghĩa hình thức mới về trí thông minh dựa trên lý thuyết thông tin thuật toán, mô tả trí thông minh là hiệu quả trong việc thu nhận kỹ năng, đồng thời nhấn mạnh các khái niệm về phạm vi, độ khó tổng quát, kiến thức tiên nghiệm và kinh nghiệm. Dựa trên định nghĩa này, chúng tôi đã đề xuất một bộ hướng dẫn thiết kế cho một chuẩn AI chung. Cuối cùng, chúng tôi trình bày một benchmark tuân thủ nghiêm ngặt các hướng dẫn này—Kho dữ liệu Trừu tượng và Suy luận (ARC), được xây dựng dựa trên một tập hợp kiến thức tiên nghiệm rõ ràng, càng gần với kiến thức tiên nghiệm bẩm sinh của con người càng tốt. Chúng tôi tin rằng ARC có thể được sử dụng để đo lường một loại trí thông minh lưu động chung giống con người và có thể đạt được sự so sánh trí thông minh chung công bằng giữa hệ thống AI và con người.
Giải thưởng ARC AGI được khởi động vào tháng 6 năm 2024, với giải thưởng 1 triệu đô la cho giải pháp đầu tiên đáp ứng các tiêu chí cụ thể và giải quyết một nhóm các nhiệm vụ ARC riêng tư. Ngưỡng được coi là "giải quyết" nhiệm vụ là đạt được độ chính xác 85%. Hôm nay, OpenAI và ARC Prize đã chia sẻ các kết quả sau:
Trước các mô hình dòng O1, mô hình tốt nhất của OpenAI là GPT-4o chỉ đạt độ chính xác 5%. Tiến bộ nhanh chóng của OpenAI trên các mô hình suy luận mới của mình được tóm tắt bởi Mike Knoop, đồng sáng lập giải thưởng ARC:
- GPT-2 (2019): 0%
- GPT-3 (2020): 0%
- GPT-4 (2023): 2%
- GPT-4o (2024): 5%
- O1-preview (2024): 21%
- O1 high (2024): 32%
- O1 Pro (2024): khoảng 50%
- O3 tuned low (2024): 76%
- O3 tuned high (2024): 87%
Vào tháng 6 năm nay, mọi người vẫn tin rằng việc giải quyết ARC-AGI sẽ vô cùng khó khăn. Tuy nhiên, chỉ vài tháng sau, nhận thức này đã hoàn toàn bị đảo ngược. Ngay cả những người lạc quan về Q* và các phương pháp suy luận khác cũng không ngờ rằng sẽ đạt được thành công đến mức này.
Chollet đã chia sẻ thêm chi tiết trên trang web chính thức của Giải thưởng ARC:
- Chúng tôi đã thử nghiệm O3 với hai bộ dữ liệu ARC-AGI:
- Đánh giá bán riêng tư: 100 nhiệm vụ riêng tư, được sử dụng để đánh giá tình trạng quá khớp.
- Đánh giá công khai: 400 nhiệm vụ công khai. Dưới sự hướng dẫn của OpenAI, chúng tôi đã thử nghiệm ở hai mức tính toán, với các quy mô mẫu khác nhau: 6 (chế độ hiệu quả) và 1024 (chế độ kém hiệu quả, khối lượng tính toán gấp 172 lần).
Dưới đây là kết quả thử nghiệm:
Lưu ý: Dữ liệu cụ thể về chi phí tính toán cao của O3 vẫn chưa được công bố, vì giá cả và tính khả dụng của các tính năng vẫn đang được xác định. Khối lượng tính toán gấp khoảng 172 lần so với cấu hình tính toán thấp.
Ví dụ, đây là một vấn đề chưa được giải quyết:
Nhiều vấn đề rất trực quan đối với con người. Để đưa những vấn đề này vào mô hình, màu sắc được mã hóa thành số và được nhập vào dưới dạng ngữ cảnh trong dạng lưới, như Greg Kamradt đã nhấn mạnh:
Về mặt kỹ thuật, giải thưởng vẫn chưa được nhận, vì chi phí của giải pháp vượt quá ngưỡng và không phải là mã nguồn mở. Cuộc thi vẫn đang tiếp diễn. Trong vài năm tới, loại trí thông minh này sẽ trở nên gần như miễn phí. Miễn phí, có nghĩa là chi phí chạy suy luận sẽ thấp hơn giá trị tiền tệ của dữ liệu quảng cáo của người dùng.
Hiện tại, giá O3 được trích dẫn trong blog Giải thưởng ARC (được thay đổi trong các cuộc trao đổi của OpenAI thành giá tương đối so với O1) tiết lộ nhiều chi tiết về hoạt động của công nghệ O3.
Kiến trúc, Chi phí và Phương pháp Đào tạo của O3
Nhóm ARC AGI đã hợp tác trực tiếp với OpenAI để có được ước tính giá cho mô hình của họ. Giá cuối cùng của O3 sau khi chính thức ra mắt trong API có thể sẽ khác. Dựa trên tầm quan trọng của định luật mở rộng suy luận, nhóm ARC-AGI đã thêm một yêu cầu bổ sung để gửi các giải pháp cho đánh giá riêng tư. Trong bài đăng trên blog của họ, nhóm đã ghi lại tổng chi phí và chi phí cho mỗi nhiệm vụ, như một chỉ số đại diện cho FLOPs hoặc tính toán trực tiếp việc sử dụng tài nguyên tính toán.
Điều này phù hợp với một quy tắc trong thông báo giải thưởng ARC về bảng xếp hạng công khai (quy tắc này không liên quan đến giải thưởng 1 triệu đô la):
$10.000 USD là giới hạn chi phí hoạt động có thể chi cho việc giải quyết 500 nhiệm vụ (bao gồm 400 nhiệm vụ trong bộ đánh giá công khai và 100 nhiệm vụ trong bộ đánh giá bán riêng tư mới), bao gồm cả chi phí gọi API thương mại.
Trong số 500 nhiệm vụ trong bộ đánh giá công khai hoặc bán công khai, chi phí của O3 đã vượt xa giới hạn này. Giải thưởng ARC cho thấy chi phí cho mỗi truy vấn của O3 vượt quá 1.000 đô la. Họ cũng đưa ra các giả định về bản chất của mô hình. Nội dung sau nhằm xoa dịu những suy đoán về việc liệu O3 có sử dụng công nghệ đào tạo khác với O1 hay không. Cụ thể, Chollet đã nói rõ rằng ông đang suy đoán:
Hiện tại, chúng ta chỉ có thể suy đoán về cách thức hoạt động cụ thể của O3. Nhưng cơ chế cốt lõi của O3 dường như là thực hiện và tìm kiếm chương trình ngôn ngữ tự nhiên trong không gian token—trong quá trình thử nghiệm, mô hình sẽ tìm kiếm không gian chuỗi tư duy (CoTs) có thể có, các chuỗi tư duy này mô tả các bước cần thiết để giải quyết nhiệm vụ, theo một cách có thể tương tự như tìm kiếm cây Monte Carlo theo phong cách AlphaZero. Trong trường hợp O3, việc tìm kiếm có thể được hướng dẫn bởi một số mô hình đánh giá.
Một lần nữa, các trích dẫn và giả định về MCTS (Tìm kiếm Cây Monte Carlo) gây hiểu nhầm, nhưng có thể hiểu được, vì nhiều người thông minh đã bị sốc bởi khả năng O1 và O3 chỉ đạt được thông qua một lần chuyển tiếp của một mô hình ngôn ngữ duy nhất. Một bài viết gần đây của tôi đã giải thích cách điều này có thể đạt được thông qua đào tạo học tăng cường quy mô lớn và giải thích tại sao một số biểu đồ của OpenAI gây hiểu nhầm về chi phí tính toán trong giai đoạn suy luận. Các nhân viên của OpenAI cũng nhấn mạnh bản chất của O3 "chỉ là một mô hình được đào tạo thông qua học tăng cường".
Tuy nhiên, chúng tôi vẫn dựa trên chi phí do nhóm ARC ghi lại và kết hợp với giá của OpenAI cho O1 ($60,00/triệu token đầu ra). Theo biểu đồ kết quả giải thưởng ARC, chi phí cho mỗi truy vấn của O3 đầy đủ là khoảng 5.000 đô la. Chia tổng chi phí cho giá mỗi token, chúng ta có kết quả là mô hình đã tạo ra 80 triệu token cho mỗi câu trả lời, điều này là không thể nếu không có những cải tiến lớn về mô hình ngữ cảnh dài. Vì vậy, những suy đoán về các kiến trúc tìm kiếm khác nhau đã xuất hiện.
Điều quan trọng nằm ở một số chi tiết trong bài đăng trên blog của giải thưởng ARC, trong đó đề cập:
Dưới sự hướng dẫn của OpenAI, chúng tôi đã thử nghiệm ở hai mức tính toán, với các quy mô mẫu khác nhau: 6 (chế độ hiệu quả) và 1024 (chế độ kém hiệu quả, khối lượng tính toán gấp 172 lần).
Theo SemiAnalysis, O1 pro sử dụng phương pháp tự nhất quán hoặc kiểm tra consensus@N đơn giản, bằng cách chọn câu trả lời phổ biến nhất trong số nhiều phản hồi song song cho cùng một truy vấn để cải thiện hiệu suất. Ở đây, quy mô mẫu N có thể tương ứng với giá trị của consensus@N, cho thấy cấu hình đánh giá của O3 gần với cấu hình O1 pro mà khách hàng có thể sử dụng, tức là gấp 6 lần khối lượng tính toán và cấu hình siêu cao gấp 1024 lần khối lượng tính toán cho mỗi vấn đề.
Quy mô suy luận này sẽ không được cung cấp cho người dùng trả phí thông thường trong một thời gian dài. Hầu hết người dùng sẽ chỉ tiếp xúc với kết quả từ một lần tạo đến consensus@10, tùy thuộc vào thông số kỹ thuật của phiên bản "chuyên nghiệp" của mô hình O1.
Giả sử giá mỗi triệu token đầu ra vẫn là 60 đô la, chia cho 1024 luồng, có nghĩa là mô hình tạo ra khoảng 78.000 token cho mỗi phản hồi. Trên thực tế, O3 dường như cũng được hưởng lợi từ một mô hình cơ bản lớn hơn, vì chi phí tính toán của O1 tăng lên đáng kể từ tất cả các trục x khối lượng tính toán logarit mà OpenAI đã trình bày trong buổi phát trực tiếp. Sử dụng mô hình cơ bản lớn hơn, những con số này hoàn toàn hợp lý và không ngụ ý việc thêm các yếu tố "tìm kiếm" bổ sung.
Câu chuyện cốt lõi thúc đẩy tiến bộ học sâu trong những năm gần đây là tìm ra một lĩnh vực tiềm năng và không ngừng leo lên nó. Làn sóng tiến bộ đầu tiên đến từ việc đào tạo trước quy mô internet. Giờ đây, OpenAI đã tìm thấy một hướng leo mới bằng cách mở rộng đào tạo học tăng cường và suy luận ngữ cảnh dài. Dựa trên việc O3 chỉ cách thời điểm OpenAI phát hành O1 khoảng ba tháng, lời giải thích đơn giản nhất là nó sử dụng cùng một kiến trúc và phương pháp đào tạo, chỉ có quy mô lớn hơn.
Không có bằng chứng nào cho thấy O3 đã thay đổi kiến trúc suy luận bằng cách thêm tìm kiếm cây, tất cả những tuyên bố chỉ là tin đồn. Quy tắc cốt lõi của định luật mở rộng suy luận là lấy mẫu nhiều hơn từ cùng một thế hệ luồng đơn có thể mang lại hiệu suất tốt hơn.
Câu hỏi quan trọng là liệu mô hình cơ bản của O3 có phải là Orion (tên mã nội bộ của OpenAI, có thể là GPT-5) hay mô hình cơ bản mới chỉ được hưởng lợi từ Orion trong quá trình đào tạo. Nếu quy mô của mô hình cơ bản tăng từ 2 đến 5 lần, thì dữ liệu này hoàn toàn phù hợp với kỳ vọng từ giá API được báo cáo từ giải thưởng ARC.
Các chi tiết cụ thể về O3 vẫn chưa chắc chắn. Trong các biểu đồ do nhóm ARC phát hành, mô hình O3 được đánh dấu bằng "(tuned)", nhưng vẫn chưa có mô tả chi tiết về O3. Tuy nhiên, khi chúng ta tập trung vào xu hướng tiến bộ, rõ ràng là các mô hình cấp O1 sẽ tồn tại trong thời gian dài.
Cuối cùng, để giữ sự khiêm tốn, đây là một ví dụ về giải thưởng ARC mà O3 không giải quyết được. Nó rất đơn giản.
Chúng ta rõ ràng còn một chặng đường dài phía trước, nhưng bạn nên cảm thấy hào hứng và mong chờ thực tế rằng các mô hình này sẽ được sử dụng rộng rãi sớm hơn hầu hết mọi người mong đợi. Giả định rằng AI sẽ tiếp tục tiến bộ là lựa chọn an toàn nhất.
2024: Sự Trở Lại của RL
Đầu ngày hôm nay, Anthropic đã phát hành một video về quá trình tạo ra Anthropic, với sự tham gia của một số đồng sáng lập. Một chi tiết bất ngờ đã được chia sẻ bởi đồng sáng lập kiêm CEO Dario Amodei:
"... toàn bộ lý do để mở rộng các mô hình này là vì trí thông minh của chúng chưa đủ để chúng ta thực hiện RLHF (học tăng cường sử dụng phản hồi của con người) trên cơ sở đó."
Là một trong những người sáng lập ra khái niệm RLHF hiện đại, Dario có thể đã trực giác thấy rằng tất cả những tiến bộ về công nghệ tinh chỉnh sắp đến. Quan điểm về tiềm năng của RLHF này rộng hơn và sâu sắc hơn nhiều so với nhận thức của hầu hết các học viên.
Năm nay, không nghi ngờ gì nữa, học tăng cường (RL) và các phương pháp liên quan đã tái khẳng định mình là cốt lõi của trí tuệ nhân tạo.
Quá trình viết bài này là tôi đã thuyết phục bản thân rằng mình sẽ đào tạo một mô hình ngôn ngữ dựa trên suy luận tương tự vào năm 2025. Cảm giác này giống như năm 2024 đối với các công ty công nghệ, đào tạo trước tiêu chuẩn đã trở thành yêu cầu cơ bản của ngành. Có thể thấy trước rằng các mô hình kiểu O1 sẽ trở thành công cụ mặc định trong hộp công cụ trí tuệ nhân tạo trong một thời gian dài. Tôi rất mong được đón nhận thế giới quan mới này và tự mình tìm hiểu nguyên tắc hoạt động của việc đào tạo các mô hình này.