Published on

o1 không phải là mô hình chat: Altman và Brockman theo dõi

Tác giả
  • avatar
    Tên
    Ajax
    Twitter

o1: Không Phải Mô Hình Chat Thông Thường

Bài viết thảo luận về sự ồn ào gần đây xung quanh mô hình o1, làm rõ rằng nó không được thiết kế như một mô hình chat, mặc dù nhiều người dùng ban đầu coi nó như vậy. Tiết lộ này đến sau một bài đăng trên blog có tiêu đề "o1 không phải là mô hình chat (và đó là điểm mấu chốt)" đã thu hút được sự chú ý, thậm chí còn thu hút được sự chú ý của CEO OpenAI Sam Altman và Chủ tịch Greg Brockman.

Những Nhận Thức Sai Lầm Và Sự Thất Vọng

Ben Hylak, trước đây là kỹ sư phần mềm tại SpaceX và nhà thiết kế tương tác cho Apple VisionOS, đã chia sẻ trải nghiệm bực bội của mình với o1. Anh ấy thấy các phản hồi của nó chậm, thường mâu thuẫn và chứa đầy các sơ đồ kiến trúc và danh sách ưu nhược điểm không mong muốn. Phản ứng ban đầu của Hylak là o1 chỉ đơn giản là "rác rưởi".

  • Hylak đã trải qua thời gian chờ đợi phản hồi 5 phút.
  • Các phản hồi thường tự mâu thuẫn và vô nghĩa.
  • Mô hình cung cấp các sơ đồ và danh sách không được yêu cầu.

Sự thất vọng của anh ấy đã dẫn đến các bài đăng trên mạng xã hội bày tỏ sự thất vọng, nói rằng o1 pro là "thực sự tệ" và đầu ra của nó là "gần như vô nghĩa". Anh ấy đã đưa ra ví dụ về việc yêu cầu lời khuyên về tái cấu trúc, chỉ để mô hình đề xuất hợp nhất các tệp, cung cấp mã không hợp nhất các tệp và sau đó đưa ra các kết luận không liên quan.

Sự Thay Đổi Trong Quan Điểm

Trải nghiệm của Hylak không phải là phổ biến. Một số người dùng nhận thấy o1 có hiệu quả cao, điều này dẫn đến các cuộc thảo luận sâu hơn. Thông qua những tương tác này, Hylak nhận ra sai lầm của mình: anh ấy đang sử dụng o1 như một mô hình chat khi nó không được thiết kế để hoạt động như một mô hình chat.

Sự thay đổi trong quan điểm này đã được Altman hoan nghênh, người đã nhận xét rằng "thật thú vị khi xem thái độ của mọi người thay đổi khi họ học cách sử dụng o1 (bao gồm cả phiên bản pro)". Greg Brockman lặp lại điều này bằng cách chỉ ra rằng o1 là một loại mô hình khác và đòi hỏi một cách tiếp cận khác để có hiệu suất tối ưu.

o1: Một Công Cụ Tạo Báo Cáo

Bài viết gợi ý rằng thay vì một mô hình chat, o1 nên được xem như một "công cụ tạo báo cáo". Với đủ ngữ cảnh và các yêu cầu đầu ra rõ ràng, o1 có thể cung cấp các giải pháp hiệu quả. Điểm mấu chốt nằm ở cách mô hình được sử dụng.

Từ Lời Nhắc Đến Tóm Tắt

Khi sử dụng các mô hình chat thông thường, người dùng thường bắt đầu bằng các câu hỏi đơn giản và thêm ngữ cảnh khi cần, tham gia vào các tương tác qua lại lặp đi lặp lại. Tuy nhiên, o1 không tìm kiếm ngữ cảnh bổ sung. Thay vào đó, người dùng cần cung cấp rất nhiều ngữ cảnh ngay từ đầu, được mô tả là một "tấn" thông tin, hoặc khoảng gấp mười lần ngữ cảnh bạn sử dụng cho một lời nhắc tiêu chuẩn.

  • Cung cấp tất cả các chi tiết về các giải pháp đã thử.
  • Bao gồm các kết xuất lược đồ cơ sở dữ liệu hoàn chỉnh.
  • Giải thích các nghiệp vụ, quy mô và thuật ngữ cụ thể của công ty.

Bạn nên đối xử với o1 như một nhân viên mới, cung cấp tất cả thông tin cần thiết ngay từ đầu.

Tập Trung Vào Kết Quả Mong Muốn

Sau khi cung cấp ngữ cảnh mở rộng, người dùng phải xác định rõ kết quả mong muốn. Không giống như các mô hình khác, nơi người dùng có thể chỉ định tính cách hoặc quá trình suy nghĩ, với o1, bạn chỉ nên tập trung vào "cái gì" bạn muốn, không phải "cách" mô hình nên thực hiện nó. Điều này cho phép o1 tự lập kế hoạch và thực hiện các bước cần thiết, dẫn đến kết quả nhanh hơn và hiệu quả hơn.

Điểm Mạnh Và Điểm Yếu Của o1

o1 vượt trội trong một số lĩnh vực:

  • Xử lý toàn bộ tệp: Nó có thể xử lý các khối mã lớn và ngữ cảnh mở rộng, thường hoàn thành toàn bộ tệp với lỗi tối thiểu.
  • Giảm ảo giác: o1 chính xác trong các lĩnh vực như ngôn ngữ truy vấn tùy chỉnh (ví dụ: ClickHouse và New Relic), trong khi các mô hình khác có thể trộn lẫn cú pháp.
  • Chẩn đoán y tế: o1 có thể đưa ra các chẩn đoán sơ bộ chính xác đáng ngạc nhiên dựa trên hình ảnh và mô tả.
  • Giải thích các khái niệm: Nó có kỹ năng giải thích các khái niệm kỹ thuật phức tạp thông qua các ví dụ.
  • Tạo kế hoạch kiến trúc: o1 có thể tạo nhiều kế hoạch, so sánh chúng và liệt kê ưu nhược điểm.
  • Đánh giá: Nó cho thấy tiềm năng như một công cụ hiệu quả để đánh giá kết quả.

Tuy nhiên, o1 cũng có những hạn chế:

  • Viết theo phong cách cụ thể: Nó có xu hướng tạo ra các báo cáo theo phong cách học thuật hoặc doanh nghiệp và gặp khó khăn trong việc điều chỉnh theo các giọng điệu cụ thể.
  • Xây dựng toàn bộ ứng dụng: Mặc dù thành thạo trong việc tạo toàn bộ tệp, nhưng nó không thể xây dựng một ứng dụng SaaS đầy đủ thông qua lặp đi lặp lại. Tuy nhiên, nó có thể hoàn thành toàn bộ các tính năng, đặc biệt là các chức năng giao diện người dùng hoặc phụ trợ đơn giản.

Tầm Quan Trọng Của Sự Chậm Trễ

Bài viết lưu ý rằng sự chậm trễ thay đổi cơ bản nhận thức của chúng ta về các sản phẩm, trích dẫn các ví dụ như email so với tin nhắn văn bản và tin nhắn thoại so với cuộc gọi điện thoại.

Hylak so sánh o1 với email hơn là một mô hình chat, do sự chậm trễ trong các phản hồi của nó. Sự chậm trễ này cho phép các loại sản phẩm mới được hưởng lợi từ trí thông minh nền tảng độ trễ cao, chạy trong thời gian dài. Câu hỏi đặt ra là: mọi người sẵn sàng chờ bao nhiêu phút, một giờ, một ngày hoặc thậm chí 3-5 ngày làm việc cho những công việc gì?

Điều quan trọng cần lưu ý là o1-preview và o1-mini hỗ trợ truyền phát nhưng không hỗ trợ tạo cấu trúc hoặc lời nhắc hệ thống, trong khi o1 hỗ trợ tạo cấu trúc và lời nhắc hệ thống nhưng không hỗ trợ truyền phát. Việc hiểu những khác biệt này sẽ rất quan trọng đối với các nhà phát triển khi thiết kế sản phẩm vào năm 2025.