Rò rỉ Thông số Mô hình OpenAI: Bài báo của Microsoft Tiết lộ Kích thước GPT4o

Tiết lộ Thông số Mô hình OpenAI: Bài báo của Microsoft Bất ngờ Tiết lộ

Trong giới công nghệ, quy mô tham số của các mô hình ngôn ngữ lớn (LLM) luôn được giữ bí mật. Tuy nhiên, một bài báo y khoa gần đây do Microsoft và Đại học Washington hợp tác xuất bản đã vô tình tiết lộ thông tin tham số của một số mô hình OpenAI, thu hút sự quan tâm rộng rãi.

Thông số Bị Tiết lộ

Thông tin quan trọng được tiết lộ trong bài báo này bao gồm:

GPT-4: Khoảng 1.76 nghìn tỷ tham số
GPT-4o: Khoảng 200 tỷ tham số
GPT-4o mini: Khoảng 8 tỷ tham số
o1-preview: Khoảng 300 tỷ tham số
o1-mini: Khoảng 100 tỷ tham số
Claude 3.5 Sonnet: Khoảng 175 tỷ tham số

Điều đáng chú ý là các nhà nghiên cứu tuyên bố đây chỉ là các giá trị ước tính.

Tham số của Dòng GPT-4o Gây Tranh Cãi

Điều đáng ngạc nhiên là số lượng tham số của dòng GPT-4o thấp hơn nhiều so với dự kiến, đặc biệt là phiên bản mini chỉ có 8 tỷ tham số. Một số người dùng mạng suy đoán rằng GPT-4o mini có thể sử dụng kiến trúc Mô hình Chuyên gia Hỗn hợp (MoE), với 8 tỷ tham số thực sự được kích hoạt, nhưng tổng số tham số của mô hình có thể lên tới 400 tỷ. Kiến trúc này cho phép các mô hình nhỏ học được nhiều kiến thức hơn, đồng thời duy trì tốc độ hoạt động.

So Sánh Tham Số Claude 3.5 Sonnet

Ngoài ra, một số ý kiến cho rằng số lượng tham số của Claude 3.5 Sonnet tương đương với GPT-3 davinci, điều này làm dấy lên những suy nghĩ sâu hơn về mối quan hệ giữa hiệu suất và quy mô của các mô hình khác nhau.

MEDEC Benchmark: Tiêu Chuẩn Mới về Phát Hiện Lỗi Y Tế

Bài báo tiết lộ các thông số này thực chất là về một chuẩn đánh giá có tên MEDEC1, nhằm đánh giá hiệu suất của các mô hình ngôn ngữ lớn trong việc phát hiện và sửa lỗi y tế. Chuẩn này tập trung vào các lỗi trong ghi chú lâm sàng, bao gồm năm khía cạnh: chẩn đoán, quản lý, điều trị, dược lý và nguyên nhân gây bệnh.

Nguồn Dữ Liệu và Đặc Điểm

Bộ dữ liệu MEDEC chứa 488 ghi chú lâm sàng từ ba hệ thống bệnh viện ở Hoa Kỳ, tổng cộng 3848 văn bản lâm sàng. Dữ liệu này chưa từng được bất kỳ mô hình ngôn ngữ lớn nào tiếp xúc trước đây, đảm bảo tính xác thực và đáng tin cậy của đánh giá. Hiện tại, bộ dữ liệu này đã được sử dụng trong nhiệm vụ chung MEDIQA-CORR để đánh giá hiệu suất của 17 hệ thống tham gia.

Thử Nghiệm và Kết Quả

Nhóm nghiên cứu đã sử dụng bộ dữ liệu MEDEC để thử nghiệm nhiều mô hình tiên tiến, bao gồm o1-preview, GPT-4, Claude 3.5 Sonnet và Gemini 2.0 Flash. Đồng thời, họ cũng mời hai bác sĩ chuyên khoa tham gia cùng nhiệm vụ phát hiện lỗi để so sánh giữa người và máy.

Kết quả cho thấy, mặc dù các mô hình ngôn ngữ lớn thể hiện tốt trong việc phát hiện và sửa lỗi y tế, nhưng vẫn còn khoảng cách so với các bác sĩ. Điều này cho thấy MEDEC là một chuẩn đánh giá đầy thách thức.

Nội Dung Cốt Lõi của Bài Báo: Ứng Dụng và Thách Thức của LLM trong Lĩnh vực Y tế

Bài báo chỉ ra rằng, một cuộc khảo sát của các cơ sở y tế ở Hoa Kỳ cho thấy, cứ năm bệnh nhân đọc ghi chú lâm sàng thì có một người báo cáo phát hiện lỗi. Trong số các lỗi này, 40% được coi là nghiêm trọng, và phổ biến nhất là các lỗi liên quan đến chẩn đoán.

Ứng Dụng và Rủi Ro của LLM trong Tài Liệu Y Khoa

Khi ngày càng có nhiều nhiệm vụ liên quan đến tài liệu y khoa (như tạo ghi chú lâm sàng) được thực hiện bởi các mô hình ngôn ngữ lớn, việc đảm bảo tính chính xác và an toàn của thông tin đầu ra từ LLM là vô cùng quan trọng. LLM có thể tạo ra ảo giác, đưa ra thông tin sai lệch hoặc bịa đặt, điều này có thể gây ra những ảnh hưởng nghiêm trọng đến các quyết định lâm sàng.

Ý Nghĩa của MEDEC Benchmark

Để giải quyết những vấn đề này và đảm bảo an toàn cho LLM trong việc tạo nội dung y tế, các phương pháp xác minh nghiêm ngặt là cần thiết. Việc giới thiệu chuẩn MEDEC nhằm đánh giá khả năng của mô hình trong việc phát hiện và sửa lỗi y tế trong văn bản lâm sàng.

Xây Dựng Bộ Dữ Liệu MEDEC

Bộ dữ liệu MEDEC chứa 3848 văn bản lâm sàng từ nhiều lĩnh vực y tế khác nhau, được đánh dấu bởi 8 người có chuyên môn y khoa. Bộ dữ liệu này bao gồm năm loại lỗi:

Chẩn đoán (Diagnosis): Chẩn đoán được đưa ra không chính xác.
Quản lý (Management): Các bước quản lý tiếp theo được đề xuất không chính xác.
Dược lý (Pharmacotherapy): Các loại thuốc được khuyến nghị không chính xác.
Điều trị (Treatment): Các phác đồ điều trị được khuyến nghị không chính xác.
Tác nhân gây bệnh (Causal Organism): Các sinh vật hoặc mầm bệnh được chỉ ra không chính xác.

Việc lựa chọn các loại lỗi này dựa trên các loại câu hỏi thường gặp nhất trong các kỳ thi của hội đồng y khoa.

Phương Pháp Tạo Dữ Liệu

Việc xây dựng bộ dữ liệu sử dụng hai phương pháp:

Phương pháp #1 (MS): Sử dụng các câu hỏi thi của hội đồng y khoa từ bộ MedQA, các người đánh dấu có nền tảng y tế sẽ chèn các câu trả lời sai vào văn bản tình huống.
Phương pháp #2 (UW): Sử dụng cơ sở dữ liệu ghi chú lâm sàng thực tế từ ba bệnh viện của Đại học Washington, các sinh viên y khoa sẽ tự tay đưa lỗi vào các bản ghi.

Cả hai phương pháp đều trải qua quá trình kiểm soát chất lượng nghiêm ngặt để đảm bảo tính chính xác và độ tin cậy của dữ liệu.

Phương Pháp Phát Hiện và Sửa Lỗi Y Tế

Để đánh giá hiệu suất của mô hình trong nhiệm vụ phát hiện và sửa lỗi y tế, các nhà nghiên cứu đã chia quá trình này thành ba nhiệm vụ con:

Nhiệm vụ A: Dự đoán cờ lỗi (0: không có lỗi; 1: có lỗi).
Nhiệm vụ B: Trích xuất câu có chứa lỗi.
Nhiệm vụ C: Tạo nội dung sửa cho câu có chứa lỗi.

Nhóm nghiên cứu đã xây dựng các giải pháp dựa trên LLM và sử dụng hai loại prompt khác nhau để tạo ra đầu ra cần thiết.

Thử Nghiệm và Kết Quả

Mô hình Ngôn Ngữ

Các nhà nghiên cứu đã thử nghiệm nhiều mô hình ngôn ngữ khác nhau, bao gồm Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini và o1-preview.

Phân Tích Kết Quả Thử Nghiệm

Kết quả thử nghiệm cho thấy Claude 3.5 Sonnet thể hiện tốt trong việc phát hiện cờ lỗi và phát hiện câu có lỗi. o1-preview thể hiện tốt nhất trong việc sửa lỗi. Tuy nhiên, tất cả các mô hình đều không bằng các bác sĩ trong việc phát hiện và sửa lỗi y tế.

Kết quả cũng cho thấy, các mô hình gặp vấn đề về độ chính xác và trong nhiều trường hợp đã dự đoán quá mức sự tồn tại của lỗi (tức là tạo ra ảo giác). Ngoài ra, có sự khác biệt về thứ hạng giữa hiệu suất phân loại và hiệu suất tạo sửa lỗi.

Phân Tích Loại Lỗi

Trong việc phát hiện và sửa các loại lỗi khác nhau, o1-preview có tỷ lệ recall cao hơn trong việc phát hiện cờ lỗi và câu, nhưng các bác sĩ thể hiện tốt hơn về độ chính xác.

Hướng Nghiên Cứu Tiếp Theo

Các nhà nghiên cứu cho biết, hướng nghiên cứu tiếp theo bao gồm việc đưa thêm nhiều ví dụ vào prompt và tối ưu hóa chúng, để cải thiện hơn nữa hiệu suất của mô hình trong việc phát hiện và sửa lỗi y tế.