Published on

Microsoft mở mã nguồn mô hình Phi-4 mạnh mẽ, vượt trội GPT-4o và có thể thương mại hóa

Tác giả
  • avatar
    Tên
    Ajax
    Twitter

Giới thiệu về Phi-4: Mô hình nhỏ, hiệu năng lớn

Viện nghiên cứu Microsoft gần đây đã mở mã nguồn mô hình ngôn ngữ tham số nhỏ mới nhất của mình, Phi-4. Mô hình này đã thu hút sự chú ý rộng rãi nhờ hiệu suất vượt trội. Với chỉ 14 tỷ tham số, Phi-4 đã gây ấn tượng mạnh trong nhiều thử nghiệm chuẩn, thậm chí vượt qua cả GPT-4o của OpenAI và các mô hình mã nguồn mở hàng đầu khác như Qwen 2.5-14B và Llama-3.3-70B.

Trong các thử nghiệm cụ thể hơn, Phi-4 đã đạt được số điểm xuất sắc 91,8 trong cuộc thi toán học Hoa Kỳ AMC, vượt qua nhiều mô hình nổi tiếng cả mã nguồn mở lẫn đóng như Gemini Pro 1.5 và Claude 3.5 Sonnet. Hiệu suất tổng thể của nó thậm chí có thể so sánh với Llama-3.1 với 405 tỷ tham số.

Hành động này đã gây ra phản ứng mạnh mẽ từ cộng đồng, trước đó đã có người dùng tải lên các trọng số Phi-4 bị đánh cắp trên Hugging Face. Giờ đây, Microsoft cuối cùng đã chính thức mở mã nguồn Phi-4 và sử dụng giấy phép MIT, cho phép sử dụng cho mục đích thương mại.

Địa chỉ mã nguồn mở: phi-4

Hugging Face cũng đã chính thức chúc mừng việc mở mã nguồn Phi-4, cho thấy tầm ảnh hưởng của nó.

Ưu điểm chính của Phi-4: Dữ liệu tổng hợp và huấn luyện tinh vi

Sở dĩ Phi-4 có thể đạt được kết quả xuất sắc như vậy với số lượng tham số nhỏ là do dữ liệu tổng hợp chất lượng cao đóng vai trò quan trọng. So với dữ liệu thu thập từ web truyền thống, dữ liệu tổng hợp có thể cung cấp tài liệu học tập có cấu trúc và từng bước hơn, giúp mô hình học ngôn ngữ một cách logic và hiệu quả hơn.

  • Học tập có cấu trúc: Dữ liệu tổng hợp có thể được trình bày theo từng bước giải quyết vấn đề, ví dụ như trong giải toán, điều này giúp mô hình hiểu rõ hơn về cấu trúc và cách giải quyết vấn đề.
  • Căn chỉnh ngữ cảnh: Dữ liệu tổng hợp có thể phù hợp hơn với ngữ cảnh suy luận của mô hình, gần với định dạng đầu ra mà mô hình cần tạo trong các ứng dụng thực tế, từ đó giúp mô hình thích ứng với nhu cầu của các tình huống ứng dụng thực tế ngay trong giai đoạn tiền huấn luyện. Ví dụ: việc viết lại thông tin thực tế trên các diễn đàn trực tuyến theo phong cách tương tác mô hình lớn giúp thông tin này trở nên tự nhiên và hợp lý hơn trong các cuộc trò chuyện do mô hình tạo ra.

Việc tạo dữ liệu tổng hợp của Phi-4 tuân theo các nguyên tắc sau:

  1. Đa dạng: Đảm bảo dữ liệu bao gồm nhiều loại thông tin và tình huống khác nhau.
  2. Tinh tế và phức tạp: Tạo ra dữ liệu có độ chi tiết cao và các vấn đề phức tạp để thách thức mô hình.
  3. Chính xác: Đảm bảo thông tin trong dữ liệu là chính xác và không có lỗi.
  4. Chuỗi suy luận: Dữ liệu được thiết kế để khuyến khích mô hình phát triển khả năng suy luận từng bước.

Các nguyên tắc này đảm bảo chất lượng của dữ liệu tổng hợp và bao gồm hơn 50 loại tập dữ liệu tổng hợp khác nhau. Microsoft đã tạo ra khoảng 400 tỷ token chưa được trọng số thông qua nhiều phương pháp như quy trình gợi ý đa giai đoạn, lập kế hoạch hạt giống, viết lại và tăng cường, tự sửa đổi.

Ngoài dữ liệu tổng hợp, Phi-4 còn sàng lọc và lọc dữ liệu hữu cơ một cách nghiêm ngặt, thu thập dữ liệu từ nhiều kênh như nội dung web, sách được cấp phép và thư viện mã, đồng thời trích xuất dữ liệu hạt giống có giá trị giáo dục và chiều sâu suy luận cao thông qua quy trình lọc hai giai đoạn. Các dữ liệu hạt giống này cung cấp nền tảng cho việc tạo dữ liệu tổng hợp và cũng được sử dụng trực tiếp cho việc đào tạo trước, giúp làm phong phú thêm kho kiến thức của mô hình.

Trong quá trình sàng lọc, Microsoft đã sử dụng phương pháp lọc dựa trên bộ phân loại nhỏ để chọn ra các tài liệu chất lượng cao từ dữ liệu web quy mô lớn và xử lý đặc biệt dữ liệu đa ngôn ngữ để đảm bảo mô hình có thể xử lý nhiều ngôn ngữ bao gồm tiếng Đức, tiếng Tây Ban Nha, tiếng Pháp, tiếng Bồ Đào Nha, tiếng Ý, tiếng Hindi và tiếng Nhật.

Quá trình huấn luyện của Phi-4

Việc đào tạo trước của Phi-4 chủ yếu sử dụng dữ liệu tổng hợp, đồng thời bổ sung một lượng nhỏ dữ liệu hữu cơ chất lượng cao. Chiến lược kết hợp dữ liệu này cho phép mô hình học các kỹ năng suy luận và giải quyết vấn đề, đồng thời tiếp thu nội dung kiến thức phong phú.

Trong giai đoạn đào tạo giữa kỳ, Phi-4 đã mở rộng độ dài ngữ cảnh từ 4096 lên 16384 để cải thiện khả năng xử lý văn bản dài của mô hình. Điều này bao gồm các mẫu dài hơn 8K ngữ cảnh được sàng lọc từ các tập dữ liệu phi tổng hợp chất lượng cao và các tập dữ liệu tổng hợp mới được tạo đáp ứng yêu cầu chuỗi 4K.

Giai đoạn hậu huấn luyện là chìa khóa để tối ưu hóa Phi-4, Microsoft đã sử dụng các công nghệ tinh chỉnh giám sát (SFT) và tối ưu hóa ưu tiên trực tiếp (DPO).

  • Giai đoạn SFT: Sử dụng khoảng 8 tỷ token được tạo từ dữ liệu chất lượng cao từ các lĩnh vực khác nhau để tinh chỉnh mô hình được đào tạo trước, với tốc độ học là 10-6, đồng thời thêm dữ liệu đa ngôn ngữ của 40 ngôn ngữ, tất cả dữ liệu đều sử dụng định dạng chatml.
  • Công nghệ DPO: Điều chỉnh đầu ra của mô hình bằng cách tạo dữ liệu ưu tiên để phù hợp hơn với sở thích của con người. Microsoft cũng đã giới thiệu công nghệ tìm kiếm token quan trọng (PTS) để tạo các cặp DPO, công nghệ này có thể xác định các token quan trọng có ảnh hưởng lớn đến tính chính xác của câu trả lời của mô hình và tạo dữ liệu ưu tiên cho các token này, từ đó cải thiện hiệu suất của mô hình trong các tác vụ suy luận.

Đánh giá hiệu suất của Phi-4

Để đánh giá hiệu suất của Phi-4, Microsoft đã tiến hành thử nghiệm trên nhiều tiêu chuẩn. Phi-4 đã thể hiện sự xuất sắc trong các tiêu chuẩn học thuật như MMLU, GPQA, MATH, HumanEval.

Trong thử nghiệm MMLU, Phi-4 đã đạt được số điểm cao là 84,8. Trong các thử nghiệm GPQA và MATH, nó thậm chí còn vượt qua GPT-4o, thể hiện khả năng suy luận mạnh mẽ trong các nhiệm vụ liên quan đến cuộc thi toán học. Trong so sánh với các mô hình có quy mô tương tự và lớn hơn, Phi-4 đã vượt trội hơn mô hình mã nguồn mở Qwen-2.5-14B-Instruct trong 9 trên 12 bài kiểm tra tiêu chuẩn.