- Published on
MiniMax Ra Mắt Mô Hình Mã Nguồn Mới 456B Tham Số, 4M Ngữ Cảnh
MiniMax Đón Đầu Kỷ Nguyên AI Agent
Cộng đồng AI đang xôn xao với dự đoán năm 2025 sẽ là năm của AI Agent. Các nhà lãnh đạo ngành như Sam Altman của OpenAI, Mark Zuckerberg của Meta và Jensen Huang của Nvidia đều cho rằng AI Agent sẽ tác động đáng kể đến lực lượng lao động và bối cảnh CNTT. MiniMax đã đáp ứng xu hướng mới nổi này bằng cách mở mã nguồn mô hình ngôn ngữ nền tảng mới nhất của mình, MiniMax-Text-01 và mô hình đa phương thức thị giác, MiniMax-VL-01.
Một cải tiến quan trọng của các mô hình mới này là việc triển khai cơ chế attention tuyến tính mới, giúp mở rộng đáng kể cửa sổ ngữ cảnh. Các mô hình của MiniMax có thể xử lý 4 triệu token cùng một lúc, gấp 20 đến 32 lần so với các mô hình khác. Sự tiến bộ này rất quan trọng đối với các ứng dụng Agent, vốn đòi hỏi cửa sổ ngữ cảnh dài để quản lý bộ nhớ và sự cộng tác giữa nhiều agent.
Đột Phá Công Nghệ Của Các Mô Hình Mã Nguồn Mở MiniMax
MiniMax-Text-01 là kết quả của một số cải tiến, bao gồm:
- Lightning Attention: Một dạng attention tuyến tính giúp giảm độ phức tạp tính toán của kiến trúc Transformer từ bậc hai xuống bậc nhất. Điều này đạt được thông qua một thủ thuật kernel tích phải, cho phép tính toán attention hiệu quả hơn.
- Hybrid-lightning: Sự kết hợp giữa Lightning Attention và softmax attention, trong đó Lightning Attention được thay thế bằng softmax attention sau mỗi tám lớp. Cách tiếp cận này cải thiện khả năng mở rộng trong khi vẫn duy trì hiệu quả.
- Mixture of Experts (MoE): So với các mô hình dày đặc, các mô hình MoE cho thấy sự cải thiện đáng kể về hiệu suất, đặc biệt khi tải tính toán tương tự. MiniMax cũng giới thiệu một bước giao tiếp allgather để ngăn chặn sự sụp đổ định tuyến khi mở rộng các mô hình MoE.
- Tối ưu hóa tính toán: MiniMax đã tối ưu hóa cho kiến trúc MoE bằng cách sử dụng lược đồ chồng chéo dựa trên nhóm token để giảm tải giao tiếp. Đối với đào tạo ngữ cảnh dài, họ đã sử dụng kỹ thuật đóng gói dữ liệu, trong đó các mẫu đào tạo được kết nối từ đầu đến cuối dọc theo chiều chuỗi. Họ cũng đã áp dụng bốn chiến lược tối ưu hóa cho Lightning Attention: hợp nhất kernel theo lô, thực thi prefill và giải mã riêng biệt, đệm đa cấp và mở rộng phép nhân ma trận theo lô có bước tiến.
Những cải tiến này đã dẫn đến việc tạo ra một LLM 456 tỷ tham số với 32 chuyên gia, trong đó mỗi token kích hoạt 45,9 tỷ tham số.
Hiệu Suất Vượt Trội Của MiniMax-Text-01
MiniMax-Text-01 đã cho thấy hiệu suất tuyệt vời trên một số điểm chuẩn, cạnh tranh và thậm chí vượt qua các mô hình nguồn đóng như GPT-4o và Claude 3.5 Sonnet, cũng như các mô hình nguồn mở như Qwen2.5 và Llama 3.1.
- Trên HumanEval, MiniMax-Text-01 vượt trội hơn Instruct Qwen2.5-72B.
- Nó đạt điểm 54,4 trên tập dữ liệu GPQA Diamond đầy thách thức, vượt qua hầu hết các LLM được tinh chỉnh và GPT-4o mới nhất.
- MiniMax-Text-01 cũng đạt được ba điểm số hàng đầu trong MMLU, IFEval và Arena-Hard, thể hiện khả năng áp dụng kiến thức và đáp ứng các truy vấn của người dùng một cách hiệu quả.
Khả Năng Ngữ Cảnh Vượt Trội
Cửa sổ ngữ cảnh mở rộng của MiniMax-Text-01 là một yếu tố khác biệt chính:
- Trong điểm chuẩn Ruler, MiniMax-Text-01 hoạt động tương đương với các mô hình khác lên đến độ dài ngữ cảnh 64k, nhưng hiệu suất của nó tăng lên đáng kể khi vượt quá 128k.
- Mô hình cũng thể hiện hiệu suất đặc biệt trong các tác vụ lý luận ngữ cảnh dài của LongBench v2.
- Ngoài ra, khả năng học ngữ cảnh dài của MiniMax-Text-01 là hiện đại nhất, như được xác minh bởi điểm chuẩn MTOB.
Ứng Dụng Thực Tế
Khả năng của MiniMax-Text-01 vượt ra ngoài các điểm chuẩn.
- Nó có thể tạo ra nội dung sáng tạo, chẳng hạn như một bài hát, với ngôn ngữ sắc thái và chiều sâu cảm xúc.
- Nó có thể thực hiện các tác vụ phức tạp như dịch một ngôn ngữ ít phổ biến như Kalamang, sử dụng các hướng dẫn, ngữ pháp và từ vựng được cung cấp.
- Nó thể hiện trí nhớ tuyệt vời trong các cuộc trò chuyện dài.
MiniMax-VL-01: Mô Hình Ngôn Ngữ Thị Giác
Dựa trên MiniMax-Text-01, MiniMax đã phát triển một phiên bản đa phương thức, MiniMax-VL-01, tích hợp bộ mã hóa và bộ điều hợp hình ảnh. Mô hình sử dụng ViT để mã hóa hình ảnh với bộ chiếu MLP hai lớp để điều chỉnh hình ảnh. Mô hình này đã trải qua quá trình đào tạo liên tục với dữ liệu hình ảnh-ngôn ngữ bằng cách sử dụng tập dữ liệu độc quyền và chiến lược đào tạo đa giai đoạn.
MiniMax-VL-01 thể hiện hiệu suất mạnh mẽ trên nhiều điểm chuẩn, thường phù hợp hoặc vượt quá các mô hình SOTA khác. Nó đã được chứng minh là có khả năng phân tích dữ liệu trực quan phức tạp, chẳng hạn như bản đồ điều hướng.
Tương Lai Của AI Agent
MiniMax đang đẩy mạnh các giới hạn về khả năng cửa sổ ngữ cảnh, với các nghiên cứu đang diễn ra về các kiến trúc có thể loại bỏ softmax attention và cho phép cửa sổ ngữ cảnh vô hạn. Công ty nhận thấy tầm quan trọng của các mô hình đa phương thức đối với AI agent, vì nhiều tác vụ trong thế giới thực đòi hỏi sự hiểu biết về thị giác và văn bản. MiniMax hướng đến việc tạo ra các AI agent tự nhiên, dễ tiếp cận và phổ biến, có tiềm năng tương tác với thế giới vật lý.