- Published on
Nghiên cứu Stanford và UC Berkeley về Hiệu suất ChatGPT: Suy giảm đáng kể
Nghiên Cứu của Đại học Stanford và UC Berkeley về Hiệu suất ChatGPT
Một bài báo gần đây có tiêu đề 'Hành vi của ChatGPT theo Thời gian', được công bố trên Harvard Data Science Review bởi các nhà nghiên cứu từ Đại học Stanford và Đại học California, Berkeley, đã tiết lộ những biến động đáng kể trong hiệu suất và hành vi của GPT-3.5 và GPT-4 trong khoảng thời gian ba tháng. Nghiên cứu này đã kiểm tra các mô hình trên bảy nhiệm vụ bao gồm giải quyết vấn đề toán học, tạo mã, trả lời câu hỏi chuyên sâu đa bước, Kỳ thi Cấp phép Y tế Hoa Kỳ và trả lời câu hỏi chuyên sâu đa bước.
Biến Động Hiệu Suất
Nghiên cứu chỉ ra những biến đổi đáng chú ý trong hiệu suất của cả GPT-3.5 và GPT-4 trong vòng ba tháng. Cụ thể, độ chính xác của GPT-4 trong việc xác định số nguyên tố so với số hợp số đã giảm đáng kể từ 84% vào tháng 3 xuống 51% vào tháng 6. Sự suy giảm này một phần là do khả năng tuân theo các lời nhắc 'chuỗi suy nghĩ' bị suy yếu. Điều thú vị là GPT-3.5 lại cho thấy sự cải thiện trong nhiệm vụ cụ thể này trong cùng khoảng thời gian.
Những thay đổi đáng chú ý khác bao gồm:
- Sự giảm sút trong sự sẵn sàng trả lời các câu hỏi nhạy cảm và khảo sát ý kiến của GPT-4 vào tháng 6.
- Sự cải thiện trong khả năng giải quyết các vấn đề suy luận đa bước của GPT-4, trong khi GPT-3.5 lại cho thấy sự suy giảm trong các nhiệm vụ như vậy.
- Sự gia tăng lỗi định dạng trong quá trình tạo mã cho cả hai mô hình.
- Sự suy giảm trong khả năng tuân theo hướng dẫn của người dùng của GPT-4.
Phương Pháp Đánh Giá
Các nhà nghiên cứu đã đánh giá GPT-3.5 và GPT-4 dựa trên các nguyên tắc về tính đa dạng và đại diện. Các thử nghiệm được thực hiện trên bảy lĩnh vực chính:
- Bài toán toán học
- Các vấn đề nhạy cảm/nguy hiểm
- Khảo sát ý kiến
- Câu hỏi chuyên sâu đa bước
- Tạo mã
- Kỳ thi Cấp phép Y tế Hoa Kỳ
- Suy luận trực quan
Để hiểu rõ hơn về những thay đổi hành vi, nhóm nghiên cứu đã phát triển một chuẩn mực mới tập trung vào việc tuân thủ hướng dẫn độc lập với nhiệm vụ. Chuẩn mực này bao gồm bốn loại hướng dẫn phổ biến: trích xuất câu trả lời, ngừng xin lỗi, tránh các từ cụ thể và lọc nội dung.
Tuân Thủ Hướng Dẫn
Loạt thử nghiệm này được thiết kế để đánh giá khả năng tuân theo hướng dẫn của các mô hình một cách độc lập với các kỹ năng hoặc kiến thức cụ thể. Vào tháng 3, GPT-4 có thể tuân theo hầu hết các hướng dẫn riêng lẻ tốt, nhưng đến tháng 6, nó bắt đầu bỏ qua chúng. Ví dụ, tỷ lệ tuân thủ đối với hướng dẫn trích xuất câu trả lời đã giảm từ 99,5% xuống gần như bằng không. Độ trung thực của hướng dẫn lọc nội dung cũng giảm từ 74,0% xuống 19,0%.
Các Chỉ Số Hiệu Suất
Để nắm bắt chính xác hiệu suất của các mô hình, nhóm nghiên cứu đã thiết lập các chỉ số hiệu suất chính và bổ sung cho từng nhiệm vụ. Ví dụ:
- Độ chính xác được sử dụng làm chỉ số chính cho các bài toán toán học và USMLE.
- Tỷ lệ mã đầu ra có thể thực thi được là chỉ số chính cho việc tạo mã.
Hiệu Suất của ChatGPT trong Bốn Loại Hướng Dẫn
Trích Xuất Câu Trả Lời
Hướng dẫn này yêu cầu mô hình xác định chính xác và xác định rõ câu trả lời trong một văn bản hoặc câu hỏi nhất định. GPT-4 cho thấy sự tuân thủ cao với loại hướng dẫn này vào tháng 3, với gần 99,5% truy vấn nhận được câu trả lời được định dạng chính xác. Tuy nhiên, đến tháng 6, tỷ lệ này đã giảm mạnh, cho thấy sự suy giảm trong khả năng xử lý các định dạng hướng dẫn rõ ràng của mô hình.
Ngừng Xin Lỗi
Chỉ thị này kiểm tra khả năng của mô hình trong việc tránh sử dụng lời xin lỗi hoặc tự nhận mình là một AI khi được yêu cầu rõ ràng không làm như vậy. Vào tháng 3, GPT-4 thường tuân theo hướng dẫn này, nhưng đến tháng 6, nó thường xuyên vi phạm, ngay cả khi được hướng dẫn cụ thể.
Tránh Các Từ Cụ Thể
Hướng dẫn này kiểm tra sự linh hoạt và chú ý đến chi tiết của mô hình, đặc biệt là trong việc tuân thủ các ràng buộc cụ thể. Sự suy giảm từ tháng 3 đến tháng 6 cho thấy sự giảm sút trong khả năng xử lý các hướng dẫn phức tạp của GPT-4.
Lọc Nội Dung
Hướng dẫn này yêu cầu mô hình loại trừ các chủ đề cụ thể hoặc thông tin nhạy cảm. Vào tháng 3, GPT-4 phần lớn tuân thủ các yêu cầu lọc này, nhưng đến tháng 6, khả năng lọc của nó đã giảm đáng kể, chỉ có khoảng 19% các vấn đề nhạy cảm được xử lý chính xác.
Ý Nghĩa của Nghiên Cứu
Các nhà nghiên cứu lưu ý rằng vì GPT-3.5 và GPT-4 là các mô hình nguồn đóng, OpenAI không tiết lộ dữ liệu và quy trình đào tạo của mình. Sự thiếu minh bạch này có nghĩa là người dùng thường không biết về những thay đổi xảy ra với mỗi bản cập nhật lớn. Nghiên cứu này có thể giúp các nhà phát triển và người dùng hiểu rõ hơn về hiệu suất và động lực hành vi của ChatGPT, điều này rất quan trọng để đảm bảo tính an toàn và xác thực nội dung của mô hình. Nghiên cứu này làm nổi bật những thách thức trong việc duy trì tính nhất quán và độ tin cậy của các mô hình này, đặc biệt là trong môi trường phát triển nhanh chóng.