Gần đây, sáu nhà nghiên cứu tại Apple đã công bố một bài báo mang tính đột phá, tiết lộ rằng các mô hình ngôn ngữ lớn thiếu khả năng suy luận chính thức thật sự. Thay vào đó, nghiên cứu này lập luận rằng LLMs chủ yếu dựa vào việc so khớp các mẫu xác suất tinh vi thay vì suy luận logic thật sự.
Mặc dù các LLMs đã có những bước tiến đáng kể về hiệu suất, khả năng suy luận toán học của chúng không theo kịp. Bài báo này đặc biệt quan trọng vì nó làm dấy lên mối lo ngại về độ tin cậy của các chỉ số hiệu suất đã được báo cáo.
Giữa lúc LLMs đang được quan tâm mạnh mẽ, những tuyên bố phóng đại thường dẫn đến việc công chúng hiểu sai và tạo ra những nhận thức sai lệch. Hiểu rõ các điểm mạnh và hạn chế thật sự của LLMs là rất quan trọng để phát triển lĩnh vực này một cách có trách nhiệm, cho phép các nhà nghiên cứu tập trung vào việc cải thiện những điểm mà các mô hình này vẫn còn thiếu sót và xây dựng những kỳ vọng thực tế về khả năng của chúng.
Suy luận là gì?
Suy luận là một quá trình nhận thức cho phép chúng ta rút ra kết luận, đưa ra dự đoán và suy ra các sự thật mới dựa trên kiến thức hiện có, kết hợp với thông tin mới thu thập được.
Suy luận là một khả năng quan trọng của con người và khi được chuyển giao cho các chương trình phần mềm, nó giúp chúng suy nghĩ hợp lý, giống như bộ não con người và mô phỏng hiệu quả hành vi con người.
Một số ví dụ về suy luận bao gồm:
• Suy luận diễn dịch: Rút ra các kết luận cụ thể từ các nguyên tắc chung.
Ví dụ: Nếu tất cả con người đều phải chết (Tiền đề 1) và Socrates là con người (Tiền đề 2), thì Socrates phải chết (Kết luận).
• Suy luận quy nạp: Khái quát hóa từ các quan sát cụ thể.
Ví dụ: Sau khi quan sát rằng mặt trời mọc ở phía Đông mỗi buổi sáng, người ta có thể kết luận rằng mặt trời luôn mọc ở phía Đông.
• Suy luận dựa trên phỏng đoán: Suy ra lời giải thích có khả năng nhất dựa trên các bằng chứng có sẵn.
Ví dụ: Nếu một người bước vào phòng và thấy sàn nhà ướt, họ có thể kết luận rằng trời vừa mưa hoặc ai đó đã làm đổ nước.
• Suy luận phức tạp nhiều bước:
√ Giải quyết vấn đề toán học: Thực hiện nhiều bước để đưa ra giải pháp.
Để giải phương trình 2x+3=11, trước tiên, ta trừ 3 từ cả hai vế (kết quả là 2x=8), sau đó chia cho 2 (kết quả là x=4).
√ Lên kế hoạch cho một chuyến đi: Xem xét cẩn thận từng bước và các mối liên hệ để đưa ra một kế hoạch toàn diện.
Để lên kế hoạch cho một chuyến đi, người ta có thể bắt đầu bằng việc quyết định điểm đến, sau đó nghiên cứu các tùy chọn giao thông, so sánh chi phí và cuối cùng đặt chỗ ở.
Vậy suy luận chính thức hoặc suy luận toán học là gì?
Suy luận chính thức là một môn khoa học toán học, bắt nguồn từ logic, đặt nền tảng cho việc giúp máy tính suy nghĩ hợp lý. Nó trang bị cho chúng khả năng giải quyết một loạt các vấn đề suy luận, bao gồm những ví dụ đã đề cập, cũng như nhiều vấn đề khác. Quá trình này cho phép máy tính rút ra các kết luận dựa trên các quy tắc logic và cấu trúc toán học nghiêm ngặt, chẳng hạn như tiên đề, định lý và chứng minh. Chúng tuân theo các bước có hệ thống, đảm bảo rằng mỗi suy diễn đều logic và theo sau các bước trước đó hoặc các sự thật toán học đã được thiết lập.
Tại sao suy luận chính thức lại quan trọng?
Bởi vì nó rất cần thiết để thúc đẩy AI và các ứng dụng thực tiễn của nó.
Suy luận chính thức đóng vai trò quan trọng trong việc giải quyết vấn đề trên nhiều lĩnh vực khoa học và thực tiễn. Kỹ năng nhận thức này cho phép các chương trình suy nghĩ hợp lý, giống như bộ não con người, mô phỏng hiệu quả hành vi con người và giải quyết các vấn đề phức tạp.
Suy luận logic cho phép các LLMs nắm bắt các khái niệm sâu sắc hơn, mở ra những khả năng mới cho các nhiệm vụ như khám phá khoa học và giải quyết vấn đề tiên tiến. Nó rất quan trọng để giải quyết các vấn đề phức tạp nhiều bước, giảm ảo giác và cải thiện độ tin cậy và hiệu quả tổng thể. Cuối cùng, việc tăng cường khả năng suy luận logic sẽ củng cố niềm tin vào các LLMs, đảm bảo rằng chúng mang lại giá trị trong các ứng dụng quan trọng như chăm sóc sức khỏe.
Những phát hiện của bài báo về mô hình ngôn ngữ lớn là gì?
Bài báo đã phát hiện rằng:
1. LLMs không có khả năng suy luận logic thật sự.
2. Quá trình suy luận trong LLMs là so khớp mẫu xác suất thay vì suy luận chính thức.
3. LLMs cố gắng sao chép các bước suy luận quan sát được trong dữ liệu huấn luyện mà không thật sự hiểu những gì chúng đang làm.
Vì quá trình suy luận không chính thức, nên nó dễ bị ảnh hưởng bởi những thay đổi và cách diễn đạt khác nhau của câu hỏi. Nghiên cứu cho thấy rằng thêm ngôn ngữ vào câu hỏi ban đầu dẫn đến giảm hiệu suất, bất kể việc thêm ngôn ngữ có liên quan đến ngữ cảnh của vấn đề hay không.
Nghiên cứu cũng lưu ý rằng hiệu suất suy luận duy trì gần mức mong đợi khi chỉ thay đổi tên, tuy nhiên, giảm đáng kể khi các giá trị được thay đổi.
Những phát hiện này rất quan trọng vì chúng thách thức một số nghiên cứu mang tính tiếp thị đã làm nổi bật khả năng suy luận ấn tượng của LLMs.
Nghiên cứu thật sự giúp giải thích tại sao các cách diễn đạt khác nhau của cùng một câu hỏi lại dẫn đến sự khác biệt lớn trong câu trả lời.
Nếu mô hình ngôn ngữ lớn (LLMs) không suy luận, chúng làm gì?
Đó được gọi là suy luận tương tự.
Nó không thật sự là suy luận theo cách mà Khoa học Máy tính định nghĩa, mà là một dạng so khớp mẫu xác suất tinh vi, trong đó các kết luận được đưa ra dựa trên sự tương đồng giữa các đối tượng được so sánh. Một dạng macro thực hiện tìm kiếm, sao chép và dán.
Thông tin chi tiết hơn về Suy luận Tương tự sẽ có trong bài đăng tiếp theo.
Nguồn: GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models. Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar. Apple.