Đề thi học sinh giỏi toán từ 47 quốc gia, có Việt Nam, được MIT số hóa thành bộ dữ liệu lớn nhất thế giới

Viện Công nghệ Massachusetts (MIT) vừa công bố MathNet – dataset lớn nhất thế giới về các bài thi toán Olympic, mở ra cơ hội mới cho cả học sinh và trí tuệ nhân tạo. Được phát triển bởi Phòng thí nghiệm Khoa học máy tính và Trí tuệ nhân tạo (CSAIL), kho tài nguyên này chứa hơn 30.000 bài toán từ 143 kỳ thi của 47 quốc gia và vùng lãnh thổ, sử dụng đến 17 ngôn ngữ khác nhau.

Điểm nổi bật của MathNet là độ tin cậy và tính hệ thống. Không như các diễn đàn trực tuyến với lời giải informal , mỗi bài trong kho đều được trích xuất từ tài liệu thi official , kèm lời giải do chuyên gia viết và thẩm định. Nhóm nghiên cứu đã phải xử lý gần 1.600 tệp PDF, trong đó có những bản quét mờ từ vài thập kỷ trước, để làm sạch và số hóa dữ liệu – một quá trình đòi hỏi cả công nghệ lẫn kiên nhẫn.

Việt Nam góp mặt trong bộ sưu tập với 259 đề thi được lưu trữ, phản ánh sự phong phú trong cách tiếp cận toán học của học sinh và giáo viên nước nhà. Theo Shaden Alshammari, nghiên cứu sinh tiến sĩ tại MIT và là tác giả chính, mục tiêu không chỉ là lưu trữ, mà còn tạo điều kiện để các nền văn hóa giáo dục học hỏi lẫn nhau. "Mỗi quốc gia đều có những bài toán creative và độc đáo", cô nói, "nhưng trước đây chưa ai thực sự tập hợp chúng một cách bài bản".

MathNet cũng trở thành công cụ đánh giá quan trọng đối với AI. Dù các mô hình hiện đại được kỳ vọng có thể giải toán ở mức huy chương vàng IMO, thử nghiệm trên MathNet cho thấy năng lực thực tế còn hạn chế. GPT-5 – mô hình mạnh nhất được kiểm tra – chỉ đạt tỷ lệ đúng trung bình 69,3%. Hiệu suất giảm mạnh khi bài toán có diagram hoặc sử dụng ngôn ngữ ít phổ biến như tiếng Mông Cổ, cho thấy thách thức lớn trong việc hiểu ngữ cảnh và biểu diễn thị giác.

Dự án không chỉ có ý nghĩa học thuật mà còn mở đường cho các nền tảng học tập toàn cầu, nơi học sinh ở bất kỳ quốc gia nào cũng có thể tiếp cận phương pháp luyện thi tiên tiến. Với MathNet, ranh giới giữa nghiên cứu, giáo dục và công nghệ đang ngày càng được xóa nhòa – và cuộc đua trí tuệ vừa có thêm một benchmark mới.

Phản hồi 7

  • L
    Lan_Anh94

    259 đề từ Việt Nam, nghe cũng tự hào thật. Nhưng mình worry là liệu có bao nhiêu học sinh ở quê có internet để truy cập kho này không?

  • T
    Trung_Kien

    Chỉ 69% với GPT-5? Chứng tỏ AI vẫn còn lâu mới thay được thầy cô dạy toán. Cần nhiều context và suy luận sâu.

  • N
    Ngoc_Tran

    Từ 40 năm trước đến giờ, toàn bộ quá trình phát triển tư duy toán học được số hóa. Đây mới là legacy thật sự.

  • C
    Cuong_Pham

    Thử bằng tiếng Mông Cổ mà sụt mạnh vậy, rõ ràng AI vẫn thiên vị ngôn ngữ phổ biến. Không công bằng tí nào.

  • H
    Hang_SG

    Họ làm sạch 25.000 trang tài liệu quét cũ? Tưởng tượng cảnh xử lý file PDF mờ, lệch, chữ nhòe mà choáng. Công đoạn manual này chắc khổ hơn cả code.

  • D
    Duy_Tuan

    Navid Safaei thu thập từ 2006? Người thật việc thật. Không có những enthusiast như vậy thì không có dữ liệu chất lượng.

  • M
    Mai_Huong

    Bài nào có diagram mà AI giải yếu hoài, đúng là vẫn cần bộ não con người để 'nhìn' và 'hiểu' đồng thời.

Nội dung được dựa trên sự thật và được dựng lại với mục đích học tiếng Anh; phản hồi của độc giả là ví dụ cho nhiều góc nhìn khác nhau.

[email protected]