So với các mô hình khác không sử dụng công cụ, nó đạt hiệu suất tốt nhất trên các lĩnh vực:
🔘 LiveCodeBench V6, đánh giá hiệu suất mã cạnh tranh
🔘 Bài Kiểm Tra Cuối Cùng của Nhân Loại, một tiêu chuẩn thách thức đo lường chuyên môn của một mô hình trong các lĩnh vực khác nhau, bao gồm khoa học.
Xem bản gốc