AI trôi dạt (drift) theo phiên bản — paper 2024 dùng GPT-4 có replicate được vào 2026?

AI drift phiên bản là vấn đề mình gặp trực tiếp khi đang viết một bài nghiên cứu về giới hạn nhận thức của AI trong khoa học. Mình test cùng một câu hỏi phân loại trên GPT-4, Claude, và Gemini ở các thời điểm khác nhau — và kết quả khác nhau đáng kể, không phải vì câu hỏi thay đổi mà vì mô hình thay đổi.

Đây là vấn đề lớn hơn nhiều người nhận ra, đặc biệt với bác sĩ đang dùng AI trong quy trình nghiên cứu.

AI drift phiên bản là gì?

Trôi dạt theo phiên bản xảy ra khi một mô hình AI được cập nhật hoặc thay thế bằng phiên bản mới, làm thay đổi kết quả đầu ra ngay cả khi bạn dùng cùng một câu hỏi. Đây không phải lỗi kỹ thuật — đây là đặc điểm thiết kế. Mô hình mới thường được điều chỉnh thêm về mặt định hướng, cập nhật dữ liệu huấn luyện, và thay đổi cách xử lý một số loại câu hỏi nhất định.

Với ứng dụng phổ thông như "viết email" hay "tóm tắt văn bản", điều này không quan trọng lắm. Nhưng trong nghiên cứu khoa học — nơi khả năng tái lập là tiêu chí cốt lõi — đây là vấn đề có tính cấu trúc.

Mình thử nghiệm như thế nào?

Trong một bài preprint mình đang viết về rủi ro nhận thức khi dùng AI trong khoa học, mình thiết kế một thử nghiệm nhỏ: dùng cùng một câu hỏi phân loại có tính đúng/sai rõ ràng và test trên nhiều mô hình ở các thời điểm khác nhau trong giai đoạn 2023–2025.

Kết quả: cùng một câu hỏi, câu trả lời thay đổi theo hướng khác nhau giữa các mô hình và theo thời gian. Không phải là thay đổi ngẫu nhiên — mà là thay đổi có hướng, phản ánh cách mỗi mô hình được điều chỉnh tại thời điểm đó.

Điều này có nghĩa là: nếu một bài báo năm 2024 dùng GPT-4 để phân loại dữ liệu, và một nhóm khác muốn tái lập nghiên cứu đó vào năm 2026 bằng GPT-4o hay phiên bản mới hơn — hai kết quả có thể không khớp, kể cả khi họ dùng cùng câu hỏi.

Ba hệ quả cụ thể trong nghiên cứu

Hệ quả 1 — Không thể tái lập đầy đủ: Nếu bạn đăng một nghiên cứu mà AI là bước xử lý dữ liệu trung gian, người khác không thể tái lập kết quả đó nếu họ dùng phiên bản AI khác. Đây là dạng khủng hoảng tái lập mới nổi trong lĩnh vực nghiên cứu có dùng AI.

Hệ quả 2 — Kết quả trôi dạt trong nghiên cứu dài hạn: Nếu bạn làm một nghiên cứu trải dài theo thời gian và dùng AI ở nhiều bước khác nhau, kết quả ở giai đoạn sau có thể không so sánh được với giai đoạn trước vì mô hình đã cập nhật giữa chừng.

Hệ quả 3 — Khó xác định nguồn gốc sai lệch: Nếu kết quả nghiên cứu có dùng AI của bạn khác với nhóm khác, không rõ sai lệch đến từ thiết kế nghiên cứu, từ dữ liệu, hay từ mô hình AI khác phiên bản.

Cách ghi chép phiên bản AI trong phần Phương pháp

Sau khi nhận ra vấn đề này, mình thay đổi ngay cách ghi phần Methods. Trong bất kỳ nghiên cứu nào có dùng AI, cần ghi đủ:

Tên mô hình cụ thể (ví dụ: GPT-4 Turbo, Claude 3.5 Sonnet, Gemini 1.5 Pro)
Ngày truy cập hoặc mã phiên bản API (ví dụ: gpt-4-1106-preview)
Nhiệt độ và các thông số kiểm soát kết quả đầu ra
Câu hỏi gốc chính xác — có thể đưa vào phần Phụ lục

Điều này không giải quyết được vấn đề tái lập hoàn toàn, vì kể cả khi ghi đầy đủ, bạn không thể chạy lại trên đúng phiên bản đó vài năm sau. Nhưng nó cho phép người đọc đánh giá được sự chênh lệch nếu có, và đó là mức tối thiểu cần có.

Với workflow AI cho bác sĩ làm nghiên cứu, bước ghi chú phiên bản AI nên là một phần của quy trình từ đầu, không phải bổ sung vào lúc viết manuscript.

Điểm thực hành: frozen model endpoint

Một số nhóm nghiên cứu đang dùng giao diện lập trình (API) với phiên bản cố định (frozen endpoint) để bảo đảm tính ổn định trong giai đoạn thu thập dữ liệu. Ví dụ, OpenAI cung cấp các đầu nối như gpt-4-0613 — duy trì kết quả ổn định hơn so với đầu nối mặc định vốn được cập nhật liên tục.

Đây là cách tiếp cận thực tế hơn cho nghiên cứu so với dùng giao diện web thông thường. Nhưng nó đòi hỏi bạn hiểu cơ bản về lập trình API.

Với systematic review, mình thấy quy trình sàng lọc AI cho systematic review cần được thiết kế với phiên bản mô hình cố định từ đầu nếu bạn muốn kết quả có thể đối chiếu được.

Điểm mấu chốt

AI không phải là hộp đen cố định. Nó thay đổi theo thời gian mà không thông báo cho bạn.

Nếu bạn dùng AI như một công cụ trong quy trình nghiên cứu — không phải chỉ để viết văn mà để phân loại, trích xuất, hay phân tích dữ liệu — hãy coi nó như một thiết bị đo lường. Và mọi thiết bị đo lường đều cần được ghi chép phiên bản, ngày hiệu chuẩn, và giới hạn vận hành.

Khoá AI trong NCKH có module về tài liệu hoá và tái lập trong nghiên cứu có dùng AI — bao gồm mẫu ghi chép phiên bản AI cho phần Phương pháp.