AI ảo giác y khoa — 4 kiểu sai bác sĩ cần biết trước khi dùng AI cho nghiên cứu

AI ảo giác y khoa không phải lỗi hiếm gặp, và không giới hạn ở chuyện AI "nói sai sự kiện". Có 4 kiểu sai cơ bản mà bất kỳ bác sĩ nào đang dùng AI cho nghiên cứu đều cần hiểu rõ — vì một số kiểu trong đó không chỉ làm hỏng bản thảo, mà còn làm suy yếu khả năng phát hiện sai của chính bạn theo thời gian.

Mình viết bài này từ góc nhìn người vừa dùng AI thực tế cho nhiều nghiên cứu lâm sàng, vừa đang nghiên cứu về cách AI ảnh hưởng đến quy trình sản xuất tri thức khoa học — trong đó có bài đang peer review của mình về rủi ro nhận thức khi đưa AI vào nghiên cứu.

Đây không phải bài chống AI. Mình vẫn dùng Claude, ChatGPT và các công cụ AI khác hằng ngày. Nhưng dùng có ý thức nghĩa là biết chính xác AI sai ở chỗ nào.

Ảo giác trích dẫn — AI bịa reference như thế nào?

Đây là kiểu sai được biết đến nhiều nhất, nhưng mức độ nguy hiểm vẫn bị đánh giá thấp.

AI tạo ra nguồn trích dẫn trông hoàn toàn hợp lệ: tên tác giả, năm xuất bản, tên tạp chí, số trang, thậm chí PMID và DOI. Nhưng khi bạn vào PubMed tra, PMID đó không tồn tại. Hoặc tồn tại nhưng là bài hoàn toàn khác. Hoặc tên tác giả sai thứ tự. Hoặc kết quả được trích dẫn ngược với kết quả thật trong bài gốc.

Ảo giác trích dẫn nguy hiểm vì nó trông đúng. Khác với câu văn ngữ pháp sai hay số liệu vô lý, một reference giả trông giống hệt reference thật — và khi bạn đang soạn bản thảo với 40 nguồn trong danh mục, việc click kiểm từng DOI không phải lúc nào cũng xảy ra.

Mình kiểm reference AI tạo ra theo thói quen — tra từng PMID qua PubMed, không tin DOI vì DOI có thể có định dạng đúng nhưng trỏ về bài khác. Kết quả không bao giờ hoàn hảo. Một tỉ lệ nhất định luôn có vấn đề: PMID sai, tên tác giả không khớp, nội dung được trích dẫn không phản ánh bài gốc.

Công cụ kiểm tra tự động như CiteCheck có thể so đối chiếu trên hơn 240 triệu bài trên CrossRef, PubMed, Semantic Scholar, OpenAlex — hữu ích cho bước kiểm tra nhanh. Nhưng không thay thế được bước đọc và xác nhận nội dung của từng nguồn.

Nguyên tắc thực tế: Bất kỳ reference nào AI tạo ra, bạn kiểm thủ công trước khi đưa vào bản thảo. Không có ngoại lệ ở bước này.

Mô tả bước chưa làm — AI tạo ra vỏ bọc quy trình không có thật

Đây là kiểu sai ít được bàn đến hơn, và theo mình nguy hiểm hơn ảo giác trích dẫn.

AI có thể tạo ra mô tả của một quy trình khoa học mà không thực sự thực hiện quy trình đó. Ví dụ cụ thể: bạn nhờ AI viết đoạn mô tả sơ đồ PRISMA cho systematic review. AI tạo ra đoạn văn đầy đủ, đúng format, đúng thuật ngữ — mô tả quy trình sàng lọc, bao gồm, loại trừ rất hoàn chỉnh. Nhưng nếu bạn chưa thực sự chạy bước sàng lọc đó, đoạn văn đó là giả.

Điều tương tự xảy ra với đánh giá nguy cơ sai lệch (risk of bias), tóm tắt GRADE, mô tả phân tích độ nhạy (sensitivity analysis). AI có thể viết những đoạn đó trông như thật, ngay cả khi không có phân tích thật phía sau.

Vấn đề không phải bạn muốn gian lận — vấn đề là khi làm việc nhanh dưới áp lực, ranh giới giữa "AI giúp mình diễn đạt bước này" và "AI tạo ra bước này thay mình" rất dễ bị mờ. Reviewer không thể phân biệt hai trường hợp từ bản thảo nộp. Nhưng bạn phải tự biết.

Nguyên tắc của mình: AI viết mô tả của những gì mình đã làm, không tạo ra bản ghi của những gì chưa xảy ra. Khi mình không chắc một bước đã thực sự được thực hiện, mình không nhờ AI viết bước đó — mình đi làm bước đó trước.

Trôi dạt theo phiên bản — tại sao kết quả hôm nay có thể khác hôm qua?

Đây là kiểu sai ít được nhắc đến nhất, nhưng quan trọng nhất với nghiên cứu cần có thể tái lập.

AI trôi dạt (drift) theo thời gian — đây là từ mình dùng để mô tả hiện tượng mô hình AI thay đổi hành vi khi được cập nhật. GPT-4 từ năm 2023 xử lý cùng một câu hỏi y khoa theo cách khác với GPT-4o năm 2024, khác với Claude 3.7 năm 2025. Không chỉ là "đầu ra khác nhau một chút" — ở một số nhận định lâm sàng cụ thể, hướng của câu trả lời có thể đảo chiều.

Điều này tạo ra vấn đề thực tế. Nếu bạn dùng AI để hỗ trợ tổng hợp bằng chứng — tóm tắt tài liệu, trích xuất kết luận từ bài báo, tổng hợp khuyến cáo — đầu ra bạn nhận phụ thuộc vào phiên bản AI bạn dùng tại thời điểm đó. Một systematic review có AI hỗ trợ từ năm 2023, nếu thực hiện lại năm 2026, có thể cho kết quả khác — không phải vì tài liệu thay đổi mà vì mô hình thay đổi.

Trôi dạt rõ nhất ở các nhận định còn đang tranh luận trong tài liệu y khoa — đúng là những nhận định quan trọng nhất, nơi bạn cần AI xử lý nhất quán nhất.

Cách xử lý thực tế: Ghi lại trong phần Phương pháp: tên công cụ, phiên bản cụ thể, ngày truy cập, và toàn bộ câu lệnh (prompt) đặt trong phần Phụ lục. Nếu dùng API, lưu model_id trong từng lần gọi. Đây không phải đối phó reviewer — đây là điều kiện để nghiên cứu của bạn có thể tái lập được.

Xác nhận mềm — khi AI đồng ý trước khi bạn cần phản biện

AI được huấn luyện để hữu ích và dễ chịu với người dùng. Kết quả là: khi bạn đưa ra một lập luận và hỏi AI "điều này có đúng không?", AI có xu hướng xác nhận — đặc biệt khi câu hỏi đã gợi hướng trả lời.

Mình đã thử nghiệm điều này nhiều lần. Đưa đoạn diễn giải kết quả trong phần Bàn luận cho Claude và hỏi "đoạn này ổn chưa?" — Claude khen. Rồi thêm vào một câu diễn giải sai rõ ràng, hỏi lại — Claude vẫn khen phần tổng thể, chỉ có nhận xét nhỏ về câu sai. Không phải Claude không phát hiện — mà vì Claude được huấn luyện để ủng hộ người dùng nhiều hơn là phản biện thẳng.

Kiểu sai này nguy hiểm nhất ở phần Bàn luận và Kết luận — chỗ bạn diễn giải ý nghĩa của kết quả. AI sẽ không chủ động nói với bạn rằng lập luận đang vòng vo, vượt quá bằng chứng, hoặc bỏ sót góc nhìn quan trọng — trừ khi bạn yêu cầu thẳng.

Cách chuyển chế độ: Thay vì hỏi "đoạn này tốt không?", hãy hỏi "hãy tìm lỗi sai trong lập luận này" hoặc "đóng vai reviewer phản biện, viết 3 điểm yếu của đoạn này". Thay đổi cách đặt câu hỏi để AI không mặc định ở chế độ xác nhận.

Suy giảm miễn dịch nhận thức — kiểu sai tích lũy theo thời gian

Đây là kiểu sai mình thấy đáng lo ngại nhất về dài hạn.

Khi bạn dùng AI liên tục và AI luôn đưa ra câu trả lời hợp lý, não bộ tự nhiên giảm cảnh giác. Bạn bắt đầu đọc qua đầu ra AI mà không đọc kỹ từng câu. Không còn click kiểm từng DOI. Không tự hỏi xem có góc nhìn nào bị bỏ sót trong phần Bàn luận không.

Từng bước nhỏ đó trông như tiết kiệm thời gian. Nhưng sau nhiều tháng, bạn đã ủy thác một lượng lớn năng lực tự kiểm tra sang AI — trong khi AI vẫn có đủ 3 kiểu sai ở trên.

Trong bài đang peer review của mình về rủi ro nhận thức khi đưa AI vào nghiên cứu, mình gọi hiện tượng này là suy giảm miễn dịch nhận thức — tương tự với hệ miễn dịch sinh học: nếu không được thử thách thường xuyên, khả năng phòng thủ suy yếu.

Dấu hiệu cụ thể ở quy trình nghiên cứu:

Đọc tóm tắt AI tạo ra mà không đọc abstract gốc
Dùng số liệu AI đưa trong phần Bàn luận mà không đối chiếu với bảng dữ liệu gốc
Gửi rebuttal mà không đọc lại sau khi AI soạn
Nhờ AI "kiểm reference" rồi không kiểm thêm nữa

Đây không phải lỗi về ý thức nghề nghiệp — đây là phản ứng tự nhiên khi một công cụ đủ tốt để hiếm khi cần kiểm tra. Nhưng trong nghiên cứu y khoa, "hiếm khi sai" không đủ.

Cách mình kiểm soát: giữ lại một số bước đọc và kiểm tra hoàn toàn thủ công, không qua AI, dù mất thêm thời gian. Không phải vì AI luôn sai ở những bước đó — mà vì mình cần duy trì khả năng tự kiểm của mình. Giống như tự đọc kết quả xét nghiệm dù đã có hệ thống cảnh báo tự động — không phải hệ thống sai, mà vì bạn không muốn mất kỹ năng đó.

Bốn kiểu sai này khuếch đại nhau như thế nào trong quy trình nghiên cứu?

Bốn kiểu sai không độc lập — chúng cộng hưởng nhau theo vòng.

AI tạo reference giả, bạn không kiểm vì quen dần (suy giảm miễn dịch nhận thức bắt đầu). Reference giả đó hỗ trợ một nhận định trong bản thảo. AI viết phần Bàn luận dựa trên nhận định đó — tạo ra đoạn văn có vẻ hoàn chỉnh nhưng được xây trên nền tảng không có thật (mô tả bước chưa làm). Qua nhiều lần như vậy, thói quen kiểm tra sâu mòn dần. Khi bạn chuyển sang phiên bản AI mới, cách AI xử lý một số nhận định thay đổi nhưng bạn không nhận ra vì thói quen kiểm tra đã giảm (trôi dạt không được phát hiện).

Đây không phải tình huống cực đoan khó xảy ra — đây là logic của từng bước nhỏ cộng dồn trong quy trình nghiên cứu bình thường.

Bài AI cho systematic review — workflow mình dùng có ví dụ cụ thể về cách thiết kế các điểm kiểm soát trong quy trình AI hỗ trợ. Bài Workflow AI cho bác sĩ làm nghiên cứu đặt 4 kiểu sai này trong bối cảnh đầy đủ của quy trình từ tìm kiếm tài liệu đến nộp bản thảo.

Làm gì để dùng AI an toàn trong nghiên cứu y khoa?

Không phải ngừng dùng AI — mà là dùng có hệ thống với các điểm kiểm soát đặt đúng chỗ.

Kiểm reference trước khi nộp bản thảo. Mỗi PMID, mỗi DOI, mỗi tên tác giả. Không có ngoại lệ. Dùng PubMed tra thủ công hoặc công cụ kiểm tra tự động như CiteCheck làm bước lọc đầu.

Không nhờ AI viết mô tả bước chưa làm. Nếu bước đó chưa xảy ra trong thực tế, không có gì để AI mô tả. Phân tích trước, diễn đạt sau.

Ghi lại phiên bản AI và câu lệnh trong phương pháp. Điều này trở thành tiêu chuẩn bắt buộc ở nhiều tạp chí. Làm từ bây giờ giúp bạn tái lập được nghiên cứu của chính mình 2 năm sau.

Đặt AI ở chế độ phản biện, không chế độ xác nhận. "Tìm lỗi sai trong lập luận này" hiệu quả hơn "đoạn này ổn chưa?" — đặc biệt cho phần Bàn luận.

Giữ ít nhất một bước kiểm tra thủ công không ủy thác. Chọn bước quan trọng nhất với loại nghiên cứu của bạn: reference, số liệu chính trong abstract, kết luận cuối bài. Đọc lại thẳng từ dữ liệu gốc, không qua trung gian AI.

Hiểu được 4 kiểu sai này không làm bạn dùng AI ít hơn — nó giúp bạn dùng đúng chỗ và biết chỗ nào cần giữ quyền kiểm soát. AI giỏi nhất ở những bước có thể kiểm tra lại được. Bước nào bạn không kiểm tra lại được thì đó là bước bạn chưa nên ủy thác.

Khoá Ứng dụng AI trong Nghiên cứu Khoa học có module riêng về kiểm tra đầu ra AI — từ xác minh reference, kiểm tra độ chính xác phần Phương pháp, đến kiểm toán phần Bàn luận trước khi nộp bản thảo. Thiết kế từ quy trình thực tế, không phải lý thuyết.