Dùng AI sàng lọc tóm tắt, 200 bài báo trong 2 ngày, sai số bao nhiêu?

AI sàng lọc abstract đang được nhiều nhóm nghiên cứu thử vì tốc độ. Thực tế không đơn giản như vậy, sai số tồn tại và cần kiểm soát chủ động, không phải kỳ vọng nó không xảy ra.

Dưới đây là những gì mình quan sát được khi dùng Claude sàng lọc 200 abstract cho một meta-analysis về phẫu thuật nhi.

AI sàng lọc abstract nhanh bao nhiêu

200 abstract, mình đưa từng đợt 20, 30 vào Claude với một prompt thống nhất gồm tiêu chí đưa vào/loại ra cụ thể. Claude cho kết quả đưa vào/loại ra trong vài giây mỗi đợt. Tổng thời gian xử lý khoảng 2 tiếng, gồm cả thời gian soát prompt và điều chỉnh khi kết quả có vẻ lệch.

Sàng lọc thủ công toàn bộ 200 abstract theo kinh nghiệm mất 1, 2 ngày. Đây là lý do AI sàng lọc hấp dẫn. Nhưng tốc độ là thứ dễ đo nhất, không phải thứ quan trọng nhất.

Sai số thực tế ra sao

Mình kiểm tra chéo thủ công ngẫu nhiên 50/200 kết quả (25%). Kết quả so sánh AI với mình:

Agreement: 87%
False negative (AI exclude, mình include): 4 trường hợp
False positive (AI include, mình exclude): 2 trường hợp

4 false negative là con số đáng chú ý. Trong meta-analysis, false negative nghĩa là bỏ sót nghiên cứu đủ tiêu chuẩn, kết quả tổng hợp bị thiên vị ngay từ bước sàng lọc. Với systematic review nghiêm túc, mục tiêu thường là tỷ lệ false negative gần 0.

Tại sao AI bỏ sót

Truy lại 4 trường hợp bị bỏ sót, khuôn mẫu nhất quán: abstract viết mơ hồ hoặc không nêu tường minh design so sánh. Claude phán đoán dựa trên những gì abstract viết ra, không phải những gì full-text có thể chứa.

Một trường hợp cụ thể: abstract ghi "post-operative outcomes of primary repair", không rõ có nhóm so sánh staged repair không. Mình biết từ bối cảnh của lĩnh vực rằng cohort đó có so sánh; Claude không biết. AI đọc văn bản, không đọc bối cảnh chuyên ngành cụ thể.

Giới hạn này không phải lỗi của AI, mà là đặc điểm cần biết để thiết kế quy trình đúng.

Quy trình kiểm soát sai số

Sau khi hiểu vấn đề, mình điều chỉnh quy trình như sau:

Checklist AI Sàng Lọc Abstract

Viết tiêu chí đưa vào/loại ra thành prompt rõ ràng, không để AI suy diễn từ tiêu đề nghiên cứu
Đợt nhỏ 20, 30 abstract mỗi lần, không đổ toàn bộ vào một prompt
Đọc qua abstract bị label "exclude", ít nhất scan 1, 2 câu để bắt những bài viết mơ hồ
Kiểm tra chéo thủ công ≥20% ngẫu nhiên để ước tính tỷ lệ đồng thuận thực tế
Abstract mơ hồ hoặc không rõ design: manual review bắt buộc, không để AI quyết định
Log các case AI sai, ghi lại để điều chỉnh prompt cho batch tiếp theo

Bước cuối nhiều người bỏ qua vì tốn thêm thời gian. Đây chính là cách tích lũy hiểu biết về điểm mù của AI trong topic cụ thể của mình.

Vai trò đúng của AI trong bước này

Cách dùng phù hợp nhất: AI sàng lọc là bước lọc sơ, loại những abstract rõ ràng không đủ tiêu chuẩn (wrong population, wrong intervention, không có nhóm so sánh). Phần còn lại vẫn cần con người xem lại.

Tiết kiệm thực sự không phải thay việc xem lại thủ công, mà rút ngắn số abstract cần xem lại thủ công xuống còn 30, 50%. Với hơn 1000 record sau lọc trùng, điều này vẫn có giá trị rất lớn.

Một lưu ý tách biệt: trước khi sàng lọc abstract, kiểm tra search string cẩn thận. AI tạo search string thường mắc lỗi toán tử Boolean, OR/AND kết hợp nhiều MeSH term dễ bị sai mà không có cảnh báo. Sai từ search string thì bước AI sàng lọc sau đó không thể bù đắp. Mình đề cập chi tiết hơn vào quy trình AI đầy đủ cho systematic review.

Kết

87% đồng thuận nghe ổn, nhưng với 200 abstract, 13% sai số tương đương 26 ca, không thể chấp nhận nếu không có lớp kiểm chứng. AI sàng lọc abstract là công cụ hữu ích khi biết giới hạn của nó và thiết kế quy trình xung quanh giới hạn đó.

Nếu bạn muốn xây dựng quy trình systematic review bài bản hơn, AI cho systematic review, quy trình từ PROSPERO đến bản thảo đi sâu vào toàn bộ quy trình từ tìm kiếm đến PRISMA flow, trong đó sàng lọc là một bước.

Mình đang tổng hợp toàn bộ prompt set cho systematic review, bao gồm prompt sàng lọc abstract đã được thử thực tế, vào Prompt Pack: SR/MA, 25 prompt từ protocol đến forest plot.