AI screen abstract đang được nhiều nhóm nghiên cứu thử vì tốc độ. Thực tế không đơn giản như vậy — sai số tồn tại và cần kiểm soát chủ động, không phải kỳ vọng nó không xảy ra.
Dưới đây là những gì mình quan sát được khi dùng Claude screen 200 abstract cho một meta-analysis về phẫu thuật nhi.
AI screen abstract nhanh bao nhiêu
200 abstract, mình đưa từng batch 20–30 vào Claude với một prompt thống nhất gồm inclusion/exclusion criteria cụ thể. Claude cho kết quả include/exclude trong vài giây mỗi batch. Tổng thời gian xử lý khoảng 2 tiếng — gồm cả thời gian soát prompt và điều chỉnh khi kết quả có vẻ lệch.
Manual screen toàn bộ 200 abstract theo kinh nghiệm mất 1–2 ngày. Đây là lý do AI screening hấp dẫn. Nhưng tốc độ là thứ dễ đo nhất, không phải thứ quan trọng nhất.
Sai số thực tế ra sao
Mình manual double-check ngẫu nhiên 50/200 kết quả (25%). Kết quả so sánh AI vs mình:
- Agreement: 87%
- False negative (AI exclude, mình include): 4 trường hợp
- False positive (AI include, mình exclude): 2 trường hợp
4 false negative là con số đáng chú ý. Trong meta-analysis, false negative nghĩa là bỏ sót nghiên cứu đủ tiêu chuẩn — kết quả tổng hợp bị thiên vị ngay từ bước screening. Với systematic review nghiêm túc, mục tiêu thường là false negative rate gần 0.
Tại sao AI bỏ sót
Trace lại 4 trường hợp bị bỏ sót, pattern nhất quán: abstract viết mơ hồ hoặc không nêu tường minh design so sánh. Claude judge dựa trên những gì abstract viết ra, không phải những gì full-text có thể chứa.
Một trường hợp cụ thể: abstract ghi "post-operative outcomes of primary repair" — không rõ có nhóm so sánh staged repair không. Mình biết từ context của field rằng cohort đó có so sánh; Claude không biết. AI đọc văn bản, không đọc field-specific context.
Giới hạn này không phải lỗi của AI, mà là đặc điểm cần biết để thiết kế workflow đúng.
Workflow kiểm soát sai số
Sau khi hiểu vấn đề, mình điều chỉnh workflow như sau:
Checklist AI Screen Abstract
- Viết inclusion/exclusion criteria thành prompt rõ ràng — không để AI suy diễn từ tiêu đề nghiên cứu
- Batch nhỏ 20–30 abstract mỗi lần, không đổ toàn bộ vào một prompt
- Đọc qua abstract bị label "exclude" — ít nhất scan 1–2 câu để bắt những bài viết mơ hồ
- Manual double-check ≥20% ngẫu nhiên để ước tính agreement rate thực tế
- Abstract mơ hồ hoặc không rõ design: manual review bắt buộc, không để AI quyết định
- Log các case AI sai — ghi lại để điều chỉnh prompt cho batch tiếp theo
Bước cuối nhiều người bỏ qua vì tốn thêm thời gian. Đây chính là cách tích lũy hiểu biết về điểm mù của AI trong topic cụ thể của mình.
Vai trò đúng của AI trong bước này
Cách dùng phù hợp nhất: AI screening là bước lọc sơ — loại những abstract rõ ràng không đủ tiêu chuẩn (wrong population, wrong intervention, không có nhóm so sánh). Phần còn lại vẫn cần human review.
Tiết kiệm thực sự không phải thay manual review, mà rút ngắn số abstract cần manual review xuống còn 30–50%. Với hơn 1000 record sau dedup, điều này vẫn có giá trị rất lớn.
Một lưu ý tách biệt: trước khi screen abstract, kiểm tra search string cẩn thận. AI tạo search string thường mắc lỗi toán tử Boolean — OR/AND kết hợp nhiều MeSH term dễ bị sai mà không có cảnh báo. Sai từ search string thì bước AI screening sau đó không thể bù đắp. Mình đề cập chi tiết hơn vào workflow AI đầy đủ cho systematic review.
Kết
87% agreement nghe ổn — nhưng với 200 abstract, 13% sai số tương đương 26 case, không thể chấp nhận nếu không có verification layer. AI screen abstract là công cụ hữu ích khi biết giới hạn của nó và thiết kế workflow xung quanh giới hạn đó.
Nếu bạn muốn xây dựng systematic review workflow bài bản hơn, AI cho systematic review — workflow 8 bước đi sâu vào toàn bộ pipeline từ search đến PRISMA flow, trong đó screening là một bước.
Mình đang tổng hợp toàn bộ prompt set cho systematic review — bao gồm prompt screen abstract đã được test thực tế — vào Prompt Pack: SR/MA, 25 prompt từ protocol đến forest plot.