AI extract data từ paper nghe có vẻ là công đoạn dễ tự động hóa nhất trong systematic review. Thực tế có một loại sai số đặc trưng mà nếu không biết, bạn sẽ không biết mình đang mang số liệu sai vào phân tích.
Dưới đây là những gì mình quan sát khi thực tế dùng Claude extract data trong một batch 8 paper — so sánh RCT và registry trong phẫu thuật.
AI extract data accuracy thực tế là bao nhiêu
8 paper, mình cho Claude đọc PDF (paste text) và extract các trường: sample size (n), primary outcome, follow-up duration, comparison groups. Sau đó mình manual verify toàn bộ.
Kết quả:
- 87% match giữa AI và manual
- 13% sai — và gần toàn bộ 13% này đến từ một lỗi cụ thể: Claude nhầm Table 1 vs Table 2
Table 1 trong clinical paper thường là demographics. Table 2 thường là outcomes. Claude extract sample size từ Table 2 (số theo nhóm outcome) thay vì Table 1 (số toàn bộ cohort). Kết quả: n bị báo thấp hơn thực tế trong vài trường hợp.
Tại sao lỗi này xảy ra
Paper clinical không có schema chuẩn. "Table 1" ở bài này là demographics, "Table 1" ở bài khác là primary outcome. AI không đọc context, AI đọc label.
Khi prompt yêu cầu "extract sample size", Claude lấy số đầu tiên có liên quan đến "n =" trong các table — không phải lúc nào cũng đúng table.
Lỗi này không xảy ra khi mình extract từ Methods section thay vì Tables. Methods section thường ghi rõ "n = X patients were enrolled" — đơn nghĩa hơn nhiều.
Workflow extract data với AI
Sau khi hiểu điểm sai, mình điều chỉnh prompt và checklist:
Checklist AI Extract Data
- Ưu tiên extract từ Methods/Patients section trước — rõ hơn Tables
- Với số liệu outcome: chỉ rõ trong prompt "extract từ Results section, không phải Table 1"
- Verify mọi con số n — so sánh số AI report với số trong abstract (thường nhất quán)
- Với follow-up duration: check cả "mean follow-up" và "median follow-up" — paper dùng hai cách khác nhau
- Với outcome phức hợp: AI hay lấy composite endpoint thay vì primary endpoint — chỉ rõ trong prompt
- Manual verify 100% với systematic review ≤20 bài — AI là draft, không phải final
Bước cuối cùng là quan trọng nhất: với batch nhỏ 8 paper, manual verify toàn bộ không tốn nhiều thời gian. Tiết kiệm ở đây là AI tạo draft extraction form nhanh để mình verify — không phải AI thay mình verify.
Khi nào AI extract data thực sự tiết kiệm thời gian
Với corpus nhỏ (≤20 bài), tiết kiệm thực sự không nhiều — AI tạo draft, mình verify vẫn gần bằng thời gian manual.
Với corpus lớn hơn (50–100 bài), AI extract data có giá trị hơn: tạo ra structured draft cho toàn bộ corpus, sau đó mình chỉ verify chứ không bắt đầu từ blank form. Đây là vai trò đúng.
Một lưu ý quan trọng: 5 prompt Claude mình dùng hằng ngày khi đọc paper có một số prompt đọc paper tổng quát — data extraction cần prompt cụ thể hơn nhiều, với schema field rõ ràng và nguồn section được chỉ định.
Kết
87% accuracy nghe ổn nhưng 13% sai số trong data extraction là vấn đề nghiêm trọng hơn 13% sai số trong abstract screening. Số liệu sai vào analysis thì kết quả sai ra. Table confusion là lỗi đặc trưng của AI extract data — biết trước để chỉ định rõ trong prompt và verify có chủ đích.
Nếu bạn đang xây dựng systematic review workflow từ đầu, AI cho systematic review — toàn bộ pipeline từ search đến manuscript tổng hợp các bước — data extraction là một trong đó.
Prompt set đầy đủ cho data extraction clinical paper — bao gồm prompt schema cho RCT, cohort, và case series — có trong Prompt Pack: SR/MA.