Dùng AI trích xuất dữ liệu từ bài báo, độ chính xác 87% so với làm tay

AI trích xuất dữ liệu từ paper nghe có vẻ là công đoạn dễ tự động hóa nhất trong systematic review. Thực tế có một loại sai số đặc trưng mà nếu không biết, bạn sẽ không biết mình đang mang số liệu sai vào phân tích.

Dưới đây là những gì mình quan sát khi thực tế dùng Claude trích xuất dữ liệu trong một đợt 8 paper, so sánh RCT và registry trong phẫu thuật.

Độ chính xác trích xuất dữ liệu AI thực tế là bao nhiêu

8 paper, mình cho Claude đọc PDF (dán văn bản) và trích xuất các trường: sample size (n), primary outcome, follow-up duration, comparison groups. Sau đó mình kiểm chứng tay toàn bộ.

Kết quả:

87% khớp giữa AI và kiểm tra tay
13% sai, và gần toàn bộ 13% này đến từ một lỗi cụ thể: Claude nhầm Table 1 vs Table 2

Table 1 trong clinical paper thường là demographics. Table 2 thường là outcomes. Claude trích xuất sample size từ Table 2 (số theo nhóm outcome) thay vì Table 1 (số toàn bộ cohort). Kết quả: n bị báo thấp hơn thực tế trong vài trường hợp.

Tại sao lỗi này xảy ra

Paper clinical không có schema chuẩn. "Table 1" ở bài này là demographics, "Table 1" ở bài khác là primary outcome. AI không đọc bối cảnh, AI đọc nhãn.

Khi prompt yêu cầu "extract sample size", Claude lấy số đầu tiên có liên quan đến "n =" trong các table, không phải lúc nào cũng đúng table.

Lỗi này không xảy ra khi mình trích xuất từ Methods section thay vì Tables. Methods section thường ghi rõ "n = X patients were enrolled", đơn nghĩa hơn nhiều.

Quy trình trích xuất dữ liệu với AI

Sau khi hiểu điểm sai, mình điều chỉnh prompt và checklist:

Checklist AI Trích Xuất Dữ Liệu

Ưu tiên trích xuất từ Methods/Patients section trước, rõ hơn Tables
Với số liệu outcome: chỉ rõ trong prompt "trích xuất từ Results section, không phải Table 1"
Kiểm chứng mọi con số n, so sánh số AI báo cáo với số trong abstract (thường nhất quán)
Với follow-up duration: kiểm tra cả "mean follow-up" và "median follow-up", paper dùng hai cách khác nhau
Với outcome phức hợp: AI hay lấy composite endpoint thay vì primary endpoint, chỉ rõ trong prompt
Kiểm chứng tay 100% với systematic review ≤20 bài, AI là bản nháp, không phải bản cuối

Bước cuối cùng là quan trọng nhất: với đợt nhỏ 8 paper, kiểm chứng tay toàn bộ không tốn nhiều thời gian. Tiết kiệm ở đây là AI tạo bản nháp form trích xuất nhanh để mình kiểm chứng, không phải AI thay mình kiểm chứng.

Khi nào AI trích xuất dữ liệu thực sự tiết kiệm thời gian

Với tập tài liệu nhỏ (≤20 bài), tiết kiệm thực sự không nhiều, AI tạo bản nháp, mình kiểm chứng vẫn gần bằng thời gian làm tay.

Với tập tài liệu lớn hơn (50, 100 bài), AI trích xuất dữ liệu có giá trị hơn: tạo ra bản nháp có cấu trúc cho toàn bộ tập tài liệu, sau đó mình chỉ kiểm chứng chứ không bắt đầu từ form trống. Đây là vai trò đúng.

Một lưu ý quan trọng: 5 prompt Claude mình dùng hằng ngày khi đọc paper có một số prompt đọc paper tổng quát, trích xuất dữ liệu cần prompt cụ thể hơn nhiều, với schema trường dữ liệu rõ ràng và nguồn section được chỉ định.

Kết

87% độ chính xác nghe ổn nhưng 13% sai số trong trích xuất dữ liệu là vấn đề nghiêm trọng hơn 13% sai số trong rà soát abstract. Số liệu sai vào phân tích thì kết quả sai ra. Nhầm lẫn giữa các bảng là lỗi đặc trưng của AI trích xuất dữ liệu, biết trước để chỉ định rõ trong prompt và kiểm chứng có chủ đích.

Nếu bạn đang xây dựng quy trình systematic review từ đầu, AI cho systematic review, quy trình từ PROSPERO đến bản thảo tổng hợp các bước, trích xuất dữ liệu là một trong đó.

Prompt set đầy đủ cho data extraction clinical paper, bao gồm prompt schema cho RCT, cohort, và case series, có trong Prompt Pack: SR/MA.