Tuyến Trần, MD
AI cho nghiên cứu

Elicit, Consensus hay SciSpace: công cụ AI nào tìm tài liệu y khoa chính xác hơn?

Ba công cụ AI phổ biến nhất cho literature search, cùng một đề tài, kết quả khác nhau rõ rệt. Chia sẻ những gì mình thực sự thấy về recall, precision, và citation accuracy.

Có ba công cụ AI search paper mình thấy được đề cập nhiều nhất trong cộng đồng nghiên cứu y khoa: Elicit, Consensus, và SciSpace. Cả ba đều miễn phí ở mức cơ bản. Cả ba đều hứa "tìm paper nhanh hơn, chính xác hơn."

Mình test Elicit vs Consensus vs SciSpace trên cùng một query: anorectal malformation outcomes — systematic review mình đang làm. Kết quả khác nhau rõ đến mức mình không thể dùng chung cho cùng một mục đích.

Setup — Elicit vs Consensus vs SciSpace test như thế nào

Query giống nhau: "anorectal malformation outcomes" không có filter thêm. Mình xem kết quả đầu tiên trả về của mỗi tool, đánh giá 3 tiêu chí:

  • Recall: có bắt được các paper quan trọng mình đã biết không?
  • Precision: paper trả về có liên quan thật không, hay lan sang topic khác?
  • Citation accuracy: tên tác giả, năm, journal có đúng không khi verify tay?

Elicit

Elicit được build với systematic review trong đầu. Giao diện của nó cho phép extract thông tin theo columns — population, intervention, outcome, sample size — ngay từ kết quả search. Đây là điểm mạnh rõ nhất.

Với query này, Elicit trả về kết quả tương đối rộng — recall tốt. Mình tìm thấy thấy một số paper mình đã biết từ PubMed search của mình. Nhưng precision thấp hơn hai tool kia: nhiều bài về ARM anatomy, imaging, embryology xuất hiện lẫn vào bài về surgical outcomes. Elicit không tự filter scope tốt.

Một điểm hữu ích: Elicit có thể export danh sách kết quả ra CSV, giúp mình batch-import vào Zotero. Với systematic review cần track nhiều paper, feature này tiết kiệm thời gian.

Điểm yếu: citation accuracy của Elicit không ổn định. Trong test của mình, một số paper có năm xuất bản lệch 1-2 năm so với thực tế, hoặc tên journal bị rút gọn không chuẩn. Với systematic review mà cần citation chính xác cho reference list — luôn verify lại.

Consensus

Consensus thiết kế khác hẳn. Nó không chỉ trả về danh sách paper — nó cố gắng tổng hợp xem các paper đó có đồng thuận với nhau không, và về điều gì.

Với query outcomes, Consensus trả về ít kết quả hơn Elicit nhưng precision cao hơn. Các paper trả về gần như đều là surgical outcomes studies, không có anatomy hay imaging lẫn vào. Recall thấp hơn — mình thấy một số paper quan trọng trong corpus của mình không xuất hiện trong kết quả Consensus.

Điểm mạnh rõ nhất: Consensus cho biết "mức đồng thuận" giữa các paper — bao nhiêu bài support một claim, bao nhiêu bài contradict. Với đề tài này, có nhiều disagreement về single-stage vs staged approach, feature này hiển thị trực quan hơn hẳn so với đọc từng paper.

Citation accuracy trong test của mình cao hơn Elicit. Phần lớn tác giả, năm, journal đều verify được. Nhưng sample size mình test nhỏ — không đủ để kết luận chắc chắn.

Điểm yếu: database Consensus nhỏ hơn, đặc biệt với paper ngoài các journal lớn. Với ARM/nhi khoa, nhiều paper từ châu Á và các journal nhi khoa chuyên biệt, nhiều paper không có trong Consensus.

SciSpace

SciSpace thiết kế cho interactive reading, không phải systematic search. Điểm mạnh của nó là khi bạn đã có một PDF cụ thể — bạn có thể hỏi câu hỏi trực tiếp về paper đó, highlight đoạn text và yêu cầu giải thích, hoặc so sánh với paper khác.

Ở level search ban đầu, SciSpace không mạnh bằng hai tool kia. Recall thấp, kết quả hay nghiêng về các paper có full-text accessible. Nhiều paper ARM quan trọng trong corpus của mình bị miss ở bước search.

Nơi SciSpace thực sự hữu ích: sau khi đã có danh sách paper từ Elicit hoặc PubMed search. Mình upload PDF của các paper included vào SciSpace và hỏi từng câu hỏi cụ thể — "bài này define continence theo thang điểm nào?", "follow-up median là bao nhiêu tháng?" SciSpace trích dẫn đoạn text cụ thể trong paper, giúp mình verify data extraction nhanh hơn nhiều so với đọc lại toàn bộ.

Khi nào dùng cái nào

Sau khi test cả ba, mình dùng theo mục đích:

Mục đích Tool phù hợp
Build initial list, broad recall Elicit
Kiểm tra consensus giữa các paper Consensus
Deep-read một paper cụ thể SciSpace
Systematic search chính thức PubMed / Embase / Cochrane (ba tool này không thay được)

Quan điểm thẳng của mình: không có tool nào trong ba cái này thay được PubMed search cho systematic review thực sự. Recall của Elicit, Consensus, và SciSpace đều không đủ để capture toàn bộ literature cần cho meta-analysis. mình tìm được 4 paper included sau khi search MEDLINE, Embase, Cochrane đầy đủ — nếu chỉ dùng Elicit thì sẽ miss ít nhất 1-2 bài từ Embase hoặc Cochrane không index ở chỗ Elicit kéo về.

Nhưng cho mục đích explore nhanh, build research question, hoặc đọc paper sâu — cả ba đều có chỗ đứng trong workflow.

Workflow đầy đủ cho systematic review với AI — từ PROSPERO đến PRISMA flow — xem bài AI cho systematic review — workflow 8 bước. Còn nếu bạn đang ở giai đoạn tìm gap nghiên cứu, bài AI tìm gap nghiên cứu — case study hypospadias chia sẻ cách mình dùng Elicit và Consensus để scope một đề tài mới từ đầu. Và cho overview toàn bộ paper workflow, xem bài 10 bước viết paper với AI.


Muốn biết cách tích hợp các tool này vào quy trình nghiên cứu thực tế? Ứng dụng AI trong NCKH — workflow từ search đến submit, có template và ví dụ thực tế.