Elicit, Consensus hay SciSpace: công cụ AI nào tìm tài liệu y khoa chính xác hơn?

Có ba công cụ AI tìm paper mình thấy được đề cập nhiều nhất trong cộng đồng nghiên cứu y khoa: Elicit, Consensus, và SciSpace. Cả ba đều miễn phí ở mức cơ bản. Cả ba đều hứa "tìm paper nhanh hơn, chính xác hơn."

Mình thử Elicit, Consensus, SciSpace trên cùng một câu truy vấn: anorectal malformation outcomes, systematic review mình đang làm. Kết quả khác nhau rõ đến mức mình không thể dùng chung cho cùng một mục đích.

Cách mình thử nghiệm Elicit, Consensus, SciSpace

Câu truy vấn giống nhau: "anorectal malformation outcomes" không có bộ lọc thêm. Mình xem kết quả đầu tiên trả về của mỗi công cụ, đánh giá 3 tiêu chí:

Recall: có bắt được các paper quan trọng mình đã biết không?
Precision: paper trả về có liên quan thật không, hay lan sang chủ đề khác?
Citation accuracy: tên tác giả, năm, journal có đúng không khi kiểm chứng tay?

Elicit

Elicit được xây dựng với systematic review trong đầu. Giao diện của nó cho phép trích xuất thông tin theo cột, population, intervention, outcome, sample size, ngay từ kết quả tìm kiếm. Đây là điểm mạnh rõ nhất.

Với câu truy vấn này, Elicit trả về kết quả tương đối rộng, recall tốt. Mình tìm thấy một số paper mình đã biết từ tìm kiếm PubMed của mình. Nhưng precision thấp hơn hai công cụ kia: nhiều bài về giải phẫu, hình ảnh học, phôi thai học của ARM xuất hiện lẫn vào bài về kết quả phẫu thuật. Elicit không tự giới hạn phạm vi tốt.

Một điểm hữu ích: Elicit có thể xuất danh sách kết quả ra CSV, giúp mình nhập hàng loạt vào Zotero. Với systematic review cần theo dõi nhiều paper, tính năng này tiết kiệm thời gian.

Điểm yếu: độ chính xác trích dẫn của Elicit không ổn định. Trong lần thử của mình, một số paper có năm xuất bản lệch 1-2 năm so với thực tế, hoặc tên journal bị rút gọn không chuẩn. Với systematic review mà cần citation chính xác cho danh mục tài liệu tham khảo, luôn kiểm chứng lại.

Consensus

Consensus thiết kế khác hẳn. Nó không chỉ trả về danh sách paper, nó cố gắng tổng hợp xem các paper đó có đồng thuận với nhau không, và về điều gì.

Với câu truy vấn về kết quả điều trị, Consensus trả về ít kết quả hơn Elicit nhưng precision cao hơn. Các paper trả về gần như đều là nghiên cứu kết quả phẫu thuật, không có giải phẫu hay hình ảnh học lẫn vào. Recall thấp hơn, mình thấy một số paper quan trọng trong tập tài liệu của mình không xuất hiện trong kết quả Consensus.

Điểm mạnh rõ nhất: Consensus cho biết "mức đồng thuận" giữa các paper, bao nhiêu bài ủng hộ một nhận định, bao nhiêu bài phản bác. Với đề tài này, có nhiều bất đồng về cách tiếp cận single-stage so với staged, tính năng này hiển thị trực quan hơn hẳn so với đọc từng paper.

Độ chính xác trích dẫn trong lần thử của mình cao hơn Elicit. Phần lớn tác giả, năm, journal đều kiểm chứng được. Nhưng cỡ mẫu mình thử nhỏ, không đủ để kết luận chắc chắn.

Điểm yếu: cơ sở dữ liệu Consensus nhỏ hơn, đặc biệt với paper ngoài các journal lớn. Với ARM/nhi khoa, nhiều paper từ châu Á và các journal nhi khoa chuyên biệt, nhiều paper không có trong Consensus.

SciSpace

SciSpace thiết kế cho đọc tương tác, không phải tìm kiếm hệ thống. Điểm mạnh của nó là khi bạn đã có một PDF cụ thể, bạn có thể hỏi câu hỏi trực tiếp về paper đó, đánh dấu đoạn văn bản và yêu cầu giải thích, hoặc so sánh với paper khác.

Ở mức tìm kiếm ban đầu, SciSpace không mạnh bằng hai công cụ kia. Recall thấp, kết quả hay nghiêng về các paper có toàn văn truy cập được. Nhiều paper ARM quan trọng trong tập tài liệu của mình bị bỏ sót ở bước tìm kiếm.

Nơi SciSpace thực sự hữu ích: sau khi đã có danh sách paper từ Elicit hoặc tìm kiếm PubMed. Mình upload PDF của các paper được đưa vào SciSpace và hỏi từng câu hỏi cụ thể, "bài này định nghĩa continence theo thang điểm nào?", "follow-up median là bao nhiêu tháng?" SciSpace trích dẫn đoạn văn bản cụ thể trong paper, giúp mình kiểm chứng việc trích xuất dữ liệu nhanh hơn nhiều so với đọc lại toàn bộ.

Khi nào dùng cái nào

Sau khi thử cả ba, mình dùng theo mục đích:

Mục đích	Công cụ phù hợp
Xây danh sách ban đầu, recall rộng	Elicit
Kiểm tra consensus giữa các paper	Consensus
Đọc sâu một paper cụ thể	SciSpace
Tìm kiếm hệ thống chính thức	PubMed / Embase / Cochrane (ba công cụ này không thay được)

Quan điểm thẳng của mình: không có công cụ nào trong ba cái này thay được tìm kiếm PubMed cho systematic review thực sự. Recall của Elicit, Consensus, và SciSpace đều không đủ để bao phủ toàn bộ y văn cần cho meta-analysis. Mình tìm được 4 paper được đưa vào sau khi tìm kiếm MEDLINE, Embase, Cochrane đầy đủ, nếu chỉ dùng Elicit thì sẽ bỏ sót ít nhất 1-2 bài từ Embase hoặc Cochrane không được đưa vào cơ sở dữ liệu ở chỗ Elicit kéo về.

Nhưng cho mục đích khám phá nhanh, xây câu hỏi nghiên cứu, hoặc đọc paper sâu, cả ba đều có chỗ đứng trong quy trình.

Quy trình đầy đủ cho systematic review với AI, từ PROSPERO đến PRISMA flow, xem bài AI cho systematic review, quy trình từ PROSPERO đến bản thảo. Còn nếu bạn đang ở giai đoạn tìm khoảng trống nghiên cứu, bài ba công cụ tìm khoảng trống nghiên cứu, ba kết quả khác nhau chia sẻ cách mình dùng Elicit và Consensus để xác định phạm vi một đề tài mới từ đầu. Và cho tổng quan toàn bộ quy trình viết paper, xem bài 10 bước viết paper với AI.

Muốn biết cách tích hợp các công cụ này vào quy trình nghiên cứu thực tế? Ứng dụng AI trong NCKH, quy trình từ tìm kiếm đến submit, có mẫu và ví dụ thực tế.