Khi nghiên cứu quá nhỏ để có ý nghĩa
Biện minh cỡ mẫu là một trong những phần được thực hiện thường xuyên nhất nhưng lại ít được cân nhắc nghiêm túc nhất trong lập kế hoạch nghiên cứu. Nhà nghiên cứu tính toán con số cần thiết, đạt được con số đó, rồi bước tiếp. Câu hỏi liệu nghiên cứu có thực sự trả lời được câu hỏi mà nó tuyên bố hay không thường bị bỏ qua.
Hệ quả là một loại nghiên cứu đã công bố mà về mặt kỹ thuật thì hoàn chỉnh nhưng về mặt khoa học thì không đủ: những nghiên cứu đủ lớn để tuyển bệnh nhân, đủ nhỏ để thiếu power, và được công bố vì chúng mới lạ. Reviewer đánh dấu những nghiên cứu này. Editor vẫn chấp nhận. Y văn tích lũy bằng chứng không thể tổng hợp một cách có ý nghĩa.
Nhận ra khi nào một nghiên cứu quá nhỏ để có ý nghĩa — trước khi nộp bài, lý tưởng nhất là trước khi thu thập dữ liệu — là một trong những phán đoán trung thực hơn mà một nhà nghiên cứu có thể đưa ra.
Nghiên cứu thiếu power thực sự có nghĩa gì
Một nghiên cứu thiếu power không chỉ đơn giản là có khoảng tin cậy rộng hơn. Nó tạo ra một sự méo mó có hệ thống.
Khi một nghiên cứu thiếu power, kết quả có ý nghĩa thống kê nhiều khả năng là ước lượng bị thổi phồng hơn là ước lượng chính xác. Những nghiên cứu "thành công" — vượt qua ngưỡng ý nghĩa — là những nghiên cứu mà sự ngẫu nhiên tạo ra hiệu ứng đủ lớn để sống sót qua nhiễu. Đây là "lời nguyền của người chiến thắng" trong nghiên cứu lâm sàng: công bố kết quả dương tính từ một thử nghiệm nhỏ, và gần như chắc chắn bạn đã công bố một ước lượng bị phóng đại.
Ngược lại, một kết quả không có ý nghĩa thống kê từ nghiên cứu thiếu power thì không mang thông tin gì. Nó không có nghĩa là không có hiệu ứng. Nó có nghĩa là nghiên cứu không thể phát hiện một cách đáng tin cậy. Khi những nghiên cứu này đi vào tổng quan hệ thống, chúng làm tăng tính không đồng nhất và phức tạp hóa việc diễn giải.
Tại sao nghiên cứu tốt vẫn bị từ chối đề cập đến những lý do cấu trúc mà editor đánh dấu các thử nghiệm nhỏ — không chỉ về power thống kê, mà còn về những gì editor có thể bảo vệ một cách đáng tin cậy trước độc giả. Một nghiên cứu mà phát hiện chính là khoảng tin cậy trải dài từ ý nghĩa lâm sàng đến không có hiệu ứng thì khó có thể định vị như một đóng góp.
Điểm quyết định: Khi nào chuyển sang pilot
Phép tính mà hầu hết nhà nghiên cứu bỏ lỡ là thế này: một nghiên cứu quá nhỏ để mang tính quyết định không tự động vô giá trị. Câu hỏi là liệu nó có đang được đóng khung đúng loại nghiên cứu hay không.
Một RCT yếu và một nghiên cứu pilot được thiết kế tốt có thể dùng cỡ mẫu tương tự. Sự khác biệt không nằm ở dữ liệu thu thập — mà ở những tuyên bố được đưa ra.
Một RCT yếu cố trả lời câu hỏi lâm sàng và thất bại. Một nghiên cứu pilot được thiết kế tốt không cố trả lời câu hỏi lâm sàng. Nó cố xác lập xem một nghiên cứu quyết định có khả thi không: liệu can thiệp có thể thực hiện nhất quán không, liệu các thước đo kết cục có hoạt động như mong đợi không, liệu tuyển bệnh nhân có khả thi không, liệu ước lượng kích thước hiệu ứng có đủ hợp lý để tính power cho thử nghiệm tương lai không.
Đây là những câu hỏi mà nghiên cứu nhỏ có thể trả lời. Hiệu quả điều trị quyết định thì không.
Bước chuyển từ RCT yếu sang pilot xảy ra khi câu trả lời trung thực cho "nghiên cứu này thực sự có thể xác lập điều gì?" không phải là "hiệu quả" mà là "tính khả thi và ước lượng sơ bộ." Nếu đó là sự thật về những gì nghiên cứu có thể làm, đóng khung nó như pilot không phải là an ủi. Đó là mô tả chính xác.
Reviewer thực sự đang hỏi gì
Khi reviewer viết nhận xét như "cỡ mẫu không đủ để rút ra kết luận" hoặc "nghiên cứu này thiếu power nghiêm trọng," họ đang đưa ra một trong hai điểm khác nhau cần phản hồi khác nhau.
Thứ nhất là nghiên cứu được thiết kế như một thử nghiệm quyết định và cỡ mẫu không hỗ trợ thiết kế đó. Trong trường hợp này, phản hồi không phải là phân tích lại — mà là đóng khung lại. Các phát hiện trở thành tạo giả thuyết, kết luận được rào đón phù hợp, và phần thảo luận tập trung vào những gì dữ liệu có thể và không thể hỗ trợ.
Thứ hai là nghiên cứu được thiết kế như pilot nhưng đang đưa ra tuyên bố vượt quá mức bằng chứng của pilot. Đây là vấn đề ngược: tuyên bố thấp về thiết kế nhưng tuyên bố cao về diễn giải. Cách sửa là siết chặt kết luận thay vì thiết kế.
Cả hai vấn đề đều có cùng gốc rễ: sự không khớp giữa những gì nghiên cứu được xây dựng để làm và những gì nó tuyên bố đã làm. Trò chơi xuất bản học thuật mà không ai giải thích mô tả cách editor đọc để tìm loại không khớp này ngay từ đầu quá trình đánh giá — nó báo hiệu rằng tác giả hoặc không hiểu nghiên cứu của mình hoặc đang hy vọng reviewer không nhận ra.
Biện minh cỡ mẫu thực sự đứng vững
Một phép tính cỡ mẫu có thể bảo vệ được không chỉ là phép toán. Đó là chuỗi lập luận đằng sau nó.
Các giả định trong phép tính power — kích thước hiệu ứng kỳ vọng, phương sai, sự khác biệt tối thiểu có ý nghĩa lâm sàng — mỗi cái đều cần một nguồn. Sử dụng giả định từ quần thể khác, công cụ đo lường khác, hoặc ước lượng lạc quan từ pilot sẽ tạo ra một con số trông nghiêm ngặt nhưng thực tế không phải. Reviewer am hiểu y văn sẽ nhận ra khi kích thước hiệu ứng giả định không khớp với những gì đã quan sát trong các thử nghiệm tương đương.
Cách tiếp cận trung thực hơn: phát biểu các giả định một cách rõ ràng, trích dẫn nguồn gốc, và thừa nhận nếu chúng không chắc chắn. Nếu kích thước hiệu ứng giả định dựa trên dữ liệu sơ bộ ít ỏi, hãy nói ra. Một phần cỡ mẫu trung thực thừa nhận sự không chắc chắn thì dễ bảo vệ hơn một phép tính chính xác xây dựng trên giả định đáng ngờ.
Nếu phép tính trung thực cho ra cỡ mẫu cần thiết mà bạn không thể tuyển được, đó không phải vấn đề của phép tính. Đó là thông tin về loại nghiên cứu nào thực sự khả thi.
Giá trị của việc biết nghiên cứu không thể làm gì
Một nghiên cứu nhỏ mô tả chính xác những gì nó có thể xác lập thì đóng góp được điều gì đó: một câu hỏi chính xác cho thử nghiệm quyết định tương lai, một protocol đã được kiểm chứng, một ước lượng kích thước hiệu ứng với khoảng không chắc chắn trung thực.
Một nghiên cứu nhỏ tuyên bố nhiều hơn thiết kế cho phép thì làm ô nhiễm y văn. Nó cung cấp cho các nhà phân tích tổng hợp dữ liệu mà họ không thể tin tưởng và cho các bác sĩ lâm sàng kết luận có thể không đứng vững.
Nhận ra sớm — lý tưởng nhất trước khi thu thập dữ liệu — rằng một nghiên cứu quá nhỏ để trả lời câu hỏi nó đang hỏi không phải là thất bại. Đó là bước đầu tiên để thiết kế một nghiên cứu có thể trả lời được.
Nếu bạn thấy bài viết này hữu ích cho bản thảo của mình, có thể bạn sẽ muốn xem Discussion Section Playbook của mình.
Nếu bạn đang chuẩn bị phân tích số liệu cho đề tài, bạn có thể tham khảo thêm về khoá học Thành thạo SPSS cùng AI với dữ liệu mẫu và hướng dẫn từng bước.