MỘT SỐ KHÁI NIỆM CƠ BẢN
Quần thể và mẫu nghiên cứu
Trong mỗi nghiên cứu, quần thể nghiên cứu (Population) là toàn bộ các cá thể mà chúng ta quan tâm, trong khi mẫu nghiên cứu (Sample) chỉ bao gồm những cá thể được chọn để tiến hành nghiên cứu.
Do nguồn lực hạn chế, trong mỗi nghiên cứu, chúng ta thường chỉ có thể thực hiện khảo sát trên một mẫu thay vì toàn bộ quần thể.
Chọn mẫu và tính toán cỡ mẫu
Chọn mẫu là quá trình lựa chọn các cá thể đại diện cho quần thể nhằm phục vụ cho nghiên cứu Để đảm bảo tính đại diện cho quần thể, việc áp dụng các kỹ thuật chọn mẫu xác suất, hay còn gọi là chọn mẫu ngẫu nhiên, là rất cần thiết.
Sample size determination is the process of calculating the number of individuals to include in a research sample, allowing for the extrapolation of sample characteristics to the corresponding traits of the population This statistical inference is crucial for ensuring the validity and reliability of research findings.
Phương pháp thống kê
Sau khi tiến hành nghiên cứu trên mẫu, chúng ta thường thực hiện 2 loại phân tích thống kê, bao gồm:
Thống kê mô tả, hay còn gọi là thống kê điều tra, là quá trình mô tả các đặc điểm của mẫu nghiên cứu thông qua các phân tích dựa trên các cá thể có trong mẫu.
Thống kê suy luận, còn được gọi là thống kê phân tích, là quá trình ngoại suy các đặc điểm từ mẫu nghiên cứu để suy ra các đặc điểm của quần thể nghiên cứu.
Phần lớn các nghiên cứuđều có sửdụng thống kê suy luận/phân tích (thực chất là tiến hành ngoại suy).
Có 2 hai loại hình thống kê suy luận thường được áp dụng, bao gồm:
Ước lượng khoảng tin cậy (Confidence interval) là phương pháp sử dụng một giá trị thu được từ nghiên cứu để xác định một khoảng giá trị trong quần thể, với một mức độ tin cậy nhất định.
Kiểm định giả thuyết là quá trình xác định xem sự khác biệt hoặc mối liên quan đã được phát hiện trong mẫu nghiên cứu có tồn tại trong quần thể nghiên cứu hay không Điều này thường đi kèm với việc ước lượng khoảng tin cậy, giúp đánh giá độ chính xác của kết quả.
Mô tả đặc điểm của mẫu (Thống kê mô tả=Thống kê điều tra)
Hình 1: Một số khái niệm cơ bản
Ước lượng khoảng tin cậy
Khoảng tin cậy (Confidence interval) là một phương pháp thống kê dùng để ước lượng giá trị của tham số quần thể, xác định khoảng từ X đến Y với một mức độ tin cậy nhất định, thường là 95% trong các nghiên cứu khoa học sức khỏe.
Khoảng tin cậy của biến định lượng được tính theo công thức:
•Cỡ mẫu lớn (n≥30): Tính theo phân bố z 95% CI = � ∓ Z σ
Trong đó: X là giá trị trung bình, Z = 1,96, σ là độ lệch chuẩn, n là cỡ mẫu√�
•Cỡ mẫu nhỏ (n < 30: Tính theo phân bố t
√� t được tính tùy thuộc vào bậc tự do (n-1) (Xem bảng giá trị của t)
Khoảng tin cậy của biến định tính được tính theo công thức:
•Khi tỷ lệ ≥5 và ≤95 thì chúng ta sử dụng phương pháp xấp xỉ chuấn (Normal Approximation):
Trong đó: p là tỷ lệ mắc, Z=1,96, n là cỡ mẫu
When the proportion is less than 5% or greater than 95%, we utilize the Clopper-Pearson method, also known as Exact methods, which is based on the cumulative probabilities of the binomial distribution.
Distribution) để hiệu chính Hiện nay, phương pháp Clopper–Pearson
(Exact methods) được áp dụng rất rộng rãi.
Khoảng tin cậy 95% cho tỷ lệ hiện mắc tăng huyết áp nằm trong khoảng 10-20% cho thấy rằng có 95% khả năng tỷ lệ này trong quần thể thực tế sẽ nằm trong giới hạn đó Điều này có nghĩa là nếu nghiên cứu được thực hiện 100 lần, ít nhất 95 lần kết quả tính toán được sẽ bao gồm giá trị thực của quần thể.
Kích thước mẫu nghiên cứu lớn hơn sẽ dẫn đến khoảng tin cậy hẹp hơn, đồng nghĩa với việc tăng cường tính chính xác của nghiên cứu và giảm thiểu sai số ngẫu nhiên.
Kiểm định giả thuyết
Giả thuyết (Hypothesis) được hiểu đơn giản là những điều chúng ta kỳ vọng nhưng chưa được chứng minh là bất biến (khác với lý thuyết - Theory).
Trong nghiên cứu khoa học, có 2 loại giả thuyết được đưa ra:
•Giả thuyết Ho (Null hypothesis): Thường đề cập đến “không có sự khác biệt” giữa các nhóm về giá trị biến số nghiên cứu nào đó
Giả thuyết Ha (Giả thuyết thay thế) là một khái niệm quan trọng trong nghiên cứu, được đề xuất bởi các nhà khoa học nhằm chỉ ra rằng tồn tại sự khác biệt giữa các nhóm liên quan đến giá trị của biến số nghiên cứu.
Kiểm định giả thuyết là quá trình so sánh kết quả nghiên cứu với giả thuyết Ho, nhằm xác định tính chính xác của giả thuyết này Quá trình kiểm định được thực hiện thông qua các kiểm định thống kê, hay còn gọi là test statistics, để đưa ra kết luận chính xác về giả thuyết.
Sau khi đặt ra các các giả thuyết Ho và Ha, chúng ta cần chứng minh Ho hay
Theo lý thuyết kiểm định giả thuyết thống kê, chúng ta không thể chứng minh một giả thuyết là đúng, chỉ có thể bác bỏ nó Nếu có đủ bằng chứng cho thấy giả thuyết Ho sai, chúng ta sẽ bác bỏ Ho và chấp nhận giả thuyết HA Quyết định này thường dựa vào chỉ số P (P-value), một xác suất cho thấy khả năng quan sát dữ liệu nếu giả thuyết Ho đúng Chỉ số P nhỏ hơn mức ý nghĩa thống kê (α), thường là 0.05, cho thấy có đủ bằng chứng để bác bỏ Ho và chấp nhận HA Ngược lại, nếu P lớn hơn α, chúng ta không có đủ bằng chứng để bác bỏ Ho và do đó chấp nhận Ho.
Kiểm định thống kê (Test statistics) là giá trị được chuẩn hóa trong quá trình kiểm định giả thuyết Khi kiểm định thống kê bằng 0, điều này cho thấy kết quả nghiên cứu phù hợp với giả thuyết Ho Giá trị tuyệt đối của kiểm định thống kê càng lớn, sự khác biệt giữa kết quả nghiên cứu và giả thuyết Ho càng rõ rệt.
Giá trị của kiểm định thống kê chủ yếu có ý nghĩa khi so sánh với phân bố của nó, với giả định rằng nghiên cứu sẽ được lặp lại nhiều lần và giả thuyết không (Ho) là đúng Điều này giúp tính toán xác suất xảy ra của kiểm định thống kê trong trường hợp Ho đúng.
Khi xác suất xảy ra kiểm định thống kê dưới giả thuyết không (Ho) nhỏ hơn 5% (0,05), chúng ta có thể kết luận rằng kết quả nghiên cứu khác biệt với Ho Điều này cho phép chúng ta bác bỏ Ho và chấp nhận giả thuyết thay thế (Ha).
Sai lầm trong kiểm định giả thuyết
Thống kê là một lĩnh vực khoa học dựa trên nguyên lý xác suất, do đó không có kết luận nào hoàn toàn đúng hay sai Mọi kết luận đều được đưa ra dựa trên các giả định và sai số quy ước chấp nhận được Khi chấp nhận hoặc bác bỏ giả thuyết Ho, chúng ta đều có thể gặp phải các sai số tiềm tàng, và những sai số này thường được chấp nhận trong một khoảng quy ước nhất định.
Bảng 1: Các tình huống xảy ra khi kiểm định giả thuyết
Ho đúng (Không có sự khác biệt)
Ho sai (Có sự khác biệt)
Chấp nhận Ho Đúng (1-α) Sai lầm loại 2 (β)
Bác bỏ Ho Sai lầm loại 1 (α) Đúng (1- β)
Như vậy, có thể xảy ra 2 loại sai lầm:
Sai lầm loại 1 (hay α) xảy ra khi bác bỏ giả thuyết Ho trong khi giả thuyết này thực sự đúng, được gọi là "dương tính giả" Ví dụ, điều này tương tự như việc kết luận rằng một bệnh nhân bị bệnh trong khi thực tế họ không mắc bệnh Trong kiểm định giả thuyết, tỷ lệ sai lầm loại 1 thường được thiết lập ở mức 5%.
Sai lầm loại 2 (hay β) xảy ra khi chấp nhận giả thuyết Ho mặc dù giả thuyết này thực sự sai Điều này cũng được gọi là "âm tính giả", tương tự như việc kết luận rằng bệnh nhân không mắc bệnh trong khi thực tế họ lại bị bệnh.
Trong kiểm định giả thuyết, sai lầm loại 2 thường được chọn ở mức
Mức ý nghĩa thống kê
Mức ý nghĩa thống kê, hay còn gọi là significance level, là ngưỡng dùng để quyết định có bác bỏ hay chấp nhận giả thuyết Ho dựa vào chỉ số P Thông thường, mức ý nghĩa thống kê được thiết lập ở mức 0.05.
Lực thống kê
Lực thống kê (Statistical power) là xác suất bác bỏ giả thuyết Ho khi giả thuyết này sai, tương ứng với xác suất dương tính thật Nó liên quan đến khả năng loại bỏ sai lầm loại 2, được tính bằng công thức power = 1 – β Thông thường, lực thống kê được yêu cầu đạt trên 80%, nghĩa là xác suất sai lầm loại 2 phải nhỏ hơn 20% Việc tính toán và báo cáo lực thống kê cần thực hiện trước khi bắt đầu nghiên cứu.
Lực thống kê là xác suất phát hiện sự khác biệt khi thực sự có sự khác biệt, thể hiện khả năng nhận diện hiệu ứng tồn tại Do đó, các nhà nghiên cứu luôn mong muốn đạt được lực thống kê cao trong nghiên cứu của họ Một nghiên cứu sẽ không được đánh giá cao nếu không đạt lực thống kê cần thiết, và có thể không đưa ra kết luận nếu thiếu lực thống kê Theo nguyên lý kiểm định giả thuyết thống kê của Neyman và Pearson, có ba trường hợp kết luận thống kê.
1.Nếu giá trị thống kê (z, t, χ2, F…) nằm trong vùng bác bỏ Ho, chúng ta bác bỏ Ho và chấp nhận HA
2.Nếu giá trị thống kê (z, t, χ2, F…) nằm trong vùng chấp nhận Ho, và có đủ lực thống kê, chúng ta chấp nhận Ho
Nếu giá trị thống kê (z, t, χ2, F…) nằm trong vùng chấp nhận giả thuyết không (Ho) và không đủ lực thống kê, chúng ta không thể đưa ra kết luận Điều này có nghĩa là sự không khác biệt có thể xuất phát từ việc thực sự không có sự khác biệt hoặc do khả năng phát hiện sự khác biệt của phép tính toán không đủ.
Lực thống kê có vai trò quan trọng trong việc xác định giá trị của một kết luận thống kê Trong thực hành, lực thống kê thường được quy định là không được nhỏ hơn một mức nhất định.
Trong quá trình tính toán cỡ mẫu, nhà nghiên cứu cần đảm bảo rằng cỡ mẫu đáp ứng được yêu cầu tối thiểu là 80% Sau khi thu thập dữ liệu, việc kiểm tra lại thông qua phân tích nhạy cảm (sensitive analysis) là cần thiết để xác định xem với cỡ mẫu đã chọn, lực thống kê có đạt yêu cầu hay không.
Mức khác biệt và mức khác biệt có ý nghĩa thực tế
Trong phương pháp kiểm định giả thuyết thống kê, giá trị P được sử dụng để xác định sự khác biệt có ý nghĩa giữa các nhóm Tuy nhiên, giá trị P chỉ đưa ra kết luận nhị phân về sự khác biệt, mà không phản ánh mức độ của sự khác biệt đó Do đó, ngoài việc xác định có hay không sự khác biệt, chúng ta cũng cần xem xét mức độ khác biệt và cỡ tác động (effect size) để có cái nhìn toàn diện hơn về kết quả nghiên cứu.
Cỡ tác động (ES) là chỉ số thể hiện mức độ khác biệt giữa các nhóm, ví dụ như sự chênh lệch huyết áp tâm thu trung bình giữa hai nhóm dân số được đo bằng mmHg Nó cũng có thể được áp dụng trong việc phân tích mối liên hệ giữa cân nặng và chiều cao thông qua hệ số tương quan Trong các nghiên cứu dịch tễ học với biến đo lường kết quả là biến nhị giá, các chỉ số như tỉ số nguy cơ (RR), tỉ số số chênh (OR) và tỉ lệ hiện hành cũng được coi là cỡ tác động.
PR cũng đo lường mức độ sự khác biệt và được hiểu là cỡ tác động.
Cỡ tác động ảnh hưởng trực tiếp đến cỡ mẫu nghiên cứu, với cỡ tác động lớn yêu cầu ít mẫu hơn để phát hiện sự khác biệt giữa các nhóm, trong khi cỡ tác động nhỏ cần cỡ mẫu lớn hơn Một nhược điểm của cỡ tác động là khó so sánh kết quả khi đơn vị đo lường khác nhau, như so sánh chiều cao và cân nặng Hơn nữa, cỡ tác động không phản ánh mức độ giao động; ví dụ, sự khác biệt chiều cao 3 ± 1 cm sẽ khác với 3 ± 5 cm, mặc dù đều có sự khác biệt trung bình 3 cm Để so sánh các cỡ tác động với đơn vị đo lường khác nhau và tính đến sự giao động, cỡ tác động chuẩn hóa (standardized effect size) cần được tính đến.
• Đối với biến định lượng
0 o à 1 là kết quả nghiờn cứu theo giả thuyết Ha o à 0 là kết quả nghiờn cứu theo giả thuyết Ho o σ là độ lệch chuẩn
• Đối với biến định tính
Trong nghiên cứu thống kê, cỡ mẫu n và các giả thuyết Ha và Ho đóng vai trò quan trọng trong việc kiểm định sự khác biệt Đặc biệt, với cỡ mẫu lớn, ngay cả khi sự khác biệt nhỏ và không có ý nghĩa thực tế, vẫn có thể đạt được ý nghĩa thống kê Ví dụ, sự giảm huyết áp tâm thu 1 mmHg sau một tháng điều trị có thể được coi là có ý nghĩa thống kê Do đó, việc xác định mức khác biệt mong muốn hay mức khác biệt có ý nghĩa là rất cần thiết và thường do các chuyên gia trong lĩnh vực quyết định.
Cỡ tác động thường được xác định dựa trên các nghiên cứu trước đó Tuy nhiên, trong trường hợp không có thông tin tham khảo, nhà nghiên cứu có thể dựa vào kinh nghiệm lâm sàng để lựa chọn ngưỡng thấp, trung bình hoặc cao Cỡ tác động phản ánh sự khác biệt quan sát được trong thực tế.
Kiểm định 1 phía và 2 phía
Kiểm định 1 phía được áp dụng khi chúng ta đã xác định rõ ràng xu hướng của sự khác biệt, tức là sự khác biệt này có thể lớn hơn hoặc nhỏ hơn một giá trị cụ thể Ngược lại, kiểm định 2 phía được sử dụng khi mục tiêu chỉ là xác định sự tồn tại của sự khác biệt mà không quan tâm đến hướng của nó.
Với cùng 1 cỡ mẫu, kiểm định 1 phía có hiệu lực thống kê cao hơn Tuy nhiên, kiểm định 2 phía được sử dụng nhiểu hơn.
Hình 2: Kiểm định 1 phía và 2 phía
CHỌN MẪU NGHIÊN CỨU
Nguyên tắc chung
Một nghiên cứu sẽ có giá trị cao hơn khi bao gồm tất cả các cá thể trong quần thể Tuy nhiên, điều này thường khó thực hiện do kích thước lớn của các quần thể nghiên cứu Thực tế cho thấy, đặc trưng của quần thể có thể được ngoại suy từ kết quả của một mẫu đại diện Tuy nhiên, việc ngoại suy chỉ khả thi khi mẫu nghiên cứu được chọn là đại diện cho quần thể và có kích thước đủ lớn.
Ba câu hỏi thường được đặt ra khi chọn mẫu là:
•Quần thể nào mà từ đó mẫu sẽ được lấy ra cho nghiên cứu?
•Làm thế nào để mẫu có thể đại diện cho quần thể nghiên cứu?
•Mẫu bao nhiêu là đủ cho một nghiên cứu?
Để giải quyết vấn đề xác định quần thể nghiên cứu, chọn mẫu và tính toán cỡ mẫu cho một nghiên cứu, cần trả lời ba câu hỏi quan trọng.
Việc xác định quần thể nghiên cứu phụ thuộc vào nhiều yếu tố như ý tưởng nghiên cứu, vấn đề cần giải quyết, thông tin sẵn có, kỹ thuật chọn mẫu, nguồn lực nghiên cứu và thời gian thực hiện Quần thể nghiên cứu cần được xác định một cách rõ ràng, bao gồm cả khái niệm thời gian và không gian để hỗ trợ quá trình chọn mẫu hiệu quả.
Một thiết kế mẫu được coi là tốt nếu như nó đáp ứng một số tiêu chuẩn sau:
•Đại diện cho quần thể nghiên cứu: Khi nó có tất cả các tính chất cơ bản của quần thể mà từ đó nó được rút ra.
•Mẫu là đủ lớn: Để có thể cho phép khái quát hoá một cách tin cậy cho quần thể nghiên cứu.
Chọn ngẫu nhiên� � � Quần thể với cỡ N� � � � � p,X, s� Mẫu với cỡ� � �
•Tính thực tế và tiện lợi: Để việc thu thập số liệu là dễ dàng và thuận tiện.
•Tính kinh tế và hiệu quả: Mẫu được chọn sao cho thông tin thu được là nhiều nhất trong khi chi phí là thấp nhất.
Có hai nhóm kỹ thuật chọn mẫu chính là chọn mẫu xác suất và không xác suất Chọn mẫu xác suất thường mang tính đại diện cao hơn cho quần thể, nhưng chi phí thu thập thường cao do mẫu phân tán và yêu cầu cỡ mẫu lớn Bài viết dưới đây sẽ trình bày chi tiết các kỹ thuật chọn mẫu thuộc hai nhóm này.
Chọn mẫu xác suất
2.1 Chọn mẫu ngẫu nhiên đơn (simple random sampling)
Là kỹ thuật chọn mẫu trong đó tất cả các cá thể trong quần thể có cùng cơ hội (cùng xác suất) để được chọn vào mẫu.
Hình 3: Cách chọn mẫu ngẫu nhiên đơn
Chọn 500 hồ sơ từ 5.000 sản phụ đã sinh tại bệnh viện A trong năm 2005 để nghiên cứu Với phương pháp chọn ngẫu nhiên đơn, mỗi sản phụ có xác suất 10% được chọn vào mẫu.
•Lập một khung chọn mẫu chứa đựng tất cả các đơn vị mẫu.
Để chọn mẫu ngẫu nhiên từ quần thể, có thể sử dụng các phương pháp như tung đồng xu, tung súc sắc hay bốc thăm Tuy nhiên, đối với các quần thể nghiên cứu lớn, việc sử dụng bảng số ngẫu nhiên hoặc phần mềm máy tính sẽ mang lại hiệu quả cao hơn trong việc chọn lựa cá thể.
−Cách làm đơn giản, tính ngẫu nhiên và tính đại diện cao.
−Là kỹ thuật chọn mẫu xác suất cơ bản và có thể lồng vào tất cả các kỹ thuật chọn mẫu xác suất phức tạp khác.
Để thực hiện việc chọn mẫu hiệu quả, cần thiết phải có một danh sách các đơn vị mẫu Tuy nhiên, điều này thường khó đạt được khi làm việc với mẫu lớn hoặc mẫu dao động.
Việc chọn các cá thể trong mẫu từ quần thể có thể dẫn đến sự phân bố tản mạn, gây khó khăn cho quá trình thu thập dữ liệu, làm tăng chi phí và thời gian thực hiện.
Cách chọn mẫu này không chú trọng đến các tầng và nhóm đối tượng trong quần thể, dẫn đến khả năng chọn mẫu không đồng đều giữa các tầng, từ đó có thể ảnh hưởng đến kết quả chung.
2.2 Chọn mẫu hệ thống (systematic sampling)
Trong quá trình chọn mẫu hệ thống, mỗi cá thể trong danh sách được lựa chọn bằng cách sử dụng một khoảng cách cố định, kết hợp với một điểm bắt đầu ngẫu nhiên.
Tất cả các đơn vị mẫu trong quần thể nghiên cứu cần được ghi lại trong một danh sách hoặc hiển thị trên bản đồ, được gọi là khung chọn mẫu.
−Xác định khoảng mẫu k = N/n (N: cỡ của quần thể, n cỡ mẫu định chọn).
−Một số (i) giữa 1 và k được chọn bằng cách chọn ngẫu nhiên đơn.
−Các cá thể có số thứ tự i + 1k ; i + 2k; i + 3k v.v sẽ được chọn vào mẫu cho đến khi kết thúc danh sách hoặc bản đồ.
−Nhanh và dễ áp dụng.
−Nếu danh sách cá thể của quần thể được xếp ngẫu nhiên, chọn mẫu hệ thống tương tự như chọn ngẫu nhiên đơn.
Nếu danh sách cá thể được sắp xếp theo thứ tự tầng, việc lựa chọn sẽ tương tự như mẫu tầng có tỷ lệ, trong đó các tầng lớn hơn sẽ có nhiều cá thể được chọn vào mẫu hơn.
Trong một số trường hợp, khi không có khung mẫu hoặc không biết tổng số cá thể trong quần thể, phương pháp chọn mẫu hệ thống vẫn có thể được áp dụng Điều này có thể thực hiện bằng cách xác định một quy luật phù hợp trước khi tiến hành chọn mẫu.
1� K� K K � � K� K� K K � � i i+k i+2k i+3k i+4k i+(n- � � � � � 1)k� i là s � � ố� ẫ � ng u nhiên � đ ượ � ọ � ữ � � � � c ch n gi a 1 và k
Hình 4: Chọn mẫu hệ thống với khoảng mẫu k và số bắt đầu i
Để thu thập số liệu về sẹo lao ở trẻ em trong một cộng đồng nông thôn không có danh sách hộ gia đình, người nghiên cứu cần xác định quy luật chọn mẫu trước khi tiến hành thu thập dữ liệu.
−Hộ gia đình đầu tiên được điều tra là hộ thứ nhất nằm bên trái của ủy ban nhân dân xã.
Các hộ gia đình tiếp theo sẽ được lựa chọn bằng cách người nghiên cứu di chuyển sang bên trái và điều tra một gia đình sau mỗi bảy hộ Khoảng cách giữa các hộ gia đình được chọn cho nghiên cứu được xác định bằng cách chia tổng số hộ gia đình trong cộng đồng cho số hộ gia đình dự kiến sẽ được điều tra.
−Nếu gặp lối rẽ thì người nghiên cứu chỉ được rẽ trái.
−Tất cả các trẻ em trong các hộ gia đình được chọn đều được kiểm tra sẹo lao cho đến khi có đủ số trẻ cần được điều tra.
Số hộ gia đình cần điều tra có thể được ước lượng dựa trên số trẻ em trung bình trong mỗi gia đình trong cộng đồng và số lượng trẻ em cần nghiên cứu (cỡ mẫu).
Trong một số trường hợp, các cá thể trong quần thể nghiên cứu có thể không cần phải liệt kê để chọn mẫu Người nghiên cứu có thể thiết lập một quy luật trước khi tiến hành chọn mẫu.
−Tất cảcác bệnh nhânđến phòng khám vào ngày thứnăm trong tuần sẽ được tham gia vào nghiên cứu.
−Bệnh nhân đến khám ngày lẻ sẽ vào nhóm 1, đến ngày chẵn sẽ vào nhóm hai để phục vụ cho một thử nghiệm nào đó.
Trong nghiên cứu, các cá thể được chọn đứng vòng tròn và được đếm lần lượt theo thứ tự 1, 2, 3 cho đến khi hoàn tất Người được chọn để đếm số 1 phải được lựa chọn ngẫu nhiên Các cá thể mang số 1 sẽ được phân vào nhóm 1, số 2 vào nhóm 2, và số 3 vào nhóm 3, từ đó tạo ra ba nhóm được chọn ngẫu nhiên.
Khi khung mẫu được sắp xếp theo một quy luật nào đó trùng hợp với khoảng chọn mẫu hệ thống, điều này có thể dẫn đến việc các cá thể trong mẫu không đại diện cho toàn bộ quần thể.
Chọn mẫu không xác suất
3.1 Chọn mẫu thuận tiện (convenience or accidental sampling) Đạt được trên cơ sở các cá thể có sẵn khi thu thập số liệu (Ví dụ như tất cả các bệnh nhân đến khám tại phòng khám trong ngày) Phương pháp này không quan tâm đến việc sự lựa chọn có ngẫu nhiên hay không Đây là cách chọn mẫu rất hay gặp trong các nghiên cứu lâm sàng.
3.2 Chọn mẫu chỉtiêu (quota sampling)
Phương pháp này đảm bảo rằng một số lượng nhất định các đơn vị mẫu từ các loại khác nhau trong quần thể nghiên cứu với các đặc tính đặc trưng sẽ được đưa vào mẫu Nó tương tự như chọn mẫu tầng nhưng không thực hiện ngẫu nhiên Người nghiên cứu lập kế hoạch để xác định số lượng đối tượng cần chọn cho mỗi tầng hoặc nhóm đối tượng, và sẽ sử dụng phương pháp chọn mẫu thuận tiện cho đến khi đạt đủ số lượng từ mỗi tầng.
3.3 Chọn mẫu có mục đích (purposive sampling)
Các nhà nghiên cứu đã xác định các nhóm quan trọng trong quần thể để thu thập dữ liệu, với tỷ lệ mẫu khác nhau cho từng nhóm Phương pháp này thường được áp dụng trong các cuộc điều tra thăm dò và phỏng vấn sâu.
3.4 Các ứng dụng của các kỹ thuật chọn mẫu không xác suất
Các phương pháp chọn mẫu không xác suất thường dễ thực hiện và tiết kiệm chi phí, nhưng tính đại diện cho quần thể nghiên cứu lại rất thấp Khi mục đích nghiên cứu là đo lường các biến số để khái quát hóa cho quần thể, kết quả từ mẫu không xác suất thường không đủ cơ sở khoa học cho việc ngoại suy Do đó, cần thận trọng khi đưa ra kết luận Tuy nhiên, trong một số nghiên cứu thăm dò hoặc khi muốn tìm hiểu sâu về kiến thức, động cơ, thái độ, niềm tin của quần thể, việc sử dụng mẫu không xác suất có thể là lựa chọn hợp lý.
Ngoài ra, trong một số thử nghiệm lâm sàng, mẫu thường là những người tình nguyện, khi đó cách chọn mẫu xác suất không thể áp dụng được.
3.5 Sự kết hợp giữa chọn mẫu xác suất và không xác suất
Trong nghiên cứu, có thể kết hợp nhiều phương pháp chọn mẫu qua các giai đoạn khác nhau Người điều tra có thể thực hiện chọn mẫu xác suất dựa trên một mẫu không xác suất đã được chọn trước đó Quyết định lựa chọn phương pháp nào phụ thuộc vào tính chất nghiên cứu, thời gian, kinh phí và nhiều yếu tố khác Do đó, người nghiên cứu cần hiểu rõ ưu điểm và hạn chế của từng phương pháp chọn mẫu đã sử dụng.
Chọn mẫu trong các thử nghiệm lâm sàng hoặc thực nghiệm
Nghiên cứu so sánh thường được thực hiện để đánh giá hiệu quả của các phương pháp điều trị và thuốc mới, yêu cầu ít nhất hai nhóm nghiên cứu Khi áp dụng trên người, nghiên cứu gặp nhiều thách thức về chọn mẫu và đạo đức, trong đó, tính an toàn của can thiệp là ưu tiên hàng đầu Mục đích và lợi ích của nghiên cứu cần được giải thích rõ ràng cho các đối tượng tham gia, đảm bảo rằng việc tham gia là hoàn toàn tự nguyện.
Do đặc tính của mẫu nghiên cứu thường thiếu tính đại diện cho quần thể chung, nhưng nó có thể phản ánh nhóm cá thể có cùng tính chất như những cá thể được chọn Cần lưu ý rằng mục đích ngoại suy không quan trọng bằng mục đích thử nghiệm, vì vậy việc phân bố đối tượng vào các nhóm nghiên cứu một cách ngẫu nhiên là điều quan trọng hơn.
Đạo đức trong việc chọn mẫu nghiên cứu
Vấn đề đạo đức trong nghiên cứu, đặc biệt là trong các thử nghiệm lâm sàng và nghiên cứu can thiệp, cần được xem xét cẩn thận Nếu can thiệp mang lại lợi ích, nhóm chứng sẽ không có cơ hội trải nghiệm nó, trong khi nếu can thiệp gây ra tác dụng phụ nguy hiểm, nhóm thử nghiệm sẽ phải đối mặt với rủi ro cao hơn.
Trong các nghiên cứu cộng đồng, khi áp dụng phương pháp chọn mẫu ngẫu nhiên đơn hoặc ngẫu nhiên hệ thống ở những khu vực có mật độ dân số cao như tổ, lớp, hay trường học, có thể phát sinh thắc mắc khi trong cùng một tổ, lớp có người được chọn và người không được chọn Để giải quyết vấn đề này, một giải pháp hiệu quả là chọn chùm toàn bộ, tức là nếu một tổ, lớp được chọn thì tất cả các cá thể trong đó sẽ được điều tra và nghiên cứu.
TÍNH TOÁN CỠ MẪU NGHIÊN CỨU
Tính toán cỡ mẫu cho nghiên cứu sử dụng thống kê suy luận dựa trên ước lượng khoảng
Việc tính toán cỡ mẫu nghiên cứu phụ thuộc vào phương pháp ngoại suy thống kê được sử dụng, bao gồm ước lượng khoảng (Confidence interval) và kiểm định giả thuyết (Hypothesis testing).
Khi nghiên cứu với thống kê suy luận dựa trên ước lượng khoảng (Confidence interval), việc tính toán cỡ mẫu là cần thiết để đảm bảo đạt được độ chính xác và mức tin cậy mong muốn.
Khoảng tin cậy 95% của biến định lượng được tính theo công thức:
95% CI = Ước lượng điểm ± d Trong đó, d là sai số biên (Margin of error) được tính theo công thức:
• Đối với biến định lượng:
Trong đó: oZ là giá trị từ phân bố chuẩn, được tính dựa trên mức ý nghĩa thống kê o� là độ lệch chuẩn o n là cỡ mẫu
• Đối với biến định tính:
� o Z là giá trị từ phân bố chuẩn, được tính dựa trên mức ý nghĩa thống kê o p là tỷ lệ o n là cỡ mẫu d √ �
Như vậy, công thức tính cỡ mẫu sẽ là:
• Đối với biến định lượng:
Cỡ mẫu oZ được tính dựa trên mức ý nghĩa thống kê, với giá trị Z là 1,96 khi mức ý nghĩa thống kê là 5% Độ lệch chuẩn oσ có thể được lấy từ các nghiên cứu trước đây hoặc từ nghiên cứu thử nghiệm Mức sai số chấp nhận d do nhà nghiên cứu quyết định, tùy thuộc vào ý nghĩa thực tiễn của kết quả nghiên cứu và nguồn lực có sẵn Sai số d có thể là sai số tuyệt đối hoặc sai số tương đối, được tính theo công thức (ε ∗ p).
• Đối với biến định tính:
Để xác định cỡ mẫu trong nghiên cứu, công thức được sử dụng là n = (Z^2 * P * (1 - P)) / d^2, trong đó Z là giá trị tính toán dựa trên mức ý nghĩa thống kê, P là tỷ lệ lấy từ các nghiên cứu trước hoặc thử nghiệm, và d là mức sai số chấp nhận do nhà nghiên cứu quyết định dựa trên ý nghĩa thực tiễn của kết quả cũng như nguồn lực nghiên cứu Sai số d có thể được xác định dưới dạng sai số tuyệt đối hoặc sai số tương đối (ε * P).
1.1 Nghiên cứu gồm 1 mẫu, xác định một trung bình
• Nghiên cứu gồm 1 mẫu, xác định một trung bình, sử dụng sai số tuyệt đối
Trong đó: o n là cỡ mẫu tối thiểu o �
2 là giá trị từ phân bố chuẩn, được tính dựa trên mức ý nghĩa thống kê (� 1− ∝ = 1,96 nếu mức ý nghĩa thống kê = 5% )
Độ lệch chuẩn (σ) được xác định từ các nghiên cứu trước đây hoặc từ các nghiên cứu thử nghiệm, trong khi mức sai số tuyệt đối chấp nhận (d) do nhà nghiên cứu quyết định, phụ thuộc vào ý nghĩa thực tiễn của kết quả nghiên cứu và nguồn lực có sẵn cho nghiên cứu.
Để tính toán cỡ mẫu cho nghiên cứu ước tính huyết áp tâm thu ở trẻ em, cần biết độ lệch chuẩn của trị số huyết áp tâm thu là 20mmHg, mức ý nghĩa thống kê là 5%, và sai số tuyệt đối là 5mmHg Cỡ mẫu sẽ được xác định dựa trên công thức thống kê phù hợp.
*Tính toán theo phần mềm HSS 1.0:
Ghi chú: Xem thêm phần hiệu chỉnh cỡ mẫu theo tỷ lệ không trả lời và hệ số thiết kế để tính toán cỡ mẫu cuối cùng
• Nghiên cứu gồm 1 mẫu, xác định một trung bình, sử dụng sai số tương đối
Trong đó: o n là cỡ mẫu tối thiểu o � 1− ∝
2 là giá trị từ phân bố chuẩn, được tính dựa trên mức ý nghĩa thống kê (� 1− ∝ = 1,96 nếu mức ý nghĩa thống kê = 5% )
Độ lệch chuẩn (σ) được xác định từ các nghiên cứu trước đây hoặc từ nghiên cứu thử Mức sai số tương đối chấp nhận (o�) phụ thuộc vào quyết định của nhà nghiên cứu, dựa trên ý nghĩa thực tiễn của kết quả và nguồn lực dành cho nghiên cứu Giá trị trung bình của quần thể (o�) cũng được lấy từ các nghiên cứu trước đây hoặc từ nghiên cứu thử.
Để tính toán cỡ mẫu cho nghiên cứu ước tính huyết áp tâm thu ở trẻ em, cần dựa vào giá trị trung bình 100 mmHg và độ lệch chuẩn 20 mmHg từ nghiên cứu trước Với mức ý nghĩa thống kê 5% và sai số tương đối 5%, cỡ mẫu sẽ được xác định để đảm bảo tính chính xác và độ tin cậy của kết quả nghiên cứu.
Cỡ mẫu được tính toán theo công thức như sau:
*Tính toán theo phần mềm HSS 1.0:
Ghi chú: Xem thêm phần hiệu chỉnh cỡ mẫu theo tỷ lệ không trả lời và hệ số thiết kế để tính toán cỡ mẫu cuối cùng
1.2 Nghiên cứu gồm 1 mẫu, xác định một tỷ lệ
• Nghiên cứu gồm 1 mẫu, xác định một tỷ lệ, sử dụng sai số tuyệt đối
Trong đó: o n là cỡ mẫu tối thiểu o � 1− ∝ là giá trị từ phân bố chuẩn, được tính dựa trên mức ý nghĩa
2 thống kê (� 1− ∝ = 1,96 nếu mức ý nghĩa thống kê = 5% )
Tỷ lệ ước đoán \( p \) được xác định từ các nghiên cứu trước đây hoặc nghiên cứu thử nghiệm, trong khi \( d \) là mức sai số tuyệt đối chấp nhận do nhà nghiên cứu quyết định, phụ thuộc vào ý nghĩa thực tiễn của kết quả và nguồn lực cho nghiên cứu Hiện nay, các nhà thống kê khuyến nghị tính toán \( d \) dựa trên giá trị của \( p \).
Để tính toán cỡ mẫu cho nghiên cứu ước tính tỷ lệ hút thuốc lá ở nam giới, chúng ta sử dụng tỷ lệ hút thuốc lá đã được báo cáo trước đây là 50% Với mức ý nghĩa thống kê là 5% và sai số tuyệt đối là 5%, cỡ mẫu được xác định theo công thức cụ thể.
*Tính toán theo phần mềm HSS 1.0:
Ghi chú: Xem thêm phần hiệu chỉnh cỡ mẫu theo tỷ lệ không trả lời và hệ số thiết kế để tính toán cỡ mẫu cuối cùng
• Nghiên cứu gồm 1 mẫu, xác định một tỷ lệ, sử dụng sai số tương đối
Trong đó: o n là cỡ mẫu tối thiểu o� 1− ∝ là giá trị từ phân bố chuẩn, được tính dựa trên mức ý nghĩa
2 thống kê (� 1− ∝ = 1,96 nếu mức ý nghĩa thống kê = 5% )
Tỷ lệ 2 o p là một chỉ số ước đoán, được xác định dựa trên các nghiên cứu trước đây hoặc từ nghiên cứu thử nghiệm Mức sai số tương đối chấp nhận o� được quyết định bởi nhà nghiên cứu, tùy thuộc vào ý nghĩa thực tiễn của kết quả nghiên cứu cũng như nguồn lực có sẵn cho nghiên cứu.
Để tính toán cỡ mẫu cho nghiên cứu ước tính tỷ lệ hút thuốc lá ở nam giới, chúng ta dựa vào tỷ lệ hút thuốc lá đã được báo cáo trước đây là 50% Với mức ý nghĩa thống kê là 5% và sai số tương đối là 10%, việc xác định cỡ mẫu sẽ đảm bảo độ chính xác và tin cậy cho kết quả nghiên cứu.
Cỡ mẫu được tính toán theo công thức như sau:
*Tính toán theo phần mềm HSS 1.0:
Ghi chú: Xem thêm phần hiệu chỉnh cỡ mẫu theo tỷ lệ không trả lời và hệ số thiết kế để tính toán cỡ mẫu cuối cùng
1.3 Nghiên cứu gồm 2 mẫu độc lập, xác định sự khác biệt giữa 2 số trung bình
Cỡ mẫu tối thiểu cho mỗi nhóm được ký hiệu là n, trong khi giá trị Z được xác định từ phân bố chuẩn, với Z = 1,96 tương ứng với mức ý nghĩa thống kê 5% Độ lệch chuẩn chung của hai nhóm được tính theo một công thức cụ thể.
= √ � 1 +� 2 − 2 o d là mức sai số chấp nhận (Do nhà nghiên cứu quyết định tùy vào ý nghĩa thực tiễn của kết quả nghiên cứu và nguồn lực dành cho nghiên cứu)
Để tính toán cỡ mẫu cho nghiên cứu so sánh mức tăng cân ở hai nhóm trẻ, cần tham khảo kết quả từ nghiên cứu trước đó với mỗi nhóm gồm 100 trẻ, trong đó độ lệch chuẩn của nhóm đầu tiên là 8,4g và của nhóm thứ hai là 7,7g Việc xác định cỡ mẫu phù hợp sẽ giúp đảm bảo tính chính xác và độ tin cậy của kết quả nghiên cứu, đồng thời cần lấy mức ý nghĩa thống kê phù hợp để phân tích.
= 5% cho kiểm định 2 phía và sai số là 3g Cỡ mẫu được tính toán theo công thức như sau:
* Tính toán theo phần mềm HSS 1.0
Ghi chú: Xem thêm phần hiệu chỉnh cỡ mẫu theo tỷ lệ không trả lời và hệ số thiết kế để tính toán cỡ mẫu cuối cùng
1.4 Nghiên cứu gồm 2 mẫu ghép cặp, xác định sự khác biệt giữa 2 số trung bình
Cỡ mẫu tối thiểu (n) được xác định dựa trên giá trị Z từ phân bố chuẩn, với Z = 1,96 cho mức ý nghĩa thống kê 5% và kiểm định 2 phía, hoặc Z = 1,65 cho kiểm định 1 phía Độ lệch chuẩn của sự khác biệt về số trung bình giữa hai nhóm được ký hiệu là σd, trong khi mức sai số chấp nhận (d) do nhà nghiên cứu quyết định tùy thuộc vào ý nghĩa thực tiễn của kết quả nghiên cứu và nguồn lực dành cho nghiên cứu.
Tính toán cỡ mẫu cho nghiên cứu sử dụng thống kê suy luận dựa trên kiểm định giả thuyết
Cỡ mẫu nghiên cứu được xác định dựa trên phương pháp ngoại suy thống kê mà bạn áp dụng, bao gồm ước lượng khoảng (Confidence interval) hoặc kiểm định giả thuyết (Hypothesis testing) Việc lựa chọn phương pháp này ảnh hưởng trực tiếp đến độ chính xác và độ tin cậy của kết quả nghiên cứu.
Khi tiến hành nghiên cứu với thống kê suy luận và kiểm định giả thuyết, việc tính cỡ mẫu là rất quan trọng để đạt được mức ý nghĩa thống kê phù hợp, giúp giảm thiểu sai lầm loại 1 (α) Đồng thời, cỡ mẫu cũng cần đảm bảo hiệu lực thống kê thích hợp để hạn chế sai lầm loại 2 (β).
Cỡ mẫu cho các nghiên cứu sử dụng thống kê suy luận dựa trên kiểm định giải thuyết (Hypothesis testing) được xác định dựa trên công thức chung sau:
Trong đó: o n là cỡ mẫu
�� ) o� 1− α là giá trị từ phân bố chuẩn, được tính dựa trên xác suất sai lầm loại
1 (� 1− α = 1,96 nếu xác suất sai lầm loại 1 = 5% và kiểm định 2 phía).
Giá trị 2 ó 1− β từ phân bố chuẩn được xác định dựa trên hiệu lực thống kê, với giá trị cụ thể là � 1− β = 0,842 khi lực thống kê đạt 80% Mức khác biệt, hay còn gọi là kích thước hiệu ứng (Effect Size - ES), được tính theo công thức nhất định.
• Đối với biến định lượng
0 oà 1 là kết quả nghiờn cứu theo giả thuyết Ha oà 0 là kết quả nghiờn cứu theo giả thuyết Ho o σ là độ lệch chuẩn
• Đối với biến định tính
�� √�� (1 − ��) Trong đó: o n là cỡ mẫu o p 1 là kết quả theo giả thuyết Ha
2 o p 0 là theo giả thuyết Ho
Trên thực tế, tử số trong công thức tính toán cỡ mẫu nêu trên chính là hằng số (phụ thuộc vào giá trị cố định của � 1−
Giá trị của C được liệt kê ở bảng dưới đây:
2.1 Nghiên cứu gồm 1 mẫu, kiểm định một trung bình
Trong nghiên cứu thống kê, cỡ mẫu được ký hiệu là n, trong khi oà1 đại diện cho kết quả theo giả thuyết Ha và oà0 biểu thị kết quả theo giả thuyết Ho Giá trị 1− α được xác định từ phân bố chuẩn, dựa trên xác suất sai lầm loại I.
1 (� 1− α = 1,96 nếu xác suất sai lầm loại 1 = 5% và kiểm định 2 phía).
2 o� 1− β là giá trị từ phân bố chuẩn, được tính dựa trên lực thống kê (� 1− β
= 0,842 nếu lực thống kê là 80%). oES là mức khác biệt o σ là độ lệch chuẩn o Ho: à 1 =à 0 o Ha: à 1 ≠à 0
Để xác định cỡ mẫu cho nghiên cứu cắt ngang về hàm lượng đường máu ở những người uống cà phê hàng ngày, chúng ta cần dựa vào thông tin từ nghiên cứu trước đó, trong đó ghi nhận đường máu trung bình là 95 mg/dl với độ lệch chuẩn 9,8 mg/dl Với mức ý nghĩa α = 5% và độ mạnh 1 - β = 80%, chúng ta xác định rằng hàm lượng đường máu 100 mg/dl có ý nghĩa lâm sàng Cỡ mẫu sẽ được tính toán theo công thức thống kê phù hợp để đảm bảo độ chính xác trong kết quả nghiên cứu.
* Tính toán theo phần mềm HSS 1.0:
Ghi chú: Xem thêm phần hiệu chỉnh cỡ mẫu theo tỷ lệ không trả lời và hệ số thiết kế để tính toán cỡ mẫu cuối cùng
2.2 Nghiên cứu gồm 1 mẫu, kiểm định một tỷlệ
Trong nghiên cứu thống kê, cỡ mẫu được ký hiệu là n, trong khi kết quả theo giả thuyết thay thế Ha được ký hiệu là oP a Kết quả theo giả thuyết không thay thế Ho được ký hiệu là oP0 Giá trị 1− α là giá trị từ phân bố chuẩn, được xác định dựa trên xác suất sai lầm loại I.
1 (� 1− α = 1,96 nếu xác suất sai lầm loại 1 = 5% và kiểm định 2 phía).
2 o� 1−β là giá trị được tính dựa trên lực thống kê (� 1−β =0,842 nếu lực thống kê là 80%)
Để tính toán cỡ mẫu cho nghiên cứu cắt ngang về tỷ lệ tăng huyết áp, chúng ta cần xem xét tỷ lệ ước tính là 31%, so với tỷ lệ 26% từ nghiên cứu trước Với mức ý nghĩa α = 5% và 1 - β, việc xác định cỡ mẫu là rất quan trọng để đảm bảo độ chính xác và tin cậy của kết quả nghiên cứu.
Cỡ mẫu được tính toán theo công thức như sau:
* Tính toán theo phần mềm HSS 1.0:
Ghi chú: Xem thêm phần hiệu chỉnh cỡ mẫu theo tỷ lệ không trả lời và hệ số thiết kế để tính toán cỡ mẫu cuối cùng
2.3 Nghiên cứu gồm 2 mẫu độc lập, kiểm định 2 số trung bình
Cỡ mẫu cho mỗi nhóm được xác định là 2, trong đó nhóm 1 (nhóm không phơi nhiễm hoặc nhóm chứng) có số trung bình là 1, và nhóm 2 (nhóm phơi nhiễm hoặc nhóm can thiệp) có số trung bình là 2 Giá trị 1−α được tính dựa trên phân bố chuẩn, phản ánh xác suất sai lầm loại.
1 (� 1− α = 1,96 nếu xác suất sai lầm loại 1 = 5% và kiểm định 2 phía).
Giá trị 2 ó 1− β được tính dựa trên lực thống kê, với 1− β = 0,842 khi lực thống kê đạt 80% Trong đó, oES biểu thị mức khác biệt và σ là độ lệch chuẩn chung, được xác định theo công thức cho nhóm 1 (nhóm không phơi nhiễm hoặc nhóm chứng) Giả thuyết không được thiết lập là Ho: à 1 = à 2, trong khi giả thuyết thay thế là Ha: à 1 ≠ à 2.
Để tính toán cỡ mẫu cho nghiên cứu cắt ngang đánh giá hiệu quả điều trị tăng huyết áp của hai loại thuốc (thuốc mới và thuốc cũ), chúng ta dự kiến rằng thuốc cũ sẽ giảm huyết áp 5 mmHg và thuốc mới sẽ giảm 10 mmHg sau một tháng điều trị Độ lệch chuẩn về sự thay đổi huyết áp được xác định là 19 mmHg Với mức ý nghĩa α = 5% và 1 - β%, việc xác định cỡ mẫu là cần thiết để đảm bảo tính chính xác và độ tin cậy của kết quả nghiên cứu.
Cỡ mẫu được tính toán theo công thức như sau: ứ ứ ứ ứ ứ ứ ứ ứ ứ ứ ứ ứ ứ ứ ứ �ℎá� ệệệệệệệệệệệệệệệ=��= −
0,2632 Vậy cỡ mẫu cho mỗi nhóm là: n = 227
* Tính toán theo phần mềm HSS 1.0:
Ghi chú: Xem thêm phần hiệu chỉnh cỡ mẫu theo tỷ lệ không trả lời và hệ số thiết kế để tính toán cỡ mẫu cuối cùng
2.4 Nghiên cứu gồm 2 mẫu ghép cặp, kiểm định 2 số trung bình
Trong đó: o n là cỡ mẫu cho mỗi nhóm
� oà d là sự khỏc biệt giữa 2 lần đo o� 1− α là giá trị từ phân bố chuẩn, được tính dựa trên xác suất sai lầm loại
1 (� 1− α = 1,96 nếu xác suất sai lầm loại 1 = 5% và kiểm định 2 phía).
Giá trị 2 ó 1− β được tính dựa trên lực thống kê, với � 1− β = 0,842 khi lực thống kê đạt 80% Mức khác biệt được ký hiệu là oES, trong khi độ lệch chuẩn của sự khác biệt giữa hai nhóm được biểu thị bằng oσ � Giả thuyết không Ho được đặt ra là d = 0, và giả thuyết thay thế Ha là d ≠ 0.
Để tính toán cỡ mẫu cho nghiên cứu theo dõi dọc mức tăng cân nặng ở nhóm trẻ, cần biết rằng nghiên cứu trước đây cho thấy sự khác biệt về cân nặng giữa hai lần đo là 3g với độ lệch chuẩn 9,1g Với mức ý nghĩa α = 5% và độ mạnh của kiểm định 1 – β = 80%, chúng ta có thể xác định cỡ mẫu cần thiết để đảm bảo tính chính xác và độ tin cậy của kết quả nghiên cứu.
Cỡ mẫu được tính toán theo công thức như sau:
Vậy cỡ mẫu của mỗi nhóm là: n = 73
* Tính toán theo phần mềm HSS 1.0:
Ghi chú: Xem thêm phần hiệu chỉnh cỡ mẫu theo tỷ lệ không trả lời và hệ số thiết kế để tính toán cỡ mẫu cuối cùng
2.5 Nghiên cứu gồm 2 mẫu độc lập, kiểm định 2 tỷ lệ
Trong nghiên cứu, cỡ mẫu được ký hiệu là n, trong khi p1 đại diện cho kết quả theo giả thuyết Ha Tỷ lệ từ các nghiên cứu trước đây hoặc giá trị cần kiểm định được ký hiệu là p0, tương ứng với giả thuyết Ho Giá trị 1− α được tính từ phân bố chuẩn, dựa trên xác suất sai lầm loại.
1 (� 1− α = 1,96 nếu xác suất sai lầm loại 1 = 5% và kiểm định 2 phía).
2 o� 1− β là giá trị được tính dựa trên lực thống kê (� 1− β =0,842 nếu lực thống kê là 80%) oES là mức khác biệt o Ho: � 1 =� 2 o Ha: � 1 ≠ � 2
Để tính toán cỡ mẫu cho nghiên cứu so sánh hiệu quả điều trị tỷ lệ tăng huyết áp của hai loại thuốc (mới và cũ), cần xem xét tỷ lệ đáp ứng của thuốc cũ là 24% và kỳ vọng tỷ lệ đáp ứng của thuốc mới là 30% Với mức ý nghĩa α = 5% và độ mạnh của nghiên cứu 1 – β = 80%, cùng với sai số 5%, việc xác định cỡ mẫu sẽ giúp đảm bảo tính chính xác và độ tin cậy của kết quả nghiên cứu.
Cỡ mẫu được tính toán theo công thức như sau:
Vậy cỡ mẫu của mỗi nhóm là: n = 860
* Tính toán theo phần mềm HSS 1.0:
Ghi chú: Xem thêm phần hiệu chỉnh cỡ mẫu theo tỷ lệ không trả lời và hệ số thiết kế để tính toán cỡ mẫu cuối cùng
2.6 Nghiên cứu gồm 2 mẫu ghép cặp, kiểm định 2 tỷ lệ (McNemar)
Kiểm định này thường áp dụng trong nghiên cứu bệnh chứng ghép cặp, trong đó các đối tượng được chia thành hai nhóm: nhóm có bệnh và nhóm không có bệnh Mỗi nhóm sẽ được theo dõi hai lần, cho phép quan sát sự chuyển đổi về tình trạng bệnh giữa các nhóm.
Bảng 2: Nghiên cứu bệnh chứng ghép cặp (n)
Có bệnh Không bệnh Tổng
Bảng 3: Nghiên cứu bệnh chứng ghép cặp (p)
Có bệnh Không bệnh Tổng
(�� − 1) 2 �� o� 1− α là giá trị từ phân bố chuẩn, được tính dựa trên xác suất sai lầm loại
1 (� 1− α = 1,96 nếu xác suất sai lầm loại 1 = 5% và kiểm định 2 phía).
2 o� 1− β là giá trị được tính dựa trên lực thống kê (� 1− β = 0,842 nếu lực thống kê là 80%) o OR = � 10
Chọn α = 5%, 1- β = 80% Nghiên cứu ghép cặp có sự chuyển đổi về tình trạng có bệnh-không có bệnh giữa 2 nhóm như dưới đây
Cỡ mẫu được tính toán theo công thức như sau:
* Tính toán theo phần mềm HSS 1.0:
Ghi chú: Xem thêm phần hiệu chỉnh cỡ mẫu theo tỷ lệ không trả lời và hệ số thiết kế để tính toán cỡ mẫu cuối cùng
2.7 Nghiên cứu bệnh chứng, kiểm định OR
Nghiên cứu nghiệm pháp chẩn đoán
Nghiên cứu về nghiệm pháp chẩn đoán thường đề cập đến độ nhạy (Sensivity) và đặc hiệu (Specificity) như trình bày ở bảng dưới đây
Bảng 4: Khái niệm trong nghiên cứu về nghiệm pháp chẩn đoán
Không bệnh Âm tính giả Độ đặc hiệu
Một nghiệm pháp chẩn đoán có giá trị trong thực hành lâm sàng cần đạt độ nhạy và đặc hiệu tối thiểu 0.75, với mức lý tưởng là 0.80 Giá trị của nghiệm pháp này còn phụ thuộc vào tỉ lệ hiện mắc của bệnh trong quần thể Vì vậy, phương pháp xác định cỡ mẫu nghiên cứu nghiệm pháp chẩn đoán cần dựa vào các chỉ số này.
Các tham số quan trọng trong nghiên cứu bao gồm độ nhạy (Sen), độ đặc hiệu (Spe), mức sai số (d) của Sen và Spe, cùng với tỉ lệ hiện mắc (P) của bệnh trong quần thể Cỡ mẫu được xác định thông qua công thức tính toán cụ thể.
• Cỡ mẫu cho độ nhạy
� oTP là số dương tính thật – true positive oFN là số âm tính giả - false negative oP là tỷ lệ hiện mắc
TP + FN (Số có bệnh trên thực tế) được tính bằng công thức
��+��= 1 −2 � 2 o� 1− α là giá trị từ phân bố chuẩn, được tính dựa trên mức ý nghĩa thống
2 kê (� 1− α = 1,96 nếu mức ý nghĩa thống kê = 5% và kiểm định 2 phía)
2 oSen là độ nhạy o d là mức sai số
• Cỡ mẫu cho độ đặc hiệu
� 1 − oTN là số âm tính thật – true negative oFP là số dương tính giả - false positive oP là tỷ lệ hiện mắc
TN + FP (Số không có bệnh trên thực tế) được tính bằng công thức
��+��= 1 −2 � 2 o� 1− α là giá trị từ phân bố chuẩn, được tính dựa trên mức ý nghĩa thống
2 kê (� 1− α = 1,96 nếu mức ý nghĩa thống kê = 5% và kiểm định 2 phía)
2 oSpe là độ đặc hiệu o d là mức sai số
Để tính toán cỡ mẫu cho nghiên cứu nghiệm pháp chẩn đoán, các nhà nghiên cứu đã xác định độ nhạy khoảng 0,8 và độ đặc hiệu khoảng 0,9, với tỷ lệ hiện mắc là 20% và mức ý nghĩa α = 5% Cỡ mẫu cần thiết được tính toán dựa trên các thông số này để đảm bảo tính chính xác và độ tin cậy của kết quả nghiên cứu.
* Tính toán theo phần mềm HSS 1.0: Để tính toán độ đặc hiệu
* Tính toán theo phần mềm HSS 1.0:
Chúng ta cần xác định từ đầu là ưu tiên hay độ nhạy hay độ đặc hiệu để quyết định tính cỡ mẫu.
Nghiên cứu tương đương (Equivalence trial)
Nghiên cứu tương đương được thực hiện để chứng minh rằng hai giải pháp điều trị có hiệu quả tương đương, tức là không có sự khác biệt đáng kể Các nhà nghiên cứu cần xác định ngưỡng (d); nếu sự khác biệt trong hiệu quả điều trị nằm trong khoảng từ -d đến +d, có thể kết luận rằng hai phương pháp là tương đương Kiểm định này được thực hiện theo hai phía: giả thuyết Ho cho thấy có sự khác biệt lâm sàng đáng kể giữa hai phương pháp (à1-à2 ≤ -d hoặc à1-à2 ≥ +d), trong khi giả thuyết Ha chỉ ra rằng không có sự khác biệt lâm sàng đáng kể (−d < |à1−à2| < +d).
Tốt hơn (Superriority) Tương đương (Equivalence)
• Đối với biến định lượng: 2(� α +� 1−� )
Trong đó: o n là cỡ mẫu
o� 1− α là giá trị từ phân bố chuẩn, được tính dựa trên xác suất sai lầm loại
1 (� 1− α = 1,96 nếu xác suất sai lầm loại 1 5% và kiểm định 2 phía).
Giá trị 2 ó 1− β được tính dựa trên lực thống kê, với ó 1− β = 0,842 khi lực thống kê là 80% Mức độ khác biệt oH, cùng với số trung bình của nhóm can thiệp oà1 và số trung bình của nhóm đối chứng oà2, giúp xác định ngưỡng khác biệt d Nếu -d < |oà1 - oà2| < +d, chúng ta có thể kết luận rằng hiệu quả của nhóm can thiệp và nhóm chứng tương đương nhau Độ lệch chuẩn chung của hai nhóm được ký hiệu là oσ.
(xem công thức tính độ lệch chuẩn chung)
• Đối với biến định tính:
− α là giá trị từ phân bố chuẩn, được tính dựa trên xác suất sai lầm loại
1 (� 1− α = 1,96 nếu xác suất sai lầm loại 1 5% và kiểm định 2 phía).
Giá trị 2 ó 1− β được tính dựa trên lực thống kê, với 1− β = 0,842 khi lực thống kê đạt 80% Trong đó, oH thể hiện mức độ khác biệt, p1 là tỷ lệ ở nhóm can thiệp, p2 là tỷ lệ ở nhóm đối chứng, và d là ngưỡng khác biệt (điểm cắt) Nếu p1 - p2 < d, có thể kết luận rằng hiệu quả của nhóm can thiệp và nhóm chứng tương đương nhau.
• Ví dụ oĐối với biến định lượng:
Để tính toán cỡ mẫu cho nghiên cứu so sánh hiệu quả của hai thuốc điều trị loãng xương, các nhà nghiên cứu đã xác định hiệu quả kỳ vọng của thuốc mới là 7 điểm và thuốc cũ là 4 điểm, với độ lệch chuẩn của mức tăng là 10 điểm Họ quyết định rằng nếu sự khác biệt giữa hai thuốc nhỏ hơn 2 điểm, thì coi như chúng có hiệu quả tương đương Với mức ý nghĩa α = 5% và độ mạnh của kiểm định 1 - β = 80%, cỡ mẫu được tính toán để đảm bảo độ chính xác trong kết quả nghiên cứu.
Cỡ mẫu cho mỗi nhóm n = 561
* Tính toán theo phần mềm HSS 1.0:
Lưu ý: Để tính toán kích thước mẫu cuối cùng, hãy tham khảo phần điều chỉnh kích thước mẫu theo tỷ lệ không trả lời và hệ số thiết kế, đặc biệt đối với các biến định tính.
Để tính toán cỡ mẫu cho nghiên cứu chứng minh hiệu quả của hai thuốc điều trị loãng xương, các nhà nghiên cứu đã xác định tỷ lệ đáp ứng kỳ vọng cho thuốc mới là 40% và thuốc cũ là 30% Họ quyết định rằng nếu sự khác biệt giữa hai thuốc nhỏ hơn 5%, thì coi như chúng có hiệu quả tương đương nhau Với mức ý nghĩa α = 5% và độ mạnh 1 – β = 80%, cỡ mẫu cần thiết sẽ được tính toán dựa trên các thông số này.
Cỡ mẫu cho mỗi nhóm n = 1009
* Tính toán theo phần mềm HSS 1.0:
Ghi chú: Xem thêm phần hiệu chỉnh cỡ mẫu theo tỷ lệ không trả lời và hệ số thiết kế để tính toán cỡ mẫu cuối cùng
Nghiên cứu không kém hơn (Non-inferiority trial)
Các nghiên cứu không kém hơn thường nhằm mục tiêu chứng minh rằng một giải pháp điều trị không kém hơn so với giải pháp điều trị khác Các nhà nghiên cứu cần xác định ngưỡng (d) để đánh giá sự khác biệt về hiệu quả điều trị Nếu sự khác biệt lớn hơn -d, có thể kết luận rằng hiệu quả của giải pháp điều trị này không kém hơn so với giải pháp điều trị khác Đây là kiểm định một phía với giả thuyết không (Ho) cho rằng giải pháp điều trị 1 kém hơn giải pháp điều trị 2, và giả thuyết thay thế (Ha) cho rằng giải pháp điều trị 1 không kém hơn giải pháp điều trị 2.
Kém hơn Không kém hơn
(Inferiority) Tương đương (Equivalence) (Superriority)
Công thức tính cỡ mẫu trong nghiên cứu không khác biệt nhiều so với công thức của nghiên cứu tương đương, chỉ có sự khác biệt trong việc áp dụng các yếu tố cụ thể.
� 1− =1,645 (kiểm định một phía) thay cho dùng � 1−
2 = 1,96 trong nghiên cứu tương đương (kiểm định 2 phía) oĐối với biến định lượng:
Trong nghiên cứu chứng minh hiệu quả của hai thuốc điều trị loãng xương, các nhà nghiên cứu tính toán cỡ mẫu với hiệu quả kỳ vọng của thuốc mới là 7 điểm và thuốc cũ là 4 điểm, cùng với độ lệch chuẩn của mức tăng là 10 điểm Họ quyết định rằng nếu sự khác biệt giữa hai thuốc nhỏ hơn 2 điểm, thì sẽ coi chúng có hiệu quả tương đương Với mức ý nghĩa α = 5% và độ mạnh của kiểm định 1 - β = 80%, cỡ mẫu cần thiết được tính toán để đảm bảo tính chính xác của kết quả nghiên cứu.
Cỡ mẫu cho mỗi nhóm n = 498
* Tính toán theo phần mềm HSS 1.0: o Đối với biến định tính:
Để tính toán cỡ mẫu cho nghiên cứu chứng minh hiệu quả của hai loại thuốc điều trị loãng xương, tỷ lệ đáp ứng kỳ vọng của thuốc mới là 40% và thuốc cũ là 30% Các nhà nghiên cứu xác định rằng nếu sự khác biệt giữa hai thuốc nhỏ hơn 5%, chúng sẽ được coi là có hiệu quả tương đương Với mức ý nghĩa α = 5% và độ tin cậy 1 – β = 80%, cỡ mẫu cần thiết sẽ được tính toán để đảm bảo tính chính xác của nghiên cứu.
* Tính toán theo phần mềm HSS 1.0:
Nghiên cứu thử nghiệm lâm sàng theo cụm (Cluster randomized design) 62 7 Cỡ mẫu cho mô hình hồi quy
Nghiên cứu thử nghiệm lâm sàng theo cụm (CRCT) là một hình thức nghiên cứu can thiệp, trong đó toàn bộ cá thể trong một đơn vị hành chính được chọn ngẫu nhiên vào nhóm can thiệp hoặc nhóm chứng Khác với các nghiên cứu can thiệp truyền thống, nơi từng cá thể được lựa chọn ngẫu nhiên, CRCT có sai số cao hơn do sự tương đồng giữa các cá thể trong cùng một cụm, được đo bằng hệ số tương quan trong lớp (ICC).
Trong đó: o n là số cụm o� 1− α là giá trị từ phân bố chuẩn, được tính dựa trên xác suất sai lầm loại
1 (� 1− α = 1,96 nếu xác suất sai lầm loại 1 = 5% và kiểm định 2 phía).
Giá trị 2 ó 1− β được tính dựa trên lực thống kê, với 1− β = 0,842 khi lực thống kê đạt 80% Độ lệch chuẩn được ký hiệu là oσ, trong khi phương sai tương ứng là oσ 2 Số lượng cá thể trong từng cụm được biểu thị bằng oγ (Gamma), và mức khác biệt về hiệu quả điều trị giữa nhóm can thiệp và nhóm chứng được ký hiệu là oδ (Delta) Hệ số phóng đại phương sai (VIF) được tính bằng công thức VIF = 1+(γ− 1)∗ oσ 2 Cuối cùng, hệ số tương quan nội cụm (ICC) được tính dựa trên mô hình hồi quy đa tầng, thể hiện tỷ trọng của sự khác biệt giữa các cụm so với tổng số sự khác biệt giữa các cụm và sự khác biệt nội cụm.
Phương sai giữa các cụm (tầng 2) được ký hiệu là σ²o, trong khi phương sai giữa các cá thể trong từng cụm (tầng 1) cũng được ký hiệu là σ²o Nếu các cá thể trong từng cụm có sự tương đồng cao, thì giá trị σ²o sẽ nhỏ, dẫn đến chỉ số ICC lớn hơn, từ đó yêu cầu cỡ mẫu cũng sẽ tăng lên.
Để tính toán cỡ mẫu cho nghiên cứu thử nghiệm lâm sàng so sánh hiệu quả của hai thuốc điều trị huyết áp, cần xác định mức khác biệt về hiệu quả điều trị giữa thuốc mới và thuốc cũ là 10 mmHg Độ lệch chuẩn gộp của huyết áp được xác định là 25, với số người tham gia nghiên cứu ở mỗi cụm là 20 Hệ số tương quan nội cụm (ICC) là 0,03, và các thông số được chọn là α = 5% và 1 - β%.
* Tính toán theo phần mềm HSS 1.0:
Cỡ mẫu cho mô hình hồi quy đa biến là yếu tố quan trọng, với quy ước phổ biến yêu cầu tỷ lệ cỡ mẫu so với số lượng tham số ít nhất từ 10-30 Điều này có nghĩa là cần tối thiểu 10-30 mẫu cho mỗi tham số trong mô hình Ví dụ, đối với một mô hình đa biến có 3 biến số, số lượng mẫu tối thiểu cần thiết sẽ dao động từ 30 đến 90 mẫu.
Một số hiệu chỉnh
8.1 Hiệu chỉnh đối với quần thể hữu hạn
Các công thức tính cỡ mẫu thường giả định rằng quá trình lấy mẫu là có hoàn trả và dân số đích đủ lớn Khi dân số đích nhỏ, cần hiệu chỉnh cỡ mẫu để giảm hao phí nguồn lực và vẫn đảm bảo tính đại diện Nếu số mẫu chiếm hơn 10% dân số, ta cần áp dụng công thức hiệu chỉnh: (ntính được * ndân số đích) / (ntính được + ndân số đích).
8.2 Hiệu chỉnh theo hệ số thiết kế (Design effect)
Việc xác định cỡ mẫu phải phù hợp với thiết kế nghiên cứu, đặc biệt khi nghiên cứu sử dụng phương pháp lấy mẫu cụm, nơi mà các đối tượng trong cùng một cụm có đặc điểm tương đồng Để đảm bảo tính ngẫu nhiên, cần áp dụng hệ số thiết kế (design effect) vào công thức tính cỡ mẫu Hệ số thiết kế phản ánh mức độ tương đồng giữa các đối tượng trong cùng một cụm, được đo bằng chỉ số tương quan nội cụm (ICC) Do đó, để tính toán chính xác cỡ mẫu trong nghiên cứu lấy mẫu cụm, việc hiểu và tính toán hệ số thiết kế là rất cần thiết.
DE = 1 + ICC*(k – 1) Trong đó, k là số lượng đối tượng nghiên cứu được chọn trong mỗi cụm.
Hệ số thiết kế phụ thuộc vào hai yếu tố chính: mức độ tương quan giữa các cá thể trong cụm, được đo bằng hệ số ICC, và số lượng cá thể được chọn trong mỗi cụm - k Hệ số ICC dao động từ 0 đến 1; giá trị 0 cho thấy các cá thể trong cụm hoàn toàn độc lập, dẫn đến hệ số thiết kế bằng 1, tương đương với cách tính cỡ mẫu như trong chọn mẫu ngẫu nhiên đơn hoặc hệ thống Ngược lại, khi ICC bằng 1, các cá nhân trong cụm hoàn toàn tương đồng, lúc này hệ số thiết kế bằng số lượng cá thể được chọn trong cụm Hệ số ICC có thể được tính toán từ các nghiên cứu trước đó thông qua một công thức cụ thể.
ICC = σ 2 giữa các cụm/ (σ 2 trong cụm + σ 2 giữa các cụm)
Trong phân tích phương sai, σ² trong một cụm đại diện cho phương sai (mức độ giao động) của các giá trị đo lường trong cùng cụm, trong khi σ² giữa các cụm phản ánh phương sai giữa các cụm khác nhau.
Trong thực tế, việc tính toán trực tiếp chỉ số ICC thường gặp khó khăn do thiếu thông tin Để đơn giản hóa quá trình này, hệ số ICC được phân chia thành các mức độ tương quan: rất thấp (0 < ICC ≤ 0.01), trung bình (0.01 < ICC ≤ 0.03), mạnh (0.03 < ICC ≤ 0.05) và rất mạnh (ICC > 0.05) Ví dụ, một nghiên cứu áp dụng kỹ thuật chọn mẫu cụm để xác định mức độ tương quan này.
Trong nghiên cứu này, 35 người được chọn từ mỗi cụm (k = 35), với giả định rằng các cá nhân trong mỗi cụm có mối tương quan cao Nhà nghiên cứu đã lựa chọn chỉ số ICC là 0.05, dẫn đến hệ số thiết kế là 1 + 0.05*(35 – 1) = 2.7 Do đó, cỡ mẫu ban đầu cần được nhân thêm 2.7 lần để phù hợp với phương pháp chọn mẫu cụm.
Để giảm cỡ mẫu (DE nhỏ hơn), cần giảm số lượng cá thể trong mỗi cụm, dẫn đến việc phải chọn nhiều cụm hơn Ngược lại, nếu tăng số lượng cá thể trong mỗi cụm, số lượng cụm cần lấy sẽ giảm, nhưng cỡ mẫu tổng cộng sẽ tăng lên.
8.3 Hiệu chỉnh tỷ lệ không trả lời, bỏ cuộc Ước lượng cỡ mẫu từ các công thức tính cỡ mẫu sẽ cho chúng ta cỡ mẫu cần có (cuối cùng) trong nghiên cứu Tuy nhiên, việc tính cỡ mẫu cần phải dự trù cho khả năng đối tượng nghiên cứu từ chối tham gia, hoặc bỏ ngang trong quá trình nghiên cứu để đảm bảo có được cỡ mẫu cuối cùng cần thiết Tùy vào tình huống cụ thể mà có thể lựa chọn tỉ lệ mất mẫu cho phù hợp Thông tin này thường được tham khảo từ những nghiên cứu trước đó trên đối tượng nghiên cứu tương tự Số lượng cỡ mẫu bao sau khi dự trù mất mẫu được tính bằng công thức: nbao gồm dự trù mất mẫu = nban đầu / (1 – tỉ lệ mất mẫu)
Khi nghiên cứu, nếu cần cỡ mẫu là 500 và dự trù tỷ lệ mất mẫu khoảng 10%, số đối tượng cần tiếp cận sẽ là 556 mẫu, tính theo công thức 500/0.9 Lưu ý rằng việc dự trù mất mẫu phải lấy số lượng mẫu ban đầu chia cho 1 trừ đi tỷ lệ mất mẫu, không phải cộng thêm 10% Nếu cộng thêm 10% vào 500, tổng số mẫu sẽ là 550, nhưng với tỷ lệ mất mẫu 10%, số mẫu thu được cuối cùng chỉ còn 495, ít hơn 5 mẫu so với yêu cầu ban đầu.
Tỉ lệ mất mẫu cần được xem xét kỹ lưỡng, bởi nếu tỉ lệ này quá thấp, nghiên cứu sẽ không thu thập đủ mẫu cần thiết Ngược lại, tỉ lệ mất mẫu quá cao có thể dẫn đến lãng phí nguồn lực nghiên cứu do phải tuyển chọn nhiều đối tượng hơn mức cần thiết.
8.4 Hiệu chỉnh khi cỡ mẫu 2 nhóm không bằng nhau
Trong nghiên cứu so sánh giữa các nhóm, cỡ mẫu thường giống nhau, nhưng nhà nghiên cứu có thể điều chỉnh tỉ lệ mẫu tùy thuộc vào hoàn cảnh Ví dụ, trong thử nghiệm lâm sàng so sánh hiệu quả thuốc mới với giả dược, tỉ lệ mẫu không nhất thiết phải là 1:1; có thể chọn tỉ lệ một ca dùng thuốc với nhiều ca đối chứng Việc này làm tăng số lượng mẫu ở nhóm chứng, dẫn đến cỡ mẫu chung lớn hơn Cần lưu ý rằng trong các nghiên cứu can thiệp, tỉ lệ mẫu khác 1:1 phải đảm bảo số lượng mẫu ở nhóm chứng lớn hơn nhóm can thiệp để tránh ảnh hưởng không mong muốn Tăng tỉ lệ mẫu giữa các nhóm đặc biệt hữu ích trong nghiên cứu bệnh chứng với khả năng xảy ra bệnh thấp, giúp cải thiện độ chính xác của các phép kiểm định thống kê Công thức hiệu chỉnh cho tỉ lệ các nhóm khác nhau cũng cần được áp dụng.
Cỡ mẫu hiệu chỉnh N’ được tính dựa trên cỡ mẫu ban đầu N và tỷ số k giữa hai nhóm Chẳng hạn, trong một nghiên cứu bệnh chứng, cỡ mẫu ban đầu được xác định là 400.
Nhà nghiên cứu đã điều chỉnh tỷ lệ giữa các nhóm bệnh và chứng do khó khăn trong việc tìm kiếm người tham gia Cụ thể, tỷ lệ được tăng lên 1 cho nhóm bệnh và 2 cho nhóm chứng, dẫn đến cỡ mẫu hiệu chỉnh là 450, với 150 người ở nhóm bệnh và 300 người ở nhóm chứng.
Theo công thức đã nêu, tỷ lệ cỡ mẫu giữa nhóm chứng và nhóm can thiệp/bệnh không nên vượt quá 4 lần Việc lựa chọn tỷ lệ này hợp lý sẽ giúp duy trì độ chính xác mà không làm lãng phí nguồn lực nghiên cứu.
PHỤ LỤC: CHỌN MẪU CHO QUẦN THỂ KHÓ TIẾP CẬN
ThS Trần Hùng Minh, PGS.TS Phạm Minh Khuê
Giới thiệu
Quần thể nghiên cứu khó tiếp cận trong y tế công cộng bao gồm các nhóm như người tiêm chích ma túy, phụ nữ mại dâm, người vô gia cư, nam quan hệ tình dục đồng giới và người chuyển giới Việc chọn mẫu trong những nhóm này gặp nhiều khó khăn do thiếu khung mẫu và tỷ lệ nhỏ trong quần thể chung, cùng với rào cản xã hội như kỳ thị Kỹ thuật chọn mẫu theo chuỗi, hay còn gọi là Chọn mẫu Snowball, cải thiện khả năng tiếp cận thông qua mạng lưới của chính những người trong nhóm, nhưng vẫn mang tính thuận tiện hơn so với chọn mẫu xác suất Năm 1997, Heckathorn đã phát triển kỹ thuật “Dây chuyền có kiểm soát” (Respondent-driven sampling) để nâng cao hiệu quả trong việc nghiên cứu những quần thể này.
Phương pháp RDS (Respondent-Driven Sampling) được phát triển để khắc phục những hạn chế của chọn mẫu thuận tiện [Heckathorn, D D 1997] Phương pháp này đã được áp dụng rộng rãi trong nhiều nghiên cứu liên quan đến các quần thể khác nhau, bao gồm người tiêm chích ma túy, mại dâm, nam quan hệ tình dục đồng giới và người chuyển giới tại nhiều quốc gia, trong đó có Việt Nam [Family Health International 2005; Lang 2004; Des Jarlais D et al 2016; Michel L et al.].
Nghiên cứu về đối tượng tiêm chích ma túy tại Việt Nam đã chỉ ra rằng RDS (Respondent-Driven Sampling) không chỉ là một kỹ thuật chọn mẫu cho nghiên cứu mà còn có thể là một phương án hiệu quả để thu nhận đối tượng cho các can thiệp cộng đồng đối với những nhóm người khó tiếp cận Bên cạnh RDS, phương pháp chọn mẫu theo Thời gian-Địa điểm (Time Location Sampling - TLS) cũng được áp dụng, đặc biệt cho các quần thể di động Kỹ thuật này cho phép nghiên cứu viên tiếp cận đối tượng tại những địa điểm mà họ thường xuyên xuất hiện, như điểm tiêm chích ma túy, khu vực hoạt động của nhóm mại dâm, hoặc các quán bar.
Mỗi phương pháp nghiên cứu có những ưu nhược điểm riêng, yêu cầu lựa chọn phù hợp với từng loại hình thiết kế Nghiên cứu tại Hà Nội và Hải Phòng đã so sánh hai phương pháp RDS và TLS trong việc tiếp cận đối tượng khó tiếp cận là phụ nữ bán dâm tại Việt Nam Kết quả cho thấy cả hai phương pháp đều hiệu quả trong việc thu thập dữ liệu, tuy nhiên, phương pháp RDS có khả năng tuyển chọn nhiều phụ nữ mại dâm hoạt động ngầm hơn.
Một nghiên cứu tại Hải Phòng cho thấy tỷ lệ từ chối tham gia cao hơn khi áp dụng phương pháp RDS cho người tiêm chích ma túy, trong khi phương pháp TLS yêu cầu ít nhân lực và chi phí hơn cho việc thu nhận đối tượng nghiên cứu [Tran HV et al 2015].
Bài viết này nhằm giới thiệu các nguyên tắc cơ bản và qui trình chọn mẫu theo phương pháp RDS và TLS
Chọn mẫu RDS
Kỹ thuật chọn mẫu truyền thống Snowball thường gặp sai số do yếu tố "tự nguyện tham gia", dẫn đến tình trạng chọn mẫu quá nhiều một nhóm và bỏ sót một số nhóm khác trong quần thể Để khắc phục hạn chế này, kỹ thuật chọn mẫu RDS áp dụng hình thức chi trả "kép", trong đó người tham gia nghiên cứu được trả tiền và họ cũng nhận thêm tiền khi mời thêm đối tượng tham gia nghiên cứu đạt chất lượng.
Nghiên cứu năm 1997 chỉ cho phép mời thêm một số lượng hạn chế đối tượng nghiên cứu mới, thường từ 3-5 người, tùy thuộc vào thiết kế nghiên cứu Phương thức tuyển dụng này, thông qua 5-7 vòng tuyển chọn, giúp đảm bảo mẫu nghiên cứu đạt tính đại diện cho quần thể và không còn phụ thuộc vào đặc điểm của những cá nhân được mời ở vòng đầu tiên, được gọi là các hạt giống.
Bước 1: Tính toán cỡ mẫu nghiên cứu
Bài viết này không đi sâu vào phương pháp tính cỡ mẫu, nhưng việc tính cỡ mẫu cho nghiên cứu chọn mẫu RDS tương tự như các nghiên cứu khác Công thức tính cỡ mẫu phụ thuộc vào mục tiêu nghiên cứu và loại biến số chính cần đo lường, chẳng hạn như ước tính giá trị trung bình, tỷ lệ hoặc so sánh hai tỷ lệ Do RDS không phải là chọn mẫu ngẫu nhiên đơn, hệ số thiết kế (design effect) sẽ được áp dụng trong quá trình tính cỡ mẫu Sau khi xác định được cỡ mẫu, chúng ta sẽ quyết định số lượng đối tượng hạt giống và số người mà mỗi đối tượng sẽ mời tham gia nghiên cứu.
Một nghiên cứu đã xác định nhu cầu chăm sóc sức khỏe của người chuyển giới nữ tại Hà Nội và TP HCM, áp dụng công thức tính cỡ mẫu để ước tính tỷ lệ với độ chính xác tuyệt đối.
Z 2 P( P) n = DE x 1 / 2 d 2 oAlpha = 0.05 oP (Tỷ lệ sử dụng phương pháp hormon trong nhóm chuyển giới nữ) 0.49 o d (độ chính xác tuyệt đối) = 0.1 oHệ số thiết kế (Design effect) = 2
Bước 2: Thiết kế “Phiếu giới thiệu” đối tượng nghiên cứu (coupon) và sử dụng phần mềm quản lý coupon
Một phiếu coupon thường có ba liên: liên số 1 do nghiên cứu viên giữ, trong khi liên số 2 và 3 được giao cho đối tượng tham gia phỏng vấn để mời thêm người khác tham gia nghiên cứu Khi mời được người mới, liên số 3 sẽ được giao cho họ, còn liên số 2 đối tượng giữ lại để quay lại gặp nhóm nghiên cứu nhận tiền Khách hàng mới sẽ mang liên số 3 đến địa điểm phỏng vấn để đăng ký tham gia nghiên cứu Nghiên cứu viên sẽ nhập mã số Người giới thiệu và mã số khách hàng được giới thiệu vào phần mềm quản lý Coupon để theo dõi tiến độ tuyển mộ và thanh toán tiền cho đối tượng nghiên cứu.
Ví dụ minh họa: coupon trong một nghiên cứu nhóm đối tượng chuyển giới nữ
Người được bạn giới thiệu cần:
3 Chưa tham gia vào nghiên cứu này
Hãy đến tham gia nghiên cứu với chúng tôi nếu bạn:
3 Chưa tham gia vào nghiên cứu này
Phần mềm quản lý coupon:
Phần mềm thường được sử dụng là RDSCM [Heckathorn, D D 1997].
(RDS Coupon Manager) phiên bản tiếng Việt, có thể tải miễn phí từ đường link http://www.respondentdriven sampling.org/ [ Des Jarlais D et al 2016]
Bảng 5: Quy trình sử dụng phần mềm
Khi 1 người đ ến phỏng vấn oKi ểm tra coupon oHỏi các thông tin (phần đầu trong bộ câu hỏi) o Nhập mã s ố coupon và thông tin sàng lọc vào phần mềm o Kiểm tra sự trùng lắp đối tượng*
Khi hoàn tất phỏng vấn 1 người
Bổ sung các thông tin: oCó phỏng vấn không o Mã s ố các coupon được giao
V o Ki ẽ sơ đ ồ tuyển người Tra ểm tra tình hình phân phát coupon và phỏng vấn
Khi 1 người đến nhận tiền giới thiệu người
Để kiểm tra tính hợp lệ của coupon, cần xác minh xem người sở hữu mã coupon đã được phỏng vấn hay chưa và liệu họ đã thanh toán cho người giới thiệu hay chưa.
Phần mềm RDSCM kiểm tra trùng lặp đối tượng nghiên cứu bằng cách sử dụng các biến số sinh trắc như chiều dài khủy tay, chu vi cổ tay và các đặc điểm nhận dạng trên khuôn mặt như nốt ruồi và sẹo Trong bối cảnh công nghệ phát triển nhanh chóng, việc xác định trùng lặp hiện nay có thể áp dụng máy quét vân tay Máy quét vân tay lưu trữ dữ liệu dưới dạng dãy số duy nhất mà không lưu hình ảnh, do đó không liên kết với thông tin cá nhân và giảm thiểu nguy cơ lộ thông tin của đối tượng nghiên cứu.
Để xác định các đặc điểm quan trọng của quần thể nghiên cứu có thể ảnh hưởng đến biến số nghiên cứu, nghiên cứu viên cần thảo luận với đại diện của quần thể đích Việc này giúp nhận diện các nhóm nhỏ trong quần thể, ví dụ như trong nghiên cứu hành vi nguy cơ nhiễm HIV ở quần thể MSM, cần tìm hiểu các nhóm như mại dâm nam, người sử dụng thuốc kích thích khi quan hệ tình dục, và phân loại theo độ tuổi Những đặc điểm này có thể liên quan trực tiếp đến hành vi nguy cơ mà nghiên cứu đang tập trung.
Khi xây dựng tiêu chuẩn chọn hạt giống cho nghiên cứu, cần lựa chọn những người có mối quan hệ rộng trong cộng đồng đích và khả năng mời gọi nhiều đối tượng tham gia Tránh tuyển chọn hạt giống là nhân viên của các tổ chức cộng đồng hoặc những người đã tham gia nhiều nghiên cứu trong lĩnh vực liên quan Mặc dù lý thuyết phân chia cộng đồng đích thành ba nhóm, thực tế có thể gặp khó khăn trong việc tìm kiếm hạt giống đáp ứng đầy đủ tiêu chí, đặc biệt là với các nhóm nhỏ Do đó, cần phân bổ nhiều hạt giống cho các nhóm đông hơn, đảm bảo rằng các đặc điểm của nhóm nghiên cứu được phản ánh trong các hạt giống được chọn.
Hành vi Nhóm tuổi Cộng
Dùng thuốc kích thích khi quan hệ tình dục
Để xác định số hạt giống cần tuyển dụng và số coupon phát cho mỗi đối tượng, cần xem xét cỡ mẫu và số vòng tuyển dụng dự kiến Công thức ước tính số hạt giống cần tuyển là: a = n/(b1 + b2 + b3 +… + bc).
Trong đó: oSố hạt giống = a oCỡ mẫu = n oSố coupon dự kiến phát cho một đối tượng = b oSố vòng tuyển dụng mong đợi = c
Ví dụ: cỡ mẫu n= 192, số coupon dự kiến phát cho một đối tượng b = 3, số vòng tuyển dụng mong đợi c = 3 a = 192/(3 1 +3 2 +3 3 ) = 192/39 = 4.9
Chúng ta có thể tuyển dụng 5 hạt giống, với kỳ vọng rằng mỗi đối tượng tham gia nghiên cứu sẽ tuyển đủ 3 người mới Mỗi hạt giống sẽ trải qua đầy đủ 3 vòng tuyển dụng trong chuỗi tuyển dụng này.
Có nhiều quan điểm khác nhau về việc ưu tiên số hạt giống, số vòng tuyển dụng hay số coupon phát ra cho một đối tượng trong một mẫu giới hạn Việc phát nhiều coupon cho một đối tượng có thể dẫn đến ít vòng tuyển dụng và không đạt điểm cân bằng Thực tế cho thấy, phát từ 3 đến 4 coupon cho mỗi đối tượng là phù hợp để tránh nguy cơ chuỗi tuyển người bị dừng lại sớm Nghiên cứu viên cũng cần dự trù thêm hạt giống để thay thế khi chuỗi tuyển người bị dừng ở vòng 1 hoặc 2.
Bước 4: Tổ chức và triển khai chọn đối tượng nghiên cứu trên thực địa
Nghiên cứu viên cần lựa chọn địa điểm phỏng vấn phù hợp với đặc điểm của đối tượng nghiên cứu, như người tiêm chích ma túy hoặc mại dâm, yêu cầu thực hiện mapping địa bàn và xác định số lượng địa điểm cũng như thời gian phỏng vấn Đối với người chuyển giới nữ, do số lượng hạn chế, có thể chỉ cần một địa điểm thuận tiện Một câu hỏi quan trọng là liệu có thể thực hiện nghiên cứu tại nhiều địa điểm trong cùng một thành phố hay không, hoặc nghiên cứu viên có thể đến nơi hẹn gặp để phỏng vấn Việc triển khai nghiên cứu theo hình thức cuốn chiếu giúp sàng lọc đối tượng tham gia, quản lý chuỗi tuyển người và chi trả tiền một cách hiệu quả thông qua phần mềm trên máy tính.
Trong nghiên cứu chọn mẫu RDS, việc phân tích số liệu cần sử dụng phần mềm RDSAT để hiệu chỉnh dữ liệu Nếu sử dụng các phần mềm phân tích thống kê phổ biến như SPSS hoặc STATA, cần áp dụng hệ số hiệu chỉnh dựa trên các biến số đo lường kích thước mạng lưới trong quá trình phỏng vấn đối tượng.
Chọn mẫu TLS
Chọn mẫu TLS, hay còn gọi là Chọn mẫu Địa điểm-ngày-thời gian (Venue-Day-Time Sampling) hoặc Chọn mẫu Thời gian-địa điểm (Time-space sampling), đã được sử dụng từ những năm 1980 trong nghiên cứu các cộng đồng khó tiếp cận Phương pháp này được xem như là chọn mẫu chùm ngẫu nhiên, cho phép các cá nhân trong quần thể đích có cơ hội được chọn vào nghiên cứu gần như như nhau, nhờ vào việc các địa điểm mà họ thường xuất hiện được lựa chọn ngẫu nhiên dựa trên các biến số như ngày trong tuần và khoảng thời gian trong một ngày.
Nhiều nghiên cứu tại Việt Nam đã áp dụng kỹ thuật chọn mẫu TLS để khảo sát các nhóm đối tượng khác nhau, bao gồm người tiêm chích ma túy tại Hải Phòng (Tran HV et al 2015) và phụ nữ bán dâm tại Hải Phòng (Nguyen TN et al 2009) cũng như tại Thành phố Hồ Chí Minh (Johnston).
LG et al 2006] hay cả khách hàng của phụ nữ bán dâm tại Hà Nội và tại Thành phố
Hồ Chí Minh [Nadol P et al 2017].
Bước 1: Khảo sát định tính ( formative assessment )
Mục tiêu của hoạt động này là nghiên cứu kỹ lưỡng quần thể mục tiêu nhằm xây dựng danh sách các địa điểm mà đối tượng thường xuyên lui tới, giúp các nghiên cứu viên dễ dàng tiếp cận họ tại những địa điểm này.
Một số công việc mà nghiên cứu viên cần thực hiện như sau:
Để xác định người cung cấp tin chính, cần chú ý đến hai nhóm đối tượng: nhân viên y tế cộng đồng và cán bộ dự án phụ trách địa bàn, cùng với đối tượng đích như phụ nữ mại dâm hoặc người tiêm chích ma túy Người cung cấp thông tin nên có hiểu biết sâu sắc về nhóm đối tượng này, đặc biệt là khả năng cung cấp thông tin về các địa điểm mà họ thường lui tới, từ đó giúp tiếp cận đối tượng một cách hiệu quả nhất.
Để tiến hành nghiên cứu hiệu quả, cần thực hiện phỏng vấn sâu hoặc thảo luận nhóm với người cung cấp tin chính Cần xác định xem đối tượng đích có được phân chia thành các nhóm dựa trên độ tuổi, giới tính, mức kinh tế, trình độ học vấn hoặc hành vi nguy cơ hay không Ngoài ra, mức độ "ẩn danh" của đối tượng cũng cần được xem xét, cùng với các kỳ thị xã hội và yếu tố pháp lý có thể ảnh hưởng đến khả năng tiếp cận của nghiên cứu viên Việc phân bố của đối tượng đích trên địa bàn điều tra cũng rất quan trọng, liệu họ có tập trung tại từng khu vực hay phân tán rải rác Cuối cùng, cần tìm hiểu cách mà đối tượng đích sống, làm việc và giao lưu với nhau, cũng như những địa điểm mà họ thường xuất hiện.
Thời gian và tần suất xuất hiện của nghiên cứu viên tại các địa điểm cần được xác định rõ ràng Để tiến hành nghiên cứu hiệu quả, nghiên cứu viên cần hợp tác chặt chẽ với các chủ sở hữu và quản lý của những địa điểm này Việc thiết lập mối quan hệ tốt với họ sẽ giúp tạo điều kiện thuận lợi cho quá trình nghiên cứu.
Dựa trên kết quả từ thảo luận nhóm và phỏng vấn sâu, nghiên cứu viên đã tổng hợp danh sách địa điểm khảo sát và tiến hành quan sát thực địa để thu thập thêm thông tin chi tiết Trong quá trình này, nghiên cứu viên còn có thể bổ sung danh sách những địa điểm mới chưa được liệt kê trong bảng danh sách ban đầu.
Ví dụ: Danh sách địa điểm vui chơi giải trí trong nghiên cứu khách hàng nam giới quan hệ tình dục với phụ nữ mại dâm
Ngày mở cửa và khung giờ làm việc Số khách hàng Trung bình/buổi
1 Bar Thiên Đường Tối Tối Tối Tối
3 Karaoke Hải ngoại Tối Tối Tối Tối Tối
Sau khi lập danh sách các địa điểm, nhóm nghiên cứu cần thảo luận để xác định những địa điểm không phù hợp, như số lượng khách quá ít hoặc chủ quán không hợp tác Từ đó, nhóm sẽ chốt danh sách các địa điểm/quán đang hoạt động để đưa vào mẫu nghiên cứu.
Bước 2: Xây dựng khung mẫu cho nghiên cứu và chọn mẫu
Trong quá trình khảo sát, nghiên cứu viên cần chọn ngẫu nhiên các địa điểm (quán) dựa trên số lượng quán trong danh sách và kích thước mẫu nghiên cứu Để đảm bảo tính đại diện, nếu có đủ nguồn lực, nên giảm số lượng khách hàng khảo sát tại mỗi địa điểm và tăng số lượng địa điểm điều tra, theo hướng dẫn của WHO năm 2011 Phương pháp khảo sát có thể áp dụng là 30 cụm ngẫu nhiên với 7 ca trong mỗi cụm, tuy nhiên, nghiên cứu viên có thể điều chỉnh kích thước mẫu tại từng địa điểm dựa trên số lượng khách hàng trung bình của quán đó.
Khi địa điểm được chọn có nhiều Ngày và Khung giờ mở cửa, nghiên cứu viên cần ghi mã số cho từng Khung giờ và chọn ngẫu nhiên một Khung giờ trong một Ngày để tiến hành điều tra Chẳng hạn, quán Thiên Đường có 8 Khung giờ để điều tra trong một tuần (6 buổi tối và 2 buổi trưa) Nghiên cứu viên sẽ đánh mã số từ 1 đến 8 cho các Khung giờ này và chọn ngẫu nhiên một Khung giờ để thực hiện phỏng vấn Nếu có nhiều địa điểm được chọn vào cùng một Khung giờ trong một Ngày, dẫn đến thiếu nghiên cứu viên, thì cần tiếp tục chọn ngẫu nhiên những Khung giờ còn lại của địa điểm bị trùng.
Nghiên cứu viên nên lập danh sách bổ sung các địa điểm và khung giờ điều tra để chuẩn bị cho những tình huống không thể thực hiện điều tra tại các điểm đã chọn trước đó.
Bước 3: Chọn mẫu tại thực địa
Tại mỗi địa điểm nghiên cứu/quán, nghiên cứu viên tiến hành các công việc sau:
Trước khi triển khai nghiên cứu, giám sát viên sẽ tiếp cận địa điểm và trao đổi với người quản lý hoặc chủ quán Khi nhóm nghiên cứu viên có mặt tại quán, giám sát viên sẽ giới thiệu họ với chủ quán và nhân viên để đảm bảo sự hợp tác và thuận lợi trong quá trình nghiên cứu.
Giám sát viên sẽ theo dõi địa bàn và sắp xếp chỗ ngồi cho khách trong quán, đồng thời phân công nghiên cứu viên phụ trách các khu vực khác nhau để đảm bảo phù hợp với số lượng nghiên cứu viên và lưu lượng khách hàng.
Đếm và ước lượng tổng số khách trong quán là một yếu tố quan trọng trong nghiên cứu, với các quy định khác nhau tùy theo yêu cầu cụ thể Đặc biệt, khi nghiên cứu yêu cầu phỏng vấn một số lượng khách hàng đồng đều tại các quán, việc đếm chính xác số lượng khách là cần thiết để điều chỉnh số liệu (weight) trong quá trình phân tích.
Để tiếp cận khách hàng hiệu quả, nhóm nghiên cứu viên áp dụng nguyên tắc chọn mẫu hệ thống, theo đó khách hàng đến trước sẽ được tiếp cận trước Khi đến quán có nhiều khách hàng, mỗi nghiên cứu viên sẽ được giao quản lý một số bàn và bắt đầu tiếp cận từ bàn số 1 bên tay phải, lần lượt đến hết các bàn bên tay phải trước khi chuyển sang các bàn bên tay trái Nếu một bàn có nhiều khách hàng đáp ứng tiêu chuẩn, quy tắc tiếp cận cũng sẽ được thực hiện từ bên phải sang bên trái.