T Ổ NG QUAN
Cơ sở khoa h ọ c c ủ a môn h ọ c Th ố ng kê y h ọ c
1.1.1 L ị ch s ử hình thành và phát tri ể n c ủ a th ố ng kê y h ọ c
Lịch sử phát triển của thống kê đóng vai trò quan trọng trong việc giúp các nhà thống kê hiểu rõ nguồn gốc và ý nghĩa của công việc họ thực hiện Theo Fienberg, tư duy thống kê hiện nay được ứng dụng rộng rãi trong nhiều lĩnh vực khoa học Sự phát triển lý thuyết xác suất bắt đầu từ thế kỷ XVI, XVII và đầu thế kỷ XVIII, chủ yếu được thúc đẩy bởi các trò chơi may rủi như xúc xắc và xổ số Các nhà khoa học như Cardano, Pascal, Fermat, Huygens, và De Moivre đã có những đóng góp quan trọng cho lĩnh vực này Đến thế kỷ XVII, thống kê chủ yếu tập trung vào ứng dụng, trong khi sang thế kỷ XVIII, nhận thức về quan sát định lượng đã phát triển, đặc biệt trong thiên văn học và nhân khẩu học, dẫn đến sự ra đời của lý thuyết phân bố nhị thức và phép ước lượng tương đối.
Năm 1733, sự phát triển của thống kê được đánh dấu bởi tác phẩm nổi tiếng "Nghệ thuật phỏng đoán" của Bernoulli Tiếp theo là sự chú ý đến việc giải thích xác suất có mục đích, được chính thức hóa qua lý thuyết của Bayes và Laplace.
Giai đoạn 1750-1820 đánh dấu sự ra đời và phát triển của suy luận và toán thống kê Một trong những đóng góp quan trọng trong lĩnh vực này là sự phát triển của suy luận thống kê dựa trên xác suất nghịch đảo, được nghiên cứu độc lập bởi các nhà khoa học Bayes và Laplace.
Lý thuyết phân bố chuẩn của Gauss đóng vai trò quan trọng trong việc tính toán độ lệch chuẩn, làm nền tảng cho phương pháp suy luận thống kê Sự kết hợp giữa lý thuyết của Gauss và Laplace đã hình thành cơ sở cho thống kê suy luận và các kỹ thuật hồi quy tuyến tính, đồng thời thúc đẩy sự phát triển của lý thuyết thống kê vào thế kỷ XIX.
Vào cuối thế kỷ XVIII và đầu thế kỷ XIX, lý thuyết về mối tương quan và hồi quy của Galton, Pearson, Edgeworth và Yule đã có những bước phát triển quan trọng Kết thúc thế kỷ XIX, Pearson đã có những đóng góp nổi bật, bao gồm việc giới thiệu test khi bình phương và thành lập tạp chí Biometrika, tạp chí độc lập đầu tiên chuyên về phương pháp thống kê y học.
Từ năm 1900 đến 1950, kỷ nguyên của thống kê hiện đại đã được hình thành với sự đóng góp quan trọng của Ronald A Fisher (1890-1962) Ông đã phát triển nhiều khái niệm và phương pháp thống kê, bao gồm mô hình thống kê, độ khả dĩ, ngẫu nhiên, lý thuyết thử nghiệm lâm sàng và phương pháp phân tích phương sai Fisher không chỉ là một nhà lý thuyết xuất sắc mà còn là người tiên phong trong ứng dụng thống kê Ngoài Fisher, còn nhiều nhà nghiên cứu khác cũng đã đóng góp lớn cho sự phát triển của thống kê hiện đại.
Sự phát triển của thống kê y học gắn liền với những cột mốc quan trọng trong lịch sử thống kê, bắt đầu từ việc ghi chép và tổng hợp báo cáo về các trường hợp rửa tội, đám cưới và đám ma tại nhà thờ của Thomas Cromwell vào năm 1538 Hoạt động này tiếp tục cho đến năm 1837, khi hệ thống đăng ký dân số chính thức được thành lập.
Từ những năm đầu thế kỷ XVI (1603-1836), các giấy báo tử vong đã được báo cáo hàng tuần tại thủ đô Luân Đôn, Anh, do các giáo sĩ xứ đạo thu thập và công bố Ban đầu, số liệu này được tổng hợp riêng biệt với các ca tử vong do bệnh dịch và nguyên nhân khác, nhưng từ năm 1570, nó đã bao gồm cả các trường hợp rửa tội trước khi chết Đến năm 1629, các nguyên nhân tử vong cũng được thống kê, và từ đầu thế kỷ XVIII, thông tin về tuổi tử vong được bổ sung Những dữ liệu này là nền tảng cho thống kê nhân khẩu học của John Graunt (1620-1674) Một cột mốc quan trọng khác là tổng điều tra dân số do John Rickman (1771-1840) thực hiện vào năm 1801 tại Anh, Scotland và Xứ Wales Đến năm 1850, số liệu dân số tích lũy từ các thành phố, cộng đồng và quốc gia trên thế giới đã được tổng hợp, cung cấp thông tin hữu ích cho các nghiên cứu phân tích và so sánh theo thời gian và địa điểm.
Sự phát triển của thống kê y học gắn liền với tiến trình phát triển của lý thuyết và ứng dụng thống kê, bắt đầu từ thống kê sinh tử, với ba cột mốc quan trọng.
1.1.2 Các khái ni ệ m và k ỹ thu ậ t th ố ng kê ứ ng d ụ ng trong nghiên c ứ u y h ọ c hi ệ n nay
1.1.2.1 Các ký hiệu toán học và thống kê
Bảng dưới đây giới thiệu một số ký hiệu cơ bản thường được sử dụng trong các tính toán thống kê [15]
Bảng 1.1: Một số ký hiệu toán học và thống kê
Ký hiệu Ý nghĩa Σ (Capital sigma) Tổng x Giá trị đo lường mẫu
N Kích thước quần thể n Cỡ mẫu μ Giá trị trung bình quần thể
Giá trị trung bình mẫu σ Độ lệch chuẩn quần thể
SD Độ lệch chuẩn mẫu σ 2 Phương sai quần thể
1.1.2.2 Phân loại số liệu, khái niệm biến số
Trong thống kê y học, biến số là đại diện cho sự đo lường hoặc thuộc tính quan sát có sự khác biệt giữa các cá thể hoặc thay đổi theo thời gian, như số lượng hồng cầu hay chỉ số khối cơ thể Số liệu là các giá trị đo lường liên quan đến biến số trong điều kiện nhất định, ví dụ như 65,5 kg hay nam giới Tuy nhiên, do tính đa dạng của các biến số, việc áp dụng một phương pháp phân tích thống kê đơn giản cho tất cả loại số liệu là điều khó khăn Vì vậy, việc hiểu rõ bản chất và đặc tính của các biến số trong từng nghiên cứu là cần thiết để lựa chọn phương pháp phân tích thống kê phù hợp.
Trong thống kê y học, các biến số được chia thành hai loại chính: biến định lượng và biến định tính Biến định lượng được thể hiện bằng con số, cho phép đo lường và trả lời cho câu hỏi "bao nhiêu" Ngược lại, biến định tính sử dụng chữ hoặc ký hiệu để phân loại và mô tả đặc điểm, trả lời cho câu hỏi "như thế nào" Biến định tính có thể được phân loại thành ba nhóm: biến danh mục, không yêu cầu sắp xếp theo trật tự; biến thứ hạng, yêu cầu sắp xếp theo trật tự nhất định; và biến nhị phân, một loại biến đặc biệt trong y học, chỉ có hai nhóm phân loại.
Thống kê mô tả là công cụ quan trọng giúp tổ chức và tóm tắt các quan sát, đặc biệt hữu ích với các bộ số liệu lớn Phương pháp này cho phép tổng hợp và trình bày số liệu một cách hiệu quả, giúp dễ dàng sử dụng dữ liệu thô Đối với biến định tính, thống kê mô tả thường được thể hiện qua bảng tần số, hiển thị số lượng quan sát hoặc tỷ lệ cho từng nhóm Trong khi đó, số liệu định lượng được mô tả bằng các giá trị như giá trị trung bình, độ lệch chuẩn, giá trị trung vị, khoảng giá trị, mốt và khoảng tứ phân vị Việc trình bày số liệu có thể thực hiện qua ba hình thức chính: mô tả bằng lời, sử dụng bảng, hoặc biểu đồ/đồ thị, giúp so sánh giữa các giá trị hoặc đối tượng khác nhau.
Khoảng tin cậy là một khoảng giá trị mà trong đó các tham số của quần thể như giá trị trung bình, tỉ lệ và phương sai được ước lượng Trong thống kê y học, ước lượng khoảng tin cậy được sử dụng để dự báo giá trị quần thể, có thể là giá trị chính xác của mẫu (ước lượng điểm) hoặc nằm trong một khoảng nào đó suy ra từ giá trị mẫu (ước lượng khoảng) Độ tin cậy thường được chọn là 95%.
Khoảng tin cậy được xác định dựa trên sai số chuẩn và thường được dùng để đánh giá ý nghĩa thống kê Nếu khoảng tin cậy của hai biến không giao nhau, điều này cho thấy sự khác biệt có ý nghĩa thống kê với p