1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ phương pháp phân tích sự kiện dùng đánh giá các biến động trong quá trình học tập của sinh viên trường đại học thủy lợi hà nội

83 29 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phương Pháp Phân Tích Sự Kiện Dùng Đánh Giá Các Biến Động Trong Quá Trình Học Tập Của Sinh Viên Trường Đại Học Thủy Lợi Hà Nội
Tác giả Bùi Thị Huệ
Người hướng dẫn TS. Trịnh Quốc Anh
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Lý thuyết Xác suất và Thống kê Toán học
Thể loại luận văn thạc sĩ
Năm xuất bản 2013
Thành phố Hà Nội
Định dạng
Số trang 83
Dung lượng 161,63 KB

Cấu trúc

  • ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

  • LUẬN VĂN THẠC SĨ KHOA HỌC

  • Chuyên ngành: Lý thuyết Xác suất và Thống kê Toán học Mã số: 60 46 15

  • LỜI NÓI ĐẦU

  • NộI DUNG

  • CHƢƠNG 1. PHÂN TÍCH SốNG SÓT

  • 1.1 Giới thiệu chung

  • 1.2 Kiểm duyệt và các loại kiểm duyệt

  • 1.3 Hàm sống sót và hàm nguy cơ

  • 1.3.1 Hàm sống sót

  • 1.3.2 Hàm nguy cơ

  • 1.3.3 Mô hình tham số

  • 1.3.4 Mô hình phi tham số

  • Bảng 1: Dữ liệu thời gian thất bại

  • 1.3.5 So sánh mô hình tham số và phi tham số

  • 1.4 Kiểm định của các mô hình

  • 1.4.1.2 Tác giả Kaplan và Meier

  • 1.4.1.3 Ƣớc lƣợng Kaplan-Meier

  • 1.4.1.4 Hạn chế của Kaplan-Meier

  • 1.4.2 Kiểm định Log-rank

  • 1.4.2.2 Kiểm định Log-rank

  • 1.4.2.3 Hạn chế của kiểm định Log-rank

  • 1.4.3 Giới thiệu sơ bộ về mô hình Cox

  • CHƢƠNG 2 MÔ HÌNH NGUY CƠ THEO Tỷ Lệ

  • 2.1 Giới thiệu về mô hình nguy cơ theo tỷ lệ

  • 2.1.1 Giới thiệu

  • 2.1.2 Tác giả mô hình Cox

  • 2.1.3 Mô hình Cox

  • 2.1.4 Hàm sống sót của Cox PHM

  • 2.1.5 Ƣớc lƣợng các tham số của Cox PHM

  • 2.2 Hàm hợp lý từng phần

  • 2.2.1 Hàm hợp lý từng phần cho lần thất bại là duy nhất

  • 2.2.2 Hàm hợp lý từng phần cho lần thất bại lặp đi lặp lại

  • 2.3 Ƣớc lƣợng các tham số

  • 2.4 Kiểm định giả thuyết cho PHM

  • CHƢƠNG 3

  • TRƢỜNG ĐẠI HỌC THỦY LỢI HÀ NỘI BẰNG PHƢƠNG PHÁP PHÂN TÍCH SỐNG SÓT

  • 3.1 Giới thiệu

  • 3.2 Mô tả số liệu

  • 3.2.1 Các biến số trong mô hình

  • 3.2.2 Mã hóa số liệu

  • Thƣơng bệnh binh, quân nhân..

  • Con liệt sĩ, thƣơng, bệnh binh nặng:

  • 3.3 Mô hình của phân tích sống sót trong R

  • 3.3.1 Giới thiệu về R

  • 3.3.2 Ƣớc lƣợng Kaplan-Meier trong R

  • 3.3.2.1 Ƣớc lƣợng Kaplan-Meier cho đối tƣợng

  • Uoc luong Kaplan-meier cua DOITUONG 1

  • Uoc luong Kaplan-meier cua DOITUONG

    • 3.3.2.2 Ƣớc tính Kaplan-meier cho khu vực

  • Uoc tinh Kaplan-meier cho KHUVUC 1, 3, 4

  • Uoc tinh Kaplan-meier cho KHUVUC

    • 3.3.2.3 Ƣớc tính Kaplan-meier cho tỉnh

  • Uoc tinh Kaplan-meier cho DACLAK

  • Uoc tinh Kaplan-meier cho 5 TINH

  • Uoc tinh Kaplan-meier cho TINH

    • 3.3.2.4 Giới tính

    • Uoc tinh Kaplan-meier cho GIOITINH

    • 3.3.2.5 Tuổi

  • Uoc tinh Kaplan-meier cho TUOI 17, 18, 19, 20

    • 3.3.3 Kiểm định Log-rank bằng R

    • 3.3.3.2 Kiểm định Log-ranh cho giới tính

    • 3.3.3.3 Kiểm định Log-rank cho khu vực

    • 3.3.3.4 Kiểm định Log-rank cho đối tƣợng

    • 3.3.4 Mô hình Cox trong R

  • Mô hình Cox cho GIOITINH

    • 3.3.4.2 Mô hình Cox tổng hợp cho cả sáu biến

    • 3.3.4.3 Mô hình Cox cho tuổi

  • Mô hình Cox cho tuổi

    • 3.3.4.4 Mô hình Cox cho giới tính, đối tƣợng

    • 3.3.4.5 Mô hình Cox cho khu vực, đối tƣợng

    • 3.3.4.6 Mô hình Cox cho giới tính, đối tƣợng, khu vực

    • KẾT LUẬN

    • TÀI LIỆU THAM KHẢO

Nội dung

PHÂN TÍCH SỐNG SÓT

Giới thiệu chung

Trong nghiên cứu khoa học, đặc biệt trong y học và kỹ thuật, các nhà nghiên cứu quan tâm đến ảnh hưởng của các biến phụ thuộc theo thời gian Việc theo dõi các biến thứ bậc như sống hay chết, cũng như đánh giá tác động của các phương pháp điều trị hay yếu tố nguy cơ là rất quan trọng Tuy nhiên, yếu tố quyết định hơn cả là thời gian dẫn đến sự kiện xảy ra, và khoảng thời gian này có sự khác biệt giữa các bệnh nhân.

Mô hình chính để thể hiện mối liên hệ giữa thời gian dẫn đến sự kiện và các yếu tố nguy cơ là phân tích sống sót (PTSS), hay còn gọi là phân tích sự kiện hoặc phân tích biến cố.

Khi so sánh hai phương pháp điều trị cho các bệnh có tần suất tử vong cao như AIDS và ung thư, việc chỉ sử dụng mô hình phân tích hồi quy logistic mà không xem xét yếu tố thời gian có thể dẫn đến kết quả sai lệch Mặc dù tỷ lệ tử vong giữa hai phương pháp có thể tương đương, thời gian dẫn đến tử vong lại có thể khác nhau Tương tự, trong việc so sánh hiệu quả của hai loại kháng sinh điều trị bệnh thương hàn, tỷ lệ khỏi bệnh có thể giống nhau, nhưng thời gian cắt sốt lại khác biệt Do đó, việc áp dụng mô hình phân tích thời gian sống (PTSS) là cần thiết để phát hiện sự khác biệt này, cho thấy rằng mô hình nghiên cứu chỉ dựa trên biến nhị phân (sống/chết hoặc hết sốt/còn sốt) không đủ chính xác.

Một ưu điểm của phân tích thời gian sống sót (PTSS) là khả năng xử lý các trường hợp nghiên cứu bị bỏ dở, chẳng hạn như mất dấu theo dõi, ngưng điều trị do tác dụng phụ hoặc tử vong do bệnh lý khác Trong mô hình này, các đối tượng còn sống, kể cả những người bỏ cuộc, được gọi là censored, trong khi các trường hợp tử vong hoặc hết sốt được coi là events Thời gian sống sót được phân bố theo thời gian thất bại hay thời gian sự kiện.

Phép ước lượng Kaplan-Meier, được phát triển vào năm 1958, là một phương pháp phổ biến để tính toán xác suất sống sót tích lũy tại các thời điểm khác nhau trong nghiên cứu PTSS Để so sánh sự khác biệt giữa hai nhóm điều trị, kiểm định Log-rank được sử dụng để đối chiếu hai hàm xác suất tích lũy Kiểm định Log-rank thường được áp dụng trong phân tích đơn biến, trong khi phân tích đa biến được thực hiện thông qua mô hình Cox (1972) nhằm điều chỉnh các yếu tố nhiễu hoặc hiệp biến.

Phân tích sống sót (Survival analysis) tập trung vào sự khác biệt về thời gian sống sót giữa hai nhóm hoặc thời gian cho đến khi xảy ra một sự kiện cụ thể như chết, tái phát ung thư, hoặc hết sốt Phương pháp này có khả năng xử lý các trường hợp đối tượng bỏ cuộc hoặc mất dấu theo dõi Trong phân tích đơn biến, kiểm định Log rank được sử dụng, trong khi mô hình Cox được áp dụng trong phân tích đa biến để điều chỉnh các yếu tố nhiễu hoặc các hiệp biến.

Kiểm duyệt và các loại kiểm duyệt

Để nắm bắt khái niệm phân tích sống sót, trước tiên chúng ta cần tìm hiểu về “kiểm duyệt”, một hiện tượng xảy ra khi có sự thiếu hụt thông tin trong quan sát do các nguyên nhân ngẫu nhiên.

Nguyên nhân của việc dẫn đến kiểm duyệt phải độc lập với sự kiện quan tâm.

Có ba tình huống kiểm duyệt: là kiểm duyệt phải, kiểm duyệt trái và kiểm duyệt trong khoảng Trong đó kiểm duyệt phải là loại phổ biến nhất.

Kiểm duyệt trong nghiên cứu xảy ra khi chúng ta không biết chính xác thời điểm đối tượng sẽ qua đời, chỉ biết họ còn sống khi kết thúc nghiên cứu Thời gian này được gọi là thời gian kiểm duyệt, cho thấy rằng thời gian quan sát đã kết thúc trước khi sự kiện quan tâm xảy ra Các yếu tố như sự không hợp tác của đối tượng, từ chối tiếp tục tham gia, tử vong do nguyên nhân khác, hoặc mất liên lạc trong quá trình quan sát có thể ảnh hưởng đến thời gian kiểm duyệt.

Hầu hết các phần trong luận văn áp dụng kiểm duyệt phải.

Kiểm duyệt trái ít xuất hiện hơn, xảy ra khi các sự kiện quan trọng đã diễn ra trong khoảng thời gian quan sát nhưng thời điểm chính xác chưa được xác định Ví dụ về kiểm duyệt trái bao gồm những trường hợp mà thông tin về thời gian xảy ra sự kiện không rõ ràng.

- Nhiễm một căn bệnh lây truyền qua đường tình dục như HIV / AIDS;

- Khởi đầu của một căn bệnh trước khi có triệu chứng như ung thư, và

- Thời gian mà thanh thiếu niên bắt đầu uống rượu, sau đó lãng quên.

Kiểm duyệt trong khoảng là hình thức kiểm duyệt xảy ra khi thời gian chính xác của sự kiện không được xác định, nhưng khoảng thời gian xảy ra sự kiện lại có thể biết được Khi khoảng thời gian này rất ngắn, kiểm duyệt thường bị bỏ qua Một ví dụ điển hình về kiểm duyệt trong khoảng là việc nhiễm bệnh lây truyền qua đường tình dục như HIV/AIDS, trong đó việc kiểm tra định kỳ, chẳng hạn như hàng năm, giúp xác định thời gian nhiễm bệnh.

Phần này được trích dẫn trong [1], [7].

Hàm sống sót và hàm nguy cơ

Trong phân tích thống kê, hàm mật độ xác suất và hàm phân phối tích lũy của biến ngẫu nhiên thường được chú trọng Tuy nhiên, bên cạnh hai hàm này, hàm sống sót và hàm nguy cơ cũng đóng vai trò quan trọng trong việc phân tích sự tồn tại.

Nếu 𝑇 là thời điểm thất bại, thì hàm sống sót 𝑇(𝑇) = 𝑇(𝑇 > 𝑇) là xác suất mà đối tượng còn sống sót đến thời điểm 𝑇 Nó được định nghĩa trên miền 𝑇 ∈ [0,

𝑇 𝑇(𝑇)𝑇𝑇Trong đó 𝑇(𝑇) là hàm mật độ xác suất, 𝑇(𝑇) là hàm phân phối tích lũy.

Ước lượng hàm sống sót

Chúng ta có thể ước lượng hàm sống sót qua dữ liệu quan sát Và có hai phương pháp chính có thể thực hiện điều đó.

Nếu bạn sở hữu một mô hình tham số đầy đủ cho biến � với các tham số �, thì ước lượng � (�) có thể được thực hiện thông qua ước lượng 𝑇 Các tham số này có thể được xác định bằng các phương pháp tiêu chuẩn, bao gồm ước lượng hợp lý cực đại.

Nếu không thể giải thích một mô hình tham số, phương pháp phi tham số như ước lượng Kaplan-Meier có thể được sử dụng để ước lượng cho 𝑇(𝑇).

Nếu 𝑇~�� �, � (phân phối Weibull) với � 𝑇 = 𝑇𝑇𝑇 � − 1 exp −�� 𝑇 khi đó

Hàm nguy cơ 𝑇(�) là xác suất mà đối tượng xảy ra sự kiện ngay tại thời điểm 𝑇

0, do 𝑇(𝑇) không là xác suất nên 𝑇(𝑇) > 1

 Hình ảnh của hàm nguy cơ

• 𝑇(𝑇) là hàm tăng và giảm t t t

Các hàm thường gặp trong phân phối sống sót

Exponential Gompertz Weibull log-logistic

Các mô hình phổ biến và quan trọng trong phân tích sống sót bao gồm phối mũ, phân phối Weibull, phân phối log-normal, log-logistic và phân phối gamma.

Chúng ta sẽ phân tích hai mô hình phân phối, bao gồm phân phối mũ và phân phối Weibull Phân phối mũ nổi bật với tính đơn giản và dễ dàng trong việc xử lý thông qua hàm mật độ.

𝑇 𝑇, 𝑇 = �� − −�� (𝑇, 𝑇 > 0) Còn phân phối Weibull là một sự tổng quát của phân phối mũ và cho phép bao gồm nhiều loại hình dạng, với hàm mật độ:

Tham số 𝑇 là tỷ lệ thất bại trong độ tin cậy, với γ là ngưỡng tham số thì hàm mật độ Weibull có dạng:

Phân phối Weibull, được mô tả bởi công thức (1) với 𝑇 = 1, tương ứng với hàm mật độ xác suất của phân phối mũ khi 𝑇 = 1/𝑇 Điều này có nghĩa là không thể quan sát bất kỳ lần thất bại nào trước thời gian ngưỡng (𝑇 < 𝑇) hoặc không có cá nhân nào chết trước thời gian này Do đó, phân phối Weibull hoàn toàn bao gồm các phân phối mũ và được ứng dụng rộng rãi trong lĩnh vực độ tin cậy và kỹ thuật y sinh nhờ khả năng phù hợp với dữ liệu và tính dễ xử lý của nó.

Phân phối Weibull, với tham số hình dạng là β và thời gian thất bại là T, cung cấp một phương pháp trong đó tỷ lệ thất bại tỷ lệ thuận với thời gian.

Nếu tỷ lệ thất bại lớn hơn 1, thì khả năng thất bại sẽ tăng theo thời gian, điều này cho thấy có sự lão hóa hoặc nguy cơ thất bại cao hơn trong khoảng thời gian đó.

- Nếu 𝑇 = 1: tỷ lệ thất bại không đổi theo thời gian Điều đó cho thấy sự kiện bên ngoài ngẫu nhiên đang gây ra tỷ lệ tử vong.

- Nếu 𝑇 < 1: tỷ lệ thất bại giảm theo thời gian.

• Và về hình dáng thì hàm mật độ Weibull thay đổi đáng kể với giá trị của𝑇

0 < 𝑇 < 1: hàm mật độ giảm nghiêm ngặt, tiến ra vô cùng.

𝑇 = 1: hàm mặt độ tiến về 0.

Hàm mật độ tiến đến 1/λ, trong khi ước lượng hợp lý cực đại (MLE) mặc dù nổi tiếng nhưng không có dạng đóng rõ ràng Menon (1963) đã cung cấp một ước lượng đơn giản cho 1/λ, với sự thiên bias có xu hướng giảm khi kích thước mẫu tăng lên Tiếp theo, Cohen (1965) và Cohen cùng Whitten (1988) đã trình bày một biểu đồ thực tế hữu ích để có được một xấp xỉ tốt đầu tiên cho các tham số hình dạng Phân bố Weibull, theo Toshinari Kamakura, là một hàm của các tham số hình dạng T, cho thấy nó không phụ thuộc vào λ.

𝑇(𝑇)�(𝑇) Vậy chứng tỏ hàm mật độ cho 𝑇 là tích của hàm nguy cơ và hàm sống sót,

Cho các quan sát không bị kiểm duyệt, phân phối hợp lý của đối tượng � là

Xác suất không có sự kiện nào xảy ra cho đến thời điểm 𝑇 𝑇 (𝑇(𝑇 𝑇 )) được biểu diễn bởi 𝑇 𝑇 = 𝑇(𝑇 𝑇 )𝑇(𝑇 𝑇 ) Số thất bại tức thời tại thời điểm 𝑇 𝑇 (𝑇(𝑇 𝑇 )) được tính toán để xác định tổng hàm hợp lý cho các tham số � của mô hình, ký hiệu là � � 𝑇 = � 𝑇(𝑇 𝑇 ) Quá trình cực đại hóa có thể thực hiện thông qua các phương pháp tính toán hoặc ước lượng để tìm MLE của �, hoặc có thể gắn vào một phân phối quen thuộc.

Cho 𝑇 � = �� �� (𝑇 > 0, � > 0) và không kiểm duyệt

1.3.4 Mô hình phi tham số

Trong phân tích tồn tại, chúng ta giả định rằng các thiết lập dữ liệu bao gồm thời gian chết 𝑇 và chỉ số kiểm duyệt 𝑇, với δ chỉ trường hợp đối tượng chết và không cho kiểm duyệt Chương trình kiểm duyệt là một khái niệm quan trọng, cho phép chúng ta quan sát một phần thông tin liên quan đến biến ngẫu nhiên tồn tại, do các hạn chế như mất theo dõi, chết, hoặc chấm dứt nghiên cứu Phương pháp Kaplan-Meier (Kaplan và Meier, 1958) là tiêu chuẩn hiện nay để ước tính hàm sống sót phi tham số Đối với mẫu không có quan sát kiểm duyệt, ước lượng chính xác tương ứng đến từ phân bố thực nghiệm, và các bộ dữ liệu có thể được sắp xếp dưới dạng bảng.

Bảng 1: Dữ liệu thời gian thất bại

Số đối tượng thất bại 𝑇 1 𝑇 2 … 𝑇 𝑇 …

Số đối tượng có nguy cơ 𝑇 1 𝑇 2 … 𝑇 𝑇 …

𝑇= 1 Ở đây 𝑇 1 ≤ 𝑇 2 ≤ ⋯ ≤ 𝑇 � , ứng với mỗi 𝑇 � , có 𝑇 𝑇 là số “nguy cơ” hay số đối tượng nghiên cứu ngay trước thời gian 𝑇 𝑇 và 𝑇 𝑇 là số ca tử vong ngay tại thời điểm

𝑇 𝑇 Theo kí hiệu này ước lượng Kaplan-Meier là:

Hay ta nói ước tính Kaplan-Meier của �(𝑇) là 𝑇 𝑇 = 𝑇 𝑇 − � (𝑇 > 𝑇|𝑇 ≥ 𝑇) Khi không có sự kiện xảy ra thì 𝑇 𝑇 > 𝑇 ≥ 𝑇 = 1

Khi có một hay nhiều sự kiện xảy ra thì

1.3.5 So sánh mô hình tham số và phi tham số

Việc giả định một hình thức tham số cho hàm nguy cơ, hàm sống sót hay hàm mật độ có thể mang lại nhiều lợi ích, như ước tính trơn tru và kiểm tra các khác biệt thông qua các lần thực nghiệm Tuy nhiên, nhược điểm lớn nhất là dễ dàng quá tự tin vào mô hình, dẫn đến kết luận sai lệch do bóp méo tín hiệu Thay thế cho các phương pháp mô tả và thử nghiệm giả thuyết, phương pháp phi tham số trở nên phổ biến trong phân tích tồn tại Để khắc phục nhược điểm này, phương pháp bán tham số thực hiện một số giả định kiểm chứng và cho phép mô hình hóa tác động của các biến số một cách linh hoạt hơn.

Phần này được trích dẫn trong [7].

Kiểm định của các mô hình

1.4.1 Ƣớc lƣợng Kaplan-Meier của hàm sống sót

1.4.1.1 Giới thiệu Ước lượng Kaplan-Meier của hàm sống còn là một phương pháp thực nghiệm hay phương pháp phi tham số của ước lượng 𝑇 (𝑇) từ không hay kiểm duyệt phải dữ liệu Nó rất phổ biến vì nó đòi hỏi những giả định rất yếu và chưa sử dụng nội dung thông tin của dữ liệu quan sát đầy đủ và dữ liệu kiểm duyệt phải Nó đến như tiêu chuẩn trong hầu hết các phần mềm thống kê (như R) và cũng có thể tính bằng tay.

1.4.1.2 Tác giả Kaplan và Meier

Cả hai sinh viên nổi tiếng John Tukey, Paul Meier và Edward Kaplan, đã có những đóng góp quan trọng trong nghiên cứu thống kê Năm 1952, Paul Meier bắt đầu nghiên cứu thời gian mắc bệnh ung thư tại Đại học Johns Hopkins, Chicago, trong khi Edward Kaplan làm việc về ống chân không trong các cáp điện thoại tiểu đại dương tại phòng thí nghiệm Bell Họ đã độc lập gửi nghiên cứu về thời gian tồn tại đến tạp chí của Hiệp hội thống kê Mỹ, và được khuyến khích gửi một bài báo chung, dẫn đến việc công bố bài viết nổi tiếng "Ước lượng phi tham số từ quan sát không đầy đủ" vào năm 1958 Bài viết này đã nhận được 20.000 trích dẫn trên Google Scholar, chứng tỏ tầm ảnh hưởng của nó trong lĩnh vực thống kê.

Xác suất 𝑇(𝑇) thể hiện khả năng một đối tượng trong nhóm sống sót đến thời điểm 𝑇 Kích thước mẫu của nhóm đối tượng được xem xét là số 𝑛 Thời điểm diễn ra sự kiện liên quan đến 𝑇 thành viên trong nhóm là một yếu tố quan trọng trong phân tích.

𝑇 1 ≤ � 2 ≤ ⋯ ≤ 𝑇 � ứng với mỗi 𝑇 𝑇 , có � 𝑇 là số “nguy hiểm” hay số đối tượng nghiên cứu ngay trước thời gian 𝑇 𝑇 và 𝑇 𝑇 là số ca tử vong ngay tại thời điểm 𝑇 𝑇

Một tập dữ liệu nhỏ có thể bắt đầu với 10 trường hợp Trong đó, có 1 trường hợp tử vong vào ngày thứ 3, hai trường hợp tử vong vào ngày 11, và một trường hợp bị mất theo dõi vào ngày 9 Dữ liệu sẽ được ghi nhận trong khoảng thời gian 11 ngày.

2 11 2 8 Ước lượng Kaplan-Meier là ước lượng phi tham số cực đại của 𝑇(𝑇)

Số phụ nữ lúc bắt đầu thời điểm (𝑇 𝑇 )

Số phụ nữ ngưng sử dụng (𝑇 𝑇 )

Xác suất ngưng sử dụng 𝑇(𝑇)

Xác suất còn sử dụng (𝑇 𝑇 )

Cột 1 là khoảng thời gian tính bằng tuần,

Cột 2 là số phụ nữ trong nghiên cứu bắt đầu một khoảng thời gian Như trong ví dụ, khoảng thời gian 0 – 9, tại thời điểm bắt đầu 0 có 18 phụ nữ, hay khoảng thời gian 19 – 29, ngay tại thời điểm bắt đầu 19, ta có 15 phụ nữ…

Cột 3 là số phụ nữ ngưng sử dụng y cụ (hay biến cố xảy ra) trong một khoảng thời gian Chẳng hạn trong khoảng thời gian 10 – 18 có 1 phụ nữ ngưng sử dụng (tại tuần10)…

Cột 4 là xác suất nguy cơ trong một khoảng thời gian, 𝑇 𝑇 được ước tính bằng cách lấy 𝑇 𝑇 chia cho 𝑇 𝑇 Ví dụ trong khoảng thời gian 10 – 18 có 1 phụ nữ ngưng sử dụng nên xác suất nguy cơ là 1/18=0.0555 Xác suất này được ước tính cho từng khoảng thời gian.

Cột 5 là xác suất còn sử dụng cho một khoảng thời gian 𝑇 𝑇 = 1 − (𝑇).

Cột 6 là xác suất tích lũy còn sử dụng y cụ Đây là cột số liệu quan trọng nhất trong phân tích Vì tính chất tích lũy cho nên cách ước tính được nhân từ hai hay nhiều xác suất Ví dụ trong khoảng thời gian 10 – 18, xác suất tích lũy được ước tính bằng cách lấy xác suất còn sử dụng trong thời gian 0 – 9 nhân với xác suất còn sử sụng trong khoảng thời gian 10 – 18, tức là 1.000 x 0.9445=0.9445 Ý nghĩa của ước tính này là xác suất còn sử dụng cho đến thời gian 9 tuần là 94.45%

Dựa vào R, ta có biểu đồ đường cong sống sót sau:

Biểu đồ này thể hiện mối quan hệ giữa thời gian (tuần) và xác suất tích lũy sử dụng y cụ Trục hoành đại diện cho thời gian, trong khi trục tung thể hiện xác suất tích lũy 𝑇 (𝑇) Đường chính giữa biểu thị xác suất tích lũy, kèm theo hai đường nét đứt thể hiện khoảng tin cậy 95% của 𝑇 (𝑇) Kết quả phân tích cho thấy xác suất sử dụng y cụ đạt khoảng 25% vào tuần thứ 107.

1.4.1.4 Hạn chế của Kaplan-Meier xá c su ất số ng só

Phân tích Kaplan-Meier thường chỉ áp dụng cho một nhóm đối tượng, với mục tiêu chính là ước lượng 𝑇(𝑇) cho từng khoảng thời gian Tuy nhiên, trong thực tế, nhiều nghiên cứu hướng đến việc so sánh 𝑇(𝑇) giữa hai hoặc nhiều nhóm khác nhau.

Phương pháp ước lượng 𝑇(𝑇) cho từng nhóm trong từng khoảng thời gian cho phép so sánh hai nhóm bằng kiểm định thống kê, nhưng nó không cung cấp cái nhìn tổng thể về tất cả các khoảng thời gian Hơn nữa, việc so sánh giữa hai nhóm qua nhiều khoảng thời gian khác nhau khiến cho kết quả trở nên khó diễn giải Để khắc phục những nhược điểm này của phương pháp Kaplan-Meier, kiểm định Log-rank đã được phát triển như một giải pháp phân tích hiệu quả.

Kiểm định Log-rank là một phương pháp kiểm định giả thuyết dùng để so sánh sự phân phối sống sót của hai mẫu, thuộc loại phân tích phi tham số Phương pháp này thường được áp dụng trong các thử nghiệm lâm sàng nhằm đánh giá hiệu quả của các phương pháp điều trị mới, dựa trên thời gian đến khi xảy ra sự kiện, chẳng hạn như thời gian điều trị ban đầu cho một cơn đau tim Kiểm định này còn được biết đến với tên gọi kiểm định Mantel-Cox, được đặt theo tên của Nathan Mantel và David Cox Ngoài ra, kiểm định Log-rank cũng có thể coi như một kiểm định thời gian phân tầng Cochran-Mantel-Haenszel Phương pháp này lần đầu tiên được đề xuất bởi Nathan Mantel và được Richard và Julian Peto đặt tên là kiểm định Log-rank.

Kiểm định thống kê Log-rank so sánh ước tính hàm nguy cơ giữa hai nhóm tại mỗi thời điểm sự kiện quan sát Phương pháp này dựa trên việc tính toán số lượng quan sát và dự đoán các sự kiện trong từng nhóm tại mỗi thời điểm, sau đó tổng hợp để tạo ra một cái nhìn tổng thể về tất cả các thời điểm có sự kiện xảy ra.

Phần này được trích dẫn trong [6].

Ta chia thời gian ra làm k khoảng � 1 , 𝑇 2 , … , 𝑇 � , mà khoảng thời gian

𝑇 � (� = 1, … , �) phản ánh thời điểm j khi một hay nhiều đối tượng của hai nhóm cộng lại.

Trong nghiên cứu, số đối tượng nguy cơ được ký hiệu là 𝑇 1𝑇 và 𝑇 2𝑇, tương ứng với số lượng đối tượng chưa xảy ra sự kiện hoặc đã được kiểm duyệt tại thời điểm bắt đầu khoảng thời gian 𝑇 Tổng số đối tượng của hai nhóm tại thời điểm bắt đầu khoảng thời gian 𝑇 được biểu thị bằng 𝑇 = 𝑇 1𝑇 + 𝑇 2𝑇.

Gọi 𝑇 (𝑖 = 1, 2) là số quan sát các sự kiện của nhóm i xảy ra trong khoảng thời gian 𝑇 Sự kiện tổng hợp 𝑇 = 𝑇1 + 𝑇2 đại diện cho các sự kiện xảy ra trên cả hai nhóm sau thời gian 𝑇 Giả thiết hai nhóm có sự tồn tại như nhau và cùng mức độ nguy cơ Với các giá trị 𝑇1, 𝑇2, … , 𝑇, chúng ta có thể ước tính các chỉ số liên quan.

Trong đó 𝑇 1𝑇 , 𝑇 1𝑇 là xác suất trung bình.

Ngoài ra chúng ta có thể ước tính tổng số sự kiện xảy ra của nhóm một và hai

Tổng số sự kiện dự kiến xảy ra của từng nhóm là:

Khi đó kiểm định Log-rank được định nghĩa như sau:

Nếu 𝑇 2 > 𝑇 2 (�) (trong đó 𝑇 2 (𝑇) là trị số khi bình phương với mức ý nghĩa thống

1 1 kê 𝑇 = 0,05), từ đó chúng ta có thể kết luận độ khác biệt về �(�) giữa hai nhóm.

1.4.2.3 Hạn chế của kiểm định Log-rank

MÔ HÌNH NGUY CƠ THEO Tỷ Lệ

Giới thiệu về mô hình nguy cơ theo tỷ lệ

Trong chương trước, chúng ta đã khám phá phân tích sống sót cùng với các mô hình tham số và phi tham số Mô hình phi tham số sử dụng ước lượng Kaplan-Meier, trong khi mô hình tham số áp dụng kiểm định Log-rank Ngoài ra, còn có một loại mô hình kết hợp cả tham số và phi tham số, được gọi là mô hình bán tham số, hay còn gọi là "mô hình Cox".

“the Cox proportional hazards model”, ta dịch là mô hình Cox (hay mô hình nguy cơ theo tỷ lệ (Cox PHM hay Coxph).

Mô hình này sẽ giúp chúng ta sẽ đi tìm hiểu hai vấn đề:

• Kết hợp các biến số liên tục vào phân tích sự tồn tại của đối tượng.

• Phân tích tác động của các biến đến sự tồn tại.

2.1.2 Tác giả mô hình Cox

David Roxbee Cox là nhà thống kê người Anh Ông sinh ngày 15 tháng 7 năm

Năm 1924, Cox bắt đầu nghiên cứu toán học tại Cao đẳng St John, Cambridge và nhận bằng tiến sĩ từ Đại học Leeds vào năm 1949, sau đó trở thành Giáo sư thống kê tại Birkbeck College, London Ông đã có những đóng góp quan trọng trong lĩnh vực thống kê và xác suất ứng dụng, nổi bật nhất là mô hình tỷ lệ nguy cơ, được sử dụng rộng rãi trong phân tích dữ liệu tồn tại Với hơn 300 bài báo và sách về nhiều chủ đề khác nhau, ông đã tư vấn cho chính phủ và được phong tước hiệp sĩ vì những cống hiến cho khoa học, cùng với nhiều học bổng và giải thưởng danh giá.

Vào giữa thập niên 1970, David R Cox, giáo sư thống kê tại Đại học Imperial College ở London, đã phát triển một phương pháp phân tích dựa trên mô hình hồi quy và bảng sống, phương pháp này sau này được biết đến rộng rãi.

Mô hình Cox, được coi là một trong những phát triển quan trọng nhất của khoa học thế kỷ 20, đã giới thiệu tỷ lệ nguy cơ và các suy luận liên quan, cùng với các mô hình hồi quy và bảng sống Bài viết của ông (1972, JRStat.Soc.B) đã nhận được hơn 12.000 trích dẫn trên Google Học giả.

Với 𝑇 là biến nguy cơ (hay biến giải thích),có thể liên tục hay không liên tục.

Mô hình Cox phát biểu rằng :

Mô hình Cox PHM (Cox Proportional Hazards Model) được định nghĩa bởi hàm nguy cơ tại thời điểm 𝑇, với 𝑇 0 (𝑇) là hàm nguy cơ cơ bản và 𝑇l là hệ số nguy cơ liên quan Một trong những ưu điểm nổi bật của mô hình này, theo quan sát của Cox, là khả năng phân tích ảnh hưởng của các biến đến sự tồn tại mà không cần xác định hình dạng của hàm nguy cơ cơ bản 𝑇 0 (𝑇) Nếu không áp dụng phương pháp này, việc ước lượng 𝑇 sẽ trở nên cần thiết Để hiểu rõ hơn về lý do tại sao mô hình này được gọi là Cox PHM, hãy xem xét hai đối tượng với các biến số tương ứng là 𝑇 1 và 𝑇 2; từ đó, ta có thể tính toán tỷ lệ nguy cơ của họ tại thời điểm 𝑇.

Tỷ lệ thuận giữa các biến 𝑇 1 và 𝑇 2 cho thấy rằng nguy cơ của đối tượng có biến 𝑇 1 là exp 𝑇(𝑇 1 − 2) lần nguy cơ của đối tượng có biến 𝑇 2 Hơn nữa, exp 𝑇(𝑇 1 − 𝑇 2) được xác định là tỷ lệ nguy cơ giữa hai đối tượng Các hàm nguy cơ này không phụ thuộc vào thời gian.

Nếu tỷ lệ nguy cơ 𝑇 = 0, điều này có nghĩa là các biến không ảnh hưởng đến sự sống còn, với tỷ lệ nguy cơ giữa các biến là 1 Vì vậy, khái niệm tỷ lệ nguy cơ có thể được sử dụng để kiểm tra ảnh hưởng của các biến đến sự sống còn.

Tuy nhiên lưu ý rằng đây là một mô hình đó có thể là sai Có thể có một tương tác giữa biến số và thời gian.

Ta đi xem xét hàm nguy cơ theo tỷ lệ trong các trường hợp sau :

• Hai biến số liên tục; a Một biến đơn liên tục

Cho biến 𝑇 ∈ ℝ, tham số 𝑇 ∈ ℝ ta có hàm nguy cơ

Và hàm nguy cơ theo tỷ lệ cho hai đối tượng với hai biến 𝑇 1 , 𝑇 2 là exp 𝑇(𝑇 1 −

𝑇 2 ) Nếu 𝑇 1 = 𝑇 + 1, 𝑇 2 = 𝑇 thì tỷ lệ nguy cơ

Do đó chúng ta có thể giải thích β như sự gia tăng trong 𝑇𝑇𝑇 của tỷ lệ nguy cơ.

Ví dụ : Tuổi của người nghiện ma túy Cho 𝑇 𝑇 là tuổi của đối tượng nghiện ma túy i khi bắt đầu kiểm duyệt và tỷ lệ nguy hiểm là:

𝑇 𝑇, 𝑇 = 𝑇 0 𝑇 exp ( −0,013𝑇) Như vậy, tỷ lệ nguy cơ về tuổi của người nghiện ma túy qua mỗi năm gấp

𝑇 −0,013 = 0,99. b Hai biến số liên tục

Cho hai biến độc lập (𝑇 1 , 𝑇 2 ) ∈ ℝ 2 (𝑇 1 , 𝑇 2 không có sự tương tác), tham số (𝑇 1 , 𝑇 2 ) ∈ ℝ 2 , hoặc tham số (𝑇 1 , 𝑇 2 , 𝑇 12 ) ∈ ℝ 3 nếu có sự tương tác giữa 𝑇 1 , 𝑇 2

• Khi không có sự tương tác

Hàm nguy cơ là 𝑇 𝑇, 𝑇 1 , 𝑇 2 = 𝑇 0 𝑇 exp(𝑇 1 𝑇 1 + 𝑇 2 𝑇 2 ) và

Tỷ lệ nguy cơ của hai đối tượng với các biến (𝑇 1 , 𝑇 1 ), (𝑇 2 , 𝑇 2 ) :

Tăng 𝑇 1 lên một đơn vị, giữ cố định 𝑇 2 = 𝑇 1 ta có tỷ lệ nguy cơ là exp 𝑇 1 Ngược lại ta có exp 𝑇 1

• Khi có sự tương tác, hàm nguy cơ

2.1.4 Hàm sống sót của Cox PHM

Tổng quát cho Cox PHM ta có

𝑇 0 𝑇 là hàm sống sót ban đầu.

2.1.5 Ƣớc lƣợng các tham số của Cox PHM

Đối với mô hình hàm hợp lý tổng quát với tham số �, ta có � = 1 nếu đối tượng 𝑇 không bị kiểm duyệt và 𝑇 = 0 nếu đối tượng 𝑇 bị kiểm duyệt Các giá trị của 𝑇 có thể là 1, 2, … , �.

Cụ thể, đối với Cox PHM chúng ta có

Để tối ưu hóa hàm này, cần có dạng xác định cho hàm nguy cơ ban đầu Chúng ta sẽ phân tích hàm hợp lý từng phần Tập nguy cơ ℛ(�) được xác định là tập hợp tất cả các đối tượng � với � � > 𝑇, tức là những người chưa chết hoặc đã qua kiểm duyệt.

Nếu chúng ta có thể sống sót liên tục trong một khoảng thời gian, có thể hy vọng rằng tại bất kỳ thời điểm nào, chỉ có một đối tượng duy nhất có khả năng thất bại ngay lập tức Tuy nhiên, do hầu hết các quan sát đều diễn ra trong thực tế, nên sẽ có những khoảng thời gian bị kiểm duyệt.

Hàm hợp lý từng phần

2.2.1 Hàm hợp lý từng phần cho lần thất bại là duy nhất

Ta ký hiệu 𝑇 𝑇 = exp 𝑇 � � 𝑇 (đây là ký hiệu từ Collett, 1994, p 64), 𝑇 𝑇 là tỷ lệ thuận với tỷ lệ nguy hiểm cho đối tượng 𝑇 Hàm hợp lý từng phần cho 𝑇 là

Trong phân tích xác suất thất bại, chúng ta chỉ xem xét những đóng góp từ cái chết và số lần thất bại, không tính đến số lần kiểm duyệt Tử số phản ánh mức độ nguy hiểm đối với một đối tượng nhất định đã thất bại tại thời điểm cụ thể, trong khi mẫu số thể hiện tổng nguy cơ của tất cả các đối tượng, bao gồm cả đối tượng đang được xem xét, có nguy cơ thất bại tại thời điểm đó Do đó, phân số này được hiểu là xác suất của một đối tượng so với các đối tượng khác trong việc thất bại tại thời điểm cụ thể.

Có hai lý do tại sao nó là hợp lý từng phần:

• Nó không phải là hợp lý toàn phần cho �;

Nó không sử dụng dữ liệu đầy đủ, vì thời gian xảy ra sự kiện không quan trọng, chỉ cần xếp hạng của chúng Nếu đối tượng 𝑇, � và � lần lượt thất bại ở lần 1, 2 và 3, thì các ước lượng tham số sẽ tương tự như khi chúng thất bại ở các lần 100, 300, 1500 tương ứng.

Vì thế, ít mạnh mẽ hơn một mô hình đầy đủ tham số Tuy nhiên, nó đòi hỏi giả định ít hơn và như vậy là mạnh hơn.

2.2.2 Hàm hợp lý từng phần cho lần thất bại lặp đi lặp lại

Trường hợp hai hoặc nhiều đối tượng thất bại đồng thời có tính phức tạp cao hơn Cuối cùng, hàm hợp lý từng phần cho 𝑇 sẽ được xem xét Để đơn giản hóa, chúng ta sẽ sử dụng hai lần xấp xỉ với các ký hiệu phù hợp.

• � (� ) là đặt thời gian thất bại duy nhất thứ � (ví dụ nếu bốn thất bại xảy ra tại lần 1, 1, 3, 3 thì 𝑇 1 = 1, 𝑇 2 = 3;

• � là tổng số thời gian thất bại duy nhất;

• 𝑇(�) là tập các đối tượng thất bại tại thời gian 𝑇

Có ba phương pháp xác định hàm hợp lý từng phận:

Phương pháp Breslow được sử dụng để tính toán số lượng đối tượng thất bại tại thời gian T, và nó là tùy chọn mặc định trong nhiều phần mềm thống kê như SAS Tuy nhiên, phương pháp này không phải là tùy chọn mặc định cho tất cả các phần mềm thống kê khác.

R R sử dụng hàm hợp lý từng phần của Efron, vì nó được coi là một xấp xỉ với một hợp lý từng phần chính xác Hàm hợp lý từng phần chính xác yêu cầu thời gian là liên tục, các mối quan hệ là một kết quả đo không chính xác thời gian.

3) Phương pháp chính xác (Exact method):

�∈𝑇 � Φ 𝑇 Trong đó 𝑇 𝑇 là tập tất cả 𝑇(� (𝑇 ) ) - bộ dữ liệu có thể được lựa chọn từ ℛ(𝑇 (𝑇 ) ) và Φ � là tích của � � với tất cả các � của 𝑇(𝑇 (𝑇 ) ) – dữ liệu 𝑇.

Giả sử các đối tượng có nhãn từ 1đến

5 là có nguy cơ tại thời điểm 𝑇 (𝑇) trong

ℛ(𝑇 (𝑇) ), trong số đó, các đối tượng từ 1 đến

3 thất bại tại thời điểm

𝑇 (𝑇) Khi đó, hàm hợp lý từng phần của từng phương pháp có dang

Phương pháp Efron đưa ra

Trong khi đó phương pháp chính xác đưa ra :

Ta có thể thấy rằng các phương pháp chính xác nhanh chóng trở nên tính toán chuyên sau khi có một số lượng lớn các mối quan hệ.

2.3 Ƣớc lƣợng các tham số

Phương pháp hàm hợp lý toàn phần có thể khó khăn trong việc phân tích, nhưng phần mềm R có thể hỗ trợ chúng ta trong việc này R áp dụng phương pháp Newton-Raphson để ước tính các tham số, tuy nhiên, phương pháp này thường không hội tụ đến ước lượng hợp lý cực đại Do đó, mặc dù không phải lúc nào cũng thành công, nó vẫn cung cấp cái nhìn tổng quan hữu ích về phương pháp.

Phương pháp Newton-Raphson là một quy trình xác định và lặp đi lặp lại, không có yếu tố ngẫu nhiên trong việc tìm kiếm các phương án tối ưu Quy trình này bao gồm nhiều bước lặp, với mục tiêu cải thiện độ chính xác của dự toán sau mỗi lần lặp.

Nói chung, nếu chúng ta có một véc tơ tham số 𝑇 của kích thước 𝑇 và muốn tìm

𝑇 ta cực đại hóa hàm 𝑇 𝑇 = 𝑇𝑇𝑇 (hàm hợp lý) (đăng nhập hàm hợp lý), thuật toán là:

5 Quay lại bước 3 và lặp lại cho đến khi hội tụ. Ở đây ta đã sử dụng các ký hiệu :

• 𝑇 (𝑇) là giá trị của tham số tại lần lặp 𝑇.

 𝑇 � là phần tử thứ � của 𝑇

 Mặc dù chọn 𝑇 (0) là bất kì, hơn nữa nó từ 𝑇 , ít khả năng cho thuật toán là hội tụ về𝑇

 𝑇(𝑇) có thể được thay thế bởi log ℒ � (𝑇)

 Trong trường hợp Cox PHM, chúng ta có thể viết � thay vì 𝑇 Ví dụ:

Xem xét một biến liên tục liên quan đến 9 đối tượng mắc bệnh đau tim, trong đó thời gian sống sót của mỗi đối tượng được ghi nhận trong thời gian theo dõi, tính bằng ngày.

Để phù hợp với mô hình 𝑇 �, � � = 𝑇 0 (𝑇)� ���, chúng ta cần sử dụng dữ liệu một cách hợp lý tối đa Trong trường hợp này, không có mối quan hệ nào trong thời gian tồn tại, cho phép chúng ta áp dụng phương pháp này hiệu quả.

� ��hàm hợp lý từng phần đơn giản nhất.

Mặc dù nhìn phức tạp nhưng chúng ta có thể dễ dàng tính toán chúng khi cho giá trị cụ thể của � Nếu ta cho � 𝑇 = ��(𝑇)/𝑇𝑇 và � 𝑇 = 𝑇 2 𝑇(𝑇)/𝑇𝑇 2 , công thức

Newton-Raphson đơn giản là

𝑇 (� +1) − 𝑇 𝑇 = 𝑇(𝑇 𝑇 )/𝑇(𝑇 (𝑇 ) ) Cho 𝑇 (0) = 0, ta có � 0 = −2.51; � 0 = 77.13 Khi đó

Chúng ta có thể dừng lại nếu độ chính xác đạt yêu cầu, nhưng phương pháp này chỉ hiệu quả khi giá trị ban đầu gần với mục tiêu Nếu không, có thể xảy ra sự nhảy vọt lớn ra xa mục tiêu Để khắc phục tình trạng này, chúng ta nên điều chỉnh kích thước bước.

Với 𝑇 < 1 nhằm hạn chế kích thước của bước nhảy Điều này làm tăng số lần lặp cần thiết để đạt được giá trị mục tiêu.

2.4 Kiểm định giả thuyết cho PHM

Có ba cách kiểm tra thường được sử dụng để giải bài toán kiểm định giả thuyết

Nếu � 0 đúng, 𝑇 2 ~ � 2 Giá trị lớn nhất của 𝑇 2 chịu sự thay thế của giả thuyết

 Các số liệu thống kê (the score test statistic) là

 Tỷ lệ hợp lý (the likelihood ratio test statistic) là � = 2 𝑇 � − 𝑇(0) Nếu �~� 2 thì � 0 là đúng.

Cả ba cách kiểm tra trên đều đưa ra giá trị � (p-values)

Không cần sử dụng cả ba phương pháp kiểm tra, vì chúng thường có sẵn trong các gói phần mềm Chúng ta sẽ tập trung vào việc kiểm tra tỷ lệ hàm hợp lý, vì phương pháp này tổng quát hơn và dễ áp dụng hơn.

Chúng ta xét vectơ 𝑇 có 𝑇 chiều, giả sử không mất tính tổng quát, để kiểm tra giả thuyết rằng thành phần đầu tiên � (1 ≤ ≤ 𝑇

… , 𝑇 , 𝑇 − 𝑇 thành phần còn lại là tham số tự do Giả thuyết khác cho rằng ít nhất một trong các 𝑇 tham số

Kiểm định giả thuyết cho PHM

Có ba cách kiểm tra thường được sử dụng để giải bài toán kiểm định giả thuyết

Nếu � 0 đúng, 𝑇 2 ~ � 2 Giá trị lớn nhất của 𝑇 2 chịu sự thay thế của giả thuyết

 Các số liệu thống kê (the score test statistic) là

 Tỷ lệ hợp lý (the likelihood ratio test statistic) là � = 2 𝑇 � − 𝑇(0) Nếu �~� 2 thì � 0 là đúng.

Cả ba cách kiểm tra trên đều đưa ra giá trị � (p-values)

Không nhất thiết phải sử dụng cả ba phương pháp kiểm tra, nhưng chúng thường có sẵn trong các gói phần mềm Chúng ta sẽ tập trung vào phương pháp kiểm tra tỷ lệ hàm hợp lý vì tính tổng quát và dễ áp dụng của nó.

Chúng ta xét vectơ 𝑇 có 𝑇 chiều, giả sử không mất tính tổng quát, để kiểm tra giả thuyết rằng thành phần đầu tiên � (1 ≤ ≤ 𝑇

… , 𝑇 , 𝑇 − 𝑇 thành phần còn lại là tham số tự do Giả thuyết khác cho rằng ít nhất một trong các 𝑇 tham số

1 không bằng giá trị giả thuyết.

• Các trường hợp đặc biệt nêu trên có thể được xảy ra khi 𝑇 = 𝑇 = 1,

• Kiểm tra này cũng có thể được sử dụng cho

𝑇𝑇𝑇(hàm hợp lý) cũng như

𝑇𝑇𝑇(hàm hợp lý từng phần).

• Nó cho phép chúng ta kiểm tra xem tỷ lệ nguy cơ là một số hằng số đặc biệt.

Phần này được trích dẫn trong [3],

THựC NGHIệM PHÂN TÍCH Dữ LIệU SINH VIÊN TRƯờNG ĐạI HọC THủY LợI HÀ NộI BằNG PHƯƠNG PHÁP PHÂN TÍCH SốNG SÓT

Giới thiệu

Trường Đại học Thủy Lợi, thành lập năm 1959, là cơ sở giáo dục hàng đầu Việt Nam trong lĩnh vực đào tạo kỹ sư quản trị nguồn nước và các ngành liên quan Là trường đại học chuyên ngành duy nhất tại Việt Nam, trường cung cấp nguồn nhân lực trình độ cao cho các lĩnh vực thủy lợi, thủy điện và tài nguyên nước, phục vụ cho nông nghiệp, công nghiệp và phát triển nông thôn trên toàn quốc Từ năm 1985, trường đã mở rộng chương trình đào tạo, chuyển từ khái niệm thủy lợi sang khai thác tài nguyên nước với nội dung đa dạng, liên ngành, bao gồm các chuyên ngành như Môi trường, Kinh tế và Thiết bị Thủy lợi Đến năm 1995, sự sát nhập của ba Bộ đã nâng cao sự phát triển bền vững của ngành thủy lợi trong một môi trường liên kết chặt chẽ giữa Đất – Nước – Rừng Hiện tại, Trường Đại học Thủy Lợi đã xây dựng chương trình đào tạo với 9 ngành và 20 chuyên ngành, đáp ứng đầy đủ nhu cầu kỹ thuật tài nguyên nước tại Việt Nam.

Trường Đại học Thủy Lợi là một trong những cơ sở hàng đầu tại Việt Nam trong lĩnh vực nghiên cứu khoa học công nghệ, đặc biệt về thủy lợi Gần đây, số lượng các đề tài nghiên cứu ứng dụng ngày càng gia tăng, cùng với sự đa dạng trong các lĩnh vực nghiên cứu.

Hàng năm, Trường Đại học Thủy Lợi thu hút đông đảo nam sinh viên từ các khu vực miền núi và nông thôn trên khắp cả nước, nơi có nhiều di sản và đặc trưng liên quan đến thủy lợi Số liệu sinh viên của trường sẽ làm nổi bật đặc điểm này.

Mô tả số liệu

3.2.1 Các biến số trong mô hình

Trong bài viết này, chúng ta sẽ phân tích dữ liệu của 1598 sinh viên khóa 2006-2011 (K48) trường Đại học Thủy Lợi trong suốt 5 năm học Các yếu tố được xem xét bao gồm lớp học, tuổi tác, khu vực, đối tượng, giới tính và tỉnh Độ tuổi của sinh viên dao động từ 17 đến 29 tuổi, cung cấp cái nhìn tổng quát về sự đa dạng trong độ tuổi của sinh viên trong khóa học này.

Sinh viên từ 18 đến 19 tuổi chủ yếu tập trung ở 53 tỉnh thành trên cả nước, với số lượng đông đảo nhất tại khu vực phía Bắc và miền núi, đặc biệt là ở các tỉnh như Thanh Hóa, Hà Nội, Thái Bình, Nam Định, Ninh Bình và Hòa Bình.

Trong luận văn này, tác giả mô tả mỗi sinh viên thông qua một véctơ 𝑇 với 6 thành phần, cụ thể là 𝑇 = (𝑇 1 , 𝑇 2 , 𝑇 3 , 𝑇 4 , 𝑇 5 , 𝑇 6 ) Các thành phần này bao gồm: 𝑇 1 là LOP, 𝑇 2 là TUOI, 𝑇 3 là GIOITINH, 𝑇 4 là TINH, 𝑇 5 là ĐOITUONG, và 𝑇 6 là KHUVUC Phân bố theo lớp sẽ được phân tích trong phần tiếp theo của nghiên cứu.

71 38 72 42 62 60 54 54 b Phân bố theo giới tính và độ tuổi của sinh viên Thủy lợi

Ta quan sát biểu đồ giới tính của sinh viên K48

Tại Đại học Thủy lợi, tỷ lệ sinh viên nữ chỉ chiếm 19,09%, trong khi sinh viên nam chiếm đến 80,91% tổng số sinh viên của khóa học Điều này phản ánh đặc thù của trường là một cơ sở đào tạo kỹ thuật, nơi mà sinh viên nam thường chiếm ưu thế hơn.

Còn về phân bố theo độ tuổi, do nhà trường có các hệ liên thông, tại chức nên lượng sinh viên già hàng năm vào trường vẫn còn.

Biểu đồ độ tuổi cho thấy sinh viên trong độ tuổi 18 và 19 chiếm tỷ lệ cao nhất, tiếp theo là sinh viên 20 tuổi, trong khi các sinh viên ở độ tuổi 26 đến 29 có số lượng rất thấp Ngoài ra, còn có một số ít sinh viên nhập học ở độ tuổi 17 Phân bố sinh viên theo đối tượng và khu vực cũng cần được xem xét.

 Biểu đồ phân bố theo đối tượng của sinh viên ĐHTL K48

Trong biểu đồ này, ta thấy sinh viên thuộc đối tượng 10, chiếm 81,35% tổng số sinh viên; đối tượng 1 và 6 có lượng sinh viên tương đương; còn các đối tượng 0,

3, 5 có lượng sinh viên khá ít.

 Biểu đồ phân bố theo khu vực của sinh viên ĐHTL K48

Theo biểu đồ phân bố sinh viên theo khu vực, khu vực 4 chiếm ưu thế với 57,51% tổng số sinh viên K48 Khu vực 1 và 2 có số lượng sinh viên gần tương đương, mỗi khu vực chiếm khoảng 17,5% Trong khi đó, khu vực 3 có số lượng sinh viên ít nhất, chỉ chiếm 6,5%.

Biểu đồ phân bố sinh viên Đại học Thủy Lợi cho thấy, hàng năm, trường thu hút chủ yếu sinh viên từ khu vực 2 - nông thôn, đồng thời cũng có một lượng lớn sinh viên thuộc diện ưu tiên.

Cao Bằng (29) Đắk Lắk (8) Đắk Nông (2) Đà Nẵng (1) Đồng Nai

Biểu đồ phân bố theo tỉnh của K48

THANHHOA THAIBINH NAMDINH HATAY NGHEAN

TP.HANOI HAIDUONG BACNINH BACGIANG HAIPHONG

HATINH NINHBINH HANAM HOABINH HUNGYEN

VINHPHUC TUYENQUANG CAOBANG BINHDINH PHUTHO

BINHTHUAN DONGNAI KHANHHOA LAOCAI QUANGTRIJ

TIENGIANG BINHPHUOC GIALAI KIENGIANG PHUYEN

SONLA DIENBIEN QUANGNINH DAKLAK HABAC

LAICHAU QUANGBINH TAYNINH TP.HOCHIMINH DAKNONG

HAGIANG LAMDONG QUANGNAM YENBAI BINHDUONG

DANANG HUE LANGSON NINHTHUAN QUANGNGAI

Biểu đồ phân bố sinh viên Thủy lợi cho thấy sự hiện diện của họ trải dài từ Bắc vào Nam, với sự tập trung đông đảo nhất tại khu vực đồng bằng Bắc Bộ, bao gồm các tỉnh như Hà Nam, Nam Định, Thái Bình, và Hà Tây Ngoài ra, khu vực trung du - miền núi phía Bắc, đặc biệt là Thái Nguyên, Tuyên Quang và Hòa Bình, cũng có số lượng sinh viên đáng kể.

Sinh viên K48 trường Đại học Thủy lợi chủ yếu đến từ khu vực 2 – nông thôn, đặc biệt là các tỉnh thuộc đồng bằng sông Hồng và Trung du - miền núi Bắc Bộ Khu vực Trung du - miền núi Bắc Bộ nổi bật với tài nguyên thiên nhiên phong phú, có tiềm năng đa dạng hóa cơ cấu kinh tế nhờ vào ngành công nghiệp khai thác và chế biến khoáng sản, thủy điện, cùng nền nông nghiệp nhiệt đới Hệ thống sông Hồng với trữ năng thủy điện lớn (11 triệu kW) đóng góp hơn 1/3 tổng trữ năng của cả nước, cùng với nhiều nhà máy thủy điện lớn như Hòa Bình, tạo điều kiện thuận lợi cho phát triển năng lượng Đồng bằng sông Hồng, với đất đai màu mỡ và hệ thống sông ngòi phong phú, là nơi lý tưởng cho nghề nuôi trồng và đánh bắt thủy hải sản, phù hợp với đặc thù ngành của Thủy Lợi.

Các biến trong dữ liệu:

 N1, N2: Thủy nông – cải tạo đất

 NH: Hệ cử tuyển ngành thủy nông – cải tạo đất

 B: Kỹ thuật xây dựng công trình (kỹ thuật bờ biển)

 M: Máy xây dựng và thiết bị Thủy lợi

 TH: Công nghệ thông tin

 TNC: Công trình Thủy lợi (tài năng)

 CĐHN (cao đẳng Hà Nội), CĐTH (cao đẳng Thanh Hóa): Cao đẳng chính quy ngành công trình Thủy lợi – thủy điện

 S9-C: Công trình Thủy lợi cơ sở 2

 S9-H: Cấp thoát nước cơ sở 2

 S9-N: Thủy nông – cải tạo đất cơ sở 2

 S9-V: Thủy văn – môi trường cơ sở 2

2) Biến tuổi (TUOI): đo độ tuổi của sinh viên khi bắt đầu vào trường, nhận giá trị nguyên dương.

3) Biến tỉnh (TINH): các tỉnh thành của nước Việt Nam, được viết hoa, liền nhau, không dấu Ngoài ra còn các sinh viên của nước Lào (LAO) gửi sang.

4) Biến giới tính (GIOITINH): được mã hóa như sau: số 1 là ứng với sinh viên giới tính nam (NAM), số 0 ứng với sinh viên nữ (NU).

5) Biến khu vực (KHUVUC): có 5 khu vực (0, 1, 2, 3, 4) Trong đó:

 Khu vực 0: là các sinh viên người Lào.

Khu vực 1 bao gồm các xã và thị trấn nằm ở miền núi, vùng cao, vùng sâu và hải đảo, trong đó có những xã thuộc diện có điều kiện kinh tế - xã hội đặc biệt khó khăn theo quy định của chính phủ.

Khu vực 2 bao gồm các thành phố trực thuộc tỉnh, không thuộc trung ương, cùng với các thị xã và huyện ngoại thành của các thành phố trực thuộc trung ương.

 Khu vực 3: Các quận nội thành của các thành phố trực thuộc Trung ương

 Khu vực 4(là khu vực 2- nông thôn “KV2-NT”): bao gồm các xã, thị trấn không thuộc KV1, KV2, KV3.

6) Biến đối tượng (DOITUONG): có 7 nhóm đối tượng (0, 1, 3, 4, 5, 6, 10)

 Đối tượng 0: gồm các sinh viên Lào

 Đối tượng 1: Công dân Việt Nam có cha hoặc mẹ là người dân tộc thiểu số.

Công nhân ưu tú là những người trực tiếp sản xuất, đã có ít nhất 5 năm làm việc liên tục, trong đó cần có 2 năm được công nhận là chiến sĩ thi đua cấp tỉnh trở lên và nhận bằng khen.

Thương bệnh binh, quân nhân

+ Thương binh, bệnh binh, người có thẻ chứng nhận được hưởng chính sách như thương binh;

+ Quân nhân, công an nhân dân tại ngũ được cử đi học có thời gian phục vụ từ

12 tháng trở lên tại khu vực 1;

+ Quân nhân, công an nhân dân tại ngũ được cử đi học có thời gian phục vụ từ

+ Quân nhân, công an nhân dân hoàn thành nghĩa vụ đã xuất ngũ có thời gian phục vụ từ 18 tháng trở lên;

Con liệt sĩ, thương, bệnh binh nặng:

+ Con thương binh mất sức lao động 81% trở lên;

+ Con bệnh binh mất sức lao động 81% trở lên;

+ Con của người được cấp “Giấy chứng nhận người hưởng chính sách như thương binh“, làm suy giảm khả năng lao động 81% trở lên;

+ Con của Bà mẹ Việt Nam anh hùng, con của Anh hùng lực lượng vũ trang, con của Anh hùng lao động.

+ Con của người hoạt động cách mạng trước ngày 01/01/1945 hoặc con của người hoạt động cách mạng từ ngμy 01/01/1945 đến trước Tổng khởi nghĩa 19/8/1945

Con đẻ của người tham gia kháng chiến và bị nhiễm chất độc hóa học sẽ được Ủy ban nhân dân cấp tỉnh công nhận nếu có dị dạng, dị tật, hoặc suy giảm khả năng tự lực trong sinh hoạt và học tập do ảnh hưởng của chất độc này.

+ Thanh niên xung phong tập trung được cử đi học;

+ Quân nhân, công an nhân dân tại ngũ được cử đi học có thời gian phục vụ dưới 18 tháng không ở khu vực 1;

+ Con thương binh mất sức lao động dưới 81%;

+ Con bệnh binh mất sức lao động dưới 81%;

+ Con của người được cấp “Giấy chứng nhận người hưởng chính sách như thương binh“, làm suy giảm khả năng lao động dưới 81%;

+ Bố mẹ là công nhân, nông nhân lao động tốt, ý thức tốt ở địa phương;

Người lao động ưu tú từ tất cả các thành phần kinh tế, được công nhận danh hiệu thợ giỏi, nghệ nhân từ cấp tỉnh, thành phố, Bộ trở lên, sẽ nhận được bằng và huy hiệu Lao động sáng tạo từ Tổng Liên đoàn Lao động Việt Nam hoặc Trung ương Đoàn TNCS Hồ Chí Minh.

+ Giáo viên đã giảng dạy đủ 3 năm trở lên thi vào các ngành sư phạm;

+ Y tá, dược tá, hộ lý, kỹ thuật viên, y sĩ, dược sĩ trung cấp đã công tác đủ 3 năm trở lên thi vào các ngành y, dược.

7) Thời gian (THOIGIAN): tính bằng tháng, nguyên dương (0 ≤ ≤ 60)

8) Sự kiện (SUKIEN): được mã hóa (“1” – là sự kiện xảy ra, tức là học sinh thôi học hay dừng vì một lý do nào đó trong khoảng thời gian quan sát;

“0” – là không quan sát thấy sự kiện xảy ra trong khoảng thời gian quan sát.

Mô hình của phân tích sống sót trong R

R là phần mềm mạnh mẽ cho phân tích thống kê và đồ thị, đồng thời cũng là ngôn ngữ máy tính đa năng Nó có thể được sử dụng cho nhiều mục đích, từ các phép toán đơn giản và toán học giải trí đến các phân tích thống kê phức tạp và tính toán ma trận.

R, phần mềm thống kê do Ross Ihaka và Robert Gentleman phát triển, đã thu hút sự ủng hộ từ nhiều nhà nghiên cứu trên toàn thế giới Là phần mềm miễn phí và mã nguồn mở, R không chỉ có khả năng xử lý dữ liệu mạnh mẽ mà còn không thua kém các phần mềm phân tích thương mại đắt tiền Người dùng có thể tự viết chương trình theo nhu cầu cá nhân khi đã nắm vững ngôn ngữ R, và tài liệu tham khảo luôn được cập nhật liên tục Nhờ những đặc điểm nổi bật này, R trở thành công cụ hữu ích, tiện lợi và miễn phí cho việc phát triển và mở rộng nghiên cứu khoa học tại Việt Nam.

Trong R, package survival do Terry Thernean và Thomas Lumley phát triển có thể được sử dụng để phân tích biến cố Để ước tính Kaplan-Meier, chúng ta sử dụng hai hàm Surv và survfit trong package này Để ước tính hệ số 𝑇 𝑇 trong mô hình Cox, hàm coxph trong package cũng được áp dụng.

Trong bản luận văn này, để phân tích số liệu tác giả sẽ sử dụng R vào mô hình Cox để làm rõ mục tiêu của bản luận văn.

3.3.2 Ƣớc lƣợng Kaplan-Meier trong R Để tìm hiểu xem qua 5 năm học lượng sinh viên trường Đại học Thủy Lợi tốt nghiệp đúng thời hạn sẽ là bao nhiêu theo từng biến, chúng ta đi xét mô hình đường cong sống sót của các sinh viên này qua ước lượng Kaplan-Meier bằng R theo các biến.

3.3.2.1 Ƣớc lƣợng Kaplan-Meier cho đối tƣợng a Đối tượng 1

DOITUONG=1 time n.risk n.event survival std.err lower 95% CI upper 95% CI

35 112 1 0.847 0.0314 0.788 0.911 Kết quả của R trả cho ta:

 Cột 1: Mốc thời gian xảy ra sự kiện

 Cột 2 : Số đối tượng nguy cơ ban đầu ngay tại từng mốc thời gian ở cột 1

 Cột 3 : Các đối tượng bỏ cuộc tại thời điểm cột 1 tương ứng

 Cột 4 : Xác suất sống sót tại thời điểm tương ứng ở cột 1

 Cột 5, 6 tương ứng là khoảng tin cậy trên và dưới ứng với độ tin cậy 95%.

Uoc luong Kaplan-meier cua DOITUONG 1

Biểu đồ này thể hiện mối quan hệ giữa thời gian học và xác suất sống sót của sinh viên thuộc đối tượng 1 sau 60 tháng Trục hoành đại diện cho thời gian theo tháng, trong khi trục tung thể hiện xác suất tốt nghiệp Đường cong tích lũy 𝑇 (𝑇) cho thấy xác suất tốt nghiệp ở tháng thứ 60 đạt khoảng 85%, với khoảng tin cậy từ 78,8% đến 91,1% Khoảng tin cậy này ngắn gọn, cho thấy ước số có độ dao động nhỏ.

X ác su ất số ng

Uoc luong Kaplan-meier cua DOITUONG

Thời gian (tháng) Đối tượng 0 Đối tượng1Đối tượng 3 Đối tượng4 Đối tượng5Đối tượng 6Đối tượng 10

Theo đường cong sống sót trên của từng đối tượng, ta thấy phân là làm bốn nhóm:

Nhóm 1: là nhóm có xác suất sống cao nhất thuộc đối tượng 0 (các sinh viên người Lào).

Nhóm 2: nhóm có xác suất sống trong khoảng trên dưới 0,8 thuộc đối tượng 4, 10, 6; cụ thể,có xác suất sống như nhau là đối tượng 4 và 10 (khoảng 79%), đối tượng 6 ( khoảng 78%).

X ác su ất số ng

Nhóm có xác suất sống dưới 0,7 thuộc đối tượng 3 (khoảng 67%).

Nhóm 4: nhóm có xác suất sống thấp nhất (0,5) thuộc đối tượng 5.

Đối tượng 4 có khoảng tin cậy từ 60,8% đến 99,6%, trong khi đối tượng 5 có khoảng tin cậy từ 12,5% đến 100% Khoảng tin cậy này khá rộng do số lượng sinh viên thuộc hai đối tượng này tương đối ít.

3.3.2.2 Ƣớc tính Kaplan-meier cho khu vực a Khu vực 1, 3, 4

Uoc tinh Kaplan-meier cho KHUVUC 1, 3, 4

Khu vực 1Khu vực3 khu vưc4

Khi so sánh giữa khu vực miền núi – dân tộc, thành phố và khu vực 2 – nông thôn, ta thấy:

X ác su ất tíc h lu y

 Khu vực 3, có các mốc sự kiện xảy ra ít hơn so với khu vực 1, 4 nhưng xác suất sống lại thấp nhất, chỉ có 0.675.

 Khu vực 1, 4 có xác suất sống xấp xỉ như nhau ( khoảng 80%), nhưng khu vực 1 có nhiều mốc sự kiện xảy ra nhất.

 Khu vực 1 ở tháng thứ 11có nhiều học sinh bỏ cuộc nhất; khu vực 4 có mốc thời gian 11, 23 xảy ra nhiều sự kiện hơn cả. b Khu vực

Uoc tinh Kaplan-meier cho KHUVUC

Khu vực0Khu vực1 Khu vưc2 Khu vực3 Khu vực 4 Theo biểu đồ cả 5 khu vực ta thấy:

X ác su ất tíc h lu y 0.

 Xác suất sống của cả 5 khu vực đều lớn hơn 0.7, khu vực 0 không xảy ra sự kiện nào.

 Khu vực 2, 4 có xác suất sống gần nhau (khoảng 78%), khu vực 1 có xác suất sống cao nhất (trên 80%), và khu vực 3 có xác suất sống thấp nhất (dưới 75%).

3.3.2.3 Ƣớc tính Kaplan-meier cho tỉnh a Daclak

Uoc tinh Kaplan-meier cho DACLAK

Theo biểu đồ đường cong sống sót của tỉnh Đắk Lắk, xác suất sống sót của sinh viên tỉnh này chỉ trên 20% Số lượng mốc thời gian xảy ra sự kiện cũng rất hạn chế, cho thấy rằng số lượng sinh viên Đắk Lắk theo học tại Thủy Lợi không nhiều, nhưng tỷ lệ bỏ cuộc lại cao.

X ác su ất tíc h lu y

Uoc tinh Kaplan-meier cho 5 TINH

Biểu đồ sống cho thấy Đăc Lăk là tỉnh có tỷ lệ sinh viên ra trường cao nhất, đạt 50% sau 5 năm học Theo sau là nhóm sinh viên từ Lạng Sơn và Nghệ An, với khoảng 70% tốt nghiệp.

Và nhóm 3 (gồm các sinh viên thuộc tỉnh Thái Bình, Hà Nội) có lượng sinh viên tốt nghiệp ra trường cao hơn cả (khoảng 90%).

X ác su ất tíc h lu y 0.

Uoc tinh Kaplan-meier cho TINH

Theo biểu đồ đường cong Kaplan-meier của tỉnh, ta thấy có 8 nhóm

 Nhóm 1: gồm các sinh vên người Lào, Lào Cai, Đak Nông, có xác suất sống sót là

1 (đường sống sót của họ nằm ngang).

 Nhóm 2: là nhóm kết thúc ở tháng 23 (tức sau tháng 23 không còn sinh viên nào theo học ở trường nữa), đó là tỉnh Kiên Giang.

 Nhóm 3: là nhóm có xác suất sống sót thấp nhất (sau nhóm 2) khoảng trên 20%, gồm các sinh viên thuộc tỉnh Đăc Lăk.

 Nhóm 4: gồm các tỉnh như Ninh Thuận, Bình Phước,…có xác suất sống khoảng 50%.

X ác su ất tíc h lu y

 Nhóm 5: có xác suất sống khoảng 60%, như Lạng Sơn, Phú Thọ, Khánh

 Nhóm 6: có xác suất sống khoảng trên70% , trong khoảng này tập trung khá nhiều tỉnh như Tp Hồ Chí Minh, Yên Bái, Thanh Hóa, Thái Nguyên, Bình Định.

•Nhóm 7: có xác suất sống khoảng 80%, như Bắc Giang, Bắc Ninh, Cao

Bằng, Hà Tây, Hòa Bình, Tp.Hà Nội, Vĩnh Phúc…

•Nhóm 8: là các tỉnh có xác suất sống khoảng 90% như Tuyên Quang, Hải

3.3.2.4 Giới tính t< - survfit (Surv(THOIGIAN, SUKIEN) ~ GIOITINH, data = thai) GIOITINH=0 time n.risk n.event survival std.err lower 95% CI upper 95%

GIOITINH=1 time n.risk n.event survival std.err lower 95% CI upper 95% CI

Uoc tinh Kaplan-meier cho GIOITINH

X ác su ất tíc h lu y

Biểu đồ cho thấy xác suất sống sót của nam giới thấp hơn nữ giới, với hơn 90% sinh viên nữ tốt nghiệp sau 60 tháng, trong khi chỉ khoảng 75% sinh viên nam đạt được điều này Ngoài ra, nam sinh cũng có nhiều mốc sự kiện bỏ học hơn nữ, đặc biệt là vào tháng 11, tháng 23 và tháng 35 Cụ thể, trong tháng 11, có 152 nam sinh bỏ học, chiếm 11,76% so với số lượng ban đầu, tháng 23 có 105 sinh viên dừng học, và tháng 35 có 28 sinh viên nam bỏ cuộc.

Uoc tinh Kaplan-meier cho TUOI

Khi so sánh giữa các độ tuổi vào trường, ta thấy

Một số tuổi không có sự kiện xảy ra: tuổi 28, 29, 25lứa tuổi này vào trường khá là ít, xác suất sống cao(100%)

X ác su ất tíc h lu y

Tuổi có xác suất sống thấp nhất là 21, với tỷ lệ 63,2%, tiếp theo là tuổi 27 với tỷ lệ 66,7% Cụ thể, trong số 57 sinh viên nhập học ở tuổi 21, chỉ còn lại 37 em tốt nghiệp.

Các tuổi 24 có xác suất sống sót trên 90%

Các tuổi còn lại có xác suất sống trên 70%, cụ thể tuổi 17 (85,7%), tuổi 18 khoảng (80%), tuổi 19 (78,4%), tuổi 20 (73,4%), tuổi 22 (khoảng 72,5%), tuổi 23 (khoảng 74%), tuổi 26 (75%).

Các độ tuổi 18, 19 và 20 là những giai đoạn có nhiều sự kiện quan trọng nhất Đặc biệt, trong tháng 11, có tới 56 sinh viên ở tuổi 18 và 19 đã quyết định bỏ cuộc Đến tháng 23, số sinh viên bỏ cuộc ở tuổi 18 là 42, trong khi tuổi 19 ghi nhận 39 sinh viên bỏ cuộc.

Uoc tinh Kaplan-meier cho TUOI 17, 18, 19, 20

Thời gian (tháng) Tuổi 17Tuổi 18 Tuổi 19

X ác su ất tíc h lu y 0.

3.3.3Kiểm định Log-rank bằng R

3.3.3.1 Kiểm định Log-rank cho tuổi a Tuổi survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ TUOI, data = thai)

Chisq= 20 on 12 degrees of freedom, p= 0.0664

Kết quả phân tích cho thấy giá trị p là 0.0664, điều này chưa đủ để khẳng định ý nghĩa thống kê Khi phân tích dữ liệu cho nhóm tuổi 18 và 19 bằng hàm survdiff, chúng ta sử dụng công thức Surv(THOIGIAN, SUKIEN) ~ TUOI với dữ liệu từ bộ dữ liệu thai, chỉ định nhóm tuổi bằng cách sử dụng điều kiện TUOI == c(18, 19).

Chisq= 0.3 on 1 degrees of freedom, p= 0.586

Kết quả phân tích Log-rank cho nhóm tuổi 18 và 19 cho thấy p=0.586, lớn hơn 0.05, do đó chúng ta chưa thể khẳng định rằng số lượng sinh viên tốt nghiệp ở tuổi 18 nhiều hơn so với tuổi 19.

3.3.3.2 Kiểm định Log-ranh cho giới tính survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ GIOITINH, data thai) N Observed Expected (O-E)^2/E

Phân tích Log-rank cho độ tuổi cho thấy có ý nghĩa thống kê với trị số p = 2.59e-13, vì p < 0.05 Điều này cho phép so sánh xác suất sống sót giữa hai giới tính, tuy nhiên chưa thể xác định mức độ ảnh hưởng của từng nhóm tới hàm nguy cơ.

3.3.3.3 Kiểm định Log-rank cho khu vực survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ KHUVUC, data = thai)

Chisq= 3.4 on 4 degrees of freedom, p= 0.488

Theo kết quả của R trong phân tích Log-rank cho khu vực, ta cũng chưa thấy ý nghĩa thống kê ở đây.

3.3.3.4 Kiểm định Log-rank cho đối tƣợng a Đối tượng (5, 10) survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ DOITUONG, data thai, subset = DOITUONG == c(5, 10))

N Observed Expected (O-E)^2/E DOITUONG=5 1 1 0.114 6.88707DOITUONG 646 136 136.886 0.00573Chisq= 7.6 on 1 degrees of freedom, p= 0.00584

Trị số p = 0.00584 > 0.05, điều này cho ta thấy phân tích Log-rank cho đối tượng 5 và đối tượng 10 cũng chưa có ý nghĩa thống kê. b Đối tượng

Khi so sánh giữa đối tượng 5 và 10, chúng ta nhận thấy có sự khác biệt có ý nghĩa thống kê Tuy nhiên, khi xem xét tổng thể các đối tượng, kết quả lại cho thấy không có ý nghĩa thống kê Điều này được thể hiện qua kết quả của hàm R: survdiff(formula = Surv(THOIGIAN, SUKIEN) ~ DOITUONG, data = thai).

DOITUONG 1300 288 281.318 0.15871 Chisq= 5.8 on 6 degrees of freedom, p= 0.446

Ngày đăng: 24/12/2021, 20:11

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Nguyễn Văn Tuấn (2006), phân tích dữ liệu và tạo biểu đồ bằng R, NXB Khoa học kỹ thuật Thành phố Hồ Chí Minh Sách, tạp chí
Tiêu đề: phân tích dữ liệu và tạo biểu đồ bằng R
Tác giả: Nguyễn Văn Tuấn
Nhà XB: NXB Khoahọc kỹ thuật Thành phố Hồ Chí Minh
Năm: 2006
2. Paul Murrell (2005), R Graphics, NXB Chapman &amp; Hall/CRC Sách, tạp chí
Tiêu đề: R Graphics
Tác giả: Paul Murrell
Nhà XB: NXB Chapman & Hall/CRC
Năm: 2005
3. Yanagimoto, T. and Kamakura, T. (1984), The maximum full and partial like- lihood estimators in the proportional hazard model, Annals of the Institute of Statistical Mathematics, 36, tr.363–373 Sách, tạp chí
Tiêu đề: The maximum full and partial like-lihood estimators in the proportional hazard model
Tác giả: Yanagimoto, T. and Kamakura, T
Năm: 1984
4. Cox, D. R. (1972), Regression models and life tables (with discussion), Journal of Royal Statistical Society:B, 34, tr.187–220 Sách, tạp chí
Tiêu đề: Regression models and life tables (with discussion)
Tác giả: Cox, D. R
Năm: 1972
5. Cox, D. R. (1975), Partial likelihood, Biometrika, 62, tr.269–276 Sách, tạp chí
Tiêu đề: Partial likelihood
Tác giả: Cox, D. R
Năm: 1975
6. Kaplan, E. L. and Meier, P. (1958), Nonparametric estimation from incomplete observations, Journal of American Statistical Association, 53, tr.457–481 Sách, tạp chí
Tiêu đề: Nonparametric estimation from incomplete observations
Tác giả: Kaplan, E. L. and Meier, P
Năm: 1958
7. Oaks, D. (2001),“Biometrika centenary: Survival analysis”, Biometrika, 88, tr.99– 142 Sách, tạp chí
Tiêu đề: Biometrika centenary: Survival analysis
Tác giả: Oaks, D
Năm: 2001
8. Đào Hữu Hồ, Nguyễn Văn Hữu (chủ biên), Hoàng Hữu Như (2004), Thống kê Toán học, NXB ĐHQGHN Sách, tạp chí
Tiêu đề: Thống kê Toán học
Tác giả: Đào Hữu Hồ, Nguyễn Văn Hữu (chủ biên), Hoàng Hữu Như
Nhà XB: NXB ĐHQGHN
Năm: 2004

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w