1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(LUẬN văn THẠC sĩ) phân tích thống kê chất lượng gỗ và các vấn đề liên quan

75 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Thống Kê Chất Lượng Gỗ Và Các Vấn Đề Liên Quan
Tác giả Vũ Ngọc Trìu
Người hướng dẫn PGS.TS. Hồ Đăng Phúc
Trường học Đại Học Quốc Gia Hà Nội
Chuyên ngành Lý Thuyết Xác Suất Và Thống Kê Toán
Thể loại luận văn thạc sĩ
Năm xuất bản 2014
Thành phố Hà Nội
Định dạng
Số trang 75
Dung lượng 2,13 MB

Cấu trúc

  • 1.1 Mô hình biến ẩn đối với biến thứ tự (8)
    • 1.1.1 Giả thiết về phân phối của sai số (10)
    • 1.1.2 Xác suất của giá trị quan sát (11)
  • 1.2 Xác định mô hình (12)
  • 1.3 Ước lượng (13)
  • 1.4 Giải thích (15)
    • 1.4.1 Hiệu quả riêng phần của các biến độc lập đối với y ∗ (15)
    • 1.4.2 Xác suất dự báo (17)
    • 1.4.3 Biến đổi riêng phần của biến độc lập đối với xác suất dự báo (20)
    • 1.4.4 Biến đổi gián đoạn (21)
    • 1.4.5 Mô hình số chênh trong mô hình logit thứ bậc (24)
  • 1.5 Giả thuyết hồi quy song song (26)
  • 1.6 Các mô hình liên kết đối với dữ liệu tính trạng (30)
    • 1.6.1 Mô hình hồi quy ghép nhóm (30)
    • 1.6.2 Các mô hình khác về dữ liệu tính trạng (31)
  • 2.1 Giới thiệu về mô hình logit đa thức (33)
  • 2.2 Mô hình logit đa thức (35)
    • 2.2.1 Mô hình MNLM được xét như mô hình xác suất (36)
    • 2.2.2 Mô hình MNLM như một mô hình tỉ số (37)
    • 2.2.3 Mô hình logit đa thức như mô hình lựa chọn rời rạc (38)
  • 2.3 Ước lượng hợp lí cực đại (39)
  • 2.4 Tính toán và kiểm tra các hệ số tương phản khác (40)
  • 2.5 Hai kiểm định hữu dụng (42)
    • 2.5.1 Kiểm tra biến không có ảnh hưởng (42)
    • 2.5.2 Kiểm định về hai đầu ra có thể được kết hợp với nhau (43)
  • 2.6 Giải thích mô hình (44)
    • 2.6.1 Xác suất dự báo (45)
    • 2.6.2 Biến đổi riêng (45)
    • 2.6.3 Biến đổi rời rạc (46)
    • 2.6.4 Lí giải tỉ số chênh (48)
    • 2.6.5 Vẽ các hệ số (50)
  • 2.7 Mô hình logit có điều kiện (53)
  • 3.1 Giới thiệu về địa bàn nghiên cứu và mục đích nghiên cứu (57)
  • 3.2 Mô tả dữ liệu (58)
  • 3.3 Phân tích chất lượng sinh trưởng của cây (62)
    • 3.3.1 Phân tích bộ số liệu “Rừng nguyên sinh” (62)
    • 3.3.2 Phân tích phẩm chất gỗ đối với dữ liệu từ rừng trồng (69)
  • 3.4 Bàn luận về các kết quả của mô hình hồi quy (72)

Nội dung

Mô hình biến ẩn đối với biến thứ tự

Giả thiết về phân phối của sai số

Để áp dụng phương pháp ước lượng hợp lý cực đại, cần giả định về phân phối của sai số Hai phân phối được xem xét là phân phối chuẩn và phân phối logistic, tương ứng với mô hình probit thứ bậc và logit thứ bậc Trong mô hình probit thứ bậc, sai số ε được giả định có phân phối chuẩn với trung bình 0 và phương sai 1, tức là phân phối chuẩn tắc Hàm mật độ của phân phối này được biểu diễn bằng φ(ε) = 1.

2 ) Với hàm phân phối tích lũy Φ(ε) Z ε

Với mô hình logit thứ bậc, sai số ε được giả sử có phân phối logit với trung bình 0 và phương sai π 2 /3 Hàm mật độ của nó là λ(ε) = exp(ε)

[1 +exp(ε)] 2 Với hàm phân phối tích lũy Λ(ε) = exp(ε)

1 +exp(ε) (1.2) Để đơn giản kí hiệu trong chương này, ta dùng hàm F thay thế cho các hàm phân phối Φ hoặc Λ và hàm f thay cho các hàm mật độ φ hoặc λ.

Xác suất của giá trị quan sát

Khi phân phối của sai số đã được xác định, ta có thể tính xác suất của giá trị quan sát y dựa trên giá trị x đã biết Hình 1.3 minh họa phân phối của y ∗ cho ba giá trị của x Sai số có thể phân phối theo dạng logitic hoặc chuẩn xung quanh đường hồi quy E(y ∗ |x) = α+βx Xác suất để biến đầu ra nhận giá trị m tương ứng với các điểm cắt τm−1 và τm, và xác suất để sai số rơi vào miền mà biến y ∗ nằm trong khoảng [τm−1;τm) được tính bằng cách đầu tiên xác định xác suất khi y = 1, với y = 1 khi đó y ∗ nhận các giá trị trong khoảng (−∞, τ 1 ).

Hình 1.3: Phân phối của y ∗ theo x trong mô hình hồi quy thứ bậc

P r(yi = 1 | xi) = P r(τ0 ≤ y ∗ < τ1 | xi) Thay y ∗ = xβ +ε và phương trình trên, ta có

P r(y i = 1 | x i ) = P r(τ 0 −x i β ≤ ε i < τ 1 −x i β | x i ) Vậy, ta có kết quả:

P r(y i = 1 | x i ) = F(τ 1 −x i β)−F(τ 0 −x i β) Với cách làm tương tự, khi biến quan sát nhận giá trị y = m, ta có

Công thức xác suất cho mô hình probit thứ bậc được biểu diễn như sau: P r(yi = m) |xi =F(τm −xiβ)−F(τm−1 −xiβ) Trong đó, cần lưu ý rằng F(τ0−xiβ) = F(−∞) = 0 và F(τJ − xiβ) = F(+∞ −xiβ) = 1 Đối với mô hình có 4 biến đầu ra, công thức này giúp xác định xác suất cho từng biến đầu ra trong bối cảnh mô hình probit thứ bậc.

Ví dụ, nếu α = −0.5;β = 0.052;τ1 = 0.75;τ2 = 3.5;τ3 = 5.0 khi x = 15.40 và 80, theo công thức trên các xác suất tính được là

Phương trình (1.3) được xây dựng dựa trên giả thuyết về phân phối sai số thông qua khái niệm biến ẩn, giúp phát triển các mô hình hiệu quả Tuy nhiên, trong một số trường hợp, ý tưởng về biến ẩn có thể không hợp lý, như trong việc xác định thứ hạng học thuật (trợ giảng, phó giáo sư, giáo sư) Trong những tình huống này, phương trình (1.3) có thể được coi là mô hình xác suất thể hiện mối quan hệ giữa biến độc lập x và xác suất biến đầu ra nhận giá trị nhất định.

Xác định mô hình

Biến ẩn y ∗ không có ước lượng trung bình và phương sai, với phương sai được xác định bởi giả thiết V ar(ε |x) = π 2 /3 cho mô hình logit và V ar(ε | x) = 1 cho mô hình probit Mặc dù phương sai đã được giả thiết, trung bình của y ∗ vẫn chưa rõ ràng Điều này thể hiện qua mô hình y ∗ = α + βx + ε với điểm cắt τ m, trong đó các tham số α và τ m được coi là “chính xác” vì chúng đã được sử dụng để tạo ra dữ liệu Tập tham số mới được định nghĩa là α ∗ = α − δ và τ ∗ = τ − δ, với δ là hằng số bất kỳ Xác suất để y = m được xác định với bất kỳ tập tham số nào như vậy.

Cả hai tập tham số đều tạo ra giá trị xác suất giống nhau cho biến đầu ra, nên không thể phân biệt chúng chỉ dựa trên dữ liệu quan sát Việc điều chỉnh hệ số chặn α trong mô hình cấu trúc có thể thực hiện bằng cách thay đổi các ngưỡng điểm cắt τ m, dẫn đến việc mô hình trở nên không xác định Tuy nhiên, có nhiều giả thiết có thể giúp xác định mô hình, trong đó hai giả thiết phổ biến nhất thường được áp dụng.

1 Giả sử rằng τ 1 = 0 Điều này liên quan tới đặt δ = τ 1 Đây là giả thiết nhận dạng được dùng với mô hình nhị phân (biến quan sát nhận 2 giá trị 0 hoặc 1)

2 Giả sử rằngα = 0 Điều này liên quan tới đặt δ = α trong phương trình (1.4).

Cả hai giả thiết xác định mô hình đều có ràng buộc đối với tham số của mô hình Các giả thiết khác nhau mang lại những cách tham số hóa khác nhau cho mô hình Việc lựa chọn cách tham số hóa là tự do, miễn là không làm thay đổi các hệ số β khác ngoài hệ số chặn β0 và không ảnh hưởng đến các phép kiểm định thống kê.

Ước lượng

Đặt β là véctơ tham số từ cấu trúc mô hình với hệ số chặn β0 ở hàng đầu tiên và τ là véctơ chứa tham số các điểm cắt Để mô hình được xác định, yêu cầu rằng hoặc β0 hoặc τ1 phải bằng 0 Từ phương trình (1.3), ta có.

P r(yi = m |xi, β, α) = F(τm−α−xβ)−F(τm−1−α−xβ) (1.6) Xác suất của giá trị bất kì của biến quan sát y với điều kiện xi là p i 

Vì các quan sát là độc lập, phương trình hợp lí là

Kết hợp (1.6) với (1.8), ta có hàm hợp lí

Trong đó Q y=j là tích chạy trên tất cả trường hợp ở đó y = j Lấy log hàm hợp lí, ta có

Phương trình này được tối ưu hóa thông qua phương pháp số nhằm ước lượng các tham số τ và β Kết quả cho thấy ước lượng hội tụ đến cực đại lý thuyết, đồng thời đảm bảo tính vững, tiệm cận chuẩn và tiệm cận hiệu quả.

Ví dụ: Mô hình ORM và LRM đối với quan điểm về người mẹ làm việc

Vào năm 1977 và 1989, General Social Survey đã đề xuất nghiên cứu về câu hỏi: “Liệu một người mẹ đi làm có thể cung cấp tình cảm và sự chăm sóc cho con cái như một người mẹ ở nhà hay không?” Kết quả được mã hóa bằng biến WARM, trong đó các tính trạng được gán tương ứng với các số liệu cụ thể.

Mẫu nghiên cứu gồm 2293 quan sát với tỷ lệ phần trăm tương ứng cho các mức độ: SD (13%), D (32%), A (37%) và SA (18%) Các biến được sử dụng trong phân tích được trình bày chi tiết trong Bảng 1.1 Bảng 1.2 cung cấp ước lượng cho bốn mô hình khác nhau, trong đó cột 1 thể hiện ước lượng cho mô hình tuyến tính (LRM).

W ARM =β0+β1Y R89+β2M ALE+β3W HIT E+β4AGE+β5ED+β6P RST+ε

Cột 2 trình bày ước lượng cho mô hình probit thứ bậc với ràng buộc τ 1 = 0, trong khi cột 3 thể hiện ước lượng của mô hình probit thứ bậc với β 0 = 0 Cột 4 cung cấp ước lượng cho mô hình logit thứ bậc với β0 = 0 Tiếp theo, chúng tôi sẽ giải thích cách hiểu hệ số thông qua biến ẩn và cách sử dụng các hệ số này để tính toán ảnh hưởng đối với xác suất của biến quan sát.

Bảng 1.1: Thống kê cơ sở các biến ở ví dụ 1

Tên biến Trung bình Độ lệch Giá trị Giá trị Mô tả chuẩn nhỏ nhất lớn nhất

AGE 44.94 16.78 18.00 89.00 Tuổi của người được điều tra

EDU 12.22 3.16 0.00 20.00 Số năm đi học

Bảng 1.2: Hệ số hồi quy của các mô hình LRM; probit và logit thứ bậc

Tên biến LRM Orderd probit Orderd probit Orderd logit τ 1 = 0 β 0 = 0 β 0 = 0

Giải thích

Hiệu quả riêng phần của các biến độc lập đối với y ∗

Đối với mô hình hồi quy thứ bậc ORM y ∗ =xβ +ε biến đổi riêng của y ∗ theo x k là:

Vì mô hình là tuyến tính đối với y ∗ nên biến đổi riêng có thể được lý giải như sau:

• Đối với việc tăng lên 1 đơn vị của xk, y ∗ được kì vọng biến đổi βk đơn vị nếu tất cả các biến độc lập giữ nguyên giá trị không đổi.

Vì không thể ước lượng phương sai của biến ẩn y ∗ từ dữ liệu quan sát, nên ý nghĩa của biến đổi β đơn vị của y ∗ trở nên không rõ ràng Giải thích cần dựa vào hệ số của mô hình hồi quy chuẩn hóa đầy đủ, trong đó biến phụ thuộc và tất cả các biến độc lập được chuẩn hóa với kỳ vọng bằng 0 và phương sai bằng 1 Nếu σ y ∗ là độ lệch chuẩn của biến ẩn y ∗, thì trong mô hình hồi quy, hệ số chuẩn hóa đối với x k sẽ là β k S y ∗ = β k σ y ∗.

Hệ số có thể được lí giải như sau

• Khi x k tăng 1 đơn vị thì y ∗ được kì vọng tăng thêm β k S y ∗ lần độ lệch chuẩn nếu các biến độc lập khác được giữ nguyên giá trị không đổi.

Hệ số chuẩn hóa thể hiện hiệu quả của biến độc lập đối với một đơn vị đo ban đầu Hệ số chuẩn đầy đủ chuẩn hóa biến độc lập, trong đó nếu σk là độ lệch chuẩn của xk, thì hệ số chuẩn đầy đủ được tính bằng công thức: β k S = β k σ k σy ∗.

Hệ số chuẩn hóa đầy đủ của mô hình hồi quy được lí giải như sau:

Khi độ lệch chuẩn của biến x tăng thêm 1 đơn vị, biến y* được kỳ vọng sẽ tăng β k S lần độ lệch chuẩn, với điều kiện các biến độc lập khác vẫn giữ nguyên giá trị.

Phương sai của y ∗ được ước lượng bằng công thức ˆ σ 2 y ∗ = ˆβ 0 V ar(x) ˆ\ β + V ar(ε), trong đó V ar(x) là ma trận hiệp phương sai của các biến độc lập Giá trị βˆ được ước lượng thông qua phương pháp hợp lý cực đại, với var(ε) = 1 cho mô hình probit thứ bậc và var(ε) = π 2 /3 cho mô hình logit thứ bậc.

Hệ số trong Bảng 1.3 được tính từ độ dốc trong Bảng 1.2 và mô tả thống kê trong Bảng 1.1 Phương sai của y ∗ được ước lượng bằng đẳng thức (1.9), cho kết quả σˆ 2 y ∗ = 3.77 cho mô hình logit thứ bậc và σˆ y 2 ∗ = 1.16 cho mô hình probit thứ bậc Chú ý rằng σˆ 2 y ∗ là một yếu tố quan trọng trong phân tích này.

Tỉ số P = 3,25 gần với tỉ số giả thiết var(εP)/var(εL) = 3,29 Sự khác biệt về phương sai của y ∗ giữa hai mô hình được thể hiện qua độ lớn của các β, trong đó hệ số của mô hình logit lớn hơn mô hình probit từ 1,0 đến 1,8 lần Hệ số chuẩn hóa đầy đủ và hệ số chuẩn hóa của y ∗ gần như tương đương nhau.

Ngoài mô hình hồi quy chuẩn hóa đầy đủ, chúng ta cũng áp dụng mô hình hồi quy chuẩn hóa không đầy đủ, trong đó biến phụ thuộc được chuẩn hóa, trong khi các biến độc lập vẫn giữ nguyên.

Xác suất dự báo

Xác suất dự báo tại y=m khi biết trước x là:

Những xác suất này có thể được dùng bằng nhiều cách để phân tích mối quan hệ giữa các biến độc lập và biến tính trạng phụ thuộc.

1 Xác định giá trị trung bình và khoảng biến đổi của xác suất dự báo Rất hữu ích nếu ta bắt đầu việc nghiên cứu bằng khảo sát trung bình, giá trị nhỏ nhất và giá trị lớn nhất của xác suất dự báo trên mẫu. meanP r(yb =m | x) = 1

Xác suất dự báo cho biến đầu ra SD dao động từ 0.02 đến 0.47, với khoảng biến động là 0.45, cho thấy sự khác biệt đáng kể trong các quan sát Ký hiệu min i và max i dùng để chỉ việc lấy giá trị tối thiểu và tối đa của xác suất trên tất cả các quan sát Khi có những biến động lớn trong các tính trạng, cần thực hiện các phân tích sâu sắc hơn Ngược lại, nếu khoảng biến động quá nhỏ, việc phân tích sâu hơn sẽ không cần thiết.

2 Vẽ xác suất dự báo

Khi có một biến độc lập, toàn bộ đường cong xác suất có thể được vẽ Khi có nhiều biến, hiệu quả của từng biến được tính riêng, trong khi các biến khác được giữ nguyên Ví dụ, để vẽ hiệu quả của độ tuổi đối với xác suất của biến đầu ra, ta giữ nguyên giá trị của tất cả các biến khác và chỉ thay đổi độ tuổi Để thực hiện điều này, hãy đặt x ∗ với cột đầu tiên là 1 và cột thứ hai là 1 để chỉ cuộc điều tra năm.

1989, 0 ở cột thứ ba để chọn phụ nữ Và các biến khác trừ biến tuổi được gán bằng giá trị trung bình tương ứng Khi đó:

P r(W ARMb = m |x∗) = F(ˆτm−x∗β))ˆ −F(ˆτm−1−x∗β)ˆ là xác suất dự báo của biến đầu ra nhận giá trị m đối với phụ nữ năm

1989 thuộc vào một nhóm tuổi cố định nào đó và các biến khác nhận giá trị được giữ nguyên tại trung bình của nó.

Những xác suất được vẽ trong Hình 1.4 Xét xác suất đối với tính trạng

SA, đường cong này được chỉ ra bởi đường cong gắn với hình tròn, tại

20 tuổi xác suất là 0.39 Khi độ tuổi tăng lên xác suất dự báo giảm tới 0.25 ở độ tuổi 50 và 0.15 ở tuổi 80 Đường cong xác suất của tính trạng

Đường cong xác suất cho tính trạng D bắt đầu từ 0.16 ở độ tuổi 20 và kết thúc tại 0.34 ở độ tuổi 80, cho thấy sự gia tăng theo thời gian Ngược lại, tính trạng SD có xác suất thấp hơn, bắt đầu từ 0.04 và kết thúc tại 0.12 Tính trạng A, được thể hiện qua đường cong hình vuông, cho thấy một đặc trưng hiếm gặp trong mô hình ORM, với xác suất bắt đầu từ 0.42, tăng lên 0.44 và sau đó giảm xuống 0.38 Sự thay đổi của xác suất tính trạng A theo độ tuổi là đầu tiên tăng lên, rồi giảm xuống, do sự chuyển đổi từ tính trạng SA sang A nhiều hơn so với chuyển đổi từ A sang D ở độ tuổi trẻ Tuy nhiên, khi tuổi tác tăng, số lượng chuyển đổi từ A sang D gia tăng, dẫn đến xác suất của tính trạng A giảm xuống.

3 Vẽ hàm phân phối xác suất tích lũy

Hàm phân phối xác suất tích lũy (CDF) thể hiện xác suất mà biến đầu ra nhận giá trị nhỏ hơn hoặc bằng một giá trị nhất định Cụ thể, xác suất để biến quan sát y có giá trị nhỏ hơn hoặc bằng m được tính theo công thức xác định.

Trong ví dụ này, xác suất tích lũy được xác định là xác suất của SD, P r(y ≤ 1 | x), và xác suất tích lũy của SD hoặc D là P r(y ≤ 2 | x) Các xác suất này được minh họa trong Hình 1.5.

Hình 1.4: Xác suất dự báo Hình 1.5: Xác suất tích lũy

4 Bảng xác suất dự báo

Bảng 1.5 thể hiện xác suất xuất hiện các tính trạng theo giới tính qua các năm trong cuộc điều tra, cho phép so sánh sự khác biệt giữa nam và nữ Đáng chú ý, quan điểm cho rằng không có sự khác biệt giữa nhóm phụ nữ đi làm và không đi làm về sự gắn bó và cởi mở với con cái cho thấy khả năng phản đối cao hơn ở nam giới, trong khi nữ giới có xu hướng đồng tình nhiều hơn Ngoài ra, từ năm 1977 đến 1989, cả hai nhóm nam và nữ đều có sự chuyển biến tích cực.

Biến đổi riêng phần của biến độc lập đối với xác suất dự báo

Phương pháp thứ ba để giải thích mô hình ORM liên quan đến tính biến đổi riêng của xác suất khi biến quan sát đạt giá trị cụ thể Cần nhắc lại rằng xác suất của biến quan sát nhận giá trị m với x đã cho là một yếu tố quan trọng trong phân tích.

P r(y = m | x) = F(τm−xβ)−F(τ m−1 −xβ) Lấy đạo hàm riêng theo xk của phương trình trên, ta có

Biến đổi riêng hay hiệu quả biên thể hiện độ dốc của đường cong mối quan hệ giữa x k và xác suất P r(y = m | x) khi các biến khác được giữ cố định Điều quan trọng là dấu hiệu của hiệu quả riêng không nhất thiết phải trùng với β, do f(τ m −xβ)−f(τ m−1 −xβ) có thể âm Hiệu quả riêng của x k có thể thay đổi dấu khi x k thay đổi Như thể hiện trong Hình 1.4, xác suất của tính trạng A (được ký hiệu bằng hình vuông) ban đầu có độ dốc dương, cho thấy hiệu quả riêng tăng theo độ tuổi Tuy nhiên, sau tuổi 40, hiệu quả riêng trở thành âm, chỉ ra rằng sự gia tăng độ tuổi sẽ làm giảm xác suất của tính trạng A.

Hiệu quả riêng phụ thuộc vào từng mức của các biến độc lập, do đó, để tính toán hiệu quả này, cần xác định rõ giá trị cụ thể của các biến Một phương pháp tiếp cận là tính hiệu quả riêng trung bình trên tất cả các quan sát, được biểu diễn bằng công thức: mean∂P r(y = m |x).

Phổ biến hơn, hiệu quả riêng của biếnxk được tính tại giá trị trung bình của tất cả các biến khác:

Có thể tính hiệu quả riêng của các biến tại các giá trị cố định khác nhau Ví dụ, Bảng 1.6 trình bày các biến đổi riêng của xác suất cho nhóm phụ nữ vào năm 1989, với giá trị của biến Male cố định bằng 0 và biến YR89 bằng 1, trong khi các biến khác được giữ nguyên tại giá trị trung bình Mặc dù hiệu quả riêng không cho thấy sự biến đổi về xác suất khi một biến độc lập thay đổi một đơn vị, nhưng nếu đường cong xác suất gần như tuyến tính, hiệu quả riêng có thể được sử dụng để tính tác động của sự thay đổi này lên xác suất của biến đầu ra Quan hệ tuyến tính giữa tuổi và xác suất của tính trạng D được minh họa trong Hình 1.4 cho thấy điều này.

• Đối với nữ giới năm 1989, nếu độ tuổi tăng thêm 10 tuổi thì xác suất của tính trạng D tăng thêm 0,032

Giá trị 0,032 tương đương với 10 lần hiệu quả riêng của độ tuổi đối với tính trạng D Lưu ý rằng, giải thích này về hiệu quả riêng chỉ hợp lý khi đường cong xác suất gần như tuyến tính.

Biến đổi gián đoạn

Sự giải thích hiệu quả riêng có thể không mang lại kết quả khi đường cong xác suất biến đổi quá nhanh hoặc khi biến độc lập là biến giả Trong mô hình ORM, việc đo lường những biến đổi gián đoạn cung cấp nhiều thông tin hơn.

Biến đổi gián đoạn đề cập đến sự thay đổi xác suất trong việc dịch chuyển của biến độc lập x k từ giá trị khởi đầu x S đến giá trị kết thúc x E.

4x k = P r(y = m |x, xk = xE)−P r(y =m | x, xk = xs) trong đó, kí hiệu P r(y = m |x, x k ) là xác suất để cho y =m với x cho trước và x k là một giá trị xác định.

Khi x k thay đổi từ x E đến x S, xác suất dự báo biến đầu ra nhận giá trị m sẽ thay đổi theo công thức 4P r(y = m | x)/4x k, trong khi tất cả các biến khác được giữ nguyên.

Trong mô hình phi tuyến đang được xem xét, giá trị của biến đổi gián đoạn phụ thuộc vào ba yếu tố: (1) mức của tất cả các biến khác, trong đó giá trị của chúng được giữ nguyên.

Giá trị ban đầu của biến xk và lượng thay đổi của biến này rất quan trọng trong việc tính toán biến đổi gián đoạn Phương pháp phổ biến nhất là tính biến đổi gián đoạn của biến độc lập xk từ giá trị xS đến giá trị xE, trong khi giữ các biến khác không đổi và bằng giá trị trung bình của chúng Đối với biến độc lập là biến giả, biến đổi riêng có thể được tính cho cả hai giá trị Ví dụ, có thể tính biến đổi gián đoạn đối với tuổi của nam và nữ một cách riêng biệt.

Giá trị ban đầu và sự biến đổi của biến x được lựa chọn dựa trên mục đích phân tích Các lựa chọn phổ biến và hữu ích thường bao gồm những phương án sau đây:

1 Tổng hiệu quả của biến x k được tính bằng cách cho biến này thay đổi từ giá trị nhỏ nhất tới giá trị lớn nhất.

2 Hiệu quả của biến nhị phân tính được bằng việc cho biến xk thay đổi từ

3 Hiệu quả của 1 đơn vị biến đổi được tính bằng thay đổi từ x¯ tới x¯+ 1 và biến đổi gián đoạn ở trung tâm được tính bằng thay đổi từ x¯ −1/2 tới x¯+ 1/2.

4 Hiệu quả của sự thay đổi với khoảng biến đổi bằng độ lệch chuẩn của xk được tính bằng biến đổi từ x¯ tới x¯ +sk và biến đổi tương ứng ở trung tâm được tính bằng biến đổi từ x¯−1/2sk tới x¯+ 1/2sk.

Bảng 1.7 trình bày giá trị biến đổi gián đoạn trong ví dụ đang xem xét, sử dụng mô hình logit Đối với biến nhị phân, xác suất dự báo sẽ thay đổi khi biến độc lập chuyển từ giá trị 0 sang 1.

Xác suất xuất hiện tính trạng SD ở Nam giới cao hơn ở Nữ giới với giá trị là 0.08, khi các biến khác được giữ nguyên ở mức trung bình Đối với các biến không phải nhị phân, cần kiểm tra sự thay đổi trong xác suất dự đoán khi thay đổi 1 đơn vị gần giá trị trung bình, cũng như sự biến đổi trong khoảng độ lệch chuẩn quanh giá trị trung bình và khi biến độc lập thay đổi từ giá trị nhỏ nhất đến giá trị lớn nhất.

Việc tăng thêm một năm học sẽ làm tăng xác suất xuất hiện tính trạng SA lên 0.01, trong khi các yếu tố khác được giữ nguyên ở mức trung bình của chúng.

Khi độ tuổi tăng thêm một đơn vị bằng độ lệch chuẩn, xác suất xảy ra tính trạng D sẽ tăng 0.05, trong khi các biến khác được giữ nguyên ở mức trung bình.

Nếu tiền lương thay đổi từ mức tối thiểu đến tối đa, xác suất dự báo của tính trạng SA sẽ biến đổi 0.06 khi các biến khác được giữ nguyên ở giá trị trung bình của chúng.

Hiệu quả của từng biến được xác định bằng cách tính trung bình tổng giá trị tuyệt đối của biến đổi riêng đối với biến đầu ra theo từng tính trạng.

Các giá trị trong cột 4¯ của Bảng 1.7 thể hiện hiệu quả của từng biến, cho thấy giới tính, giáo dục và độ tuổi có ảnh hưởng mạnh mẽ đến quan điểm về vai trò của người mẹ làm việc so với người mẹ không đi làm Ý tưởng về biến đổi gián đoạn có thể được áp dụng linh hoạt tùy theo phân tích, đặc biệt khi biến độc lập có độ lệch lớn, việc đánh giá quanh giá trị trung bình có thể không chính xác Trong trường hợp này, việc xem xét biến đổi quanh giá trị trung vị có thể mang lại kết quả tốt hơn Nếu sự thay đổi của biến độc lập được coi là quan trọng, cần xem xét mức thay đổi cụ thể thay vì sử dụng khoảng biến đổi cố định hoặc theo độ lệch chuẩn.

Mô hình số chênh trong mô hình logit thứ bậc

Mô hình logit thứ bậc được giải thích qua số chênh của xác suất tích lũy, trong đó xác suất mà biến đầu ra có giá trị nhỏ hơn hoặc bằng m được tính theo một công thức cụ thể.

Số chênh là tỉ lệ giữa xác suất biến đầu ra nhận giá trị nhỏ hơn hoặc bằng m và xác suất biến đó nhận giá trị lớn hơn m với x đã cho.

Mô hình logit thứ bậc mô tả mối quan hệ giữa số chênh đó với các biến độc lập qua phương trình:

1−P r(y ≤ m| x) = exp(τm −xβ) Lấy log của phương trình trên, ta có kết quả: ln Ωm = τm−xβ

Mô hình logit tích lũy (cumulative logit model) được sử dụng khi không áp dụng khái niệm biến ẩn Để đánh giá hiệu quả của biến độc lập x, ta so sánh hai giá trị x: x = xi và x = xl, với tỉ số xác suất tại xi so với xác suất tại xl.

Phương trình này rất dễ giải thích ý nghĩa thực tế, khi chỉ có một biến thay đổi Ví dụ, nếu x k thay đổi một lượng δ, khi đó

Ωm(x, xk) = exp(−δβ k ) Điều này được giải thích như sau

Khi biến xk tăng lên δ đơn vị, tỉ lệ giữa xác suất đầu ra nhỏ hơn hoặc bằng m và xác suất đầu ra lớn hơn m sẽ thay đổi một lượng bằng exp(−δβ), trong khi các biến độc lập khác được giữ cố định.

Nếu biến x k thay đổi 1 đơn vị, tỉ số chênh của biến đầu ra bằng:

Hàm Ω m (x, x k ) được tính bằng công thức exp(−βk) (1.11) Để làm rõ cách diễn giải khi sử dụng tỷ số chênh, chúng ta xem xét hệ số từ Bảng 1.3, trong đó β 2 = −0.73 Kết quả tính toán cho thấy e −β 2 = 2.1, điều này cho phép chúng ta diễn giải kết quả một cách cụ thể.

Tỉ số xác suất nhận tính trạng SD của nam giới so với phụ nữ là 2.1 lần, khi giữ nguyên các biến khác Tương tự, tỉ số giữa xác suất nhận các tính trạng SD và D so với A và SA của nam giới cũng gấp 2.1 lần so với phụ nữ.

Hệ số hồi quy đối với độ tuổi là β4 = −0.02 và độ lệch chuẩn s4 = 16.8.

Do đó 100[exp(−s4β4)−1] = 44, điều này có thể diễn giải như sau:

Khi độ tuổi tăng lên một khoảng bằng độ lệch chuẩn, tỉ số xác suất nhận tính trạng SD so với các tính trạng SA, D, A sẽ tăng 44% nếu các biến khác được giữ nguyên Tương tự, tỉ số giữa xác suất nhận các tính trạng SD và D so với các tính trạng A, SA cũng tăng 44%.

Phương trình (1.11) chỉ ra tỉ số chênh Ω m (x, x k + 1)/Ω(x, x k ) bằng nhau với tất cả giá trị của m Điều này được biết như giả thuyết về tỉ số xác suất.

Từ những ví dụ đã nêu, chúng ta đặt câu hỏi liệu sự thay đổi về độ tuổi có ảnh hưởng tương tự đến tỉ lệ xác suất của câu trả lời SD đối với các tính trạng khác, hoặc tỉ lệ giữa xác suất của các câu trả lời SD, D hoặc A so với xác suất của câu trả lời SA hay không Điều này dẫn đến một kiểm định thống kê về tỉ lệ xác suất giả thuyết, được gọi là giả thuyết hồi quy song song Chúng ta sẽ xem xét vấn đề này trong phần tiếp theo.

Giả thuyết hồi quy song song

Giả thuyết về tỉ số xác suất trong mô hình logit phản ánh một khái niệm tổng quát hơn về hồi quy song song, áp dụng cho cả mô hình logit và probit thứ bậc Hồi quy song song có thể được phân tích thông qua việc diễn đạt lại mô hình xác suất tích lũy, trong đó xác suất để biến đầu ra nhận giá trị nhỏ hơn hoặc bằng m được xác định rõ ràng.

Xác suất tích lũy được tính bằng công thức τ m − xβ, trong đó β là hằng số giống nhau cho tất cả các giá trị m Phương trình này (1.12) xác định một tập mô hình nhị phân với các hệ số chặn khác nhau Điều này có thể được hiểu rõ hơn khi nhận thấy rằng τ m − xβ có thể được viết lại thành τ m − β 0.

Do đó, mô hình với y ≤ 1 là:

Mô hình đối với y ≤ 2 là

Trong mô hình này, hệ số chặn được điều chỉnh tới τ 2 − β 0, trong khi hệ số dốc đối với x k giữ nguyên Hình 1.6 minh họa đường cong xác suất tích lũy cho bốn tính trạng, với ba đường cong tương ứng có hệ số chặn là τ 1 − β 0, τ 2 − β và τ 3 − β 0 Để hiểu tại sao các đường cong này song song, ta chọn một giá trị xác suất cho biến đầu ra, chẳng hạn như 0.5, được biểu thị bởi đường ngang chấm chấm Tại điểm này, việc kiểm tra độ dốc của ba đường cong cho thấy sự tương đồng giữa chúng.

Mô hình hồi quy song song được sử dụng để phân tích mối quan hệ giữa các biến Để kiểm định giả thuyết trong hồi quy song song, có ba điểm định thống kê thường được áp dụng.

Hình 1.6: Giả thuyết hồi quy song song

Chúng ta có thể kiểm tra giả thuyết hồi quy song song bằng ước lượngJ −1 hàm hồi quy nhị phân

Hàm hồi quy nhị phân đầu tiên xác định biến bằng 1 nếu y ≤ 1 và 0 trong trường hợp khác, tiếp theo là hàm hồi quy thứ hai với biến nhận giá trị 1 nếu y ≤ 2 và 0 trong trường hợp khác, cho đến biến nhận giá trị 1 nếu y ≤ J −1 Kết quả này dẫn đến ước lượng βˆm cho J −1 Nếu giả thuyết hồi quy song song đúng, thì β1 = β2 = = βJ −1 = β, và mỗi βˆm là ước lượng vững của β trong phương trình (1.12) Việc so sánh βˆm từ mô hình nhị phân logit (probit) với βˆ từ mô hình logit (probit) thứ bậc cung cấp thông tin quan trọng để kiểm tra giả thuyết hồi quy song song Trong ví dụ, ước lượng từ mô hình logit thứ bậc được trình bày ở cột đầu tiên Bảng 1.8, trong khi ước lượng từ ba mô hình nhị phân nằm ở cột cuối cùng Mặc dù một số ước lượng gần bằng nhau, nhưng có những hệ số khác biệt rõ rệt, đặc biệt là đối với biến MALE Để kiểm tra giả thuyết về hồi quy song song, mô hình ORM được xem như một tập hợp J −1 mô hình logit nhị phân.

P r(y ≤ m | x) = F(τm−xβ) ở đó, ta có ràng buộc các hệ số β qua J −1 hàm hồi quy là bằng nhau, β 1 = β 2 = = β J −1 =β (1.13)

Do đó, chúng ta ước lượng mô hình

Tiêu chuẩn kiểm định mô hình ORM sẽ thay đổi khi loại bỏ các ràng buộc (1.13), dẫn đến việc tiêu chuẩn kiểm định thống kê có phân phối χ² với k(J − 2) bậc tự do Trong ví dụ này, tiêu chuẩn kiểm định đạt giá trị 48,2 với 12 bậc tự do, tương ứng với xác suất ý nghĩa p < 0,001, cho thấy giả thuyết hồi quy song song bị vi phạm.

Phép kiểm định được đề xuất bởi Brant (1990) cho phép kiểm tra giả thuyết rằng tất cả các hệ số hồi quy βm là bằng nhau cho tất cả các biến độc lập, cũng như kiểm định giả thuyết rằng chỉ một số hệ số tương ứng với các biến độc lập là bằng nhau Điều này giúp xác định xem có vi phạm giả thuyết hồi quy song song hay không.

1 Ước lượng các β m và các V ar( ˆβ m )

Chạy J −1 mô hình nhị phân logit với biến đầu ra được định nghĩa bởi z m 0 y > m

Với ước lượng độ dốc βˆ m và ma trận hiệp phương sai V ar( ˆb β m ) Khi đó, ước lượng xác suất khi z m = 1 với x i cho trước là ˆ π m (x i ) =F(ˆτ m −x i βˆ m )

Để ước lượng hiệp phương sai giữa các ước lượng βˆ m và βˆ l, chúng ta định nghĩa wiml = ˆπl(xi)−πˆm(xi)ˆπl(xi) và đặt Wml là ma trận chéo kích thước N × N, với phần tử thứ i là wiml Ma trận X có kích thước N × (K + 1), trong đó cột đầu tiên chứa các số 1 và các biến độc lập nằm ở các cột còn lại Brant đã chỉ ra rằng hiệp phương sai giữa các βˆ từ các mô hình nhị phân khác nhau và V ar( ˆb β m ,βˆ l ) có thể được ước lượng bằng cách loại bỏ hàng đầu tiên và cột đầu tiên của ma trận.

3 Kết hợp tất cả các ước lượng

Các phần tử trên đường chéo của ma trận hiệp phương sai Var(ˆd β m) đại diện cho các ước lượng từ mô hình hồi quy nhị phân Các phần tử không nằm trên đường chéo được xác định theo quy trình ở bước 2.

4 Xây dựng kiểm định Wald đối với giả thuyết H 0 : β 1 = =β J−1 Giả thuyết này tương đương với H 0 :Dβˆ ∗ = 0 trong đó

 với I là ma trân đơn vị cấp (K + 1)×(K + 1) và 0 là ma trận mà tất cả các phần tử bằng 0 có cấp (K + 1)×(K + 1) Dạng chuẩn của kiểm định Wald là

W = (Dβˆ ∗ ) 0 [DV ar( ˆd β ∗ )D 0 ] −1 (D β ˆ ∗ ) với bậc tự do (J −2)K

5 Xây dựng kiểm định với mỗi biến phân biệt

Giả thuyết H0: βk1 = = βk,J−1 có thể kiểm định bằng cách chọn các hàng và cột tương ứng trong D, βˆ* và Var(ˆd β*) Kết quả kiểm định sẽ có phân phối khi-bình phương với J−2 bậc tự do Trong ví dụ của chúng ta, kiểm định Wald được trình bày trong Bảng 1.9, cho thấy kết quả kiểm định Wald đối với tất cả các biến khá gần với kết quả kiểm định điểm.

Kết quả kiểm định giả thuyết cho thấy rằng một số biến có độ tin cậy cao để bác bỏ giả thuyết về các hệ số phân biệt, trong khi đó, một số biến khác lại không đủ cơ sở để bác bỏ giả thuyết hồi quy song song Điều này được thể hiện rõ trong Bảng 1.8, với giá trị S = 48,4.

Các mô hình liên kết đối với dữ liệu tính trạng

Mô hình hồi quy ghép nhóm

Trong mô hình ORM, biến quan sát được xác định bởi y = m trong khoảng τm−1 < y ∗ < τm, với m = 1,2, , J, trong đó điểm cắt chưa được biết Một loại biến tương tự được xác định khi nhiều giá trị của một biến liên tục được nhóm lại thành các tính trạng, trong đó điểm cắt τ đã được biết Ví dụ, thu nhập có thể được đo bằng y.

Khi phân tích các biến, giá trị của chúng thường được xác định dựa trên điểm giữa của khoảng biến đổi Tuy nhiên, trong một số trường hợp, giá trị lớn nhất hoặc nhỏ nhất trong khoảng đó cũng có thể được sử dụng Việc điều chỉnh dữ liệu mã hóa là cần thiết, và sau đó, biến sẽ được coi như biến tính trạng với mô hình ORM áp dụng Do đã biết điểm cắt, chúng ta không cần ước lượng chúng, và với các điểm cắt đã xác định, việc ước lượng V ar(ε) trong mô hình ORM trở nên khả thi.

Các mô hình khác về dữ liệu tính trạng

Mô hình tính trạng gần kề xác định bởi ln P r(y =m | x)

P r(y = m+ 1 |x) =τ m −xβ thể hiện xác suất của việc tính trạng m+1 xảy ra so với tính trạng m, với biến đầu ra là log của tỉ số giữa hai xác suất này Mô hình này khác biệt so với mô hình ORM và được xem là một trường hợp đặc biệt của mô hình đa thức sẽ được thảo luận trong chương tiếp theo.

Mô hình tỉ số liên tục (continuation ration model) được đề xuất bởi Fieberg lnP r(y =m | x)

Biến đầu ra được xác định là log của tỉ số giữa xác suất của tính trạng m và xác suất để biến nhận giá trị lớn hơn m Trong mô hình này, việc ước lượng sẽ thay đổi nếu các nhóm tính trạng gần nhau được kết hợp Anderson đã đề xuất mô hình ln P r(y = j | x).

Xác suất P(r(y = m | x) = τm−xβ) cho thấy các ràng buộc cần thiết cho các điểm cắt τ, nhằm duy trì thứ tự các tính trạng và các hệ số β khác nhau cho các tính trạng đầu ra Điều này giúp tránh giả thuyết hồi quy song song Mô hình này có mối liên hệ chặt chẽ với mô hình logit đa thức, sẽ được trình bày trong chương tiếp theo.

Mô hình logit đa thức đối với biến đầu ra định danh và các mô hình liên quan

Biến định danh là loại biến phụ thuộc thể hiện các tính trạng không có thứ tự, thường gặp trong nhiều lĩnh vực khoa học xã hội như nghề nghiệp, giới tính và lựa chọn ngôn ngữ.

Các mô hình cho biến định danh thường được áp dụng khi biến phụ thuộc là biến tính trạng có thứ tự, nhằm tránh giả thuyết hồi quy song song hoặc khi các nhà nghiên cứu quen thuộc hơn với mô hình logit đa thức Tuy nhiên, việc sử dụng mô hình cho biến định danh khi biến phụ thuộc thực sự là biến có thứ tự có thể làm giảm tính hiệu quả do thông tin bị bỏ qua Ngược lại, áp dụng mô hình cho biến có thứ tự đối với biến định danh có thể dẫn đến ước lượng chệch và không hợp lý.

Chương này sẽ thảo luận về hai mô hình có liên hệ chặt chẽ với nhau.

Mô hình logit đa thức là công cụ phổ biến để phân tích biến định danh, cho phép đánh giá ảnh hưởng khác nhau của các biến độc lập đối với từng đầu ra Trong khi đó, mô hình logit có điều kiện sử dụng đặc trưng của biến đầu ra để dự đoán sự lựa chọn, thì mô hình probit, mặc dù có thể được xây dựng lý thuyết, lại gặp khó khăn trong tính toán, khiến chúng trở nên không thực tế.

Giới thiệu về mô hình logit đa thức

Mô hình logit đa thức (MNLM) có thể được hiểu là ước lượng đồng thời của nhiều mô hình logit nhị phân, mỗi mô hình tương ứng với các cặp tính trạng của biến quan sát Ước lượng từ các mô hình logit nhị phân cung cấp các tham số vững cho mô hình MNLM, cho thấy MNLM thực chất là một sự mở rộng của mô hình logit nhị phân Tuy nhiên, việc mở rộng này gặp khó khăn do cần so sánh nhiều cặp tính trạng của biến đầu ra Đối với biến đầu ra có ba giá trị, mô hình MNLM tương đương với việc thực hiện ba mô hình logit nhị phân để so sánh các giá trị của biến đầu ra.

Để phân tích mô hình với biến đầu ra có 4 tính trạng, cần bổ sung các so sánh giữa các cặp giá trị của biến đầu ra, cụ thể là 1 với 4, 2 với 4 và 3 với 4 Để làm rõ hơn, ta có thể xem xét mô hình với biến đầu ra có 3 tính trạng và một biến độc lập, được thể hiện dưới dạng ba mô hình logit nhị phân.

Xét biến định danh y với các tính trạng A, B và C, trong đó N A , N B , N C là số quan sát tương ứng Chỉ với một biến độc lập x, chúng ta có thể phân tích mối quan hệ giữa x và y thông qua chuỗi mô hình logit nhị phân Để đánh giá ảnh hưởng của biến x đối với tỷ lệ xác suất giữa các tính trạng A và B, chúng ta chọn NA + NB quan sát tương ứng với biến đầu ra nhận tính trạng A hoặc B, sau đó ước lượng mô hình logit cho cặp tính trạng A và B.

Biến phụ thuộc trong mô hình logit là log của tỷ số giữa xác suất nhận được trạng thái A và xác suất nhận được trạng thái B Hệ số β có chỉ số dưới A/B, cho thấy mô hình logit được xây dựng dựa trên cặp trạng thái A và B.

Hệ số β 1,A/B cho thấy rằng khi biến độc lập x tăng thêm 1 đơn vị, tỉ lệ xác suất của biến đầu ra đạt trạng thái A so với trạng thái B sẽ thay đổi theo hệ số exp β 1,A/B.

Mô hình logit có thể được áp dụng để phân tích các cặp tính trạng khác, như cặp B và C Để thực hiện điều này, chúng ta cần chọn số lượng quan sát NB và NC, sau đó ước lượng mô hình logit ln để thu được kết quả chính xác.

Chọn NA +NC số quan sát đối với mô hình gồm cặp tính trạng A và C, mô hình là ln

Việc xây dựng cả ba mô hình là không cần thiết, vì nếu chúng ta hiểu ảnh hưởng của biến độc lập x đối với tỉ số xác suất giữa hai trạng thái A và B, cũng như giữa B và C, thì chúng ta có thể xác định được ảnh hưởng của biến x đối với tỉ số xác suất giữa A và C.

Đẳng thức (2.4) có thể được chứng minh đơn giản thông qua tính chất ln(a/b) = lna − lnb Đẳng thức này tương đương với: β 0,A/B + β 1,A/B x + β 0,B/C + β 1,B/C x = β 0,A/C + β 1,A/C x Khi phân tích riêng biệt hệ số chặn và độ dốc, ta có: β 0,A/B + β 0,B/C = β 0,A/C và β 1,A/B + β 1,B/C = β 1,A/C (2.5).

Một số mô hình có thể không cần thiết, ví dụ như nếu chúng ta đã biết kết quả của mô hình logit cho cặp tính trạng A và B, cũng như cho cặp tính trạng B và C, thì chúng ta có thể suy ra kết quả của mô hình giữa tính trạng A và C.

Mặc dù đẳng thức (2.5) lý thuyết mô tả mối quan hệ giữa các tham số, nhưng nó không phù hợp với ước lượng từ ba mẫu của các mô hình logit khác nhau Cụ thể, mẫu đầu tiên có NA + NB quan sát, mẫu thứ hai có NB + NC quan sát, và mẫu thứ ba có NA + NC quan sát Trong mô hình logit đa thức, việc ước lượng đồng thời tất cả các mô hình logit nhị phân giúp củng cố mối quan hệ logic giữa các tham số và tối ưu hóa việc sử dụng dữ liệu Tuy nhiên, việc coi mô hình logit đa thức như một tập hợp các mô hình logit nhị phân vẫn là một quan điểm đúng đắn.

Mô hình logit đa thức

Mô hình MNLM được xét như mô hình xác suất

Gọiy là biến phụ thuộc nhận J tính trạng định danh, được đánh số từ 1 đến J mà không có thứ tự Xác suất Pr(y = m/x) thể hiện khả năng biến quan sát nhận giá trị m dựa trên điều kiện x Do đó, một mô hình xác suất cho biến y có thể được xây dựng dựa trên các yếu tố này.

1 Giả sử rằng, Pr (y = m/x) ) là một hàm tuyến tính của các biến độc lập Vectơ β m = (β 0m , , β km , , β Km ) 0 bao gồm hệ số chặn β 0m và các hệ số dốc βkm thể hiện ảnh hưởng của xk đối với khả năng biến đầu ra nhận giá trị bằng m Đối lập với mô hình logit thứ tự, các hệ số βm khác nhau khi biến đầu ra nhận các giá trị khác nhau Ví dụ, hệ số về ảnh hưởng của giáo dục đối với xác suất của tính trạng nghề nghiệp là công nhân bậc thấp khác với hệ số ảnh hưởng của giáo dục đối với tính trạng nghề nghiệp là thợ thủ công.

2 Để cho xác suất không âm, chúng ta lấy mũ cơ số e của xβm Khi đó kết quả là không âm nhưng tổng PJ j=1exp (xβj) có thể không bằng 1.

3 Để làm cho xác suất có tổng bằng 1, ta chia exp (xβm)cho PJ j=1exp (xβj).

Với việc chuẩn hóa này, ta có PJ j=1Pr (y = m/x) = 1.

Xác suất có tổng bằng 1, nhưng việc xác định mô hình vẫn khó khăn do tồn tại nhiều tập tham số khác nhau sinh ra cùng giá trị xác suất cho biến quan sát Để minh họa điều này, ta có thể nhân phương trình (2.6) với exp(xτ)/exp(xτ), do đó giá trị xác suất không thay đổi.

Pr (yi = m/xi) = exp (xiβm)

PJ j=1exp (xβm).exp (xiτ) exp (x i τ) = exp (xi[βm+τ])

Mô hình thống kê có tính vô định khi xác suất không đổi nhưng tập tham số ban đầu β m được thay thế bằng tập tham số βm+τ, dẫn đến việc tồn tại nhiều tập tham số khác nhau với cùng xác suất dự báo Để xác định mô hình một cách chính xác, cần thiết phải áp dụng các ràng buộc cho β Hai loại ràng buộc thường được sử dụng bao gồm: ràng buộc tổng hợp PJ j=1βj, thường áp dụng trong mô hình log tuyến tính phân cấp, và ràng buộc phổ biến hơn trong mô hình MNLM, yêu cầu một trong các β phải bằng một giá trị cụ thể.

0 Ví dụ β 1 = 0 hoặc β J = 0 Việc chọn lựa ràng buộc là tùy ý và ta có thể giả sử rằng β 1 = 0 Khi thêm ràng buộc này, mô hình mới là

Vì exp(xβ1) = 1, mô hình thường này được viết như sau

Mô hình MNLM như một mô hình tỉ số

Mô hình MNLM được diễn đạt thông qua tỉ số giữa xác suất của các biến đầu ra, như đã trình bày trong phần 2.1 Tỉ số này thể hiện xác suất để biến đầu ra nhận giá trị m so với xác suất để biến đầu ra nhận giá trị n với x cố định, được ký hiệu là Ω m\n (x).

Dùng tính chất của hàm mũ ta có kết quả sau

Ω m\n (xi) = exp (xi[βm −βn]) Lấy log của phương trình trên ta có ln Ω m\n (xi) = xi[βm −βn].

Hệ số tương phản (contrast), ký hiệu là hiệu β m − β n, thể hiện ảnh hưởng của biến x đối với log của tỷ số giữa xác suất biến đầu ra nhận giá trị m và xác suất biến đầu ra nhận giá trị n.

Vì mô hình tuyến tính đối với log của tỷ số xác suất, chúng ta có thể dễ dàng tính toán đạo hàm riêng theo các biến.

= βkm−βkn Điều này cho phép ta lí giải như sau:

Khi biến đổi một đơn vị trong xk, logarit của tỷ số giữa xác suất nhận giá trị m và xác suất nhận giá trị n sẽ thay đổi một lượng bằng βkm−βkn, trong khi các biến khác giữ nguyên giá trị không đổi.

Vì β1 = 0 nên phương trình so sánh với biến đầu ra nhận giá trị bằng 1 được đơn giản hóa như sau: ln Ω m\n (xi) =xiβm

Với ràng buộc nhận dạng β1 = 0, βkm thể hiện ảnh hưởng của biến xk đối với log tỉ số xác suất giữa việc biến đầu ra nhận giá trị m và việc biến đầu ra nhận giá trị 1.

Khi một biến độc lập thay đổi một đơn vị, logarit của tỷ số giữa xác suất biến đầu ra nhận giá trị m và xác suất biến nhận giá trị 1 sẽ thay đổi một lượng kỳ vọng là βkm, với điều kiện rằng các biến khác giữ nguyên giá trị không đổi.

Lí giải về βkm rất đơn giản, vì tác động của một đơn vị thay đổi của xk đối với log của tỉ số xác suất không phụ thuộc vào giá trị của xk hay các biến khác.

Mô hình logit đa thức như mô hình lựa chọn rời rạc

Mô hình lựa chọn rời rạc dựa trên nguyên tắc tối đa hóa lợi ích của cá nhân từ các lựa chọn có sẵn Giả sử có hai lựa chọn, được đánh số là 1 và 2, với lợi ích tương ứng là u1 và u2 Một cá nhân sẽ chọn lựa 1 nếu u1 lớn hơn u2, và chọn lựa 2 nếu ngược lại, giả định không có sự trùng lặp giữa các lựa chọn Mỗi cá nhân luôn hướng tới việc đạt được lợi ích cao nhất từ quyết định của mình.

Lợi ích đạt được từ sự lựa chọn giá trị m với mỗi cá thể i phân biệt bằng: uim = àim +εim

Trong đú, lợi ích trung bình của lựa chọn m đối với mỗi yếu tố khác nhau được xác định, trong khi ε là sai số liên quan đến lựa chọn m Xác suất để lựa chọn 1 xảy ra là khi lợi ích từ lựa chọn 1 vượt trội hơn lợi ích từ lựa chọn 2.

Pr (yi = 1) = Pr (ui1 > ui2)

= Pr (ε i1 −ε i2 > u i2 −u i1 ) Khi có J lựa chọn, xác suất để chọn m là

Xác suất chọn công việc thủ công phụ thuộc vào lợi ích mà công việc đó mang lại, đặc biệt khi lợi ích này vượt trội hơn so với các lựa chọn nghề nghiệp khác.

Mô hình lựa chọn rời rạc cụ thể được xác định bởi giả thiết về phân phối của sai số ε và lợi ích trung bình liên quan đến các biến đo lường Để xây dựng mô hình MNLM, lợi ích trung bình được biểu diễn dưới dạng tổ hợp tuyến tính của các biến độc lập, được thể hiện qua công thức: à im = x i β m.

McFadden (1973) đã chỉ ra rằng mô hình MNLM hoạt động hiệu quả chỉ khi các sai số là độc lập và tuân theo phân phối giá trị cực trị loại 1, với hàm mật độ f (ε) được xác định bởi công thức f (ε) = exp [−ε−exp (−ε)].

Phân phối này có hình dạng tương tự như đường cong chuẩn nhưng bị lệch về phía bên phải, với đuôi bên trái mỏng hơn và đuôi bên phải dày hơn Đặc điểm nổi bật của phân phối này là mode bằng

0, trung bình là 0,58 và độ lệch chuẩn là 1,28.

Ước lượng hợp lí cực đại

Các phương pháp xây dựng mô hình có thể đa dạng, nhưng phương trình xác suất cho biến đầu ra vẫn giữ nguyên Phương trình này được sử dụng để ước lượng các tham số của mô hình Từ phương trình (2.7), chúng ta có thể tiến hành các bước tiếp theo trong quá trình phân tích.

Xác suất của biến quan sát y i = m với x cho trước và các tham số β 2, β 3, , β J được biểu diễn bằng Pr(y i = m/x i, β 2, , β J) Đặt p i là xác suất để biến quan sát y nhận giá trị bất kỳ cho quan sát thứ i Do các quan sát là độc lập, phương trình hợp lý được thiết lập như sau:

Các tham số β được đưa vào phương trình hợp lí bằng cách thay pi từ (2.7) vào vế phải của phương trình trên và ta có kết quả

Trong bài viết này, chúng ta xem xét phương trình Q y i =m, đại diện cho tích chạy trên tất cả các trường hợp khi biến quan sát yi = m Bằng cách lấy log hai vế, ta có được phương trình hợp lý, từ đó có thể áp dụng phương pháp số để cực đại hóa và ước lượng các tham số β Thực tế cho thấy quá trình hội tụ diễn ra nhanh chóng, và kết quả ước lượng đạt được là vững chắc, tiệm cận chuẩn và tiệm cận hiệu quả.

Tính toán và kiểm tra các hệ số tương phản khác

Các phần mềm thông dụng ước lượng một tập các hệ số tương phản, cho phép tính toán J −1 hệ số tương phản tương ứng với biến đầu ra J Cụ thể, hệ số tương phản βkm−βkr được ký hiệu là β k,m|r, với m khác r Các hệ số này có thể được sử dụng để ước lượng các hệ số tương phản khác mà chúng ta quan tâm, đặc biệt khi áp dụng vào mô hình về các loại nghề nghiệp.

Ví dụ về mô hình MNLM: Các loại nghề nghiệp

Hệ số trong Bảng 2.2 được lấy từ chương trình ước lượng mô hình MNLM, thể hiện tập hợp các hệ số tương phản nhằm so sánh tất cả các đầu ra với nhau.

M Những hệ số tương ứng với các phương trình sau.

LnΩ B|M (x i ) = β 0,B|M +β 1,B|M W HIT E +β 2,B|M ED +β 3,B|M EXP LnΩ C|M (xi) = β 0,C|M +β 1,C|M W HIT E +β 2,C|M ED +β 3,C|M EXP

LnΩ W |M (xi) =β 0,W |M +β 1,W |M W HIT E +β 2,W |M ED +β 3,W |M EXP LnΩ P |M (x i ) = β 0,P |M +β 1,P |M W HIT E +β 2,P |M ED+β 3,B|M EXP

Nếu có những hệ số quan trọng mà chương trình không tính toán, chẳng hạn như ảnh hưởng của "chủng tộc" đối với nghề thủ công so với công nhân bậc cao, chúng ta cần tiến hành tính toán và kiểm tra khả năng các hệ số này bằng 0.

Tính toán các hệ số tương phản khác

Phần mềm ước lượng hệ số tương phản cho tất cả các đầu ra liên kết với đầu ra r, trong đó đối với biến x k, chương trình ước lượng J −1 hệ số β k,p|r với p khác r Trong Bảng 2.2, r tương ứng với nghề giúp việc Hệ số so sánh đầu ra nhận giá trị p trên q được tính bằng hiệu của hai tham số đã biết, được biểu diễn qua công thức β k,p|q = β k,p|r − β k,q|r, với đẳng thức này thỏa mãn vì β k,p|q = β kp − β kq.

Ví dụ, ảnh hưởng của chủng tộc đối với logit của đầu ra C trên W là βb 1,C|W =βb 1,C|M −βb 1,W|M = 0.47−1.57 = −1.10 Phương sai của ước lượng mới là

Để tính phương sai từ ma trận hiệp phương sai, cần lưu ý rằng phương sai nằm trên đường chéo chính, trong khi hiệp phương sai nằm ngoài đường chéo Để giảm thiểu sai số do làm tròn, nên sử dụng nhiều chữ số thập phân Khi Vard βb 1,C|W được tính, hệ số đối với biến chủng tộc trong mô hình logit đầu ra C trên W có thể được kiểm tra thông qua thống kê chuẩn z = βb 1,C|W r.

Hai kiểm định hữu dụng

Kiểm tra biến không có ảnh hưởng

Với J tính trạng phụ thuộc, có J −1 tham số β k,m|r liên kết với mỗi biến x k Giả thuyết rằng biến x k không ảnh hưởng tới biến phụ thuộc được viết như sau:

Vì β k,m|r hiển nhiên bằng 0 Giả thuyết chứa J −1 rằng buộc đối với tham số Giả thuyết này có thể được kiểm định bằng thống kê Wald hoặc thống kê LR.

Thống kê LR bắt đầu bằng việc ước lượng mô hình M F với tất cả các biến và thu được kết quả thống kê G 2 F Tiếp theo, mô hình M R được xây dựng bằng cách loại bỏ biến x k, cho kết quả thống kê G 2 R với J−1 tham số Hiệu G 2 R vs F được tính bằng G 2 F − G 2 R, và thống kê này tuân theo phân phối χ 2 với J −1 bậc tự do nếu giả thuyết rằng biến x k không ảnh hưởng đến biến phụ thuộc là đúng Tuy nhiên, thống kê này có hạn chế thực tiễn do cần phải ước lượng hai mô hình Ngược lại, thống kê Wald chỉ yêu cầu ước lượng một mô hình, làm cho nó trở thành một phương pháp hiệu quả hơn trong nhiều trường hợp.

Nó dễ dàng áp dụng hơn khi mô hình có nhiều biến cần kiểm định Đặt βbk βb 2,k|1 , ,βb k,J|1

0 là ước lượng Maximum Likelihood (ML) cho biến xk từ mô hình đầy đủ Để đơn giản hóa, chúng ta giả sử mô hình ước lượng hệ số liên kết với tính trạng 1 Đặt dVar βbk là ước lượng ma trận hiệp phương sai Thống kê Wald được sử dụng để kiểm định giả thuyết H0: βk = 0 với dạng chuẩn.

−1 βb k Nếu giả thuyết đúng, W k có phân phối Khi - bình phương với J −1 bậc tự do.

Ví dụ về kiểm định Wald và LR

Bảng 2.3 chứa kiểm định đối với mỗi biến từ ví dụ của chúng ta Kiểm định

LR đối với biến WHITE được lí giải như sau

Nếu giả thuyết rằng biến WHITE không ảnh hưởng đến nghề nghiệp là đúng, xác suất ý nghĩa p=9% cho thấy giả thuyết này có thể bị bác bỏ ở mức ý nghĩa 10%, nhưng không thể bác bỏ ở mức 5%.

Hoặc ta có thể nói

• Ảnh hưởng của chủng tộc có ý nghĩa ở mức 9%.

Kết luận từ kiểm định Wald cho thấy sự tương đồng với các kiểm định khác Mặc dù kiểm định LR và Wald có thể coi là tiệm cận tương đương, nhưng bảng dưới đây chỉ ra rằng chúng có giá trị khác nhau khi áp dụng cho các mẫu có kích thước hữu hạn.

Kiểm định về hai đầu ra có thể được kết hợp với nhau

Nếu không có biến nào ảnh hưởng đáng kể đến tỉ số xác suất giữa đầu ra m và n, chúng ta coi đầu ra m và n là không phân biệt trong mô hình Hệ số β 1,m|n, , β K,m|n trong mô hình logit cho đầu ra m so với n thể hiện mối quan hệ giữa các biến x1 đến xK, và giả thuyết không phân biệt giữa đầu ra m và n được xác định dựa trên các hệ số này.

H 0 :β 1,m|n = ã ã ã = β K,m|n = 0 (2.9) hoặc tương đương, theo nghĩa các hệ số được ước lượng từ phần mềm,

Trong ví dụ của chúng ta đang xét, giả thuyết đầu ra P và đầu ra W không có sự phân biệt là

H 0 :β 1,P|W = ã ã ã = β K,P |W = 0 (2.10) hoặc theo tham số trong Bảng 2.2

Kiểm định Wald Giả thuyết rằng đầu ra m và n là không phân biệt có thể được kiểm định bằng kiểm định Wald

Trong mô hình, β ∗ cung cấp ước lượng cho tất cả các tham số, trong khi Q thể hiện các ràng buộc theo phương trình (2.10) Tuy nhiên, việc áp dụng kiểm định này gặp nhiều khó khăn trong quá trình tính toán.

Kiểm định LR là một phương pháp đơn giản nhưng ít hiệu quả hơn để phân tích dữ liệu Đầu tiên, cần chọn những quan sát có đầu ra là hai tính trạng đang xem xét Tiếp theo, tiến hành ước lượng mô hình logit nhị phân trên mẫu đã chọn Cuối cùng, tính toán kiểm định LR với điều kiện tất cả các hệ số dốc của mô hình logit nhị phân đều bằng 0 Phương pháp này dễ áp dụng vì nó thường có sẵn trong đầu ra chuẩn của hầu hết các chương trình phân tích mô hình logit nhị phân.

Ví dụ về kiểm định Wald và LR

Giả thuyết về việc kết hợp chuyên viên trình độ cao và công nhân bậc cao có thể được kiểm định thông qua một nghiên cứu với 153 người tham gia Nghiên cứu này sử dụng mô hình logit nhị phân để ước lượng mối quan hệ giữa các biến, với công thức ln Ω P|W (x) =β0+β1W HIT E +β2ED +β3EXP.

Vào thứ 3, kiểm định LR được thực hiện với giả thuyết H0: β1 = β2 = β3 = β4 = 0 Kết quả cho thấy G 2 P |W = 23.4, df = 3, p < 0.01 Kiểm định Wald cũng cho ra kết quả tương tự với W P|W = 22.2 Do đó, giả thuyết cho rằng chuyên viên trình độ cao và công nhân bậc cao không phân biệt theo biến chủng tộc, giáo dục và kinh nghiệm làm việc đã bị bác bỏ ở mức ý nghĩa 0.01.

Giải thích mô hình

Xác suất dự báo

Xác suất dự báo khi y = m với x cho trước là

Xác suất dự báo được tính toán từ các ước lượng của phần mềm, với công thức PJ j=1exp (x i β j ) (2.11), trong đó β1 = 0 Để hiểu rõ hơn về cách tính xác suất này, ta giả định rằng phần mềm ước lượng các hệ số phản hồi như sau: β k,m|r = βkm− βkr Khi nhân phương trình (2.12) với exp (−xβ r )/exp (−xβ r ), ta thu được một công thức tương đương cho xác suất dự báo dựa trên các tham số đã được ước lượng.

PJ j=1exp (x i β j ).exp (−x i β r ) exp (−xiβr)

PJ j=1exp xiβ j|r ở đó β m|r là vectơ với hệ số β k,m|r đối với mọi k.

Xác suất có thể được tính và thể hiện theo nhiều cách khác nhau, bao gồm xác suất trung bình, xác suất nhỏ nhất và xác suất lớn nhất Để kiểm tra ảnh hưởng của biến xk, ta giữ nguyên giá trị của các biến khác và vẽ xác suất dự báo khi xk thay đổi Để làm nổi bật sự khác biệt giữa các nhóm quan trọng, có thể xây dựng bảng xác suất tại những giá trị kết hợp quan trọng của các biến độc lập.

Biến đổi riêng

Đối với biến độc lập liên tục, biến đổi riêng về xác suất được tính bằng cách lấy đạo hàm riêng của phương trình (2.12) theo xk:

Biến đổi riêng, hay còn gọi là ảnh hưởng biên, thể hiện độ dốc của đường cong liên kết giữa biến phụ thuộc xk và biến độc lập Pr (y = m|x) khi các biến khác được giữ nguyên Ảnh hưởng của biến phụ thuộc vào giá trị của tất cả các biến độc lập cũng như hệ số tương ứng với từng đầu ra Thông thường, ảnh hưởng biến được tính toán khi các biến khác được giữ ở giá trị trung bình, trong đó các biến giả có thể được giữ ở mức 0 hoặc 1.

Phương trình (2.13) kết hợp tất cả các hệ số β kj, cho thấy ảnh hưởng biên của x k đối với đầu ra m không nhất thiết phải cùng dấu với hệ số β km tương ứng Hơn nữa, khi x k thay đổi, dấu của ảnh hưởng biên cũng có thể thay đổi Chẳng hạn, tại điểm ảnh hưởng biên của giáo dục đối với thợ thủ công, ảnh hưởng có thể là dương, trong khi ở các điểm khác, ảnh hưởng này lại có thể là âm Tình huống này có thể so sánh với mô hình ORM, được minh họa trong phần A Hình 2.3.

Biến đổi rời rạc

Đo thay đổi rời rạc đối với xác suất là một phương pháp hiệu quả trong việc giải thích các hiện tượng Phương pháp này có thể áp dụng cho biến độc lập, bao gồm cả biến liên tục và biến giả Sự biến đổi của xác suất dự báo xảy ra khi x k thay đổi từ x S tới x E.

Trong đó Pr (y =m|x, x k ) là xác suất để y = m với x cho trước, chú ý giá trị xác định của x k Biến đổi rời rạc được giải thích như sau.

Khi biến x k thay đổi từ giá trị x S đến x E, xác suất dự báo của tính trạng m sẽ thay đổi theo công thức ∆ Pr (y = m|x)/∆x k, với các biến khác được giữ nguyên ở mức hằng số.

Mô hình phi tuyến dẫn đến sự biến đổi xác suất phụ thuộc vào ba yếu tố chính: (1) mức thay đổi của biến x k; (2) giá trị ban đầu của x k; và (3) giá trị của các biến khác Thông thường, các biến khác được giữ ở mức trung bình của chúng, và đối với biến giả, giá trị này có thể được xác định tại.

Khi phân tích biến đổi gián đoạn, cần lưu ý rằng mức độ và hướng của sự thay đổi phụ thuộc vào giá trị của các biến độc lập Sự lựa chọn về lượng thay đổi cho biến đang đánh giá sẽ phụ thuộc vào mục đích phân tích và loại biến Đặc biệt, biến giả nên được xem xét với sự thay đổi từ 0 đến 1.

1 Ảnh hưởng của các biến khác được tính bằng cách cho biến này thay đổi

1 đơn vị hoặc một lượng thay đổi có độ lớn bằng độ lệch chuẩn của biến đó.

Biến đổi gần trung bình của một biến có vai trò quan trọng trong việc phân tích Tổng ảnh hưởng của biến được xác định bằng sự thay đổi của nó từ giá trị nhỏ nhất đến giá trị lớn nhất.

Sau khi quyết định tính toán biến đổi rời rạc, sẽ có J giá trị tương ứng với mỗi đầu ra Các thay đổi này có thể được tóm tắt bằng cách tính trung bình của trị tuyệt đối của biến đổi rời rạc.

Giá trị tuyệt đối được lấy trước khi lấy tổng vì tổng của những biến đổi không thực sự bằng 0.

Ví dụ về biến đổi rời rạc đối với nghề nghiệp

Bảng 2.4 trình bày ước lượng biến đổi từ 4 mô hình đối với các loại nghề nghiệp Biến giả WHITE cho thấy khi thay đổi từ 0 đến 1, xác suất làm công việc giúp việc giảm 0.13, trong khi xác suất cho công việc chuyên gia tăng 0.16, với giáo dục có ảnh hưởng lớn nhất Biến đổi trung bình của giáo dục là 0.16 và 0.3 cho kinh nghiệm làm việc, trong đó giáo dục có độ lệch chuẩn 0.38 Hình 2.1 minh họa sự biến đổi xác suất theo các biến độc lập, cho thấy ảnh hưởng mạnh mẽ của giáo dục khi tăng trên 0.35 đối với công việc chuyên gia Chủng tộc cũng có ảnh hưởng đáng kể, với người da đen ít có khả năng gia nhập vào các nghề công nhân bậc thấp và cao hơn Kinh nghiệm làm việc có tác động ít hơn nhưng vẫn cho thấy khả năng nhận công việc có kỹ năng cao tăng lên khi kinh nghiệm gia tăng.

Hình 2.1: Vẽ biến đổi gián đoạn đối với mô hình MNLM về nghề nghiệp

Lí giải tỉ số chênh

Trong khi tính toán biến đổi xác suất là một công cụ hữu ích để đánh giá ảnh hưởng đối với mô hình MNLM, nó cũng có hai hạn chế Thứ nhất, biến đổi rời rạc chỉ phản ánh sự thay đổi tại một tập giá trị cụ thể của biến độc lập, dẫn đến sự khác biệt ở các mức khác nhau Thứ hai, việc đo biến đổi rời rạc không thể hiện mối quan hệ giữa các tính trạng phụ thuộc Chẳng hạn, giảm giáo dục có thể làm tăng xác suất cho cả hai nghề lao động thủ công và công nhân bậc thấp, nhưng không cho biết cách mà biến này ảnh hưởng đến tỉ số xác suất giữa việc chọn nghề thủ công và nghề công nhân bậc thấp Để giải quyết vấn đề này, cần phải xem xét công thức tỉ số của mô hình.

Dễ dàng hơn, ta chỉ ra rằng mô hình MNLM có thể được viết như sau:

Trong đó Ω m|n là tỉ số đầu ra m trên đầu ra n với x cho trước Khai triển xβ m|n dẫn tới

Ω m|n (x, x k ) = e β 0,m|n e β 1,m|n x 1 e β k,m|n x k e β K,m|n x K Nếu x k thay đổi một lượng δ, khi đó

= e β 0,m|n e β 1,m|n x 1 e β k,m|n x k e β k,m|n δ e β K,m|n x K Ảnh hưởng của xk được đo bởi tỉ số của số chênh trước và sau khi xk thay đổi

Tỉ số này được lí giải như sau:

Khi biến x thay đổi một lượng δ, sự chênh lệch giữa đầu ra m và đầu ra n dự kiến sẽ thay đổi theo nhân tử e β k,m|n δ, với các biến khác được giữ cố định.

Khi δ = 1, tỉ số số chênh không chuẩn hóa được diễn giải như sau:

• Khi x k thay đổi 1 đơn vị, số chênh được kì vọng thay đổi bởi thừa số exp(β k,m|n ), khi các biến khác được giữ nguyên giá trị.

Nếu δ là độ lệch chuẩn của xk, tỉ số số chênh chuẩn hóa theo biến x được diễn giải như sau.

Khi xuất khẩu (xk) thay đổi một lượng tương đương với độ lệch tiêu chuẩn, số chênh lệch kỳ vọng sẽ thay đổi theo hệ số exp(β k,m|n sk), trong khi các biến khác vẫn giữ nguyên giá trị.

Một yếu tố quan trọng là sự thay đổi trong tỷ số đối với biến xk không bị ảnh hưởng bởi mức độ của xk hay các biến khác.

Mặc dù việc diễn giải từng tỉ số chênh là tương đối đơn giản, nhưng việc so sánh một số lượng lớn các tỉ số có thể trở thành một thách thức Để làm rõ vấn đề này, hãy xem xét hệ số ảnh hưởng của chủng tộc đến nghề nghiệp trong Bảng 2.5, với hệ số trong cột đầu tiên là lũy thừa cơ số e của hệ số trong Bảng 2.2.

Tỉ lệ người da trắng có công việc chuyên gia liên kết với công việc giúp việc cao gấp 5,90 lần so với người da đen.

Vẽ các hệ số

Việc kiểm tra tất cả các so sánh giúp hiểu rõ các yếu tố ảnh hưởng đến đầu ra định danh, nhưng số lượng lớn các hệ số có thể gây khó khăn trong việc nhận diện các mẫu kết quả Để đơn giản hóa vấn đề, việc vẽ tỉ số chênh sẽ giúp thấy rõ hơn mối quan hệ giữa các hệ số Chúng ta bắt đầu với mô hình logit nhị phân, giả sử có hai đầu ra A và B với bốn biến độc lập từ x1 đến x4 Các hệ số của mô hình được trình bày trong Bảng 2.6, với mức ý nghĩa cho kiểm định hai phía Cụ thể, cộtexp(β B|A) cho thấy khi x1 tăng 1 đơn vị, tỉ số chênh giữa xác suất của tính trạng A và B là 0.5; biến x2 không có ảnh hưởng đến tỉ số chênh, trong khi biến x3 làm tỉ số tăng lên với thừa số √.

Độ lớn ảnh hưởng của các biến x1, x3 và x4 có sự tương quan nhất định, trong đó x1 và x4 có ảnh hưởng bằng nhau nhưng ngược chiều, còn x3 chỉ ảnh hưởng bằng một nửa so với x4 Để thể hiện các hệ số này, ta sử dụng tỉ số exp(β B|A) thể hiện khoảng cách giữa A và B; tỉ số càng lớn thì khoảng cách càng xa Khi xk tăng lên làm tăng tỉ số của A trên B, A sẽ được dịch chuyển về phía bên phải của B Trong hình 2.2, các hệ số từ Bảng 2.6 được vẽ liên kết với tính trạng A, với x1 ở vị trí 0 cho thấy sự thay đổi của nó không ảnh hưởng đến số chênh của A Tính trạng B ở vị trí -0.69 cho thấy việc tăng x1 1 đơn vị sẽ làm giảm số chênh xuống 0.69.

Hình 2.2 mô tả tỉ số trong mô hình logit, với khoảng cách giữa A và B cho thấy ảnh hưởng trái dấu nhưng bằng nhau của x1 và x4 Độ lớn ảnh hưởng của x4 gấp đôi x3, điều này thể hiện qua khoảng cách giữa các biến Mặc dù việc vẽ các hệ số không hiệu quả với hai đầu ra, nhưng với ba đầu ra trở lên, nó giúp hiểu rõ hơn về mối quan hệ giữa các biến độc lập và số chênh giữa các cặp tính trạng Trong mô hình với ba đầu ra A, B và C, Bảng 2.7 chỉ ra rằng x1 và x2 có ảnh hưởng ngược chiều nhưng bằng nhau đối với số chênh B so với A, trong khi x3 có ảnh hưởng bằng một nửa Tương tự, x1 và x2 cũng tác động ngược chiều với số chênh C so với A, với độ lớn ảnh hưởng bằng một nửa so với số chênh B so với A Hệ số liên kết với tính trạng A được thể hiện trong Hình 2.3.

A được đặt ở vị trí 0 đối với tỷ lệ logit và 1 đối với tỷ lệ nhân tố Thông tin có thể được vẽ liên kết với tính trạng B hoặc C Việc vẽ thông tin liên kết với đầu ra B sẽ thay đổi biểu đồ cho mỗi biến, đặt vị trí tại 0 ở tỷ lệ dưới cùng Đối với 1, cần dịch chuyển tất cả các chữ cái sang bên phải 0,69 đơn vị, trong khi mối quan hệ giữa các vị trí còn lại được giữ nguyên Điều này giúp đánh giá đầy đủ hơn cách vẽ yếu tố ảnh hưởng.

Hình 2.3 minh họa cách vẽ tỉ số logit cho mô hình giả định với ba biến đầu ra, giúp diễn giải kết quả một cách rõ ràng Đồ thị này thể hiện mối quan hệ giữa nghề nghiệp và quan điểm về việc mẹ đi làm, từ đó cung cấp cái nhìn sâu sắc về ảnh hưởng của các yếu tố này.

Ví dụ về vẽ tỉ số chênh: Nghề nghiệp

Hệ số của mô hình MNLM về nghề nghiệp cho thấy sự ảnh hưởng của chủng tộc đến các loại hình nghề nghiệp, từ người giúp việc đến công việc chuyên gia Sự khác biệt giữa các nghề gần gũi không đáng kể, nhưng khi biến WHITE tăng, có sự chênh lệch rõ rệt giữa nghề giúp việc và các công việc như công nhân bậc thấp, công nhân bậc cao, cũng như công việc chuyên gia Điều này cho thấy rằng chủng tộc có tác động đáng kể đến những nghề nghiệp ở vị trí cao hơn trong thang bậc nghề nghiệp.

Hệ số chuẩn hóa theo biến x cho thấy ảnh hưởng của giáo dục và kinh nghiệm làm việc đối với các nhóm nghề khác nhau Cụ thể, tác động của giáo dục lớn hơn so với chủng tộc, đặc biệt là trong các công việc chuyên gia, nơi yêu cầu trình độ học vấn cao Sự khác biệt về giáo dục giữa công nhân bậc cao và công việc giúp việc gia đình, lao động thủ công là rõ rệt, trong khi nhóm lao động thủ công và công nhân bậc thấp không có sự khác biệt đáng kể Bên cạnh đó, ảnh hưởng của kinh nghiệm làm việc yếu hơn so với giáo dục và chủng tộc, và việc tăng cường kinh nghiệm giúp gia tăng khoảng cách giữa các nhóm nghề khác nhau.

Sự quan trọng của xác suất dự báo

Khi sử dụng đồ thị tỉ số chênh, cần hiểu rằng ý nghĩa của một nhân tố thay đổi phụ thuộc vào xác suất dự báo hoặc sự chênh lệch Ví dụ, nếu sự chênh lệch tăng gấp 10 lần nhưng vẫn chỉ là 1 trên 10000, thì tác động thực tế là rất nhỏ Do đó, việc vẽ tỉ số chênh cần được giải thích cẩn thận, giữ nguyên ý tưởng về xác suất cơ sở và sự thay đổi rời rạc trong xác suất Cần cải tiến cách vẽ để tích hợp chặt chẽ các thông tin này.

Hình 2.4 minh họa việc vẽ tỉ số chênh trong mô hình logit đa thức về nghề nghiệp, với các chữ cái đại diện cho xác suất của biến đổi gián đoạn Việc sử dụng căn bậc hai là hợp lý vì hình dạng của các chữ cái gần như là hình vuông, do đó diện tích của chúng phản ánh độ lớn xác suất của biến đổi gián đoạn.

Hình 2.5 minh họa rõ ràng về việc vẽ tỉ số chênh lệch, có thể so sánh với Hình 2.1 và Hình 2.4 Đối với giáo dục, tỉ số chênh lệch giữa M và W gần tương đương với tỉ số chênh lệch giữa W và P, với khoảng cách xấp xỉ bằng nhau Khi giáo dục được nâng cao, trong khi các biến khác giữ nguyên tại giá trị trung bình, xác suất có được công việc chuyên gia tăng lên đáng kể hơn so với xác suất của công nhân bậc cao và công việc giúp việc.

Phân tích chất lượng sinh trưởng của cây

Ngày đăng: 13/07/2022, 19:56

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đào Hữu Hồ,Xác suất –Thống kê, NXB Đại học Quốc Gia Hà Nội Sách, tạp chí
Tiêu đề: Xác suất –Thống kê
Tác giả: Đào Hữu Hồ
Nhà XB: NXB Đại học Quốc Gia Hà Nội
[2] Đào Hữu Hồ, Nguyễn văn Hữu, Nguyễn Hữu Như, Thống kê toán học, NXB Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Thống kê toán học
Tác giả: Đào Hữu Hồ, Nguyễn văn Hữu, Nguyễn Hữu Như
Nhà XB: NXB Đại học Quốc gia Hà Nội
[4] Nguyễn Duy Tiến, Đặng Hùng Thắng,Các mô hình xác suất và ứng dụng, NXB Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Các mô hình xác suất và ứng dụng
Tác giả: Nguyễn Duy Tiến, Đặng Hùng Thắng
Nhà XB: NXB Đại học Quốc gia Hà Nội
[5] Đặng Hùng Thắng,Thống kê ứng dụng, NXB Khoa học và kỹ thuật Sách, tạp chí
Tiêu đề: Thống kê ứng dụng
Tác giả: Đặng Hùng Thắng
Nhà XB: NXB Khoa học và kỹ thuật
[6] Nguyễn Duy Tiến, Vũ Viết Yên,Lý thuyết Xác suất, NXB Giáo Dục Sách, tạp chí
Tiêu đề: Lý thuyết Xác suất
Tác giả: Nguyễn Duy Tiến, Vũ Viết Yên
Nhà XB: NXB Giáo Dục
[7] ] J. Scott Long,Regression models for Categorical and Limited dependent variables, NXB Cambridge University Press Sách, tạp chí
Tiêu đề: Regression models for Categorical and Limited dependent variables
Tác giả: J. Scott Long
Nhà XB: NXB Cambridge University Press
[8] Alan Agresti,An introduction Categorical data analysis, NXB Newyork, John Wiley Sách, tạp chí
Tiêu đề: An introduction Categorical data analysis
Tác giả: Alan Agresti
Nhà XB: John Wiley
[9] Alan Agresti,Categorical data analysis, NXB Newyork, John Wiley Sách, tạp chí
Tiêu đề: Categorical data analysis
Tác giả: Alan Agresti
Nhà XB: John Wiley
[11] Amemiya, Regression analysis when the dependent variables are trun- cated normal, NXB Springer, New York Sách, tạp chí
Tiêu đề: Regression analysis when the dependent variables are truncated normal
Tác giả: Amemiya
Nhà XB: NXB Springer
[12] Amemiya, Advanced Econometrics, NXB Cambridge, MA: Harvard Uni- versity Sách, tạp chí
Tiêu đề: Advanced Econometrics
Tác giả: Amemiya
Nhà XB: Harvard University
[14] Breen, Regression models: Censored, sample selected, or truncated data Sách, tạp chí
Tiêu đề: Regression models: Censored, sample selected, or truncated data
Tác giả: Breen
[15] Cramer, Econometric application of maximum likelihood methods Sách, tạp chí
Tiêu đề: Econometric application of maximum likelihood methods
Tác giả: Cramer
[3] Nguyễn Văn Hữu, Nguyễn Hữu Dư,Phân tích thống kê và dự báo, NXB Đại học Quốc gia Hà Nội Khác
[10] Adrich, Nelson,Linear probability, logit, and probit models Khác
[13] Bollen, Structucal equations with latent variables Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Hồi quy với biến ẩn y ∗ Hình 1.2: Hồi quy với biến y - (LUẬN văn THẠC sĩ) phân tích thống kê chất lượng gỗ và các vấn đề liên quan
Hình 1.1 Hồi quy với biến ẩn y ∗ Hình 1.2: Hồi quy với biến y (Trang 9)
Hình 1.3: Phân phối của y ∗ theo x trong mô hình hồi quy thứ bậc - (LUẬN văn THẠC sĩ) phân tích thống kê chất lượng gỗ và các vấn đề liên quan
Hình 1.3 Phân phối của y ∗ theo x trong mô hình hồi quy thứ bậc (Trang 11)
Bảng 1.1: Thống kê cơ sở các biến ở ví dụ 1 - (LUẬN văn THẠC sĩ) phân tích thống kê chất lượng gỗ và các vấn đề liên quan
Bảng 1.1 Thống kê cơ sở các biến ở ví dụ 1 (Trang 15)
Hình 1.4: Xác suất dự báo Hình 1.5: Xác suất tích lũy - (LUẬN văn THẠC sĩ) phân tích thống kê chất lượng gỗ và các vấn đề liên quan
Hình 1.4 Xác suất dự báo Hình 1.5: Xác suất tích lũy (Trang 19)
4. Bảng xác suất dự báo - (LUẬN văn THẠC sĩ) phân tích thống kê chất lượng gỗ và các vấn đề liên quan
4. Bảng xác suất dự báo (Trang 19)
Hình 1.6: Giả thuyết hồi quy song song - (LUẬN văn THẠC sĩ) phân tích thống kê chất lượng gỗ và các vấn đề liên quan
Hình 1.6 Giả thuyết hồi quy song song (Trang 27)
Bảng 2.4 chứa ước lượng về biến đổi từ 4 mô hình đối với các loại nghề nghiệp. - (LUẬN văn THẠC sĩ) phân tích thống kê chất lượng gỗ và các vấn đề liên quan
Bảng 2.4 chứa ước lượng về biến đổi từ 4 mô hình đối với các loại nghề nghiệp (Trang 47)
Hình 2.1: Vẽ biến đổi gián đoạn đối với mô hình MNLM về nghề nghiệp - (LUẬN văn THẠC sĩ) phân tích thống kê chất lượng gỗ và các vấn đề liên quan
Hình 2.1 Vẽ biến đổi gián đoạn đối với mô hình MNLM về nghề nghiệp (Trang 48)
Hình 2.2: Vẽ tỉ số với mô hình logit giả thiết - (LUẬN văn THẠC sĩ) phân tích thống kê chất lượng gỗ và các vấn đề liên quan
Hình 2.2 Vẽ tỉ số với mô hình logit giả thiết (Trang 50)
Hình 2.3: Vẽ tỉ số logit đối với mô hình giả định có ba biến đầu ra - (LUẬN văn THẠC sĩ) phân tích thống kê chất lượng gỗ và các vấn đề liên quan
Hình 2.3 Vẽ tỉ số logit đối với mô hình giả định có ba biến đầu ra (Trang 51)
Hình 2.4: Vẽ tỉ số chênh đối với mô hình logit đa thức về nghề nghiệp - (LUẬN văn THẠC sĩ) phân tích thống kê chất lượng gỗ và các vấn đề liên quan
Hình 2.4 Vẽ tỉ số chênh đối với mô hình logit đa thức về nghề nghiệp (Trang 53)
Bảng 3.15 này cũng tương tự như Bảng 3.12, cột đầu tiên là tên của các - (LUẬN văn THẠC sĩ) phân tích thống kê chất lượng gỗ và các vấn đề liên quan
Bảng 3.15 này cũng tương tự như Bảng 3.12, cột đầu tiên là tên của các (Trang 71)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w