CHƯƠNG 2: PHƯƠNG PHÁP NGHIÊN CỨU
2.3. Phương pháp phân tích dữ liệu
2.3.2. Mô hình hồi qui
Các nghiên cứu thực nghiệm về tiếp cận đất đai đã đưa ra hàm số các yếu tố tác động tới việc tiếp cận đất đai của các hộ gia đình [57][74][79] như sau:
Q = f (X1, X2, X3....)
Trong đó: Q: Biến số đại diện cho các khía cạnh tiếp cận đất, cụ thể trong các mô hình thực nghiệm đó thường sử dụng là Ln (Quy mô đất sử dụng)
Các biến độc lập trong mô hình được tổng hợp từ các nghiên cứu thực nghiệm như sau: X1: Giới tính của chủ hộ; X2: Tuổi của chủ hộ; X3: Trình độ học vấn của chủ hộ (Số năm đi học trung bình/ Trình độ theo cấp học); X4: quy mô hộ;
X5: Tình trạng hôn nhân của chủ hộ; X6: Vùng; X7: Thành thị/ nông thôn; X8: Dân tộc; X9: Số trẻ em trong hộ; X10: Thu nhập của hộ; X11: Giá đất hộ gia đình phải trả; X12: Qui mô tài sản của hộ; X13: Tiếp cận với tín dụng…
Mặc dù số lượng các biến độc lập (các yếu tố tác động) được sử dụng trong các mô hình thực nghiệm không hoàn toàn đồng nhất, song danh mục các biến liên quan đến đặc điểm của hộ gia đình đều có thể phân vào 3 nhóm chính đó là: đặc điểm nhân khẩu của chủ hộ, đặc điểm về quy mô hộ và đặc điểm về tình trạng thu nhập của hộ. Các nghiên cứu cũng sử dụng số liệu mảng để ước lượng mô hình trên
Tham khảo mô hình thực nghiệm, căn cứ vào lý thuyết và cân nhắc thực tế ở Việt Nam với nguồn dữ liệu sẵn có, luận án sử dụng mô hình sau để ước lượng thực trạng bình đẳng giới trong tiếp cận đất sản xuất ở Việt nam:
Tiếp cận đất sản xuất = β0 + βiXi + ei (3.1)
Trong đó luận án sử dụng 2 biến phụ thuộc là hav _dat và lndatbq để đánh giá việc tiếp cận đất sản xuất theo 2 nội hàm: khả năng được sử dụng đất sản xuất và sử dụng đất để thu lợi, cụ thể:
- Hav_dat: đo lường khả năng có đất sản xuất: biến đại diện cho nội dung khả năng được sử dụng đất sản xuất
- Lndatbq = ln (datbq) dùng để đo lường cho viêc sử dụng đất để thu lợi.
Nghiên cứu sử dụng thước đo là diện tích đất bình quân hộ gia đình thay vì sử dụng thước đo tổng diện tích đất sản xuất của hộ nhằm loại bỏ sự chênh lệch diện tích do quy mô hộ gia đình khác nhau.
Tuy nhiên vì quy mô đất sản xuất phụ thuộc vào diện tích đất tự nhiên và mật độ dân số, dẫn tới giá trị diện tích đất bình quân hộ gia đình không đồng đều theo các vùng trong cả nước, để phù hợp với mô hình hồi quy có dạng phân phối chuẩn, chính vì vậy trong luận án sẽ sử dụng dạng hàm với biến phụ thuộc là lndatbq
- Xi là các biến ngoại sinh có ảnh hưởng tới việc tiếp cận đất sản xuất của hộ gia đình. Luận án sử dụng các biến ngoại sinh gắn với đặc điểm nhân khẩu của chủ hộ, qui mô hộ gia đình và đặc điểm hoạt động kinh tế của hộ, cụ thể tên và ý nghĩa các biến được giải thích chi tiết trong bảng 2.1
Bảng 2.1. Danh mục các biến sử dụng trong mô hình
TT Tên biến Ý nghĩa
1 Hav_dat Hộ gia đình hiện có quản lý/ sử dụng đất sản xuất hay không 2 lndatbq Ln (diện tích đất quản lý/ sử dụng bình quân đầu người của hộ (m2) 3 m1ac2 Giới tính của chủ hộ (=1 nếu chủ hộ là nam giới, = 0 nếu chủ
hộ là nữ giới)
4 tylepthuoc Tỷ lệ phụ thuộc (số người trên 60 tuổi và dưới 15 tuổi trong hộ/ tổng số người trong độ tuổi lao động của hộ)
5 schooling Số năm đi học (năm)
6 working_wage Làm công ăn lương (=1 nếu chủ hộ tham gia đi làm để nhận tiền công tiền lương, =0: không tham gia)
TT Tên biến Ý nghĩa
7 agr_selfE Sản xuất nông nghiệp (=1 nếu chủ hộ tham gia hoạt động SX nông nghiệp cho hộ, = 0 nếu không tham gia)
8 nonagr_selfE Tự làm việc phi nông nghiệp (=1 nếu chủ hộ tham gia hoạt động SXKD hoặc dịch vụ của hộ, = 0 nếu không tham gia
9 m1ac5 Tuổi của chủ hộ (năm)
10 region1 Vùng ĐBSH (vùng ĐBSH = 1, vùng khác =0)
11 region2 Vùng TDMNPB (vùng TDMNPB = 1, vùng khác =0)
12 region3 Vùng BTB và DHMT (vùng BTB và DHMT = 1, vùng khác =0) 13 region4 Vùng Tây Nguyên (vùng Tây nguyên = 1, vùng khác =0)
14 region5 Vùng Đông Nam Bộ (vùng ĐNB = 1, vùng khác =0)
15 region 6 Vùng Đồng bằng sông Cửu Long (tương ứng khi các vùng khác đồng thời = 0). Biến này không xuất hiện khi chạy các mô hình hồi quy
16 dtoc Dân tộc (dân tộc Kinh/ hoa = 0, DTTS = 1)_
17 ttnt Thành thị/ nông thôn (thành thị =1, nông thôn = 0) 18 tsnguoi Qui mô hộ (người)
19 typeinc2 Hộ có thu nhập từ chăn nuôi (có = 1; TN khác = 0 ) 20 typeinc3 Hộ có thu nhập từ lâm nghiệp (có = 1; TN khác = 0 ) 21 typeinc4 Hộ có thu nhập từ thủy sản (có = 1; TN khác = 0 )
22 typeinc5 Hộ có thu nhập từ hoạt động nông nghiệp khác (có = 1; TN khác = 0 ) 23 typeinc6 Hộ có thu nhập từ tiền lương (có = 1; TN khác = 0 )
24 typeinc7 Hộ có thu nhập từ hoạt động SXKD (có = 1; TN khác = 0 ) 25 typeinc8 Hộ có thu nhập khác (có = 1; TN từ các nguồn khác = 0 ) 26 poor Hộ nghèo (nghèo =1, không nghèo =0)
27 honhan2 Tình trạng hôn nhân của chủ hộ (=1 hiện đang có vợ/ chồng, = 0 khác 28 thubq Thu nhập bình quân/ người/ tháng của hộ gia đình
Nguồn: Tác giả tổng hợp dựa vào VHLSS 2012
Việc tính toán các biến sử dụng nguồn dữ liệu VHLSS 2012, thống kê cơ bản của các biến được sử dụng trong mô hình được trình bày trong bảng 2.2
Bảng 2.2. Tóm tắt một số thống kê cơ bản về các biến trong mô hình
Tên biến Số quan sát Giá trị TB (mean)
Độ lệch
chuẩn Min Max
Hav_dat 9399 0.29 0.45 0 1
lndatbq 2750 6.47 1.39 1.61 10.41
m1ac2 9399 0.752 0.43 0 1
tylepthuoc 8707 11.63 33.82 0 300
schooling 9399 7.60 4.40 0 22
working_wage 9399 0.39 0.49 0 1
agr_selfE 9399 0.56 0.50 0 1
nonagr_selfE 9399 0.20 0.40 0 1
m1ac5 9399 49.75 14.24 13 97
region1 9399 0.21 0.41 0 1
region2 9399 0.18 0.38 0 1
region3 9399 0.22 0.41 0 1
region4 9399 0.07 0.25 0 1
region5 9399 0.12 0.32 0 1
dtoc 9399 0.18 0.38 0 1
ttnt 9399 0.29 0.45 0 1
tsnguoi 9399 3.90 1.57 1 15
typeinc2 9399 0.02 0.15 0 1
typeinc3 9399 0.01 0.10 0 1
typeinc4 9399 0.02 0.15 0 1
typeinc5 9399 0.00 0.06 0 1
typeinc6 9399 0.47 0.50 0 1
typeinc7 9399 0.17 0.38 0 1
typeinc8 9399 0.11 0.31 0 1
poor 9399 0.14 0.35 0 1
honhan2 9399 0.81 0.39 0 1
thubq 9399 2081.54 2293.691 120 110143
Nguồn: Tính toán của tác giả dựa vào VHLSS 2012
2.3.2.2. Phương pháp ước lượng
Để đánh giá thực trạng bất bình đẳng giới hiện nay có 2 phương pháp sử dụng các mô hình kinh tế lượng để hồi quy, bao gồm:
(i) Ước lượng các yếu tố tác động đến kết quả mục tiêu theo riêng rẽ cho nam và nữ, hoặc ước lượng đồng thời với việc sử dụng biến giả về giới, theo đó các dạng hàm hồi quy thường được sử dụng là Probit, Logit, OLS, hay mô hình Heckman - hồi quy 2 giai đoạn.
Việc ước lượng sự khác biệt trong kết quả mục tiêu theo giới bằng OLS thông thường có thể dẫn tới ước lượng chệch do chọn mẫu vì dữ liệu được chọn để đánh giá sự khác biệt thường là của những đối tượng đạt được kết quả mục tiêu, trong khi đó mẫu tổng thể có những đối tượng có đặc điểm tương tự với đối tượng được xem xét nhưng không có kết quả mục tiêu. Ví dụ để ước lượng sự khác biệt về tiền lương giữa nam và nữ, trong các nghiên cứu thông thường, các nhà nghiên cứu chỉ tiến hành thu thập số liệu trên những người lao động có việc làm, được trả lương theo việc làm đó để hồi quy xác định các yếu tố có ý nghĩa thống kê, trong khi đó mẫu tổng thể vẫn có những người có đặc điểm giống như những người có việc làm nhưng họ không đi làm vì mức lương được trả thấp hơn mức kỳ vọng của họ.
Heckman (1979) trong bài báo nổi tiếng của mình đã chỉ ra rằng việc ước lượng chệch và không vững giống như bị nội sinh do bỏ sót biến của mô hình và đã đề xuất cách khắc phục bằng bằng cách lượng hóa yếu tố bị bỏ sót và đưa biến này vào mô hình. Yếu tố bị bỏ sót này có thể được ước lượng thông qua tỷ lệ Mill nghịch đảo. Tỷ lệ Mill nghịch đảo, được đặt theo tên của John P. Mills, cho biết tỷ lệ giữa hàm mật độ xác suất so với hàm phân phối tích lũy của một phân phối [26].
Thủ tục hồi quy hiệu chỉnh chệch do chọn mẫu theo hai bước theo đề xuất của Heckman (thủ tục Heckman 2 bước) được thực hiện như sau:
Bước 1: Ước lượng hồi quy probit với các biến độc lập thể hiện đặc điểm của đối tượng trên toàn bộ mẫu cho dù có kết quả mục tiêu hay không, từ đó để tính tỷ lệ Mill nghịch đảo
Bước 2: Hồi quy bằng OLS kết quả mục tiêu theo các đặc điểm của đối tượng và giá trị tỷ lệ Mill nghịch đảo để thu được ước lượng tác động của các yếu tố (β) cần tìm.
Giá trị Chi2 cũng được tính toán để kiểm định tính độc lập của các phương trình được sử dụng trong 2 giai đoạn.
Việc ước lượng phương trình hồi quy theo các dạng hàm trên cho phép đánh giá được các yếu tố tác động đến kết quả của hai giới (nếu ước lượng riêng rẽ đối với nam và nữ), đồng thời kiểm định sự bất bình đẳng trong các mục tiêu theo giới (nếu sử dụng biến giả về giới), nhưng không đánh giá được yếu tố tác động tới bất bình đẳng giới trong khía cạnh mục tiêu. Điều này được bổ sung bằng ước lượng phân rã Oaxaca - Blinder
(ii) Ước lượng phân rã Oaxaca – Blinder.
Đây là cách tiếp cận được Oaxaca đưa ra lần đầu tiên năm 1973, với việc xem xét sự khác biệt trong thu nhập của hai giới nam và nữ. Theo Oaxaca, khoảng cách thu nhập giữa nam và nữ được tính như sau với một giả thiết căn bản là tiền lương có mối quan hệ tuyến tính với các yếu tố tác động [72]:
f f m f
m f
m w m x x x
w ln ( ) ( )
ln − = β − + β − β (2.1)
Trong đó: w chỉ thu nhập (lương) bình quân theo giờ (m biểu thị cho nam và f biểu thị cho nữ)
wmvà wf với dấu gạch ngang là giá trị trung bình của lương nam và nữ;
xm và xf là vectơ giá trị trung bình của các biến độc lập của nam và nữ Phương trình (2.1) còn được gọi là phương trình phân rã Oaxaca, thành phần thứ 1 bên vế phải βm(xm −xf ) của phương trình được cho là để đánh giá sự khác biệt là khác biệt do đặc tính quan sát được, thành phần thứ 2 bên vế phải
f f
m )x
(β −β là khác biệt do có sự phân biệt giữa nam và nữ . Dựa vào phương trình này cho phép tính được tổng cả hai sự khác biệt và sự khác biệt chi tiết theo các yếu tố tác động, cũng như yếu tố tác động đến kết quả thu nhập theo giới [72]
Daymont và Andrisani (1984) đã đưa ra sự mở rộng về phân rã của Blinder – Oaxaca [7]:
Lnwmit - Lnwfit = (Xmit - Xfit)βft + (βmt - βft )Xfit + (Xmit - Xfit )(βmt - βft ) + ut (2.2) = E + C + CE
Như vậy mô hình phân rã mở rộng (2.2) cho phép giải thích sự khác biệt về tiền lương giữa nam và nữ là do 3 yếu tố chính. Thứ nhất là do sự khác biệt về trình độ giáo dục, kinh nghiệm, tuổi, ngành nghề,…(đây là các đặc điểm quan sát được của người lao động- thành phần thứ 1 bên vế phải, ký hiệu là E). Thứ hai sự khác biệt về tiền lương được giải thích do định kiến của xã hội, do phân tầng về thị trường lao động giữa nam và nữ, do các thể chế chính sách tạo ra (đây là đặc điểm không quan sát được giữa lao động nam và lao động nữ - thành phần thứ 2 bên vế phải, ký hiệu là C). Thứ 3, sự thay đổi của khác biệt tiền lương do tương tác giữa hai thành phần trên (vừa do khác nhau về đặc điểm quan sát được và đặc điểm không quan sát được – thành phần thứ 3 bên vế phải, ký hiệu EC) [7]
Từ phân tích trên, mối liên hệ giữa mô hình phân rã (2.1) và (2.2) đó là
f f m f
m f
m w m x x x
w ln ( ) ( )
ln − = β − + β − β = (E + EC) + C
Hạn chế của phương pháp phân tích Oaxaca đó là, việc đo lường mức độ phân biệt đối xử giới trong các biến số mục tiêu giới tùy thuộc vào việc có kiểm soát được mọi yếu tố khác biệt về giữa hai nhóm hay không. Nếu có những yếu tố bị bỏ sót trong mô hình hồi quy, chúng ta sẽ đo lường mức độ phân biệt đối xử thiếu chính xác
Dựa trên mô hình ban đầu của Oaxaca, có rất nhiều nghiên cứu mở rộng hướng ứng dụng để xem xét sự khác biệt trong giá trị trung bình các kết quả theo giới, cho dù kết quả đó là liên tục hay rời rạc người ta đều có thể sử dụng cách tiếp cận này [72]
Với ưu và nhược điểm của hai phương pháp hồi quy đánh giá thực trạng bất bình đẳng giới kể trên, để đánh giá thực trạng bình đẳng giới trong tiếp cận đất sản
xuất ở Việt Nam, luận án sử dụng cả 2 phương pháp hồi quy kể trên với bộ dữ liệu VHLSS 2012, sử dụng phần mềm Stata, cụ thể:
• Hồi quy Probit để đánh giá sự khác biệt về cơ hội có đất sử dụng giữa hộ gia đình chủ hộ nam giới và nữ giới, phương trình hồi quy với các biến được mô tả trong bảng 2.1 như sau
Hav_dat = β0 + β1*m1ac2 + βiXi + ei (2.3)
• Hồi quy Heckman 2 bước để đánh giá sự khác biệt trong việc sử dụng đất sản xuất để sinh lợi, với biến phụ thuộc là lndatbq và các biến giải thích được mô tả trong bảng 2.1.
lndatbq = β0 + β1*m1ac2 + βiXi + ei (2.4)
Trong đó m1ac2 là biến đại diện cho giới tính của chủ hộ (m1ac2=1 tương ứng với chủ hộ là nam giới và m1ac2 = 0 tương ứng với chủ hộ là nữ giới), Xi là các biến thứ tự 4 – 28 trong bảng 2.1
Trong tính toán giá trị thống kê cơ bản của các biến trong bảng 2.2, giá trị biến lndatbq chỉ được tính trung bình trên mẫu là những hộ gia đình có đất sản xuất (số quan sát là 2750 < số quan sát toàn mẫu là 9399), do đó để đảm bảo tính không chệch và vững của các giá trị ước lượng, luận án lựa chọn hồi quy với thủ tục Heckman 2 bước
• Phân rã Oaxaca – Blinder để giải thích sự khác biệt trong tiếp cận đất sản xuất giữa hộ gia đình chủ hộ nam giới và chủ hộ nữ giới, theo các yếu tố tác động (các biến giải thích) được mô tả trong bảng 2.1, cụ thể:
- Phân rã Oaxaca – Blinder cho hàm phi tuyến:
Hav_dat = β0 + βiXi + ei (2.5) - Phân rã Oaxaca – Blinder cho hàm tuyến tính:
lndatbq = β0 + βiXi + ei (2.6)