VÀ BẰNG CHỨNG THỰC NGHIỆM
CHƯƠNG 2 PHƯƠNG PHÁP NGHIÊN CỨU VÀ DỮ LIỆU
2.1. Hồi quy với dữ liệu bảng
2.1.1. Các ước lượng cơ bản
Dữ liệu bảng (panel data) là dạng tổ chức dữ liệu được sử dụng nhiều trong các nghiên cứu, trong cả kinh tế vi mô (khi nghiên cứu về hộ gia đình, doanh nghiệp,...) hay kinh tế vĩ mô (khi nghiên cứu về các thành phố, các tiểu bang, các quốc gia…). Dữ liệu này kết hợp dữ liệu ch o theo không gian (cross – section, tức là giá trị của các biến được thu thập cho một đơn vị mẫu tại cùng một thời điểm) và dữ liệu theo chuỗi thời gian (time series, tức là giá trị của các biến được quan sát theo thời gian). Việc kết hợp hai loại dữ liệu có nhiều thuận lợi trong phân tích các mối quan hệ kinh tế, đặc biệt khi muốn quan sát, phân tích sự biến động của các đối tượng nghiên cứu sau các biến cố hay theo thời gian, cũng như phân tích sự khác biệt giữa các nhóm đối tượng nghiên cứu. Có hai kiểu cấu trúc dữ liệu bảng: bảng cân bằng và bảng không cân bằng, trong đó dữ liệu bảng không cân bằng (thiếu thông tin) sẽ dẫn đến những hạn chế trong ước lượng. Trong các mô hình nghiên cứu của luận án, tác giả sử dụng dữ liệu bảng cân bằng cho các quốc gia theo chuỗi thời gian (năm). Việc nghiên cứu các mô hình với dữ liệu bảng có những ưu điểm:
- Nhờ kết hợp dữ liệu chuỗi thời gian của các quốc gia khác nhau, dữ liệu bảng sẽ chứa nhiều thông tin hữu ích hơn, tính biến thiên nhiều hơn, giảm hiện tượng đa cộng tuyến giữa các biến, tăng số quan sát - từ đó tăng số bậc tự do, và có thể đem lại ước lượng vững, hiệu quả và không chệch;
- Dữ liệu bảng có liên quan đến nhiều quốc gia theo thời gian, mỗi quốc gia lại có những đặc trưng riêng. Tuy nhiên, các kỹ thuật ước lượng dựa trên dữ liệu bảng có thể tính đến sự không đồng nhất này;
- Khi nghiên cứu các quan sát lặp đi lặp lại ở nhiều quốc gia, dữ liệu bảng phù hợp cho việc nghiên cứu những mô hình chính sách thay đổi theo thời gian ở các quốc gia
này, cũng như quy luật tác động của những mô hình đó (vốn khó có thể quan sát trong dữ liệu chuỗi thời gian hay dữ liệu ch o thuần túy).
Như vậy, nhờ những lợi thế trên, việc sử dụng dữ liệu bảng trong các mô hình nghiên cứu của luận án được kỳ vọng có thể đem lại hiệu quả cao hơn so với phân tích dữ liệu ch o hay dữ liệu chuỗi thời gian.
Giả sử mẫu quan sát bao gồm N quốc gia, trong T năm, như vậy dữ liệu bảng sẽ bao gồm NxT quan sát. Phương trình hồi quy tổng quát có dạng:
Yit = Xitβ + Ziα + it Trong đó:
: vector tập hợp các biến phụ thuộc X: vector tập hợp các biến độc lập
Z: vector gồm các biến không thay đổi theo thời gian, đại diện cho những đặc điểm riêng của từng quốc gia
i: chỉ số thể hiện quốc gia thứ i (i = ) t: chỉ số thể hiện năm quan sát (t = )
it: sai số
Những phương pháp ước lượng cơ bản khi hồi quy với dữ liệu bảng bao gồm: Pooled regression model, Fixed effect model (FEM), và Random effect model (REM).
Pool regression model thực chất là ước lượng bình phương b nhất (OLS), khi chúng ta sử dụng dữ liệu bảng như một tập hợp các quan sát bình thường, không phân biệt theo năm hay theo quốc gia. Theo mô hình này, Ziα chỉ là một hằng số, nghĩa là các quốc gia không có đặc điểm riêng khác nhau, nên phương trình tổng quát trở thành:
Yit = Xitβ + α + it
Tuy nhiên, các giả định mạnh của OLS thường khó thỏa mãn trong thực tế.
Fixed effect model Mô hình FEM xem x t ảnh hưởng của các nhân tố cố định. Việc sử dụng các nhân tố cố định để phân tích ảnh hưởng đến mô hình có thể được xem giống như
một mô hình OLS sử dụng biến giả, các biến giả đóng vai trò là các nhân tố cố định. Có thể xét mô hình ảnh hưởng cố định theo quốc gia, hoặc theo thời gian, hoặc cố định cả hai nhân tố. Nhược điểm của FEM là làm giảm bậc tự do của mô hình, đặc biệt khi số biến giả lớn.
Dạng phương trình của mô hình này như sau:
Yit = Xitβ + αi + it
Trong đó, αi thể hiện sự khác nhau về tung độ gốc của mô hình hồi quy đối với mỗi năm hoặc mỗi quốc gia.
Random effect model Mô hình REM được sử dụng khi chúng ta quan tâm đến sự khác biệt của mỗi quốc gia ảnh hưởng đến mô hình chung. Sự khác biệt về điều kiện đặc thù của các quốc gia này được chứa đựng trong phần sai số ngẫu nhiên. Do đó mô hình trở thành:
Yit = Xitβ + α + ui + it
Trong đó, ui là chênh lệch tung độ gốc, ui và it đều là các đại lượng ngẫu nhiên.
i m định lựa chọn mô h nh phù hợp
Việc lựa chọn mô hình nào trong ba mô hình trên phụ thuộc vào sự khác nhau về tung độ gốc của mô hình hồi quy đối với mỗi quốc gia, và sự khác biệt này có tương quan với biến độc lập trong mô hình hay không.
Pooled regression model: Yit = Xitβ + α + it Fixed effect model: Yit = Xitβ + αi + it Random effect model: Yit = Xitβ + α + ui + it
- Để so sánh giữa Pooled regression model và FEM: sau khi ước lượng với FEM, sử dụng kiểm định F để kiểm định giả thuyết H0 : α1= α2 = …= αN = α
Nếu kết quả bác bỏ H0, nên chọn FEM.
- Để so sánh giữa FEM và REM: sau khi ước lượng với FEM và REM, sử dụng kiểm định Hausman (Hausman, 1978)dưới giả thuyết H0 : Cov(Xit, ui) = 0
Nếu kết quả không bác bỏ H0 nghĩa là ước lượng REM và FEM đều vững, nhưng chỉ có REM là hiệu quả.
- Để so sánh giữa Pooled regression model và REM: sau khi ước lượng với REM, kiểm
định giả thuyết H0 : = 0
Nếu kết quả bác bỏ H0, ước lượng REM sẽ hiệu quả hơn.
Sau khi lựa chọn mô hình phù hợp nhất trong ba mô hình trên, luận án tiếp tục kiểm định các giả thiết về hiện tượng tự tương quan và phương sai thay đổi.
i m định tự tương quan và phương sai thay đổi
Mặc dù có những lợi điểm quan trọng, nhưng dữ liệu bảng cũng đặt ra nhiều vấn đề trong quá trình ước lượng. Đó là vì dữ liệu gồm các quan sát ở nhiều quốc gia khác nhau nên có thể dẫn đến hiện tượng phương sai thay đổi. Đồng thời, dữ liệu bao gồm các chuỗi thời gian nên có thể gặp phải vấn đề tự tương quan.
Để phát hiện những vấn đề này, luận án dùng các kiểm định thích hợp cho panel data trên phần mềm Stata với các giả thuyết: Không có phương sai thay đổi; và Không có tự tương quan bậc nhất17. Nếu các giả thuyết này bị bác bỏ, nghĩa là có hiện tượng phương sai thay đổi và tự tương quan trong mô hình. Khi đó, luận án sẽ sử dụng hồi quy FGLS trên panel data để khắc phục đồng thời hai hiện tượng trên. Cách làm này cũng tương tự phương pháp của Ai enman, Chinn và Ito (2010).