Thu th ậ p s ố li ệ u
Phương pháp thu thập số liệu:
Dữ liệu tham khảo cho bộ số liệu gốc liên quan đến chỉ số sản xuất công nghiệp than cứng của Việt Nam được thu thập từ tháng 1 năm 2013 đến tháng 8 năm 2021.
- Từ thực nghiệm đối với các chuỗi biến đổi của bộ số liệu gốc, chuỗi sai phân, log Nguồn số liệu:
Bài viết sử dụng bộ số liệu về chỉ số sản xuất công nghiệp than cứng, được tổng hợp từ các báo cáo của Tổng cục Thống kê trên trang web www.gso.gov.vn Chỉ số này được tính toán so với tháng bình quân của năm gốc 2010, với đơn vị tính là % Thời gian khảo sát kéo dài từ tháng 1 năm 2013 đến hết tháng 8 năm 2021, tương ứng với 104 quan sát.
Kh ả o sát s ố li ệ u
Trước tiên, ta có thể nhận định rằng, dữ liệu có tính hữu ích cho việc dự báo Bởi vì:
- Dữ liệu thu thập từ nguồn của Tổng cục Thống kê, đáng tin cậy và chính xác
- Dữ liệu là chỉ số sản xuất công nghiệp than cứng, phù hợp với nội dung dự báo.
- Dữ liệu là nhất quán khi cùng một nguồn thu thập và cùng một hạng mục
- Dữ liệu đúng lúc, kịp thời khi đã cập nhật những kỳ gần hiện tại nhất
Chuỗi số liệu này đại diện cho dữ liệu chuỗi thời gian với 104 kỳ, mỗi kỳ tương ứng với một tháng Thời gian bắt đầu từ tháng 1 năm 2013 và kết thúc vào tháng 8 năm 2021.
Ta tiến hành vẽ đồ thị mô tả dữ liệu
Hình 1 Mô tả dữ liệu
Dựa vào đồ thị chỉ số sản xuất than cứng, chúng ta có thể xác định mô hình là cộng tính hay nhân tính Quan sát đồ thị cho thấy biên độ giao động của chỉ số này không có sự thay đổi rõ ràng trong giai đoạn 2013 đến 2021 Do đó, để tiến hành ước lượng, việc sử dụng mô hình cộng tính là cần thiết.
Để xác định tính xu thế và tính mùa vụ của mô hình, nếu có yếu tố xu thế, cần tạo thêm biến xu thế và đưa vào mô hình ước lượng Ngược lại, nếu có yếu tố mùa vụ, cần tách yếu tố này ra trước khi thực hiện các ước lượng và dự báo Trong một số trường hợp, chuỗi dữ liệu có thể không có tính xu thế nhưng vẫn có yếu tố mùa vụ, do đó cần thực hiện các kiểm định để đảm bảo tính chính xác.
Hình 2 Mô tả tính mùa vụ của dữ liệu
Khoảng cách biên độ giữa các khoảng thời gian lớn cho thấy chuỗi số liệu này có tính mùa vụ Để dự báo chính xác, cần loại bỏ yếu tố mùa vụ trước khi áp dụng mô hình dự báo cho chuỗi số liệu.
Trong trường hợp này, để kiểm định tính dừng ta sử dụng kiểm định nghiệm đơn vị “Unit Roots Test”
Null Hypothesis: PROD has a unit root Augmented Dickey-Fuller test statistic t-Statistic Prob.* -0.230851
Bảng 1 Kiểm định nghiệm đơn vị
Giả thuyết Ho trong trường hợp này là “prod” có nghiệm đơn vị Có nghĩa là “prod” là chuỗi không dừng
Giá trị p-value của kiểm định này là 0,9296 là giá trị tương đối lớn và gần 1 t-test lớn hơn các giá trị tham chiếu
Qua đó có thể nhận định rằng: Không bác bỏ giả thuyết Ho Có nghĩa là “prod” là chuỗi không dừng
Null Hypothesis: DPROD has a unit root Augmented Dickey-Fuller test statistic t-Statistic Prob.* -9.406648
Bảng 2 Kiểm định nghiệm đơn vị với sai phân bậc 1 của chuỗi
Giả thuyết Ho trong trường hợp này là “D(prod)” có nghiệm đơn vị Có nghĩa là
“D(prod)” là chuỗi không dừng
Giá trị p-value của kiểm định này là 0 t-test nhỏ hơn các giá trị tham chiếu
Qua đó có thể nhận định rằng: Bác bỏ giả thuyết Ho Có nghĩa là “D(prod)” đã là chuỗi dừng
Như vậy có thể sử dụng sai phân bậc 1 của chuỗi số liệu gốc để thực hiện dự báo vì đó là chuỗi dừng.
Hình 3 Sai phân bậc 1 của chuỗi
Hình 4 Mô tảđồng thời dữ liệu và sai phân bậc 1
Ta có thể nhận định: Chuỗi sai phân bậc 1 này không có tính xu hướng và biên độ giao động trong một khoảng tương đối ổn định
Chuỗi dừng và ổn định sau sai phân bậc 1 (Ta có d = 1)
1.2.3 Giản đồ tựtương quan – Tựtương quan riêng phần
Ta thực hiện lập giản đồ tự tương quan của chuỗi (Phụ lục).
Qua phân tích giản đồ, sự ngẫu nhiên của dữ liệu trong chuỗi không rõ ràng Tại các độ trễ 1, 11 và 12, mức độ tự tương quan và tự tương quan riêng phần có ý nghĩa thống kê đáng kể Điều này cho thấy có sự tương quan và ảnh hưởng giữa chỉ số sản xuất than cứng của kỳ liền trước và kỳ liền sau, cũng như giữa hai tháng cùng kỳ của hai năm kế tiếp Dữ liệu chỉ ra yếu tố mùa vụ nhưng không phản ánh yếu tố xu thế.
Ta tiếp tục thực hiện lập giản đồ tự tương quan của sai phân bậc 1 và giản đồ tự tương quan của sai phân bậc 2 của chuỗi
Qua phân tích giản đồ tự tương quan bậc 1 và bậc 2, có thể nhận thấy rằng sự tự tương quan trong chuỗi không rõ ràng và các hệ số tự tương quan chủ yếu không có ý nghĩa thống kê Tuy nhiên, tự tương quan riêng phần ở các độ trễ nhỏ lại cho thấy sự đáng kể, cho thấy rằng các hệ số tự tương quan riêng phần tại độ trễ nhỏ mang ý nghĩa thống kê.
L ự a ch ọn phương pháp dự báo
Phương pháp dự báo Đặc điểm dữ liệu Số lượng quan sát tối thiểu Độ dài dự báo
Dự báo thô Dừng 1 hoặc 2 Rất ngắn hạn
Trung bình trượt Dừng 4-20 Rất ngắn hạn
San mũ Đơn Dừng 5-10 Ngắn
Holt’s Tính xu thế 10-15 Ngắn đến trung
Winter’s Tính xu thế và thời vụ Ít nhất 4-5 mùa (trong năm, trong tháng)
Phân tích chuỗi thời gian
Tính xu thế, thời vụ, chu kỳ Đủ để nhận biết bụng và đỉnh của chu kì Ngắn, trung và dài hạn
Dự báo bằng mô hình
Dừng và có tính mùa vụ >= 50 qs Trung hạn
Dự báo bằng mô hình
Var Dừng >= 50 qs Trung hạn
Dựa trên đặc điểm của chuỗi số liệu như yếu tố mùa vụ, tính xu thế yếu và dạng mô hình cộng tính, cùng với độ dài dự báo trung hạn, nhóm nghiên cứu đã lựa chọn các phương pháp dự báo phù hợp, bao gồm San mũ kép, San mũ Winter’s cho mô hình cộng và phương pháp phân tích ARIMA.
Quy trình d ự báo
2.2.1 Phương pháp san mũ kép
San mũ kép là lặp lại lần 2 của san mũ đơn
San mũ kép sử dụng công thức sau:
𝑌 𝑡 𝐷𝐸 = (𝑌 𝑆𝐸 ) 𝑡 𝑆𝐸 = 𝑌 𝑡−1 𝑆𝐸 + (1 −)𝑌 𝑡−1 𝐷𝐸 Giống như san mũ đơn, hằng số san của phương pháp san mũ kép được xác định sao cho sai số dự báo (RMSE) là nhỏ nhất
Dự báo bằng san mũ kép cho các giá trị tiếp theo trong tương lai của chuỗi bằng công thức sau:
2.2.2 Phương pháp san mũ Winter
San mũ Winter là phương pháp mở rộng của san mũ Holt, được sử dụng với các dữ liệu có yếu tố mùa vụ S
- Trong mô hình nhân: yếu tố mùa vụ được lặp lại cao hơn hoặc thấp hơn so với từng mùa của mô hình trước
- Trong mô hình cộng: yếu tố mùa vụ ở các năm khác nhau được lặp đi lặp lại một cách đều đặn
- Mô hình Winters được sử dụng 4 phương trình và 3 hằng số san, đó là:
• Ước lượng giá trị trung bình hiện tại
• Ước lượng giá trị xu thế(độ dốc)
• Ước lượng yếu tố mùa vụ (giá trị chỉ số mùa)
• Dự báo h giai đoạn trong tương lai
Với 𝑆 𝑡 là yếu tố mùa vụ và s là số thời vụ
𝑆 𝑡 được tính qua 𝑆 𝑡−𝑠 là chỉ số thời vụ cùng kì năm trước
𝑆𝑖 là chỉ số thời vụ của mùa vụ cần dự báo
𝛾 là hệ số san mũ thời vụ, 0 < 𝛾 0 tức là giá trị trung bình quan sát được trong tháng ấy lớn hơn giá trị trung bình của năm.
Bước 3: Ước lượng chuỗi prodsa theo hàm xu thế
Kết quả ước lượng chuỗi đã hiệu chỉnh theo biến xu thế t và t^2 như sau:
Tên biến Hệ số hồi quy Sai số tiêu chuẩn P-value
Kết quả ước lượng cho các p- value đều nhỏ hơn 0.05, do đó các hệ số ước lượng đều có ý nghĩa thống kê tại mức ý nghĩa 5%.
Ta viết được mô hình dự báo: log(𝑝𝑟𝑜𝑑𝑠𝑎̂ 𝑡 ) = 4.609462 - 0.003096*t + 0.0000396*t^2 Kiểm định mô hình:
● Kiểm định tự tương quan:
Ta có cặp giả thuyết: 𝐻 0 : 𝑀ô ℎì𝑛ℎ 𝑘ℎô𝑛𝑔 𝑐ó 𝑡ự 𝑡ươ𝑛𝑔 𝑞𝑢𝑎𝑛
Breusch-Godfrey Serial Correlation LM Test:
Obs*R-squared 5.895343 Prob Chi-Square(2) 0.0525
Theo kết quả kiểm định ta thấy: P-value (Prob)= 0.0525 > 𝛼 = 0,05 Vì vậy ta không có cơ sở bác bỏ H0 Vậy nên, mô hình không có tựtương quan tại mức ý nghĩa 𝛼 = 5%
● Kiểm định phân phối chuẩn của nhiễu:
Ta có cặp giả thuyết: 𝐻 0 : 𝑁ℎ𝑖ễ𝑢 𝑝ℎâ𝑛 𝑝ℎố𝑖 𝑐ℎ𝑢ẩ𝑛
Mean -6.48e-16 Median -0.004713 Maximum 0.239779 Minimum -0.222404 Std Dev 0.090141 Skewness 0.064396 Kurtosis 2.916244
Hình 7 Đồ thị histogram kiểm định phân phối chuẩn của nhiễu
Kết quả kiểm định cho thấy P-value (Prob) là 0.950147, lớn hơn mức ý nghĩa 𝛼 = 0,05 Do đó, chúng ta không có cơ sở để bác bỏ giả thuyết H0, điều này cho thấy mô hình có nhiễu phân phối chuẩn tại mức ý nghĩa.
● Kiểm định phương sai sai số thay đổi:
Ta có cặp giả thuyết: 𝐻 0 : 𝑃ℎươ𝑛𝑔 𝑠𝑎𝑖 𝑠𝑎𝑖 𝑠ố 𝑘ℎô𝑛𝑔 đổ𝑖
𝐻1: 𝑃ℎươ𝑛𝑔 𝑠𝑎𝑖 𝑠𝑎𝑖 𝑠ố 𝑡ℎ𝑎𝑦 đổ𝑖 Heteroskedasticity Test: White
Obs*R-squared 0.950549 Prob Chi-Square(4) 0.9172
Scaled explained SS 0.858957 Prob Chi-Square(4) 0.9304
Kết quả kiểm định cho thấy P-value (Prob) là 0.9304, lớn hơn 𝛼 = 0,05, do đó không có cơ sở để bác bỏ giả thuyết H0 Điều này cho thấy mô hình có phương sai sai số không đổi tại mức ý nghĩa 𝛼 = 5%.
Từ kết quả kiểm định trên ta chấp nhận mô hình ước lượng, tiến hành dự báo ngoài mẫu cho chuỗi prod.
Bước 4: Dự báo cho chuỗi đã hiệu chỉnh yếu tố mùa vụ prodsa
Forecast: PRODSAF Actual: PRODSA Forecast sample: 2013M01 2021M12 Included observations: 104
Root Mean Squared Error 8.967992 Mean Absolute Error 7.152924 Mean Abs Percent Error 7.230069 Theil Inequality Coefficient 0.045164 Bias Proportion 0.001992 Variance Proportion 0.378481 Covariance Proportion 0.619528
Kết quả dự báo cho RMSE = 8.967992, MAPE = 7.23%
Bước 5: Kết hợp yếu tố mùa vụ để dự báo cho chuỗi ban đầu prod
Dùng lệnh: Genr prodf = prodsaf+sfa
Tính MAPE của mô hình bằng lệnh genr mape = @mean(@abs(prod-prodf)/prod) cho MAPE=7.3514%
Bước 6:Dùng lệnh line prod prodf để xem xét chuỗi dữ liệu gốc và chuỗi dữ liệu dự báo trên cùng một đồ thị:
Hình 8 Tương quan giữa chuỗi gốc và chuỗi dựbáo phương pháp phân tích
Mô hình ARIMA
3.4.1 Tách yếu tố mùa vụ khỏi chuỗi:
Để phân tích chuỗi quan sát có yếu tố mùa vụ, chúng ta sử dụng phương pháp Trung bình trượt (Moving Average Methods) để tách biệt yếu tố mùa vụ Đồng thời, việc tách theo mô hình cộng tính cũng được thực hiện dựa trên kết quả từ nhận dạng chuỗi số liệu.
Sau khi tách yếu tố mùa vụ, chúng ta thu được chuỗi hiệu chỉnh mùa vụ Prodsa và chỉ số thời vụ chung sfa
Để ước lượng mô hình dự báo, chúng ta cần kiểm định và nghiên cứu chuỗi hiệu chỉnh mùa vụ Prodsa Mô hình ARIMA yêu cầu chuỗi dữ liệu phải là chuỗi dừng, vì vậy bước tiếp theo là kiểm định tính dừng của chuỗi hiệu chỉnh Chúng ta sẽ sử dụng kiểm định Unit Root Test để xác định tính dừng của chuỗi Prodsa.
Từ kết quả của kiểm định Unit Root Test, giá trị p-value = 0.0000 < 0.1, 0.05, 0.01 Điều đó có nghĩa chuỗi Prodsa là chuỗi dừng ở cả 3 mức ý nghĩa 1%, 5%, 10%
3.4.2 Tìm p, q bằng giản đồ ACF và PACF:
Chúng tôi bắt đầu tìm kiếm các giá trị p và q để xây dựng mô hình dự báo ARIMA Để thực hiện điều này, chúng tôi sẽ xây dựng mô hình Correlogram, và kết quả thu được sẽ được trình bày như hình dưới đây.
Hình 9 Kết quả mô hình Correlogram
Dựa theo kết quả biểu đồ tự tương quan riêng PACF, chúng ta sẽ lựa chọn các giá trị p là
Các giá trị q có ý nghĩa thống kê là 1, 2, 6 và 11, vì chúng vượt qua đường biên Kết quả này tương tự như biểu đồ tự tương quan ACF.
Chúng ta sẽ sử dụng giá trị p và q đã chọn để ước lượng mô hình phù hợp Để so sánh các mô hình, chúng ta sẽ áp dụng các chỉ tiêu Akaike, Schwarz và Hannah-Quinn nhằm xác định mô hình tối ưu nhất.
Trong đó các chỉ tiêu cụ thể như sau:
Lựa chọn mô hình có chỉ số Akaike (AIC) càng nhỏ càng tốt
Lựa chọn mô hình có chỉ số Schwaiz (SBC) càng nhỏ càng tốt
Lựa chọn mô hình có chỉ số Hannah-quinn (HQ) càng nhỏ càng tốt
Chúng ta có bảng kết quả ước lượng mô hình như sau:
Mô hình AIC SBC HQC ls prodsa c ar(1) ar(11) ma(1) ma(2) ma(6) ma(11)
7.1882 7.3788 7.2652 ls prodsa c ar(1) ar(11) ma(2) ma(6) ma(11)
Ls prodsa c ar(1) ar(11) ma(6)
Trong quá trình ước lượng mô hình chuỗi prodsa, mô hình ls prodsa c ar(1) ar(11) được chọn vì có chỉ số SBC và HQC nhỏ nhất Điều này cho thấy mô hình ARIMA(1,11) là lựa chọn tối ưu cho bộ số liệu nghiên cứu Bảng dưới đây sẽ trình bày kết quả hồi quy của mô hình đã được lựa chọn.
Tên biến Hệ số Độ lệch chuẩn Kiểm định t p-value
Bảng 7 Kết quả hồi quy mô hình ARIMA(1,11)
Kết quả hồi quy cho thấy tất cả các độ trễ trong mô hình đều có ý nghĩa thống kê Cụ thể, với p = 1, giá trị p-value là 0.0003, và với p = 11, giá trị p-value là 0.0001, cả hai đều nhỏ hơn các mức ý nghĩa 0.1, 0.05 và 0.001 Điều này chứng tỏ rằng độ trễ nghiên cứu có ý nghĩa thống kê ở các mức 1%, 5% và 10%.
3.4.4 Kiểm định nhiễu trắng: Đầu tiên ta kiểm định vấn đề phương sai sai số thay đổi bằng lệnh Heteroskedasticity Tests
Mô hình kiểm định p-value
Dựa trên kết quả, giá trị p-value của mô hình là 0.9174, cao hơn mức ý nghĩa alpha 10%, 5% và 1% Điều này cho thấy mô hình ước lượng không gặp vấn đề về phương sai sai số thay đổi.
Chúng ta tiếp tục kiểm định vấn đề tự tương quan mô hình bằng lệnh Serial Correlation
LM Tests với Lags include = 7
Mô hình kiểm định p-value
Giá trị p-value = 0.7214 lớn hơn các mức ý nghĩa alpha 10%, 5% và 1%, cho thấy mô hình ước lượng không gặp vấn đề tự tương quan ở cả 3 mức ý nghĩa trong 7 độ trễ liên tiếp.
Cuối cùng, chúng ta tiến hành kiểm tra chuỗi phần dư của mô hình Nếu chuỗi phần dư là chuỗi dừng, mô hình sẽ được chấp nhận Từ mô hình ước lượng ARIMA(1,11), chúng ta tạo chuỗi phần dư resid01 và sau đó thực hiện kiểm định tính dừng bằng Unit Root Test.
Từ kết quả trên chúng ta thấy được chuỗi phần dư của mô hình là 1 chuỗi dừng
Sau khi thực hiện 3 kiểm định, mô hình đã xác nhận điều kiện nhiễu trắng, cho phép nó được sử dụng để tiếp tục dự báo chuỗi quan sát một cách hiệu quả.
Kết quả kiểm định cho thấy mô hình ước lượng đã phù hợp để dự báo chuỗi quan sát Chúng ta sẽ thực hiện dự báo ngoài mẫu cho chuỗi Prodsa bằng lệnh Forecast, từ đó thu được chuỗi dự báo Prodsaf với những kết quả cụ thể.
Forecast: PRODSAF Actual: PRODSA Forecast sample: 2013M01 2021M12 Adjusted sample: 2013M12 2021M12 Included observations: 93
Root Mean Squared Error 9.931244Mean Absolute Error 7.889900Mean Abs Percent Error 8.084900Theil Inequality Coefficient 0.049448 Bias Proportion 0.018906 Variance Proportion 0.656390 Covariance Proportion 0.324704
Từ kết quả dự báo trên, chúng ta thấy chỉ số sai số phần trăm trung bình tuyệt đối MAPE
= 8.084% < 10% cho thấy đây là một mô hình dự báo tốt
Dựa trên kết quả dự báo chuỗi hiệu chỉnh mùa vụ Prodsaf, chúng ta kết hợp với chỉ số thời vụ chung sfa để tạo ra chuỗi dự báo Prodff, phục vụ cho nghiên cứu chuỗi Prod ban đầu.
Chúng ta có kết quả dự báo 4 tháng cuối năm 2021 của sản lượng than đá Việt Nam như sau:
Thời gian Giá trị dự báo
Chúng ta sẽ so sánh biểu đồ giá trị thực tế Prod và giá trị dự báo Prodff.
Chúng ta tiến hành kiểm tra sai số giữa 2 chuỗi prod thực tế và chuỗi Prodff dự báo, thu được kết quả như sau:
Hình 10 Tương quan giữa chuỗi gốc và chuỗi dự báo ARIMA
Kết quả dự báo từ mô hình ARIMA(1,11) cho thấy xu hướng vận động tương đồng với chuỗi giá trị thực tế Mô hình này đã xác định được các bước ngoặt và thời điểm sản lượng than đá tăng giảm trong dữ liệu nghiên cứu Dự báo cho thấy sản lượng than đá của Việt Nam sẽ tiếp tục giảm mạnh đến tháng 9 năm 2021, sau đó sẽ dần phục hồi và tăng trưởng trong ba tháng cuối năm.
4 Tổng hợp kết quả dự báo
San mũ kép San mũ Winter’s Phân tích chuỗi thời gian ARIMA
Bảng 8 So sánh chỉ số của các mô hình dự báo
Phân tích chuỗi thời gian cho thấy hiệu quả vượt trội so với các phương pháp khác, với RMSE và MAPE đạt mức thấp nhất Do đó, nhóm đã quyết định chọn kết quả dự báo từ phương pháp phân tích chuỗi thời gian làm kết quả cuối cùng cho mô hình.
Dự báo chỉ số sản xuất công nghiệp than cứng có xu hướng tăng khá mạnh trong tương lai từ tháng 8 năm 2021 đén tháng 12 năm 2021, cụ thể như sau:
Bảng 9 Kết quả dự báo