1. Trang chủ
  2. » Luận Văn - Báo Cáo

XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020

76 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Ứng Dụng Dự Báo Chỉ Số CPI Và Tình Hình Lạm Phát Kinh Tế Việt Nam Đến Năm 2020
Tác giả Nguyễn T
Người hướng dẫn PGS.TS Nguyễn Thanh Bình
Trường học Đại học Đà Nẵng
Chuyên ngành Hệ thống thông tin
Thể loại luận văn
Năm xuất bản 2019
Thành phố Đà Nẵng
Định dạng
Số trang 76
Dung lượng 1,7 MB

Cấu trúc

  • 1. Lý do ch n tài (13)
  • 2. M c tiêu nghiên c u (16)
  • 3. i t ng và ph m vi nghiên c u (16)
  • 4. Ph ng pháp nghiên c u (17)
  • 5. B c c c a Lu n v n (17)
    • 1.1. CÁC KHÁI NI M C B N (19)
      • 1.1.1. Khái ni m v d báo[2] (19)
      • 1.1.2. Khái ni m v Ch s giá tiêu dùng(CPI) [8] (19)
      • 1.1.3. Vai trò c a ch s CPI [8] (19)
      • 1.1.4. M c ích c a ch s CPI [8] (20)
      • 1.1.5. Khái ni m v l m phát [8] (20)
      • 1.1.6. S khác nhau gi a CPI và l m phát (20)
      • 1.1.7. Công th c tính ch s CPI và L m phát [8] (21)
    • 1.2. Ý NGH A, VAI TRÒ C A PHÂN TÍCH VÀ D BÁO TRONG QUÁ TRÌNH (22)
      • 1.2.1. Ý ngh a (22)
      • 1.2.2. Vai trò (23)
    • 1.3. CÁC NHÂN T CHÍNH TÁC NG N CH S CPI VÀ TÌNH HÌNH (23)
    • 2.1. KHAI PHÁ D LI U (26)
      • 2.1.1. Khái ni m KPDL (26)
      • 2.1.2. Các b c xây d ng m t gi i pháp v KPDL (27)
    • 2.2. M T S BÀI TOÁN C A KPDL (28)
      • 2.2.1. Bài toán phân lo i (28)
      • 2.2.2. Bài toán phân c m (28)
      • 2.2.3. Bài toán phân tích lu t k t h p (28)
      • 2.2.4. Bài toán h i quy (29)
      • 2.2.5. Bài toán d oán (29)
      • 2.2.6. Bài toán phân tích chu i (29)
      • 2.2.7. Bài toán phân tích l ch (29)
    • 2.3. NG D NG KPDL TRONG D BÁO (30)
      • 2.3.1. Cây quy t nh (30)
      • 2.3.2. Phân l p Nạve Bayes (35)
      • 2.3.3. M ng n ron nhân t o (36)
      • 2.3.4. Lu t k t h p (39)
      • 2.3.5. Gi i thi u v công c weka (41)
    • 3.1. PHÁT BI U BÀI TOÁN (44)
    • 3.2. GI I PHÁP D BÁO CH S GIÁ TIÊU DÙNG (CPI) VÀ TÌNH HÌNH (45)
      • 3.2.1. Ti n x lý d li u (46)
      • 3.2.2. Quan sát t p d li u (46)
      • 3.2.3. Làm s ch d li u (48)
      • 3.2.4. Chu n b phân chia t p d (53)
      • 3.2.5. Xây d ng mô hình (53)
    • 3.3. ÁNH GIÁ, NH N XÉT K T QU MÔ HÌNH (60)
    • 3.4. XÂY D NG NG D NG (63)

Nội dung

Lý do ch n tài

Chỉ số giá tiêu dùng (CPI) là chỉ số kinh tế phản ánh sự biến động của giá tiêu dùng, đóng vai trò quan trọng trong việc đánh giá tình hình lạm phát và phân tích kinh tế CPI thể hiện sự thay đổi giá trung bình của hàng hóa và dịch vụ tiêu dùng, đồng thời là chỉ số quốc tế được sử dụng rộng rãi để tính toán lạm phát hàng năm Tất cả các quốc gia trên thế giới, bao gồm Việt Nam, đều áp dụng chỉ số này để theo dõi biến động giá cả và ảnh hưởng của nó đến thu nhập của người tiêu dùng.

Chỉ số giá tiêu dùng (CPI) là công cụ quan trọng để đánh giá tình hình biến động giá cả hàng hóa trong nền kinh tế, xã hội và mức độ lạm phát Thông qua việc tính toán chỉ số CPI, người ta có thể nhận diện những biến động không bình thường trong phân tích kinh tế Dự báo chỉ số CPI là cần thiết, tuy nhiên, việc thực hiện dự báo này cần phải chính xác và phù hợp với điều kiện thực tế để xác định mức độ lạm phát và phân tích các biến động kinh tế một cách hiệu quả.

T i Vi t Nam trong th i i m hi n t i, di n bi n c a CPI ang là v n c xã h i quan tâm do nhi u tác ng c a các y u t nh : Chính sách,

CPI tiếp tục tăng cao và không có kiểm soát, gây ra tâm lý xã hội không tốt, có thể dẫn đến nguy cơ tiềm tàng cho nền kinh tế Tình hình này ảnh hưởng lớn đến phát triển kinh tế - xã hội, khi mà sự biến động của CPI diễn ra liên tục và nhanh chóng, khiến cho nền kinh tế gặp nhiều khó khăn trong việc điều chỉnh.

Chỉ số giá tiêu dùng (CPI) không chỉ phản ánh tình trạng kinh tế mà còn là công cụ quan trọng cho các nhà đầu tư, thể hiện sức mua của người dân và các hoạt động kinh tế khác Dựa vào CPI, chính phủ có thể xem xét và điều chỉnh mức thu nhập cho người dân, cũng như cấu trúc thu nhập một cách hợp lý, từ đó ảnh hưởng đến sản phẩm quốc dân và các chỉ số kinh tế liên quan đến mô hình phát triển của quốc gia.

Chỉ số CPI (Chỉ số giá tiêu dùng) đóng vai trò quan trọng trong việc phản ánh tình hình lạm phát và sự phát triển kinh tế của quốc gia, ảnh hưởng đến giá trị đồng tiền và thu nhập của hàng triệu hộ gia đình Việc theo dõi và dự báo chỉ số CPI là một trong những mục tiêu quan trọng trong phát triển kinh tế - xã hội, do đó, việc xác định giá cả của các mặt hàng trong giỏ hàng hóa là cần thiết Tuy nhiên, công việc này thường gặp nhiều khó khăn và thách thức.

Chỉ số giá tiêu dùng (CPI) chịu ảnh hưởng từ nhiều yếu tố như tình hình phát triển kinh tế, giá cả thị trường, thu nhập của người dân, cũng như chính sách quản lý và bối cảnh kinh tế toàn cầu.

Chỉ số CPI là một trong những chỉ số quan trọng, ảnh hưởng trực tiếp đến sự phát triển kinh tế của quốc gia Do đó, yêu cầu công việc dự báo phải có độ chính xác cao nhằm giảm thiểu rủi ro trong đầu tư và hỗ trợ chính phủ Chính phủ và các doanh nghiệp gặp phải nhiều khó khăn trong việc đưa ra mức thu nhập của người lao động và điều chỉnh cấu trúc thuế một cách phù hợp, vì hiện tại các phương pháp dự báo chưa đảm bảo hỗ trợ ra quyết định dự báo.

Trong tương lai, có nhiều yếu tố tác động trực tiếp đến giá cả thị trường và nhiều biến động phức tạp xảy ra Vì vậy, việc dự báo chỉ số CPI và tình hình lạm phát là không thể thiếu Trong lĩnh vực kinh tế, dự báo chỉ số CPI đóng vai trò quan trọng trong quá trình ra quyết định liên quan đến các lĩnh vực trong nền kinh tế quốc dân Việc tích hợp các nhân tố ảnh hưởng đến quá trình phát triển kinh tế quốc dân và việc xây dựng các luận chứng chiến lược, quy hoạch và kế hoạch phát triển ngày càng trở nên cần thiết Sử dụng các mô hình dự báo trong hoạt động quản lý không chỉ cung cấp thông tin tương lai mà còn hỗ trợ công tác quản lý Công tác dự báo chỉ số CPI cung cấp thông tin cần thiết nhằm phát hiện và bố trí sử dụng các nguồn lực trong tương lai một cách có hiệu quả Những thông tin mà dự báo kinh tế cung cấp cho phép các nhà hoạch định chính sách đưa ra những quyết định về xuất, tiêu dùng, và các chính sách tài chính, kinh tế vĩ mô Dự báo kinh tế không chỉ tạo cơ sở khoa học cho việc hoạch định chính sách mà còn cho phép xem xét khả năng thực hiện và điều chỉnh chúng Thực tế cho thấy, việc nghiên cứu về dự báo chỉ số CPI hết sức cấp thiết và có ý nghĩa to lớn không chỉ cho các doanh nghiệp mà còn cho cả quốc gia.

Trong quá trình nghiên cứu về chỉ số giá tiêu dùng (CPI) và tình hình lạm phát tại Việt Nam năm 2020, tôi nhận thấy tầm quan trọng của những yếu tố kinh tế quốc gia Do đó, tôi quyết định chọn tài liệu liên quan đến việc xây dựng dự báo chỉ số CPI và tình hình lạm phát trong bối cảnh kinh tế hiện tại.

Trên c s các nghiên c u lu n v n t p trung vào các m c tiêu và các v n c n gi i quy t sau:

M c tiêu nghiên c u

- D li u ch s giá tiêu dùng (CPI) trong nh ng n m 2002-2017

- Quy n danh m c hàng hóa c a T ng c c Th ng kê Vi t Nam.

- Phân tích nh ng y u t liên quan n CPI và tình hình l m phát gây b t n kinh t v mô c a n n kinh t Vi t Nam 2002-2017.

- Các nhân t nh h ng n ch s giá tiêu dùng (CPI)

- D báo m t s ch s giá tiêu dùng (CPI) và tình hình l m phát Vi tNam n n m 2020.

i t ng và ph m vi nghiên c u

- Phân tích các k t qu ch s giá tiêu dùng (CPI) t D li u thu th p c 192 instance trong kho n th i gian 1/2002-12/2017.

- ánh giá tình hình CPI và l m phát t i Vi t Nam d a vào các ch s kinh t GDP, t ng tr ng, l m phát, m t cân i v mô, i s ng, thu nh p, vi c làm

- D báo ch s giá tiêu dùng (CPI) và tình hình l m phát n n m2020.

Ph ng pháp nghiên c u

V ph ng pháp nghiên c u, tôi s d ng hai ph ng pháp chính là nghiên c u lý thuy t và nghiên c u th c nghi m.

Ph ng pháp nghiên c u lý thuy t

- Nghiên c u các tài li u v c s lý thuy t: t ng quan v ch s giá tiêu dùng (CPI) và l m phát kinh t

- Các tài li u v ph ng pháp KPDL d báo.

- Các tài li u liên quan v ch s giá tiêu dùng (CPI) và tình hình l m phát kinh t

- Các s li u v ch s giá tiêu dùng (CPI) và l m phát kinh t c a T ng c c th ng kê qu c gia.

Ph ng pháp nghiên c u th c nghi m

- Nghiên c u các mô hình và ph ng pháp d báo.

- Xây d ng các mô hình d báo

B c c c a Lu n v n

CÁC KHÁI NI M C B N

D báo là quá trình t o ra các nh n nh v các hi n t ng mà thông th ng các u ra c a chúng còn ch a quan sát c.

Dữ liệu báo cáo là một yếu tố quan trọng trong việc ra quyết định quản lý, vì nó ảnh hưởng trực tiếp đến kết quả của các quyết định đó Sự chính xác và độ tin cậy của dữ liệu này là điều không thể thiếu, vì các quyết định thường dựa vào thông tin thu thập được từ các nguồn khác nhau.

Tuy nhiên, d báo không th tránh kh i sai s Trên quan i m th c ti n, c n hi u rõ c u i m và nh c i m c a các ph ng pháp d báo và tính n chúng trong khi s d ng d báo.

1.1.2 Khái ni m v Ch s giá tiêu dùng(CPI) [8]

Giá tiêu dùng là mức giá mà người tiêu dùng phải trả để mua hàng hóa hoặc chi trả cho các dịch vụ thiết yếu trong cuộc sống hàng ngày Nó được thể hiện qua giá bán của hàng hóa trên thị trường và giá dịch vụ phục vụ sinh hoạt, không bao gồm giá tài sản, giá hàng hóa bán cho sản xuất và các công việc có tính chất sản xuất kinh doanh Để xác định giá tiêu dùng, cần thu thập giá cả của các mặt hàng và dịch vụ tiêu dùng phổ biến của dân cư theo một danh mục cụ thể, thường được gọi là "rổ" hàng hóa và dịch vụ.

Ch s giá tiêu dùng (CPI) là m t ch s c b n o l ng giá c hàng hóa d ch v và cho bi t li u n n kinh t có b l m phát ho c gi m phát hay không.

Chỉ số giá cả tiêu dùng (CPI) là một yếu tố quan trọng mà các nhà đầu tư cá nhân cần theo dõi, vì nó ảnh hưởng đến các quyết định tài chính như chính sách lãi suất của các ngân hàng trung ương và chiến lược hedging của các ngân hàng và doanh nghiệp Việc hiểu rõ CPI giúp nhà đầu tư đưa ra các quyết định bảo vệ vốn hiệu quả hơn.

- ánh giá công tác ki m soát l m phát.

Trong công tác điều hành và quản lý, việc nghiên cứu các chính sách tiền lương và lãi suất ngân hàng là rất quan trọng Đồng thời, quản lý tài chính cũng cần được chú trọng để đảm bảo tính toán sức mua và xây dựng kế hoạch phát triển sản xuất kinh doanh hiệu quả.

- Ch s giá tiêu dùng c dùng lo i tr y u t bi n ng (t ng/ gi m) giá tiêu dùng trong vi c tính toán m t s ch tiêu th ng kê t ng h p theo giá so sánh.

Ngoài ra ch s giá tiêu dùng còn áp ng nhu c u nghiên c u phân tích kinh t c a các doanh nghi p, c a ng i dân và các i t ng dùng tin khác.

L m phát là tình tr ng m c giá chung c a n n kinh t t ng lên liên t c trong m t th i gian dài.

1.1.6 S khác nhau gi a CPI và l m phát

Chỉ số giá tiêu dùng (CPI) là thước đo phản ánh giá cả của một giỏ hàng hóa tiêu dùng qua các năm, so với giá của cùng giỏ hàng hóa đó trong một năm gốc Do đó, CPI không hoàn toàn phản ánh chính xác mức lạm phát, vì chỉ số này không chỉ thể hiện sự tăng giá trong giá cả các hàng hóa tiêu dùng mà còn phản ánh sự biến động giá của các hàng hóa mà người tiêu dùng không mua trực tiếp, chẳng hạn như máy móc dùng trong công nghiệp.

1.1.7 Công th c tính ch s CPI và L m phát [8] tính ch s giá tiêu dùng, T ng c c Th ng kê ph i xác nh danh m c các lo i hàng hoá và d ch v ( r hàng hóa) tiêu dùng ph bi n c a ng i dân ( c g i là danh m c hàng hóa và d ch v i di n) và thu th p giá hàng tháng i v i các lo i hàng hóa và d ch v trong danh m c này.

Do m c tiêu dùng m i lo i hàng hoá, d ch v không gi ng nhau Vì v y,

Chỉ số giá tiêu dùng được tính bằng phương pháp bình quân gia quyền giá cả của một nhóm hàng hóa, dịch vụ trong danh mục hàng hóa và dịch vụ tiêu dùng, phản ánh mức tiêu dùng tổng thể của người dân Tình trạng này dựa trên kết quả Khảo sát mức sống gia đình và điều tra quyền số giá tiêu dùng do Tổng cục Thống kê Việt Nam thực hiện.

Nền kinh tế của chúng ta đang trải qua những bước phát triển nhanh chóng, với hàng hóa và dịch vụ ngày càng đa dạng và chất lượng sản phẩm không ngừng được cải thiện Đời sống của người dân ngày càng được nâng cao, dẫn đến sự thay đổi trong chi tiêu tiêu dùng qua các năm Theo thống kê mới nhất, danh mục hàng hóa tiêu dùng đã được cập nhật, và nghiên cứu đã xác định rõ quyền sở hữu chi tiêu cuối cùng của người dân trong giai đoạn 5 năm gần đây.

Ch s giá tiêu dùng c T ng c c Th ng kê tính và công b l n u vào n m 1998 (tr c ó là ch s giá bán l hàng hoá và d ch v ) v i g c so sánh c ch n là n m 1995.

N m 2001, T ng c c Th ng kê c p nh t danh m c m t hàng i di n và quy n s chi tiêu dùng cu i cùng tính Ch s giá tiêu dùng; n m g c so sánh c ch n là n m 2000.

N m 2006, T ng c c Th ng kê c p nh t danh m c m t hàng i di n và quy n s tính Ch s giá tiêu dùng; n m g c so sánh c ch n là n m 2005.

Tháng 10 n m 2009, T ng c c Th ng kê ã ti n hành c p nh t quy n s và danh m c m t hàng i di n, l y n m 2009 làm n m g c so sánh.

D i ây là m t s n i dung ch y u c c p nh t trong ph ng án tính ch s giá tiêu dùng th i k 2009-2014.

Công th c tính ch s tiêu dùng CPI nh sau:[6] Áp d ng công th c Laspeyres t ng quát:

Trong ó: I t 0 Ch s giá k báo cáo t so k g c 2009.

Công th c tính L m phát nh sau:[6]

T l l m phát = [ Ip/Ip-1 1] x 100% (K hi n t i k tr c ó) / k tr c ó.

Chỉ số giá tiêu dùng (CPI) hiện tại được ký hiệu là Ip, trong khi CPI của kỳ trước được ký hiệu là Ip-1 Tỷ lệ lạm phát cho biết mức độ thay đổi của giá cả chung so với kỳ trước, cho thấy giá đang tăng hay giảm, cũng như mức độ tăng giảm cụ thể tính theo phần trăm (%).

Ý NGH A, VAI TRÒ C A PHÂN TÍCH VÀ D BÁO TRONG QUÁ TRÌNH

Dùng dự báo các mục tiêu tương lai của hiện tại giúp các nhà quản trị doanh nghiệp chủ động trong việc ra các kế hoạch và quyết định cần thiết phục vụ cho quá trình sản xuất kinh doanh Điều này bao gồm đầu tư, quảng bá, quy mô sản xuất, kênh phân phối sản phẩm, nguồn cung cấp tài chính và chuẩn bị các điều kiện cơ sở vật chất, kỹ thuật cho sự phát triển trong thời gian tới Kế hoạch cung cấp các yếu tố đầu vào như lao động, nguyên vật liệu, tài liệu lao động cùng các yếu tố đầu ra như sản phẩm vật chất và dịch vụ.

- Trong các doanh nghi p n u công tác d báo c th c hi n m t cách nghiêm túc còn t o i u ki n nâng cao kh n ng c nh tranh trên th tr ng.

- D báo chính xác s gi m b t m c r i ro cho doanh nghi p nói riêng và toàn b n n kinh t nói chung.

- D báo chính xác là c n c các nhà ho ch nh các chính sách phát tri n kinh t v n hoá xã h i trong toàn b n n kinh t qu c dân.

- Nh có d báo các chính sách kinh t , các k ho ch và ch ng trình phát tri n kinh t c xây d ng có c s khoa h c và mang l i hi u qu kinh t cao.

Nhà quản trị doanh nghiệp cần có khả năng thích ứng linh hoạt với những biến động của thị trường để điều chỉnh các hoạt động kinh tế của mình, nhằm đạt được hiệu quả sản xuất kinh doanh cao nhất.

- D báo t o ra l i th c nh tranh.

- Công tác d báo là m t b ph n không th thi u trong ho t ng kinh t xã h i, các doanh nghi p và các phòng ban

CÁC NHÂN T CHÍNH TÁC NG N CH S CPI VÀ TÌNH HÌNH

Chỉ số giá tiêu dùng (CPI) được xác định thông qua việc lập danh mục các loại hàng hóa và dịch vụ tiêu dùng phổ biến của người dân, từ đó thu thập giá hàng tháng cho từng loại Do tính chất đa dạng của hàng hóa và dịch vụ, CPI được tính bằng phương pháp bình quân gia quyền giữa biến động giá của từng nhóm hàng hóa, dịch vụ trong danh mục, với trọng số tương ứng là mức tiêu dùng của chúng trong tổng chi tiêu hàng ngày của người dân.

Theo khảo sát của Tổng cục Thống kê Việt Nam, chỉ số giá tiêu dùng (CPI) bị ảnh hưởng bởi nhiều yếu tố khác nhau Các yếu tố này có thể bao gồm biến động giá cả hàng hóa, chính sách tài chính, và nhu cầu tiêu dùng trong xã hội Việc nắm bắt và phân tích những nhân tố này là cần thiết để hiểu rõ hơn về sự biến động của CPI.

Mã Các nhóm hàng và d ch v Quy n s (%)

C T ng chi cho tiêu dùng cu i cùng 100,00

02 II u ng và thu c lá 4,03

03 III- May m c, m nón, gi y dép 7,28

04 IV- Nhà , i n, n c, ch t t và VLXD 10,01

05 V- Thi t b và dùng gia ình 8,65

10 X- V n hoá, gi i trí và du l ch 3,83

11 XI- Hàng hoá và d ch v khác 3,34

Quy n s dùng tính ch s giá tiêu dùng th i k 2009-2014 c a toàn qu c

Chương 1 trình bày khái niệm, ý nghĩa và vai trò của chỉ số giá tiêu dùng (CPI) trong nền kinh tế, đồng thời nêu rõ các khái niệm liên quan đến lạm phát Chương này cũng đánh giá nguyên nhân và các nhân tố tác động đến chỉ số giá tiêu dùng, cũng như tình hình lạm phát kinh tế tại Việt Nam.

CH NG 2 KHAI PHÁ D LI U VÀ CÁC K THU T PHÂN TÍCH

KHAI PHÁ D LI U

KPDL là quá trình khảo sát và phân tích dữ liệu lớn từ các cơ sở dữ liệu, kho dữ liệu để trích xuất thông tin quan trọng và có giá trị tiềm ẩn Do nhu cầu nghiệp vụ, cần có cái nhìn thông tin trên quy mô toàn diện.

Các dữ liệu này được thu thập từ nhiều nguồn, bao gồm các phần mềm nghiệp vụ như phần mềm tài chính, kế toán, hệ thống quản lý tài nguyên doanh nghiệp và hệ thống quản lý khách hàng Những thông tin này không chỉ đơn thuần là dữ liệu mà còn có giá trị lớn đối với người dùng Kích thước của khối dữ liệu này thường rất lớn và tăng trưởng nhanh chóng, chứa nhiều thông tin phong phú KPDL sẽ giúp trích xuất các mẫu hình có giá trị và biến chúng thành những tri thức hữu ích Quá trình này bao gồm nhiều bước thực hiện khác nhau.

Hình 2.1 Các b c xây d ng m t h th ng KPDL [1] Ý ngh a c th c a các b c nh sau:

L a ch n d li u liên quan n bài toán quan tâm.

Ti n x lý d li u, làm s ch d li u.

Chuy n i d li u v d ng phù h p thu n l i cho vi c khai phá. KPDL, trích xu t ra các m u d li u (mô hình). ánh giá m u.

S d ng tri th c khai phá c.

2.1.2.Các b c xây d ng m t gi i pháp v KPDL

Có r t nhi u tác gi a ra các b c c a m t h th ng KPDL, m i s phân chia ch mang tính ch t t ng i và t t ng ch o c a nó là nh sau:

B c 1: Xác nh m c tiêu bài toán.

B c 3: Làm s ch d li u và chuy n i d li u.

B c 5: ánh giá mô hình hay ánh giá m u.

M T S BÀI TOÁN C A KPDL

KPDL có thể được áp dụng để giải quyết nhiều loại bài toán khác nhau, từ những mục tiêu đơn giản đến phức tạp Dựa trên bản chất tự nhiên của các bài toán này, chúng ta có thể phân loại chúng thành những nhóm cụ thể.

Bài toán phân loại là một trong những bài toán phổ biến nhất của KPDL, chẳng hạn như phân tích loại khách hàng có khả năng cao nhất sẽ chuyển sang sử dụng sản phẩm dịch vụ của đối thủ cạnh tranh (phân tích churn), quản lý rủi ro, hoặc xác định loại quảng cáo nào sẽ xuất hiện với mỗi loại khách hàng.

Phân loại là quá trình tổ chức dữ liệu trong các lớp cho trực giác, trong khi gán nhãn là hành động có quan sát Phân loại sử dụng các nhãn lớp để sắp xếp các đối tượng, trong đó có một tập huấn luyện mà các đối tượng đã được gán nhãn Những thuật toán học có giám sát sẽ được áp dụng cho tập các đối tượng cần phân loại để mô hình hóa phân loại chúng.

M t s thu t toán dùng trong bài toán phân lo i nh : cây quy t nh, m ng n ron, m ng Nạve Bayes.

Bài toán phân cụm, hay còn gọi là phân nhóm, khác với bài toán phân loại ở chỗ không có nhãn lớp được biết trước và không có huấn luyện Các điểm dữ liệu được phân loại dựa trên các thuộc tính tương đồng giữa chúng Bài toán phân loại còn được gọi là học không có giám sát.

2.2.3 Bài toán phân tích lu t k t h p

Bài toán phân tích gi hàng b i là một công cụ quan trọng trong việc phân tích các giao dịch dữ liệu và các bài toán lựa chọn hàng hóa Nó được áp dụng rộng rãi để hiểu rõ hơn về xu hướng và hành vi của thị trường.

Phân tích lu t k t h p khám phá ra các lu t k t h p th hi n m i liên h gi a các thu c tính d li u th ng xu t hi n cùng nhau trong các t p d li u.

Bài toán h i quy c ng t ng t nh bài toán phân lo i i m khác bi t là h i quy d oán cho các d li u liên t c.

Dự đoán là một mảng quan trọng của KPDL, bao gồm hai loại chính Loại đầu tiên là dự đoán về một số giá trị dữ liệu có thể xảy ra hoặc có xu hướng xảy ra, trong khi loại thứ hai là dự đoán phân lớp dựa trên một tập huấn luyện và giá trị thuộc tính của dữ liệu.

2.2.6 Bài toán phân tích chu i

Phân tích chuỗi cơ sở dữ liệu giúp phát hiện các mẫu trong một loạt các giá trị hay trạng thái rời rạc Ví dụ, hành động chọn mua hàng của khách hàng có thể được mô hình hóa như một chuỗi dữ liệu, trong đó việc chọn mặt hàng A, sau đó là B, C tạo thành một chuỗi các trạng thái rời rạc Đồng thời, thời gian là chuỗi liên tục, cho phép theo dõi và phân tích hành vi mua sắm của khách hàng một cách hiệu quả.

Phân tích chuỗi và phân tích luồng kết hợp là hai phương pháp khác nhau trong việc phân tích tập hợp các đối tượng hay trạng thái Điểm khác biệt chính là mô hình chuỗi phân tích sự chuyển động của các trạng thái, trong khi mô hình luồng kết hợp coi mỗi mặt hàng trong giỏ hàng là giống nhau và có thể hoán đổi Với mô hình chuỗi, việc chọn mặt hàng A trước mặt hàng B hoặc chọn mặt hàng B trước A sẽ tạo ra sự khác biệt, trong khi trong mô hình kết hợp, hai trạng thái hợp lại là giống nhau.

2.2.7 Bài toán phân tích l ch

Bài toán phát hiện bất thường là việc tìm ra những dữ liệu không tuân theo các quy tắc và hành vi chung Phát hiện bất thường thường xuất hiện trong nhiều lĩnh vực khác nhau Một trong những ứng dụng quan trọng nhất của bài toán này là trong việc kiểm tra xác nhận tính đúng đắn của dữ liệu.

NG D NG KPDL TRONG D BÁO

2.3.1 Cây quy t nh a.Khái ni m cây quy t nh

Cây quy t nh là một cấu trúc biểu diễn động cây, trong đó mỗi nút đại diện cho một thuộc tính Mỗi nhánh thể hiện giá trị có thể có của thuộc tính, trong khi mỗi lá biểu diễn các lớp quy t nh và nhánh trên cùng của cây gọi là gốc.

Hình 2.2 Bi u di n cây quy t nh c b n

Trong lĩnh vực học máy, cây quyết định là một mô hình dự báo quan trọng, giúp ánh xạ các quan sát với một số biến mục tiêu của sự vật/hình ảnh Mỗi nút trong cây tương ứng với một biến, và nhánh giữa nó với các nút con thể hiện giá trị cụ thể cho biến đó.

Mô hình lái điển hình cho giá trị dự đoán của biến mục tiêu, thông qua các giá trị dự đoán của các biến biểu diễn bởi nút gốc tại nút lá Kỹ thuật học máy sử dụng trong cây quyết định gọi là học bằng cây quyết định, hay còn được biết đến với cái tên ngắn gọn là cây quyết định.

Ví d 2.1: M t ng i có ch i tennis hay không?

Hình 2.3 Cây quy t nh cho vi c ch i Tennis

Cây quyết định là một mô hình phân cấp có cấu trúc dùng để phân loại các đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng (ngoài thuộc tính phân loại) có thể thuộc các kiểu dữ liệu khác nhau như nhị phân, danh nghĩa, thứ tự và giá trị định lượng, trong khi thuộc tính phân loại phải có kiểu dữ liệu là nhị phân hoặc thứ tự.

Tóm l i, cho d li u v các i t ng g m các thu c tính cùng v i l p c a nó, cây quy t nh s sinh ra các lu t d oán l p c a các i t ng ch a bi t.

Cây quyết định là một trong những hình thức mô tả dữ liệu trực quan và dễ hiểu, mang lại hiệu quả cao cho người dùng Trong những năm qua, nhiều mô hình phân lớp dữ liệu đã được nghiên cứu trong các lĩnh vực khác nhau, bao gồm mạng nơ-ron, mô hình thống kê tuyến tính/bậc 2, cây quyết định và mô hình di truyền Trong số các mô hình này, cây quyết định được đánh giá là một công cụ mạnh mẽ, phổ biến và tự động thích hợp cho nhiều ứng dụng khác nhau.

DM nói chung và cho phân l p d li u nói riêng.

Có r t nhi u gi i thu t ã c cài t s n nh : CART (Breiman), C4.5 (Quinlan) b Thu t toán ID3

Thuật toán ID3 (Interactive Dichotomizer 3) được phát triển bởi Quinlan và được sử dụng rộng rãi trong thuật toán cây quyết định Đây là một thuật toán tham lam (greedy algorithm) vì nó tìm kiếm các mô hình "tham lam", trong đó các thuộc tính được chọn dựa trên độ thông tin để xác định nhãn lớp cho các mẫu trong tập huấn luyện Kết quả cuối cùng là một cây quyết định gán nhãn đúng cho mỗi mẫu trong tập huấn luyện.

Thuật toán xây dựng cây ID3 sử dụng Entropy làm cơ sở để phân tích dữ liệu Dựa trên Entropy, thuật toán tính toán thông tin nhằm tìm ra sự đồng nhất, từ đó xác định thuộc tính tốt nhất để chia tách nút Đầu vào của thuật toán là một tập hợp các mẫu, trong đó mỗi mẫu bao gồm các thuộc tính riêng biệt, mô tả một tình huống cụ thể, hoặc một đối tượng nào đó, và một giá trị phân loại tương ứng.

S là t p hu n luy n c1, c2, , cm là các nhãn l p phân lo i

S1, S2, , Sm là t p con c a S thu c các l p c1, , cm t ng ng

Các o: pi:xác su t m t ph n t b t k trong S thu c v l p ci pi =

H(S) t giá trị của entropy là log2(m) khi các nhãn c1, c2, , cm có xác suất nh nhau, và giá trị entropy H(S) sẽ bằng 0 khi tất cả các phần tử có chung một nhãn Thông tin thu được từ việc phân chia tập dữ liệu thành các tập con đồng nhất được gọi là thông tin thu được (Information Gain, ký hiệu IG) IG được tính dựa trên tổng thông tin theo công thức cụ thể.

-A là thu c tính c s d ng ánh giá t t phân chia.

-Values(A) là t p các giá tr c a A.

-Sv là t p m u con c a S có các giá tr thu c tính A b ng v.

-|S| và |Sv| là s ph n t c a các t p |S|, |Sv| t ng ng.

Thu t toán ID3 s d ng t ng thông tin l a ch n thu c tính t t nh t t i m i nút, thu c tính c l a ch n là thu c tính mang l i t ng thông tin l n nh t. c Thu t toán C4.5

C4.5 là thu t toán dùng xây d ng cây quy t nh c xu t b i Quinlan n m 1993, là m r ng c a ID3 c i m c a C4.5:

-Cho phép d li u u vào các thu c tính là liên t c.

-Cho phép thao tác v i các thu c tính có d li u không xác nh (do b m t mát d li u).

- a ra ph ng pháp c t t a cây và gi n l c các lu t phù h p v i nh ng b d li u l n.

-C4.5 s d ng c ch l u tr d li u th ng trú trong b nh , chính c i m này làm C4.5 thích h p v i nh ng c s d li u nh , và c ch s p x p l i d li u t i m i nút trong quá trình phát tri n cây quy t nh.

-C4.5 còn ch a k thu t cho phép bi u di n l i cây quy t nh d i d ng m t danh sách s p th t các lu t if-then (m t d ng quy t c phân l p d hi u).

K thu t này cho phép làm gi m b t kích th c t p lu t và n gi n hóa các lu t mà chính xác so v i nhanh t ng ng cây quy t nh là t ng ng.

C4.5 là một thuật toán xây dựng cây quyết định hiệu quả, sử dụng tiêu chí Information Gain để lựa chọn thuộc tính Thuật toán này xử lý các giá trị thiếu và tránh tình trạng quá phù hợp với dữ liệu Mô hình phân loại C4.5 còn chuyển đổi cây quyết định thành luật dạng if-then, nâng cao độ chính xác và tính khả thi của kết quả phân loại Gain Ratio, được áp dụng trong C4.5, là cải tiến của thuật toán ID3 do Quinlan phát triển, nhằm tối ưu hóa việc tính toán Information Gain Trong bài toán phân loại, nếu sử dụng thuộc tính có nhiều giá trị như "Ngày", thuộc tính này có thể tạo ra 14 nhánh khác nhau, dẫn đến việc không phân loại được các ngày tiếp theo Do đó, cần tránh sử dụng thuộc tính có quá nhiều giá trị, và thành phần Split Information (SI) được bổ sung để xử lý các thuộc tính này.

Tiêu chu n ánh giá thu c tính GainRatio c xác nh b ng công th c:

G(S,A) V i thông tin ti m n ng (Potential information):

2.3.2 Phân l p Nạve Bayes nh lý Bayes cho phép tính xác su t x y ra c a m t s ki n ng u nhiên

Xác suất xảy ra của sự kiện A khi biết sự kiện B được ký hiệu là P(A|B), thể hiện xác suất của A dưới điều kiện B Khái niệm này được gọi là xác suất có điều kiện, vì nó phụ thuộc vào giá trị của B hoặc được rút ra từ giá trị đó Theo lý thuyết Bayes, xác suất xảy ra của A khi biết B phụ thuộc vào ba yếu tố chính.

Xác suất xảy ra của biến A được ký hiệu là P(A) và c là xác suất của A Đây được gọi là xác suất biên duyên hay xác suất tiên nghi m (prior), thể hiện sự "tiên nghi m" mà không phụ thuộc vào bất kỳ thông tin nào liên quan đến biến B.

Xác suất xảy ra của biến cố B, ký hiệu là P(B), là xác suất của B mà không phụ thuộc vào biến cố A Giá trị này được gọi là hàm số chuẩn hóa, vì nó luôn giữ nguyên và không thay đổi theo sự kiện A mà chúng ta đang quan tâm.

Xác suất xảy ra B khi đã biết A xảy ra được ký hiệu là P(B|A), trong đó c là xác suất xảy ra của B mà không có A Khả năng này được gọi là kh likelihood xảy ra B khi đã biết A đã xảy ra Cần lưu ý rằng không nên nhầm lẫn giữa kh likelihood xảy ra A khi đã biết B và xác suất xảy ra A khi đã biết B.

Khi bi t ba i l ng trên, xác su t c a A khi bi t B cho b i công th c:

Ph ng pháp Nạve Bayes phù h p các bài tốn cĩ yêu c u v chi phí xu t hi n c a các giá tr thu c tính.

-Thi t k h th ng phân l p th ng d dàng h n so v i các ph ng pháp khác.

-Các thu c tính trong t p m u h c ph i c l p v i i u ki n.

- chính xác thu t toán phân l p ph thu c nhi u vào t p d li u h c ban u.

N ron nhân t o là mô hình phức tạp của n ron sinh học, bao gồm hai chức năng chính: chức năng tổng hợp đầu vào và chức năng tạo ra đầu ra Mỗi n ron có một giá trị ngẫu nhiên, trong đó đầu vào là tổng trọng số của các tín hiệu đầu vào kết hợp với ngưỡng tạo ra tín hiệu đầu ra Chức năng tạo ra đầu ra có thể thực hiện bằng hàm truyền thống, hàm này nhận tín hiệu đầu vào và tạo ra tín hiệu đầu ra của n ron.

M ng n ron là m t h th ng g m nhi u ph n t x lý ho t ng song song Ch c n ng c a nó c xác nh b i c u trúc m ng, l n c a các liên k t và quá trình x lý t i m i nút ho c n v tính toán.

Mạng nơ-ron sâu bao gồm ba lớp chính: lớp đầu vào, lớp ẩn và lớp đầu ra Trong một mạng nơ-ron, mỗi nơ-ron nhận các đầu vào và sản xuất một đầu ra Mô hình này là một hàm phi tuyến tính của tất cả các đầu vào cho các nơ-ron.

Hình 2.4 Mô hình m ng n ron nhi u l p

Có ba lo i n ron trong m t m ng n ron c t o ra v i thu t toán m ng n ron:

PHÁT BI U BÀI TOÁN

Trong những năm gần đây, các nghiên cứu dự báo trong lĩnh vực kinh tế tài chính đã chuyển mình mạnh mẽ, với việc phân loại và dự báo theo chuỗi thời gian ngày càng gia tăng Các tổ chức cung cấp dịch vụ kinh tế tài chính đang trở thành nhà tài trợ chính cho nghiên cứu và xây dựng các mô hình dự báo Điều này dẫn đến sự phát triển của những xu hướng mới trong công tác dự báo, đặc biệt trong bối cảnh công nghệ thông tin ngày càng tiến bộ với nhiều phương pháp phân tích dữ liệu Tuy nhiên, thực tế cho thấy có quá nhiều thông số cần xử lý Nghiên cứu này nhằm phát triển một mô hình dự báo hiệu quả, lựa chọn các thông số phù hợp trong quá trình thiết kế và xây dựng mô hình, với mục tiêu ứng dụng cho việc dự báo chỉ số giá tiêu dùng (CPI) hàng năm.

2020 d a vào d li u t tháng 1/2002 n tháng 12/2017 c a T ng c c th ng kê Vi t Nam, trên c s ó a ra d báo tình hình l m phát kinh t di n ra n n m 2020.

Mục tiêu quan trọng của luận án tập trung giải quyết là xây dựng các mô hình dự báo, phân tích và đánh giá khả năng dự báo chỉ số giá tiêu dùng (CPI) bằng các mô hình trong lĩnh vực khai phá dữ liệu Chúng ta sẽ xây dựng và đánh giá các mô hình để xác định mô hình nào cho kết quả dự báo tốt hơn so với các mô hình hồi quy truyền thống, đồng thời tìm ra cấu trúc mô hình nào mang lại kết quả dự báo giá tiêu dùng chính xác và thích hợp nhất Khi khảo sát các biến trong rổ hàng hóa dùng để dự báo, cần xác định những biến nào có sự tương quan, ảnh hưởng đến việc thay đổi chỉ số giá tiêu dùng và lạm phát kinh tế tại Việt Nam Những vấn đề này sẽ được chứng minh và phân tích trong nội dung của luận án này.

GI I PHÁP D BÁO CH S GIÁ TIÊU DÙNG (CPI) VÀ TÌNH HÌNH

Các b c ti n hành th c hi n gi i pháp theo s sau:

Hình 3.1 S xây d ng mô hình ng d ng d báo

Thu th p d li u D li u thô Quan sát t p d li u

L a ch n thu c tính phân l p (Class)

Xây d ng mô hình phân l p ánh giá nh n xét các mô hình

Xây d ng ng d ng d báo

L a ch n mô hình thích h p v i t p d li u

Dữ liệu sử dụng trong luận văn là dữ liệu thu thập từ Tổng cục Thống kê Việt Nam, bao gồm 192 mẫu dữ liệu được thu thập trong khoảng thời gian từ 1/2002 đến 12/2017 Dữ liệu này được lưu trữ qua các năm dưới dạng file xml Sau đó, file xml sẽ được chuyển đổi sang định dạng csv hoặc arff để thực hiện các thao tác phân tích bằng công cụ Weka.

Trong t p d li u t i v , ta quan sát th y có 192 m u d li u, 17 thu c tính và 1 thu c tính class g m:

B ng 3.1 C u trúc d li u d báo ch s giá tiêu dùng và l m phát kinh t Vi t Nam

STT Thu c tính Ki u DL Giá tr c a thu c tính Gi i thích

S th p phân trong kho ng 80

2 Hàng n và d ch v n u ng numeric

S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

5 u ng và thu c lá numeric S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

6 May m c, giày dép, m nón numeric S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

STT Thu c tính Ki u DL Giá tr c a thu c tính Gi i thích

7 Nhà và v t li u xây d ng numeric S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

8 Thi t b và dùng gia ình numeric S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

10 Giao thông numeric S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

11 B u chính vi n thông numeric S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

12 Giáo d c numeric S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

13 V n hoá, gi i trí và du l ch numeric S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

14 Hàng hoá và d ch v khác numeric S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

15 Ch s giá vàng numeric S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

M numeric S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

17 Ph ng ti n i l i b u i n numeric S th p phân trong kho ng 80

S li u TCTK thu th p trong c n c

18 Ch s giá tiêu dùng numeric T ng/Gi m K t qu d báo

Qua quan sát tập dữ liệu, có một số thuộc tính dữ liệu không liên tục, bị lỗi Thông tin về các thuộc tính này được tổng hợp trong file data.csv, bao gồm tên thuộc tính, loại thuộc tính, giá trị trung bình, giá trị chuẩn, tỷ lệ dữ liệu bị lỗi và tỷ lệ mẫu bị thiếu giá trị trên thuộc tính này.

Trong quá trình xây dựng mô hình, việc lựa chọn thuộc tính dữ liệu là bước quan trọng Sau khi xử lý, tập dữ liệu thu thập có 18 thuộc tính, trong đó thuộc tính Chỉ số giá tiêu dùng được xác định là thuộc tính dự báo hay biến phụ thuộc trong các mô hình Chúng ta sẽ sử dụng tính năng Select attributes của Explorer trong công cụ hỗ trợ WEKA để lựa chọn các thuộc tính cần thiết cho việc xây dựng các mô hình.

Ph ng th c tìm ki m Ranker là ph ng pháp x p h ng các thu c tính theo ánh giá tr ng s thu c tính c l a ch n.

Ph ng th c ánh giá thu c tính CorrelationAttributeEval c l a ch n tìm t ng quan phù h p nh t v i thu c tính Chi so gia tieu dung trong t p d li u c d báo.

B n i t ng c a tính n ngSelect attributes c l a ch n nh sau:

- Thu c tính c d oán: (Num) Chi so gia tieu dung.

- Ch l a ch n thu c tính: S d ng t p hu n luy n y Use full training set.

- Ph ng th c tìm ki m: Ranker.

- B ánh giá thu c tính: CorrelationAttributeEval.

Hình 3.3 S p x p t ng quan c a các thu c tính i v i thu c tính class

Dựa vào kết quả lựa chọn thuộc tính, chúng tôi xác định được 6 thuộc tính quan trọng trong bảng xếp hạng, bao gồm: Phương tiện, Chỉ số đô la, Dược phẩm y tế, Giao thông, Bưu chính viễn thông, và thời gian (Năm, Tháng) Ngoài ra, chúng tôi còn lựa chọn thêm 11 thuộc tính khác để tiến hành xây dựng mô hình dự báo.

B ng 3.2 B ng l a ch n thu c tính xây d ng mô hình

STT Thu c tính Ki u DL Giá tr c a thu c tính Gi i thích

1 L ng th c th c ph m numeric S th p phân trong kho ng 80 150

S li u TCTK thu th p trong c n c

2 L ng th c numeric S th p phân trong kho ng 80 150

S li u TCTK thu th p trong c n c

3 Th c ph m numeric S th p phân trong kho ng 80 150

S li u TCTK thu th p trong c n c

4 u ng và thu c lá numeric S th p phân trong kho ng 80 150

S li u TCTK thu th p trong c n c

5 May m c, giày dép, m nón numeric S th p phân trong kho ng 80 150

S li u TCTK thu th p trong c n c

6 Nhà và v t li u xây d ng numeric S th p phân trong kho ng 80 150

S li u TCTK thu th p trong c n c

7 Thi t b và dùng gia ình numeric S th p phân trong kho ng 80 150

S li u TCTK thu th p trong c n c

8 Giáo d c numeric S th p phân trong kho ng 80 150

S li u TCTK thu th p trong c n c

9 V n hoá, gi i trí và du l ch numeric S th p phân trong kho ng 80 150

S li u TCTK thu th p trong c n c

10 Hàng hoá và d ch v khác numeric S th p phân trong kho ng 80 150

S li u TCTK thu th p trong c n c

11 Ch s giá vàng numeric S th p phân trong kho ng 80 150

S li u TCTK thu th p trong c n c

12 Ch s giá tiêu dùng numeric T ng/Gi m K t qu d báo CPI t ng, gi m?

Trong tập dữ liệu datacpi.csv, thuộc tính đầu tiên là thuộc tính số (numeric) biểu diễn dưới dạng số thập phân Mục tiêu chính là dự báo chỉ số giá tiêu dùng (CPI) và tình hình lạm phát kinh tế Để đạt được kết quả tốt trong việc dự báo, chúng ta cần quan sát thuộc tính chỉ số giá tiêu dùng (thuộc tính class) bên cạnh.

Hình 3.4 Thu c tính quan sát Ch s giá giá tiêu dùng (class)

Dựa trên quan sát, chỉ số giá tiêu dùng có giá trị thấp nhất là 99.2 và cao nhất là 103.91, với giá trị trung bình đạt 100.615 và độ lệch chuẩn là 0.811 Để tiến hành phân lớp, chúng ta sử dụng bộ lọc của WEKA, chọn phương pháp Unsupervised/Attribute/MathExpression Kết quả phân nhóm cho thấy nếu chỉ số giá tiêu dùng lớn hơn 100.1, thì có khả năng báo cáo tăng trưởng, ngược lại nếu dưới 100.1 sẽ báo cáo giảm.

Hình 3.5 Phân nhóm thu c tính

Sau ó chúng ta t thu c tính phân l p d báo Chi so gia tieu dung (thu c tính class)

Hình 3.6 t thu c tính phân l p Chi so gia tieu dung (Class)

1 T p d li u hu n luy n ( training dataset ).

2 T p d li u ki m th ( test set/validation set ) T p d li u này c s d ng ki m tra chính xác v kh n ng d oán c a mô hình phân l p.

S d ng n m t s b l c Filters c a Weka, trong m c Unsupervised /Instance/RemovePercentage phân chia t p d li u: 80% làm t p d li u hu n luy n (training dataset) và 20% làm t p d li u ki m th (test set/validation set).

Hình 3.7 D li u s d ng cho Training và Test mô hình

Xây dựng mô hình phân loại dữ liệu là một quá trình quan trọng trong việc phân tích và dự đoán kết quả Không có mô hình nào hoàn hảo cho tất cả các tập dữ liệu, do đó, việc lựa chọn mô hình phù hợp phụ thuộc vào các tiêu chí đánh giá như độ chính xác, thời gian huấn luyện, tính linh hoạt và khả năng mở rộng Trong bài viết này, chúng ta sẽ khám phá một số mô hình có thể áp dụng cho tập dữ liệu huấn luyện và kiểm tra, nhằm tìm ra mô hình tối ưu nhất cho bài toán dự báo Kết quả mong muốn là lựa chọn mô hình phù hợp nhất để đưa ra quyết định chính xác cho bài toán đã đề ra.

Hình 3.8 Quy trình xây d ng mô hình d báo v i WEKA

3.2.5.1.K t qu mô hình weka.classifiers.functions.Logistic

Hình 3.9 K t qu mô hình Logistic

Mô hình Logistic cho thấy tỷ lệ dự báo giá tiêu dùng tăng vượt 96%, trong khi tỷ lệ dự báo giá tiêu dùng giảm dưới 4% Độ chính xác (Precision) của mô hình đạt trên 96%, và độ nhạy (Recall) cũng tương đương, cho thấy tỷ lệ xác suất dự báo giá tiêu dùng tăng đạt trên 96%.

3.2.5.2.K t qu mô hình weka.classifiers.bayes.NaiveBayes

Hình 3.10 K t qu mô hình NaiveBayes

Mô hình NaiveBayes cho thấy khả năng dự đoán chỉ số giá tiêu dùng với độ chính xác trên 87% cho trường hợp tăng và dưới 13% cho trường hợp giảm Tỷ lệ Precision cho thấy độ chính xác trong việc dự đoán chỉ số giá tiêu dùng tăng là rất cao.

> 88%, Recall cho th y t l xác su t d báo ch s giá tiêu dùng t ng > 87%.

3.2.5.3.K t qu mô hình weka.classifiers.bayes.BayesNet

Hình 3.11 K t qu mô hình BayesNet

Mô hình BayesNet cho thấy khả năng dự báo chỉ số giá tiêu dùng tăng trên 87% và giảm dưới 13% Độ chính xác (Precision) của mô hình đạt trên 88%, cho thấy tỷ lệ dự đoán đúng về sự tăng giá tiêu dùng là rất cao Tỷ lệ hồi tưởng (Recall) cũng cho thấy khả năng xác định chính xác các trường hợp giá tiêu dùng tăng.

3.2.5.4.K t qu mô hình weka.classifiers.trees.J48

Hình 3.12 K t qu mô hình trees.J48

Hình 3.13 Tr c quan mô hình trees.J48

Mô hình trees.J48 cho thấy khả năng dự báo chỉ số giá tiêu dùng tăng với độ chính xác trên 94%, trong khi dự báo chỉ số giá tiêu dùng giảm đạt mức 6% Tỷ lệ Precision cho thấy độ chính xác của dự báo chỉ số giá tiêu dùng tăng cũng vượt quá 94%, và Recall cũng đạt trên 94%, khẳng định tính chính xác cao trong việc dự báo chỉ số giá tiêu dùng tăng.

3.2.5.5.K t qu mô hình weka.classifiers.lazy.IBk a V i K=1

Hình 3.14 K t qu mô hình IBk K=1

Mô hình IBk với K=2 cho thấy tỷ lệ dự báo chỉ số giá tiêu dùng tăng trên 94%, trong khi tỷ lệ dự báo chỉ số giá tiêu dùng giảm dưới 6% Độ chính xác (Precision) của mô hình đạt trên 94%, cho thấy khả năng dự đoán chính xác chỉ số giá tiêu dùng tăng cũng đạt trên 94%, đồng thời tỷ lệ hồi tưởng (Recall) cũng tương đương với độ chính xác, cho thấy khả năng phát hiện chỉ số giá tiêu dùng tăng đạt hơn 94%.

Hình 3.15 K t qu mô hình IBk K=2

Mô hình IBk với K=2 cho thấy tỷ lệ dự báo chỉ số giá tiêu dùng tăng trên 92%, trong khi tỷ lệ dự báo chỉ số giá tiêu dùng giảm dưới 8% Độ chính xác (Precision) đạt trên 92%, và tỷ lệ hồi đáp (Recall) cũng đạt trên 92%, cho thấy khả năng xác định chính xác chỉ số giá tiêu dùng tăng rất cao Khi áp dụng K=3, các kết quả tương tự cũng được ghi nhận.

Hình 3.16 K t qu mô hình IBk K=3

D a vào k t qu phân tích trên cho th y v i mô hình IBk K= 3 t l d báo ch s giá tiêu dùng t ng > 92%, d báo ch s giá tiêu dùng gi m 91%, Recall cho th y t l xác su t d báo ch s giá tiêu dùng c ng t ng > 92%.

3.2.5.6.K t qu mô hình weka.classifiers.functions.SMO

Hình 3.17 K t qu mô hình SMO

Mô hình SMO cho thấy khả năng dự đoán chỉ số giá tiêu dùng với tỷ lệ dự báo tăng trên 91%, trong khi tỷ lệ dự báo giảm dưới 9% Độ chính xác (Precision) của mô hình đạt trên 92%, đồng thời tỷ lệ hồi đáp (Recall) cũng đạt trên 90%, cho thấy hiệu quả cao trong việc xác định biến động giá tiêu dùng.

3.2.5.7.K t qu mô hình weka.classifiers.functions.MultilayerPerceptron

Hình 3.18 K t qu mô hình MultilayerPerceptron

Mô hình Multilayer Perceptron cho thấy tỷ lệ dự báo giá tiêu dùng tăng trên 96% và giảm dưới 4% Độ chính xác (Precision) đạt trên 96% cho tỷ lệ xác suất dự báo giá tiêu dùng tăng, trong khi Recall cũng đạt trên 96%, cho thấy độ chính xác cao trong việc dự đoán giá tiêu dùng Việc xác định chính xác xu hướng giá tiêu dùng là rất quan trọng, vì vậy việc nâng cao Precision và Recall của mô hình sẽ giúp cải thiện độ tin cậy trong các dự báo giá tiêu dùng trong tương lai, với khả năng lạm phát ngày càng tăng.

ÁNH GIÁ, NH N XÉT K T QU MÔ HÌNH

Để đánh giá hiệu quả của các mô hình, chúng ta cần tập trung vào khả năng dự đoán thông qua việc quan sát kết quả từ ma trận nhầm lẫn (confusion matrix), cũng như các chỉ số như Tỷ lệ chính xác, MAE, RMSE, Precision, Recall, F1-score và Tỷ lệ lỗi Những chỉ số này giúp chúng ta có cái nhìn tổng quát về hiệu suất và độ tin cậy của các mô hình mà chúng ta xây dựng.

A confusion matrix is a tool used in classification problems to evaluate the performance of a model It consists of four key components: True Positive (TP), which refers to instances correctly predicted as positive; False Negative (FN), which indicates positive instances incorrectly classified as negative; False Positive (FP), representing negative instances mistakenly identified as positive; and True Negative (TN), signifying accurate predictions of negative instances Understanding these metrics is essential for assessing the effectiveness of classification algorithms.

MAE (Mean Absolute Error) Sai s tuy t i trung bình

MAE là m t ph ng pháp o l ng s khác bi t gi a hai bi n liên t c.

Gi s r ng X và Y là hai bi n liên t c th hi n k t qu d oán c a mô hình và k t qu th c t , o MAE c tính theo công th c sau:

RMSE (Root mean squared error) c n b c hai sai s bình ph ng trung bình

RMSE (Root Mean Square Error) là chỉ số quan trọng dùng để đánh giá độ chính xác của mô hình so với dữ liệu huấn luyện Nó được tính bằng căn bậc hai của trung bình cộng các bình phương chênh lệch giữa giá trị thực tế và giá trị dự đoán.

RMSE Precision (bao nhiêu cái úng c l y ra)

Xem xét trên t p d li u ki m tra xem có bao nhiêu d li u c mô hình d oán úng ây chính là ch s accuracy ( chính xác c a mô hình), Precision c tính nh sau:

Tuy nhiên cho khách quan h n ng i ta c n ph i xem xét thêm m t y u t n a chính làRecall, Recall (bao nhiêu cái c l y ra là úng) c tính theo công th c sau:

Ch s này còn c g i là nh y c a mô hình là xem xét có kh n ng t ng quát hóa nh th nào.

F1-score là harmonic mean c a precision và recall (gi s r ng hai i l ng này khác không)

F1-score càng cao, b phân l p càng t t.

T ng h p k t qu t các mô hình nh sau:

B ng 3.3 score có giá tr n m trong n a kho ng B ng t ng h p k t qu phân tích các mô hình

Classifier MAE RMSE Precision Recall F1-score Error_rate

Train Test Train Test Train Test Train Test Train Test Train Test

Hình 3.19 Bi u so sánh k t qu d báo các mô hình

D a vào b ng k t qu phân tích và bi u so sánh trên chúng ta có th k t lu n r ng i v i t p d li u ã có trong lu n v n này thì mô hình

Mô hình Multilayer Perceptron đạt được độ chính xác cao (> 96%) và tỷ lệ dự báo lỗi thấp (< 4%) khi sử dụng dữ liệu huấn luyện Kết quả dự báo chính xác hơn nữa (> 96.5%) với tỷ lệ lỗi thấp hơn 3.5% trên dữ liệu kiểm tra, cùng với F1-score cho dữ liệu huấn luyện là > 96% và dữ liệu kiểm tra là > 97% Tỷ lệ F1 cao cho thấy khả năng phân loại tốt hơn Do đó, Multilayer Perceptron là lựa chọn ưu tiên cho bài toán này.

XÂY D NG NG D NG

H th ng c xây d ng b ng ngôn ng JAVA trên n n t ng JDK.

Bài viết này trình bày việc áp dụng các mô hình trong CSDL để dự đoán chỉ số giá tiêu dùng (CPI) và tình hình lạm phát tại Việt Nam trong năm 2020 Người dùng có thể lựa chọn các thông số đầu vào và nhận kết quả dự báo chính xác từ các mô hình đã phát triển.

Hình 3.20 ng d ng d báo ch s giá tiêu dùng CPI và tình hình l m phát kinh t n n m 2020

Nh v y xây d ng c ng d ng d báo ch sô giá tiêu dùng và tình hình l m phát kinh t n n m chúng ta c n ph i th c hi n m t s công vi c sau:

Tr c tiên, t i file d li u Ch s giá tiêu dùng, ch s giá vàng và ô la

Trong nghiên cứu này, chúng tôi sử dụng dữ liệu từ trang web Tổng cục Thống kê Việt Nam, chuyển đổi file xml sang định dạng csv hoặc arff để xử lý trên công cụ Weka Dữ liệu được chia thành 80% cho tập huấn luyện và 20% cho tập kiểm tra Chúng tôi xây dựng và so sánh các mô hình phân loại như Logistic, Naive Bayes, Bayes Net, Tree J48, KNN, SMO, và Multilayer Perceptron, đánh giá kết quả dựa trên các chỉ số MAE, RMSE, Precision, Recall và Error_rate để xác định mô hình tốt nhất Cuối cùng, chúng tôi kiểm tra tính chính xác của mô hình trên tập dữ liệu kiểm tra, nhằm tìm ra mô hình dự báo chỉ số giá tiêu dùng (CPI) chính xác nhất cho năm 2020 Kết quả cho thấy mô hình Multilayer Perceptron là lựa chọn ưu việt trong việc dự báo CPI và tình hình lạm phát kinh tế.

K T LU N CHUNG VÀ H NG PHÁT TRI N TÀI

Qua quá trình nghiên c u và tìm hi u v các v n v t m quan tr ng c a vi c d báo ch s giá tiêu dùng (CPI) và tình hình l m phát kinh t t i

Vi t Nam và m t s v n liên quan t i khai phá d li u xây d ng mô hình d báo, lu n v n ã hoàn thành và t c m t s k t qu nh sau:

Lu n v n ã trình bày c vai trò và t m quan tr ng c a vi c d báo ch s giá tiêu dùng (CPI) và l m phát kinh t t i Vi t Nam.

Nghiên cứu lý thuyết liên quan đến kỹ thuật xây dựng mô hình dự báo khai thác dữ liệu và phát triển các mô hình bằng công cụ WEKA Bài toán dự báo chỉ số giá tiêu dùng CPI và tình hình lạm phát kinh tế Việt Nam năm 2020 đã được thực hiện thông qua việc xây dựng các mô hình dự báo như Logistic, Naive Bayes, Bayes Net, Tree J48, KNN, SMO và Multilayer Perceptron, sử dụng dữ liệu từ Tổng cục Thống kê Việt Nam.

Trong khoảng thời gian từ tháng 1/2002 đến tháng 12/2017, đã thu thập được 192 trường hợp dữ liệu liên tục và không gián đoạn Qua nghiên cứu phân tích, lựa chọn và đánh giá, chúng tôi ưu tiên chọn mô hình Multilayer Perceptron vì tính phù hợp của nó với tập dữ liệu đã thu thập.

Trong năm 2020, việc triển khai các mô hình dự báo chỉ số giá tiêu dùng (CPI) và tình hình lạm phát kinh tế tại Việt Nam là rất quan trọng Những mô hình này sẽ hỗ trợ nhà quản lý trong việc đưa ra quyết định hợp lý trong các hoạt động kinh tế, đồng thời giúp bình ổn giá trị tiền tệ và kiểm soát lạm phát hiệu quả.

Mô hình dự báo trong việc xây dựng phương pháp phân tích dự báo, kiểm chứng thực tế và đánh giá kết quả một cách thường xuyên là rất quan trọng Đây là một công cụ có tính thực tiễn cao, giúp dự báo chỉ số giá tiêu dùng và kiểm soát lạm phát, từ đó mang lại nhiều lợi ích cho nền kinh tế quốc gia, cũng như cho các nhà đầu tư và doanh nghiệp trong việc đưa ra các quyết định đúng đắn trong kinh doanh và hoạch định kinh tế.

Trong tương lai, chúng tôi hy vọng nghiên cứu này sẽ được mở rộng hơn nữa bằng cách áp dụng công nghệ tiên tiến như big data, môi trường điện toán đám mây, và phương pháp deep learning Chúng tôi sẽ tích hợp nhiều phương pháp mới để tạo ra một mô hình hoàn chỉnh, nhằm cải thiện độ chính xác trong dự báo giá tiêu dùng và lạm phát Nghiên cứu cũng sẽ phát triển bằng cách thêm các biến liên quan đến các tính chất theo mùa, vùng miền, và thời gian dự báo.

[1] Nguy n Nh t Quang, Khai phá d li u.pdf

[2] Nguy n V n Huân, Ph m Vi t Bình, Phân tích và d báo trong kinh t ,

Nhà xu t b n khoa h c và k thu t Hà N i 2012

[3] Zhou, Shuigeng, Zhang, Songmao, Karypis, George (Eds.), Advanced

Data Mining and Applications 8th International Conference, ADMA

2012, Nanjing, China, December 15-18, 2012, Proceedings pdf.

[4] Zhi-Hua Zhou, Data mining.pfd

[5] Rance D Necaise, Data Structures and Algorithms Using Python.pdf

[6] Thông t s 02/2012/TT-BKH T ngày 4 tháng 4 n m 2012 c a B K ho ch và u t v Quy nh n m 2010 làm n m g c thay cho n m g c

1994 tính các ch tiêu th ng kê theo giá so sánh

[7] T p chí tài chính, http://tapchitaichinh.vn/kinh-te-vi-mo/

[8] T ng c c th ng kê, https://www.gso.gov.vn/default.aspx?tabidb8

[9] Ngân hàng nhà n c Vi t Nam, https://www.sbv.gov.vn/webcenter/portal/vi/menu/rm/cpi?

[10].Trung tâm thông tin và d báo xã h i qu c gia, http://ncif.gov.vn

[11].T p chí kinh t và d báo, http://kinhtevadubao.vn/danh-sach/214/tap-chi- kinh-te-va-du-bao.html

[12].Data mining Concepts and Techniques, Second Edition, http://ccs1.hnue.edu.vn/hungtd/DM2012/DataMining_BOOK.pdf

Data mining is a crucial field that encompasses various concepts and techniques essential for extracting valuable insights from large datasets The third edition of "Data Mining: Concepts and Techniques" by Jiawei Han and Micheline Kamber provides comprehensive coverage of these principles, making it a vital resource for understanding data management systems For further exploration of related topics, additional resources like Java programming notes can enhance your knowledge in this area.

[15] Census Data Mining and Data Analysis using WEKA pdf https://arxiv.org/ftp/arxiv/papers/1310/1310.4647.pdf

[16].Advanced java, http://enos.itcollege.ee/~jpoial/allalaadimised/reading/Advanced- java.pdf

Ngày đăng: 09/05/2022, 23:43

HÌNH ẢNH LIÊN QUAN

3.2 .B ng la chn th uc tính xây d ng mơ hình 38 - XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020
3.2 B ng la chn th uc tính xây d ng mơ hình 38 (Trang 10)
hình Tên hình Trang - XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020
h ình Tên hình Trang (Trang 12)
Bảng chấm công tháng 1/2009 - XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020
Bảng ch ấm công tháng 1/2009 (Trang 21)
Hình 2.1. Các bc xây d ngm th th ng KPDL [1] - XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020
Hình 2.1. Các bc xây d ngm th th ng KPDL [1] (Trang 27)
Hình 2.2. B iu din cây qu yt nh n - XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020
Hình 2.2. B iu din cây qu yt nh n (Trang 30)
Hình 2.3. Cây qu yt nh cho v ic chi Tennis - XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020
Hình 2.3. Cây qu yt nh cho v ic chi Tennis (Trang 31)
Hình 2.4. Mơ hìn hm ng n ron nhi ul p - XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020
Hình 2.4. Mơ hìn hm ng n ron nhi ul p (Trang 37)
Hình 2.5. Tin trình c - XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020
Hình 2.5. Tin trình c (Trang 38)
b ng các mơ hình trong l nh vc khai phá d li u. Chúng ta xây d ng các mơ hình và  ánh giá nh n xét xem mơ hình nào s  cho k t qu  d  báo t t h n các mơ hình h i quy truy n th ng và c u trúc mơ hình nào s  cho ra k t qu  d báo giá tiêu dùng t t nh t, thích - XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020
b ng các mơ hình trong l nh vc khai phá d li u. Chúng ta xây d ng các mơ hình và ánh giá nh n xét xem mơ hình nào s cho k t qu d báo t t h n các mơ hình h i quy truy n th ng và c u trúc mơ hình nào s cho ra k t qu d báo giá tiêu dùng t t nh t, thích (Trang 45)
Hình 3.2. T pd l iu quan sát - XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020
Hình 3.2. T pd l iu quan sát (Trang 48)
Hình 3.3. Spx pt ng quan ca các th uc tính ivi th uc tính class - XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020
Hình 3.3. Spx pt ng quan ca các th uc tính ivi th uc tính class (Trang 49)
B ng 3.2 .B ng la chn th uc tính xây d ng mơ hình STT Thu c tínhKi u DLGiá tr  c a thu cSTT Thu c tínhKi u DLGiá tr  c a thu c - XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020
ng 3.2 .B ng la chn th uc tính xây d ng mơ hình STT Thu c tínhKi u DLGiá tr c a thu cSTT Thu c tínhKi u DLGiá tr c a thu c (Trang 50)
Hình 3.4. Th uc tính quan sát Ch s giá giá tiêu dùng (class) - XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020
Hình 3.4. Th uc tính quan sát Ch s giá giá tiêu dùng (class) (Trang 51)
Hình 3.5. Phân nhĩm th uc tính - XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020
Hình 3.5. Phân nhĩm th uc tính (Trang 52)
Hình 3.6 .t th uc tính phâ nl pChi so gia tieu dung (Class) - XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020
Hình 3.6 t th uc tính phâ nl pChi so gia tieu dung (Class) (Trang 52)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w