1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu ứng dụng machine learning trong dự đoán chỉ số giá xây dựng công trình dân dụng tại thành phố hồ chí minh

122 45 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 122
Dung lượng 12,6 MB

Cấu trúc

  • paper

    • by Check Admin

  • paper

    • ORIGINALITY REPORT

    • PRIMARY SOURCES

Nội dung

TỔNG QUAN

CƠ SỞ LÝ THUYẾT VỀ MACHINE LEARNING

Trong những năm gần đây, Trí Tuệ Nhân Tạo (AI) đã trở thành một yếu tố quan trọng trong ngành công nghệ, đặc biệt là trong lĩnh vực Machine Learning (Học Máy), đóng vai trò then chốt trong cuộc cách mạng công nghiệp 4.0 Công nghệ AI hiện nay có khả năng xử lý khối lượng dữ liệu khổng lồ mà chưa từng có máy tính nào làm được trước đây Một số ứng dụng tiêu biểu của AI trong đời sống hàng ngày bao gồm xe tự lái của Google và Tesla, hệ thống nhận diện khuôn mặt của Facebook, trợ lý ảo Siri của Apple, cũng như các hệ thống gợi ý sản phẩm của Amazon và phim của Netflix.

Machine Learning là một nhánh con của trí tuệ nhân tạo (AI) và thuộc lĩnh vực Khoa Học Máy Tính Điểm nổi bật của Machine Learning là khả năng tự học từ dữ liệu do người dùng cung cấp, mà không cần lập trình thuật toán cụ thể.

- Phân nhóm các thuật toán Machine Learning

Thuật toán Machine Learning có hai phương pháp phân nhóm chính: một là dựa trên phương thức học (learning style), và hai là dựa trên chức năng (function) của từng thuật toán.

- Phân nhóm dựa trên phương thức học

Theo phương thức học, các thuật toán Machine Learning thường được chia làm

Bài viết này tập trung vào bốn nhóm học máy: Học có giám sát (Supervised learning), Học không giám sát (Unsupervised learning), Học bán giám sát (Semi-supervised learning) và Học củng cố (Reinforcement learning) Tuy nhiên, do chủ đề chính là mô hình thuật toán Học có giám sát, chúng tôi sẽ không đi sâu vào các phương thức thuật toán còn lại.

- Supervised Learning (Học có giám sát)

Supervised Learning là một thuật toán dự đoán đầu ra cho dữ liệu mới dựa trên các cặp dữ liệu đầu vào đã biết, gọi là (data, label) Đây là một trong những thuật toán phổ biến nhất trong Machine Learning Cụ thể, Supervised Learning sử dụng một tập hợp dữ liệu đầu vào X={x1, x2,…, xN} và nhãn tương ứng Y={y1, y2,…, yN}, trong đó (xi, yi) ∈ X × Y là các cặp dữ liệu đã được xác định trước, tạo thành tập training data Mục tiêu của Supervised Learning là xây dựng một hàm số tương quan để gán mỗi phần tử từ tập X với phần tử tương ứng trong tập Y.

Mục đích là có được hàm số f thật tốt để khi có một dữ liệu X mới, chúng ta có thể tính được nhãn tương ứng của nó y=f(x)

Để nhận dạng chữ viết tay, máy học cần được huấn luyện với mỗi chữ viết tay tương ứng với một tác giả Điều này có thể hiểu là biến X tương ứng với nhãn Y, từ đó thuật toán sẽ tạo ra một mô hình dựa trên sự tương quan giữa dữ liệu đầu vào (hình ảnh) và đầu ra (chữ số) Khi nhận được một hình ảnh mới, mô hình sẽ dự đoán chữ số mà hình ảnh đó chứa Quá trình này tương tự như cách mà con người dạy trẻ nhỏ nhận biết chữ cái, khi chúng ta chỉ cho trẻ hình ảnh chữ A, chữ B, và sau đó trẻ có khả năng nhận diện chữ cái trong các tài liệu khác mà chúng chưa thấy trước đó.

B dựa vào những dữ liệu hình ảnh đã được dạy từ trước đó

Hình 2.1: MNIST : bộ cơ sở dữ liệu của chữ số viết tay

(Nguồn: Simple Neural Network implementation in Ruby)

Thuật toán supervised learning còn được tiếp tục chia nhỏ ra thành hai loại chính:

Phân loại (classification) là một thuật toán mà trong đó các nhãn của dữ liệu đầu vào được chia thành một số nhóm hữu hạn Đây là bài toán tìm kiếm đầu ra định tính, như việc Facebook nhận diện khuôn mặt trong ảnh đã được gán tên hoặc Gmail lọc các email spam.

Hồi quy (Regression) là một bài toán định lượng giá trị, trong đó label không được phân chia thành các nhóm mà là một giá trị thực cụ thể Chẳng hạn, Microsoft phát triển một ứng dụng có khả năng dự đoán giới tính và tuổi tác từ ảnh khuôn mặt Trong ứng dụng này, phần dự đoán giới tính được xem là thuật toán phân loại (Classification), trong khi phần dự đoán tuổi tác được coi là thuật toán hồi quy (Regression).

CHỈ SỐ GIÁ XÂY DỰNG

Chỉ n số n giá n xây n dựng n (CCI) n là n chỉ n số n phản n ánh n mức n độ n biến n động n của n chi nphí n xây n dựng n theo n thời n gian

Chỉ số CCI được sử dụng để lập và điều chỉnh tổng mức đầu tư dự án, dự toán gói thầu và giá dự thầu Nó cũng hỗ trợ trong việc dự toán xây dựng công trình, điều chỉnh giá hợp đồng xây dựng và quy đổi chi phí đầu tư xây dựng công trình.

Chỉ số CCI được Sở Xây dựng tính toán dựa trên sự biến động của giá vật liệu xây dựng, nhân công và máy thi công, theo thông tư quản lý chi phí đầu tư xây dựng Chỉ số này được công bố theo loại công trình và cấu trúc chi phí, bao gồm giá phần xây dựng, thiết bị và chi phí khác Các yếu tố chi phí bao gồm giá vật liệu, nhân công và máy móc được xác định dựa trên danh mục và số lượng công trình đại diện Chỉ số CCI được tính bình quân trong khoảng thời gian lựa chọn và không bao gồm các chi phí bồi thường, hỗ trợ, tái định cư, lãi vay trong thời gian xây dựng, và vốn lưu động ban đầu cho sản xuất kinh doanh Đơn vị tính của chỉ số giá xây dựng là phần trăm (%) và cấu trúc chi phí sử dụng để tính toán phải phù hợp với quy định về quản lý chi phí đầu tư xây dựng, được tổng hợp từ các số liệu thống kê và sử dụng cố định cho đến khi có sự thay đổi tại thời điểm gốc (Bộ Xây dựng, 2016).

Các nchỉ nsố ngiá nxây ndựng nđược n công nbố nbởi nSở nXây nDựng nTPHCM nbao ngồm n các n loại n chỉ n số n sau:

Số giá xây dựng công trình được xác định dựa trên nhóm công trình thuộc năm loại chính: công trình dân dụng, công trình công nghiệp, công trình giao thông, công trình thủy lợi và công trình hạ tầng kỹ thuật.

+ n Các n chỉ n số n giá n xây n dựng n theo n cơ n cấu n chi n phí, n bao n gồm:

• n Chỉ n số n giá n phần n xây n dựng

• n Chỉ n số n giá n phần n thiết n bị

• n Chỉ n số n giá n phần n chi n phí n khác n n n n n n n n n n n n n n n n n n n n n n n n n n n n n

+ nCác nchỉ nsố ngiá nxây ndựng ntheo nyếu ntố nchi nphí, nbao ngồm:

• n Chỉ n số n giá n vật n liệu n xây n dựng n công n trình

• n Chỉ n số n giá n nhân n công n xây n dựng n công n trình

• n Chỉ n số n giá n máy n thi n công n xây n dựng n công n trình

+ n Các n chỉ n số n giá n theo n loại n yếu n tố n đầu n vào n bao n gồm:

• n Chỉ nsố ngiá ntheo nloại nvật nliệu nxây ndựng nchủ nyếu

• n Chỉ n số n giá n theo n loại n nhân n công n xây n dựng n chủ n yếu

• n Chỉ n số n giá n theo n nhóm n máy n thi n công n xây n dựng n chủ n yếu

* n Chỉ n số n giá n xây n dựng n công n trình nlà nchỉ nsố nphản nánh nmức nđộ n biến nđộng ngiá n cho n một n nhóm n công n trình n hoặc n một n loại n công n trình n xây n dựng

Các chỉ số giá xây dựng theo cấu trúc chi phí bao gồm các thành phần như chỉ số giá phần xây dựng, chỉ số giá phần thiết bị và chỉ số giá các khoản mục chi phí khác Những chỉ số này được tính toán dựa trên tổng mức đầu tư, giúp đánh giá chính xác hơn về chi phí xây dựng.

Các chỉ số giá xây dựng theo yếu tố chi phí là những chỉ số phản ánh giá trị dự toán xây dựng công trình, bao gồm giá vật liệu, giá nhân công và giá máy thi công.

2.2.3 Giải thích một số thuật ngữ

Thời n điểm n gốc n là n thời n điểm n được n chọn n làm n mốc n thời n gian n để n so n sánh

Thời n điểm n so n sánh nlà nthời nđiểm n cần nxác nđịnh n chỉ nsố ngiá nxây ndựng nso nvới nthời n điểm n gốc n ban n đầu

Giá xây dựng công trình được lấy làm gốc từ năm 2015 (được quy ước là 100%), và giá của các thời điểm khác được biểu thị bằng tỷ lệ phần trăm (%) so với thời điểm gốc.

Cách n tính n chỉ n số n giá n xây n dựng: n Lấy n chỉ n số n giá n xây n dựng n của n năm n sau nchia n cho n chỉ n số n giá n xây n dựng n của n năm n trước.

PHƯƠNG PHÁP XÁC ĐỊNH CHỈ SỐ GIÁ XÂY DỰNG

2.3.1 Xác định chỉ số giá xây dựng công trình

Chỉ số giá xây dựng công trình được xác định bằng tổng các tích của tỷ trọng bình quân của chi phí xây dựng, thiết bị và các chi phí khác Điều này liên quan đến các chỉ số giá phần xây dựng, phần thiết bị và phần chi phí khác tương ứng của các công trình đại diện được lựa chọn.

Chỉ n số n giá n xây n dựng n công n trình n (I) n được n tính n theo n công n thức n sau:

I n = n P XD n I XD n + n P TB n I TB n + n P CPK n I CPK n n n n (1) Trong nđó:

Trong PXD, PTB và PCPK, tỷ trọng bình quân của chi phí xây dựng, thiết bị và các chi phí khác của các công trình đại diện được lựa chọn là rất quan trọng Tổng các tỷ trọng bình quân này được xác định bằng 1.

- n IXD, n ITB, n ICPK: n chỉ n số n giá n phần n xây n dựng, n phần n thiết n bị, n phần n chi n phí nkhác n của n công n trình n đại n diện n lựa n chọn

Cách n xác n định n các n thành n phần n của n công n thức n (1) n như n sau:

- n Chỉ n số n giá n phần n xây n dựng, n phần n thiết n bị, n phần n chi n phí n khác n (IXD, n ITB, nICPK) n xác n định n theo n hướng n dẫn n tại n mục n 2 n dưới n đây

- n Tỷ n trọng n bình n quân n của n chi n phí n xây n dựng, n thiết n bị, n chi n phí n khác n (PXD, nPTB, n PCPK) n được n xác n định n như n sau:

Tỷ lệ trọng n của chi phí xây dựng (PXD), chi phí thiết bị (PTB) và chi phí khác (PCPK) được xác định thông qua việc tính toán trung bình số học của các tỷ lệ chi phí tương ứng trong các công trình đại diện cho loại công trình đó.

Tỷ lệ trọng số chi phí xây dựng, chi phí thiết bị và chi phí khác của từng công trình đại diện cho tỷ lệ giữa các chi phí này so với tổng chi phí của công trình Công thức xác định tỷ lệ này như sau:

- nPXDi, nPTBi, nPCPKi: ntỷ ntrọng nchi nphí nxây ndựng, nthiết nbị, nchi nphí nkhác nso nvới ntổng n các n chi n phí n này n của n công n trình n đại n diện n thứ n i;

- n GXDi, n GTBi, n GCPKi: n chi n phí n xây n dựng, n thiết n bị, n chi n phí n khác n của n công ntrình n đại n diện n thứ n i;

- n GXDCTi: n tổng n các n chi n phí n xây n dựng, n thiết n bị n và n chi n phí n khác n của n công ntrình n đại n diện n thứ n i

Các số liệu về chi phí xây dựng, chi phí thiết bị và các chi phí khác của các công trình đại diện được xác định từ các số liệu thống kê thu thập.

2.3.2 Xác định các chỉ số theo yếu tố chi phí a) n Chỉ n số n giá n vật n liệu n xây n dựng n công n trình n (K VL ) n được n xác n định n bằng ntổng n các n tích n của n tỷ n trọng n chi n phí n từng n loại n vật n liệu n chủ n yếu n nhân n với n chỉ n số ngiá n loại n vật n liệu n chủ n yếu n tương n ứng n đó n Chỉ n số n giá n vật n liệu n xây n dựng n công n trình ntại n thời n Điểm n so n sánh n như n sau:

Trong xây dựng, tỷ lệ chi phí bình quân của các loại vật liệu chính đóng vai trò quan trọng trong tổng chi phí của các công trình Việc hiểu rõ tỷ lệ này giúp các nhà thầu và chủ đầu tư tối ưu hóa ngân sách và nâng cao hiệu quả kinh tế cho dự án.

- n KVLj: n chỉ n số n giá n loại n vật n liệu n xây n dựng n thứ n j;

- n m: n số n loại n vật n liệu n xây n dựng n chủ n yếu

Tỷ trọng chi phí bình quân (Pvlj) của các loại vật liệu xây dựng chủ yếu trong tổng chi phí các loại vật liệu này là yếu tố quan trọng trong các công trình đại diện Việc phân tích tỷ trọng chi phí giúp xác định sự ảnh hưởng của từng loại vật liệu đến tổng chi phí xây dựng, từ đó tối ưu hóa ngân sách và nâng cao hiệu quả dự án.

Tổng n các n tỷ n trọng n chi n phí n loại n vật n liệu n xây n dựng n chủ n yếu n bằng n 1

Tỷ lệ trọng n của chi phí n vật liệu xây dựng chủ yếu trong từng công trình đại diện được tính bằng tỷ số giữa chi phí của từng loại vật liệu chủ yếu với tổng chi phí các loại vật liệu chủ yếu trong chi phí trực tiếp của công trình đó.

: n tỷ n trọng n chi n phí n loại n vật n liệu n xây n dựng n chủ n yếu n thứ n j n của n công n trình nđại n diện n i;

- n G vlj i : n chi n phí n loại n vật n liệu n xây n dựng n chủ n yếu n thứ n j n của n công n trình n đại ndiện n thứ n i

Các loại vật liệu xây dựng chủ yếu bao gồm: xi măng, cát xây dựng, đá xây dựng, gỗ xây dựng, gạch xây, gạch ốp lát, thép xây dựng, vật liệu bao che, vật liệu điện, vật liệu nước, nhựa đường và vật liệu hoàn thiện.

Tùy thuộc vào đặc điểm và tính chất cụ thể của từng công trình xây dựng, các loại vật liệu xây dựng chủ yếu có thể được bổ sung để tính toán cho phù hợp.

Chỉ số giá vật liệu xây dựng (KVLj) được tính toán bằng cách lấy bình quân các chỉ số giá của các loại vật liệu xây dựng có trong nhóm vật liệu đó.

Chỉ số giá vật liệu trong nhóm được xác định bằng tỷ lệ giữa giá bình quân hiện tại và giá của loại vật liệu xây dựng tại thời điểm gốc Chỉ số giá nhân công xây dựng công trình (K NC) được xác định bằng bình quân các chỉ số giá nhân công của các bậc thợ chủ yếu trong công trình hoặc loại công trình đó.

Tùy theo đặc điểm và tính chất cụ thể của từng công trình, việc lựa chọn loại bậc thợ nhân công chủ yếu phục vụ cho tính toán chi phí nhân công xây dựng là rất quan trọng.

Giá nhân công xây dựng được xác định dựa trên đơn giá nhân công trong quản lý chi phí đầu tư xây dựng, do cơ quan nhà nước có thẩm quyền công bố tại thời điểm tính toán, phù hợp với mặt bằng giá nhân công thị trường.

THU THẬP DỮ LIỆU BẰNG PHƯƠNG PHÁP PHỎNG VẤN

Phỏng vấn là một hình thức thảo luận có mục đích giữa hai hoặc nhiều người, giúp thu thập dữ liệu giá trị và tin cậy cho mục tiêu nghiên cứu.

Các cuộc phỏng vấn có thể được tổ chức theo hình thức chính thức với các câu hỏi chuẩn hóa cho từng người tham gia, hoặc có thể diễn ra dưới dạng thảo luận thân mật và phi cấu trúc Chúng được phân loại thành hai loại chính.

Phỏng vấn cấu trúc là phương pháp sử dụng bảng câu hỏi đã được xác định trước, giúp đảm bảo tính đồng nhất trong quá trình phỏng vấn Người phỏng vấn sẽ thực hiện theo bảng câu hỏi tiêu chuẩn và ghi nhận câu trả lời của người được phỏng vấn trên một biểu mẫu đã được mã hóa sẵn.

Phỏng vấn bán cấu trúc là phương pháp nghiên cứu linh hoạt, trong đó người nghiên cứu chuẩn bị một danh sách các chủ đề và câu hỏi cần thảo luận, nhưng có thể điều chỉnh chúng tùy theo diễn biến cuộc phỏng vấn Điều này cho phép người phỏng vấn linh hoạt thêm hoặc bớt câu hỏi phù hợp với bối cảnh của tổ chức và chủ đề nghiên cứu cụ thể.

Phỏng vấn phi cấu trúc là phương pháp hiệu quả để khám phá sâu sắc các lĩnh vực nghiên cứu quan tâm Trong hình thức này, không có danh sách câu hỏi cố định nào được chuẩn bị trước, cho phép người phỏng vấn linh hoạt dẫn dắt cuộc trò chuyện Người được phỏng vấn sẽ tự do trả lời các câu hỏi, tạo điều kiện cho việc thu thập thông tin phong phú và chi tiết hơn.

Có hai loại phương pháp phỏng vấn tương ứng với các cấu trúc phỏng vấn khác nhau Phỏng vấn tiêu chuẩn hóa sử dụng bảng câu hỏi do người phỏng vấn thực hiện, trong khi phỏng vấn phi tiêu chuẩn hóa bao gồm các hình thức như phỏng vấn trực tiếp (1-1 hoặc nhóm), phỏng vấn qua điện thoại và Internet.

Phỏng vấn nhóm thường có từ 4 đến 8 người tham gia, số lượng cụ thể phụ thuộc vào đặc điểm người tham gia và kỹ năng phỏng vấn Người tham gia thường được chọn qua phương pháp chọn mẫu phi xác suất với mục đích cụ thể Đối với nghiên cứu này, phương pháp phỏng vấn bán cấu trúc được lựa chọn phù hợp với mục tiêu và nội dung thiết kế bảng câu hỏi.

TÌNH HÌNH NGHIÊN CỨU TRONG NƯỚC VÀ THẾ GIỚI

- Nguyễn Minh Hoàng (2012) Dự đoán chỉ số CCI công trình trên chuỗi thời gian, Luận văn thạc sĩ, Trường ĐH Bách Khoa TPHCM

Đề tài này nổi bật với việc áp dụng lý thuyết thống kê ứng dụng, kết hợp với việc đề xuất nhiều mô hình và phương pháp dự đoán, đã đạt được thành công đáng kể trong nghiên cứu dự đoán chỉ số CCI.

Nhược điểm chính của nghiên cứu là dữ liệu thu thập cho việc tính toán chưa đủ lớn, chỉ có 14 dữ liệu Điều này dẫn đến sự hạn chế trong cả số liệu đầu vào và dữ liệu đầu ra, gây khó khăn trong việc so sánh và đối chiếu kết quả.

Trong tập dữ liệu gồm 13 chỉ số tính toán và 1 chỉ số so sánh, chỉ số CCI năm 2008 đã trải qua biến động lớn do lạm phát, ảnh hưởng đến toàn bộ chuỗi dữ liệu Mô hình dự đoán hiện tại chỉ dựa vào sự biến động của chỉ số CCI theo thời gian, mà chưa phát triển được một mô hình dự đoán dựa trên nhiều yếu tố khác.

Phạm Hùng Anh (2013) đã áp dụng hệ thống động học để phát triển mô hình dự đoán chỉ số giá xây dựng Nghiên cứu này nổi bật với việc xây dựng một phương pháp hiệu quả cho việc dự đoán giá cả trong ngành xây dựng.

Nghiên cứu chỉ ra rằng có 5 kịch bản dự đoán chỉ số giá xây dựng ngắn hạn, trong đó lạm phát gia tăng sẽ kéo theo sự tăng trưởng của chỉ số giá xây dựng, làm giảm nhu cầu về nhà ở và vay vốn cho đầu tư bất động sản Đồng thời, GDP có mối quan hệ tỷ lệ thuận với chỉ số giá xây dựng Tuy nhiên, nghiên cứu gặp khó khăn do dữ liệu thu thập còn hạn chế và mô hình phức tạp, khiến cho các kiểm nghiệm và xác nhận chưa đạt được độ thuyết phục cao.

- Trần Thanh Tùng (2011) Đánh giá sự tác động của các yếu tố kinh tế xã hội đến chỉ số CCI, Luận văn thạc sĩ, Trường ĐH Bách Khoa TPHCM

Nghiên cứu đã chỉ ra bảy yếu tố quan trọng ảnh hưởng đến chỉ số CCI, bao gồm chỉ số giá tiêu dùng, tổng sản phẩm trong nước, dân số, tỷ lệ thất nghiệp, tổng kim ngạch xuất khẩu, tổng kim ngạch nhập khẩu và lãi suất cơ bản Phương pháp tương quan Pearson được áp dụng để đánh giá tác động của các yếu tố kinh tế xã hội đối với chỉ số CCI, sau đó sử dụng hồi quy để phân tích mối quan hệ giữa các yếu tố này, đảm bảo tính chặt chẽ về mặt thống kê.

Nhược điểm của nghiên cứu này là dữ liệu còn hạn chế, chỉ từ năm 2000 đến 2010, dẫn đến việc chưa áp dụng được nhiều kiểm định nghiêm ngặt Chỉ số giá xây dựng được xác định bằng phương pháp bình quân gia quyền không phản ánh chính xác sự thay đổi của chỉ số CCI trên toàn quốc Hơn nữa, yếu tố lãi suất cơ bản không phản ánh đúng thực tế thị trường vì chỉ dựa vào lãi suất cơ bản do ngân hàng nhà nước cung cấp.

Ngô Thế Vinh (2011) đã chỉ ra rằng nguyên nhân chính tác động đến chỉ số giá là do sự tăng giá của vật liệu xây dựng, chủ yếu liên quan đến giá cả của các yếu tố đầu vào như điện, nước và lương công nhân, cùng với nguồn cung không ổn định Nghiên cứu này tập trung vào ảnh hưởng của giá vật liệu xây dựng đối với chỉ số giá xây dựng.

2.5.2 Các nghiên cứu trên thế giới Ở Vương Quốc Anh, các tác giả Akintoye, Bowen, and Hardcastle (1998) đã tìm ra các yếu tố hàng đầu có thể ảnh hưởng đến chỉ số giá xây dựng như: lãi suất, ý định đầu tư, ủy nhiệm mới của kiến trúc sư, sản xuất bản vẽ, các yêu cầu, các đơn đặt hàng, khối lượng dự kiến của công việc và chi phí xây dựng là các chỉ số hàng đầu của giá xây dựng

Tại Hồng Kông, các tác giả Thomas Ng, Cheung, Martin Skitmore, Lam và Wong (2000) đã xác định nhiều chỉ tiêu tác động đến chỉ số giá xây dựng, bao gồm lãi suất cho vay tốt nhất, chỉ số chi phí xây dựng, chỉ số giá tiêu dùng, tổng sản phẩm trong nước, doanh thu nội địa ngành xây dựng, tổng giảm phát, nguồn cung ứng tiền tệ và tỷ lệ việc làm Ở Đài Loan, Wang và Mei (1998) đã áp dụng mô hình ARIMA để dự đoán chỉ số giá xây dựng, trong khi Cheng, Hoang và Wu (2013) sử dụng phương pháp lai thông minh để ước lượng chỉ số này dựa trên dữ liệu kinh tế - xã hội 10 năm qua Tuy nhiên, phương pháp nghiên cứu này phụ thuộc vào dữ liệu đầu vào và quá trình huấn luyện, có thể dẫn đến dự đoán không chính xác do biến động bất thường Tại Mỹ, Shahandashti và Ashuri (2013) cũng đã xác định các chỉ số ảnh hưởng đến chỉ số giá xây dựng, bao gồm chỉ số giá tiêu dùng, tổng sản phẩm trong nước, giấy phép xây dựng, nhà ở bắt đầu, nguồn cung ứng tiền tệ, chỉ số giá sản xuất, giá dầu thô và mức độ việc làm trong ngành xây dựng.

PHƯƠNG PHÁP NGHIÊN CỨU

QUY TRÌNH NGHIÊN CỨU

Bảng 3.1: Sơ đồ nghiên cứu ĐẶT VẤN ĐỀ

Xác định các yếu tố ảnh hưởng đến CCI tại TPHCM

Thu thập dữ liệu các yếu tố ảnh hưởng chính đến CCI tại

Xây dựng mô hình dự đoán CCI bằng thuật toán KNN

Kết luận và kiến nghị

Bảng 3.2: Sơ đồ xác định các yếu tố ảnh hưởng đến chỉ số giá xây dựng

Tổng quan các vấn đề từ sách báo, tạp chí, internet, nghiên cứu trước đây Đưa ra danh sách sơ bộ các yếu tố ảnh hưởng đến CCI

Tham khảo ý kiến chuyên gia:

Sử dụng phương pháp phỏng vấn bán cấu trúc theo nhóm chuyên gia

Khi xây dựng mô hình, việc lựa chọn các yếu tố là rất quan trọng Điều này bao gồm việc tổng hợp ý kiến từ các chuyên gia và lựa chọn những yếu tố đã được họ đánh giá trong các buổi phỏng vấn.

Nghiên cứu này được thực hiện qua hai bước chính: đầu tiên là khảo sát ý kiến chuyên gia thông qua bảng câu hỏi, sau đó áp dụng phương pháp định lượng để dự báo chỉ số giá.

Phương pháp khảo sát bằng bảng câu hỏi bao gồm việc phỏng vấn các chuyên gia nhằm xác định các biến số chính ảnh hưởng đến chỉ số giá xây dựng tại Thành phố Hồ Chí Minh.

 Phương pháp định lượng: Ứng dụng một kỹ thuật Machine Learning để xây dựng mô hình dự đoán chỉ số giá.

PHƯƠNG PHÁP KHẢO SÁT BẢNG CÂU HỎI

Để khảo sát sơ bộ, các yếu tố được lựa chọn đã trải qua quá trình chọn lọc và tổng hợp từ nhiều nguồn tài liệu nghiên cứu, sách báo, tạp chí và internet trước đây Bên cạnh đó, một số yếu tố mới được bổ sung, đặc biệt là chỉ số giá xây dựng công trình dân dụng hiện tại tại TPHCM, được đánh giá là có ảnh hưởng đến Chỉ số CCI.

Một nhóm gồm 6 chuyên gia với kinh nghiệm phong phú trong các lĩnh vực như quản lý nhà nước về kinh tế xây dựng, vật liệu xây dựng, dự toán, thanh toán - quyết toán công trình và đấu thầu đã được mời tham gia khảo sát Phương pháp phỏng vấn bán cấu trúc được sử dụng để lựa chọn các yếu tố quan trọng.

- Bước 1: Tham khảo những nghiên cứu có liên quan về vấn đề nghiên cứu và phỏng vấn những chuyên gia có kinh nghiệm để rút ra các yếu tố

- Bước 2: Từ những yếu tố rút ra từ bước 1, thiết kế bảng câu hỏi đề thực hiện pilot test

- Bước 3: Tiến hành phát bảng câu hỏi thiết kế ở bước 2 cho những chuyên gia giàu kinh nghiệm

Bước 4 là thu thập số liệu lần đầu nhằm đánh giá và loại bỏ những yếu tố ít ảnh hưởng đến việc dự đoán chỉ số giá xây dựng, từ đó tạo cơ sở cho việc thiết kế bảng câu hỏi chính thức.

- Bước 5: Thực hiện thiết kế bảng câu hỏi chính thức, phát hành cho những chuyên gia có kinh nghiệm

- Bước 6: Thu thập dữ liệu và thực hiện phân tích thống kê mô tả

- Bước 7: Đưa ra các kết luận và khuyến nghị (nếu có)

Bảng câu hỏi là công cụ quan trọng trong việc thu thập dữ liệu cho nghiên cứu trong quản lý, kinh doanh và xã hội, giúp thu thập thông tin cần thiết từ các bên tham gia dự án trong thời gian quy định Tuy nhiên, chất lượng dữ liệu phụ thuộc vào người thiết kế bảng hỏi và đối tượng trả lời Vì vậy, thiết kế bảng câu hỏi, phương án tiếp cận đối tượng khảo sát và quản lý chất lượng dữ liệu là những yếu tố cần được chú ý để đảm bảo độ tin cậy và chất lượng dữ liệu thu thập.

Từng yếu tố được đánh giá mức độ quan trọng với thang đo 5 mức độ

Bảng 3.3: Thang đo mức độ quan trọng Điểm Mức độ quan trọng

5 Ảnh hưởng rất đáng kể

Mức độ tin cậy được sử dụng trong nghiên cứu này là 95%, vì các phân tích thống kê trong khoảng này được coi là chấp nhận được trong ngành xây dựng (Hale et al., 2009).

Phương pháp trị trung bình được áp dụng để đánh giá và so sánh mức độ quan trọng của các yếu tố ảnh hưởng đến chỉ số giá Phương pháp này dựa vào các mức đánh giá theo thang đo Likert 5 mức độ từ phản hồi của những người tham gia khảo sát Kết quả xếp hạng trị trung bình sẽ phản ánh tầm quan trọng của các yếu tố được đánh giá.

Dữ liệu về chỉ số giá xây dựng (CCI) tại TPHCM được công bố hàng tháng, quý và năm từ năm 2016 đến 2019 trên website của Sở Xây dựng Các chỉ số khác ảnh hưởng đến CCI được thu thập từ cơ sở dữ liệu của Cục thống kê TPHCM.

Chỉ số giá xây dựng công trình được phân loại theo 5 nhóm chính: dân dụng, giao thông, thủy lợi, công nghiệp và hạ tầng kỹ thuật Bài viết này tập trung vào chỉ số giá xây dựng công trình dân dụng tại TPHCM, nhằm xây dựng cơ sở dữ liệu cho mô hình dự đoán và làm kết quả đầu ra cho đề tài nghiên cứu.

Chỉ số giá xây dựng công trình dân dụng chọn làm gốc là chỉ số giá xây dựng tại thời điểm năm 2015, tương ứng 100%.

THUẬT TOÁN KNN (K-NEAREST NEIGHBOR)

Hình 3.1: Hình ảnh mô phỏng thuật toán KNN

K-nearest n neighbors n là n thuật n toán n học n máy n có n giám n sát, n đơn n giản n và n dễ ntriển n khai n Thường n được n dùng n trong n các n bài n toán n phân n loại n và n hồi n quy; n là n một ntrong nnhững nthuật ntoán nsupervised-learning nđơn n giản nnhất nvà nhiệu nquả ntrong nMachine n Learning n Khi n training, n thuật n toán n này n không n học n một n điều n gì n từ n dữ nliệu n training, n đây n cũng n là n lý n do n thuật n toán n này n được n xếp n vào n loại n lazy n learning n(máy nlười n học), nmọi ntính ntoán nđược n thực nhiện nkhi nnó ncần ndự nđoán n kết nquả ncủa ndữ n liệu n mới nK-nearest n neighbor n có n thể n áp n dụng n được n vào n cả n hai n loại n của n bài n toán nSupervised n learning n là n Classification n và n Regression Ở n đây n đề n tài n này n áp n dụng n KNN n Regression

Trong bài toán dự báo, đầu ra của một điểm dữ liệu sẽ được xác định dựa trên đầu ra của điểm dữ liệu gần nhất (K=1) hoặc là trung bình có trọng số của các đầu ra từ những điểm gần nhất Ngoài ra, đầu ra cũng có thể được tính toán dựa trên mối quan hệ giữa khoảng cách tới các điểm gần nhất.

KNN (K-Nearest Neighbors) là một thuật toán tìm kiếm đầu ra cho một điểm dữ liệu mới bằng cách dựa vào thông tin của K điểm dữ liệu gần nhất trong tập huấn luyện Thuật toán này không xem xét sự ảnh hưởng của các điểm dữ liệu nhiễu trong số các điểm gần nhất.

KNN nđược n áp ndụng ntrong nnghiên ncứu nnày nvì nnhững nlý ndo nsau nđây:

(i) n Thuật n toán n đơn n giản, n dễ n dàng n triển n khai

(ii) n Độ n phức n tạp n tính n toán n nhỏ

(iii) nXử n lý ntốt n với n tập n dữ n liệu n nhiễu

Thuật toán KNN dựa trên nguyên tắc rằng những dữ liệu tương tự sẽ gần nhau trong không gian Nhiệm vụ của chúng ta là tìm k điểm gần nhất với dữ liệu cần kiểm tra Việc tính khoảng cách giữa hai điểm có thể sử dụng nhiều công thức khác nhau, tùy thuộc vào từng trường hợp cụ thể Dưới đây là ba cách cơ bản để tính khoảng cách giữa hai điểm dữ liệu x và y có k thuộc tính.

Hình 3.2: Công thức tính khoảng cách giữa các điểm dữ liệu

Một n số n phương n pháp n phổ n biến n để n tính n khoảng n cách n giữa n đối n tượng n cần nphân n lớp n với n tất n cả n các n đối n tượng n trong n training n data:

- Khoảng n cách nEuclidean: nKhoảng n cách ngiữa n 2 nđiểm n là nchiều n dài ncủa nđường n thẳng n nối n chúng

Khoảng cách Manhattan giữa hai điểm là tổng chiều dài của tất cả các đoạn nối hai điểm đó theo trục đứng và trục ngang, tính theo một chiều hướng nhất định.

- Khoảng n cách n Minkowski: n Là n sự n tổng n quát n của n cả n khoảng n cách n Euclidean nvà n Manhattan

- Khoảng n cách n Hamming: n Tính n khoảng n cách n giữa n các n vector n nhị n phân n Đo nsự n khác n biệt n giữa n hai n trạng n thái/hai n đối n tượng n

Hình 3.3: Quy n trình n thực n hiện n của n thuật n toán n KNN

Trong bài toán hồi quy, chúng ta có thể áp dụng phương pháp KNN để ước lượng giá trị đầu ra dựa trên các điểm dữ liệu và khoảng cách giữa chúng Cách thức ước lượng này có thể thay đổi tùy thuộc vào từng bài toán cụ thể.

Hình 3.4: Đồ thị so sánh giữa kết quả dự đoán và dữ liệu đầu vào n n n nKNN n cho n bài n toán n Regression n (Nguồn: n Nearest n Neighbors n regression)

+ nĐộ n phức n tạp n tính ntoán ncủa n quá ntrình ntraining nlà nbằng n 0

+ n Việc n dự n đoán n kết n quả n của n dữ n liệu n mới n rất n đơn n giản

+ n Không n cần n giả n sử n gì n về n phân n phối n của n các n class

+ n KNN n rất n nhạy n cảm n với n nhiễu n khi n K n nhỏ

KNN là một thuật toán mà mọi tính toán chủ yếu diễn ra trong giai đoạn kiểm tra Việc tính khoảng cách đến từng điểm dữ liệu trong tập huấn luyện tiêu tốn nhiều thời gian, đặc biệt khi làm việc với các cơ sở dữ liệu có nhiều chiều và số lượng lớn điểm dữ liệu Khi giá trị K tăng, độ phức tạp của thuật toán cũng gia tăng Thêm vào đó, việc lưu trữ toàn bộ dữ liệu trong bộ nhớ cũng ảnh hưởng đến hiệu suất của KNN.

3.3.4 Sai số toàn phương trung bình

Trong thuật toán KNN, sau khi chạy mô hình, chúng ta cần xem xét chỉ số sai số toàn phương trung bình (MSE) để đánh giá mức độ sai số trung bình của kết quả MSE giúp xác định giá trị K phù hợp, từ đó tối ưu hóa hiệu suất của mô hình.

Công thức tính MSE 3.3.5 Ví dụ minh họa

Trong một ví dụ đơn giản, chúng ta xem xét bảng dữ liệu chứa chiều cao, tuổi và cân nặng của 10 người Trong bảng này, giá trị cân nặng của ID11 bị thiếu, do đó, nhiệm vụ của chúng ta là dự đoán cân nặng của người này dựa trên chiều cao và tuổi của họ.

Lưu ý rằng dữ liệu trong bảng này chỉ mang tính chất minh họa và không phản ánh các giá trị thực tế Mục đích của nó là để giải thích rõ ràng khái niệm đang được trình bày.

Bảng 3.4: Bảng dữ liệu ví dụ minh họa Để hiểu rõ hơn về điều này, dưới đây là biểu đồ chiều cao so với tuổi từ bảng trên:

Hình 3.5: Biểu đồ ví dụ minh họa

Biểu đồ trên thể hiện mối quan hệ giữa chiều cao của một người (tính bằng feet) và tuổi tác (tính bằng năm), với trục y biểu diễn chiều cao và trục x biểu diễn tuổi Các điểm trên biểu đồ được đánh số theo giá trị ID, trong đó điểm màu vàng (ID 11) là điểm kiểm tra quan trọng của chúng tôi.

Để xác định trọng lượng của ID11, ta nhận thấy rằng ID11 gần với điểm 5 và 1 hơn, do đó trọng lượng của nó có thể tương tự như trọng lượng của hai ID này, nằm trong khoảng 72-77 kg Đây chính là bản chất của thuật toán KNN.

Thuật toán KNN có khả năng áp dụng cho cả bài toán phân loại và hồi quy, dựa vào 'tính năng tương tự' để dự đoán giá trị cho các điểm dữ liệu mới Cụ thể, điểm dữ liệu mới sẽ được gán giá trị dựa trên mức độ tương đồng với các điểm trong tập huấn luyện Ví dụ, ID11 có chiều cao và tuổi tương tự như ID1 và ID5, do đó, cân nặng của ID11 cũng sẽ xấp xỉ giống nhau.

Khi đối mặt với một vấn đề phân loại, chúng ta sẽ chọn chế độ làm dự đoán cuối cùng Trong tình huống này, hai giá trị trọng số được xem xét là 72 và 77.

Giá trị cuối cùng được tính bằng Trung bình của các giá trị được lấy để làm dự đoán cuối cùng

Dưới đây là giải thích từng bước về thuật toán:

1 Đầu tiên, khoảng cách giữa điểm mới và mỗi điểm rèn luyện được tính

Hình 3.6: Biểu đồ ví dụ minh họa

2 K điểm dữ liệu gần nhất được chọn (dựa trên khoảng cách) Trong ví dụ này, các điểm 1, 5, 6 sẽ được chọn nếu giá trị của k là 3 Ta sẽ tìm hiểu sâu hơn về phương pháp chọn đúng giá trị của k trong phần sau của đề tài nghiên cứu này

Hình 3.7: Biểu đồ ví dụ minh họa

3 Trung bình của các điểm dữ liệu này là dự đoán cuối cùng cho điểm mới Ở đây, chúng ta có trọng lượng ID11 = (77 + 72 + 60) / 3 = 69,66 kg

- Trên đây là một ví dụ minh họa đơn giản, dễ hiểu nhưng thể hiện được ý nghĩa của thuật toán KNN mà ta sử dụng trong đề tài này.

XÂY DỰNG MÔ HÌNH

XÁC ĐỊNH DỮ LIỆU ĐẦU VÀO

4.1.1 Tổng quan các yếu tố ảnh hưởng CCI

Dựa trên tổng quan đã trình bày trước đó và các nghiên cứu về điều kiện thực tế tại TPHCM, chúng tôi đề xuất một số yếu tố quan trọng như sau:

Bảng 4.1 Các yếu tố ảnh hưởng đến chỉ số giá xây dựng

STT Các yếu tố ảnh hưởng đến chỉ số giá xây dựng

1 Chỉ số giá tiêu dùng (CPI)

3 Tổng kim ngạch xuất khẩu

4 Tổng kim ngạch nhập khẩu

5 Tổng thu nhập quốc dân (GDP)

6 Giá đô la Mỹ (USD)

7 Giá dầu thô thế giới

8 Giá trị sản xuất công nghiệp (SXCN)

10 Tổng nguồn vốn (ngân sách) đầu tư XD

11 Chỉ số giá chứng khoán (VN-Index)

15 Vị trí địa lý khu vực xây dựng

4.1.2 Khảo sát ý kiến chuyên gia và chọn ra các yếu tố chính

Sau khi xác định các yếu tố ảnh hưởng đến chỉ số giá xây dựng công trình dân dụng, chúng ta sẽ tiến hành phỏng vấn nhóm chuyên gia trong lĩnh vực quản lý xây dựng để thu thập thêm thông tin và ý kiến chuyên sâu.

Nghiên cứu này tập trung vào việc xác định và lựa chọn các yếu tố ảnh hưởng đến Chỉ số Niềm tin Người tiêu dùng (CCI) nhằm xây dựng mô hình dự đoán biến động của CCI Để thực hiện khảo sát, phương pháp phỏng vấn bán cấu trúc đã được lựa chọn.

Kết quả khảo sát như sau:

Bảng 4.2 Kết quả khảo sát

STT YẾU TỐ ĐIỂM TRUNG BÌNH XẾP HẠNG

1 Chỉ số giá tiêu dùng (CPI) 4.8 1

2 Lãi suất cơ bản (BLR) 3.6 5

3 Tổng kim ngạch xuất khẩu 3.9 4

4 Tổng kim ngạch nhập khẩu 4.1 3

5 Tổng thu nhập quốc dân (GDP) 2.2

6 Giá đô la Mỹ (USD) 3 7

7 Giá dầu thô thế giới 2 12

8 Giá trị sản xuất công nghiệp

10 Tổng nguồn vốn (ngân sách) đầu tư XD

11 Chỉ số giá chứng khoán (VN-

15 Vị trí địa lý khu vực xây dựng 2.4 10

4.1.3 Chọn các yếu tố chính

Dựa trên kết quả khảo sát và các điều kiện thực tế tại TPHCM, những yếu tố có điểm trung bình từ 3 trở lên đã được chọn làm dữ liệu đầu vào cho mô hình.

Dữ liệu của các yếu tố cho mô hình được thu thập từ Sở Xây dựng TPHCM và Cục thống ke TPHCM từ năm 2016 đến năm 2019

Bảng 4.3 Dữ liệu Các yếu tố đầu vào cho mô hình

BIẾN GIẢI THÍCH BIẾN NHÓM CỦA BIẾN NGUỒN DỮ LIỆU IP1 Giá trị sản xuất công nghiệp

Kinh tế Cục thống kê

IP2 Giá trị đầu tư xây dựng (nguồn vốn nhà nước)

Kinh tế Cục thống kê

IP3 Chỉ số giá tiêu dùng

Kinh tế Cục thống kê

IP4 Chỉ số giá Đôla Mỹ

Tài chính Cục thống kê

IP5 Tổng kim ngạch xuất khẩu

Kinh tế Cục thống kê

IP6 Tổng kim ngạch nhập khẩu

Kinh tế Cục thống kê

IP7 Chỉ số giá chứng khoán VN-Index

Chứng khoán Cục thống kê

OUTPUT Chỉ số giá xây dựng công trình dân dụng tại TPHCM

Thị trường xây dựng Sở Xây dựng

Bảng 4.4 Bảng dữ liệu các yếu tố đầu vào cho mô hình

DỮ LIỆU THỐNG KÊ STT Input 1

DỮ LIỆU THỐNG KÊ STT Input 1

4.1.4 Sự tương quan giữa biến đầu vào và CCI

Trong quá trình xây dựng mô hình, hệ số tương quan (r) được sử dụng để xác định mức độ tương quan giữa các biến đầu vào và CCI, nhằm mục đích lựa chọn sơ bộ cho các biến đầu vào Nếu giá trị |r| cao, điều này chỉ ra một mối tương quan cao giữa hai biến số và ngược lại Hệ số này được xác định theo công thức cụ thể.

Hệ số tương quan Pearson (r) là một chỉ số thống kê đo lường mối quan hệ giữa hai biến Trong đó, n là số điểm dữ liệu, Xi là giá trị của biến đầu vào, và Yi là giá trị của biến đầu ra Mean của dữ liệu biến đầu vào được ký hiệu là X, trong khi mean của dữ liệu biến đầu ra là Y Độ lệch chuẩn của X được gọi là Sx, và độ lệch chuẩn của Y là Sy.

Bảng n 4.5: n Thống n kê n hệ n số n tương n quan n Pearson n giữa n các n biến n đầu n vào n với n CCI

Hệ n số n tương n quan n Pearson n (r)

3 Chỉ nsố ngiá ntiêu ndùng n(CPI) 0.8

4 Chỉ n số n giá n Đô n la n (USD) 0.22

5 Tổng n kim n ngạch n xuất n khẩu n (EXP) 0.32

6 Tổng n kim n ngạch n nhập n khẩu n (IMP) 0.23

Chỉ số giá tiêu dùng (CPI) có mối tương quan chặt chẽ với Chỉ số niềm tin người tiêu dùng (CCI) với hệ số r = 0.8 Điều này hợp lý vì sự biến động giá cả trên thị trường ảnh hưởng trực tiếp đến giá thành sản phẩm xây dựng, dẫn đến sự thay đổi tương ứng của CCI, thể hiện mối quan hệ thuận giữa hai chỉ số này.

Giá trị sản xuất công nghiệp (SXCN) là chỉ tiêu tổng hợp phản ánh kết quả sản xuất kinh doanh của ngành công nghiệp trong một thời kỳ nhất định Ngành xây dựng có mối tương quan chặt chẽ với kết quả sản xuất kinh doanh này, cho thấy sự liên kết giữa hai yếu tố Hệ số tương quan giữa SXCN và CPI khá cao (r=0.64), điều này phần nào phản ánh đúng thực tế.

Giá trị đầu tư xây dựng (ĐTXD) phản ánh chi phí thực hiện các dự án đầu tư xây dựng cơ bản, bao gồm chi phí mua sắm tài sản cố định, xây dựng mới, sửa chữa, cải tạo, mở rộng và trang bị lại kỹ thuật công trình Nguồn vốn cho ĐTXD được lấy từ ngân sách nhà nước Chỉ số giá xây dựng công trình (CCI) phản ánh biến động giá trong ngành xây dựng, trong đó chỉ một phần là liên quan đến xây dựng cơ bản Do đó, hệ số tương quan (r) giữa yếu tố ĐTXD và CCI tương đối thấp (r=0.26), điều này dễ hiểu trong bối cảnh hiện tại.

Mối quan hệ giữa chỉ số CCI và giá trị đồng Đôla Mỹ (DR) cho thấy sự tương quan thuận, mặc dù mức độ tương quan này khá thấp (r=0.22) Điều này có thể liên quan đến việc quy đổi giá trị giữa đồng Đôla Mỹ và VN đồng tại các thời điểm khác nhau, dẫn đến sự chênh lệch Ngoài ra, yếu tố từ nước ngoài cũng có thể ảnh hưởng đến khả năng này.

Tổng kim ngạch xuất khẩu (EXP) là chỉ tiêu quan trọng phản ánh mức độ tăng trưởng kinh tế, đồng thời liên quan đến quá trình xây dựng cơ sở hạ tầng phục vụ sản xuất và dòng tiền thu về, góp phần thúc đẩy ngành xây dựng tại địa phương Mối tương quan giữa EXP và CPI là rõ ràng, tuy nhiên, dữ liệu thống kê có thể chưa đầy đủ hoặc quá trình xây dựng chỉ phục vụ cho sản xuất công nghiệp, dẫn đến hệ số tương quan chỉ dừng lại ở mức độ thấp (r=0.32).

Ngành công nghiệp xây dựng phụ thuộc vào thị trường quốc tế thông qua việc nhập khẩu máy móc và trang thiết bị từ nước ngoài, thể hiện mối tương quan giữa tổng kim ngạch nhập khẩu (IMP) và chỉ số xây dựng công nghiệp (CCI) Tuy nhiên, sự phát triển của ngành sản xuất trong nước đã thúc đẩy quá trình nội địa hóa cho ngành xây dựng Hơn nữa, một số mặt hàng nhập khẩu không đáp ứng nhu cầu của ngành xây dựng, dẫn đến hệ số tương quan giữa IMP và CCI ở mức thấp (r = 0.23).

Chỉ số VN-Index có mối tương quan thấp nhất với CCI (r=0.02), cho thấy rằng biến động của thị trường chứng khoán hầu như không tác động đến CCI Số lượng các công ty niêm yết trên sàn giao dịch chứng khoán Thành phố Hồ Chí Minh cũng còn khá ít Tuy nhiên, để xây dựng mô hình dự báo CCI phản ánh đầy đủ những biến động của tình hình kinh tế - xã hội, cần sử dụng dữ liệu của tất cả 7 yếu tố đã nêu.

THỰC THI BÀI TOÁN BẰNG PYTHON

Sau khi hoàn tất việc xử lý và đánh giá dữ liệu đầu vào, bước tiếp theo là xây dựng mô hình dự đoán bằng ngôn ngữ Python Để thực hiện điều này, chúng tôi sử dụng phần mềm PyCharmCE để chạy các thuật toán cần thiết.

Dựa trên bộ dữ liệu lịch sử của 7 chỉ tiêu kinh tế xã hội và chỉ số giá xây dựng công trình dân dụng từ tháng 1/2016 đến tháng 12/2019 tại Thành phố Hồ Chí Minh, chúng tôi chia nội dung thành 2 phần rõ ràng.

- Phần 1: Bộ dữ liệu dùng cho việc huấn luyện mô hình là toàn bộ bộ dữ liệu ta thu thập ở trên từ tháng 1/2016 đến tháng 12/2019

Bảng 4.6 Bộ dữ liệu huấn luyện cho mô hình

DỮ LIỆU THỐNG KÊ STT Input 1

DỮ LIỆU THỐNG KÊ STT Input 1

- Phần 2: 12 bộ dữ liệu của năm 2019 (từ tháng 1/2019 đến 12/2019) sẽ dùng cho kiểm tra đánh giá mô hình

Bảng 4.7 Bộ dữ liệu kiểm tra và đánh giá mô hình

DỮ LIỆU THỐNG KÊ STT Input 1

- Ở đây, đề tài nay sử dụng ngôn ngữ lập trình Python để thực thi bài toán, và sử dụng thư viện sklearn

- Thiết lập tập dữ liệu huấn luyện (training data) từ bảng số liệu thu thập được ở trên, nhập vào phần mềm PyCharm CE

Cụ thể Bảng số liệu sau:

Các biến từ Input 1 đến Input 7 được sắp xếp theo thứ tự từ trái sang phải, trong khi cột cuối cùng phản ánh kết quả đầu ra CCI.

Hình 4.3: Dữ liệu đầu vào

- Tiến hành viết code cho thuật toán KNN như sau:

+ Thuật toán sử dụng 75% data để xây dụng mô hình và huấn luyện, 25% data sẽ sử dụng cho việc test

#doc file csv import pandas from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsRegressor from sklearn.metrics import mean_squared_error import numpy as np

# tien su ly du lieu

To process a CSV file using pandas, first read the data with `pandas.read_csv('Book1.csv', sep=';', header=None)` Convert the data to a NumPy array using `data.to_numpy()`, and extract a subset of the data from columns 1 to 8 with `data.iloc[:, 1:8]` The labels can be obtained from column 8 using `data.iloc[:, 8]` Ensure the subset of data is in float format by applying `sub_data.astype(float)`, and convert it back to a NumPy array Finally, convert the labels to float and then to a NumPy array with `nhan.astype(float)` and `nhan.to_numpy()`.

To evaluate the performance of a K-Nearest Neighbors regression model, the dataset is split into training and testing sets using a test size of 25% The model is then trained with the training data, and predictions are made on the test set The results of the predictions are displayed, followed by the calculation of the Mean Squared Error (MSE) to assess the model's accuracy.

Đoạn mã trên hướng dẫn cách dự đoán kết quả khi có dữ liệu mới Người dùng sẽ nhập vào bảy giá trị số thực thông qua các biến inp1 đến inp7 Các giá trị này được lưu trữ trong một mảng numpy và sau đó được sử dụng để dự đoán kết quả bằng phương pháp hàng xóm gần nhất (KNN) Kết quả dự đoán sẽ được in ra màn hình.

#doc file csv import pandas from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsRegressor from sklearn.metrics import mean_squared_error import numpy as np

# tien su ly du lieu

To process data from a CSV file using pandas, first, read the file with the specified separator and no header Convert the data into a NumPy array and extract a subset of columns from the second to the eighth The labels are obtained from the ninth column and converted to float, while the subset of data is also cast to float before being transformed into a NumPy array Finally, the labels are converted into a NumPy array for further analysis.

In this article, we demonstrate the process of training a K-Neighbors Regressor using the `train_test_split` function to divide the dataset into training and testing sets, with 25% of the data reserved for testing We initialize the model with a specified number of neighbors and fit it to the training data After making predictions on the test set, we evaluate the model's performance by calculating the Mean Squared Error (MSE) to assess the accuracy of our predictions.

Đoạn mã trên thực hiện dự đoán khi có dữ liệu mới bằng cách yêu cầu người dùng nhập vào bảy giá trị đầu vào Sau khi nhận được các giá trị này, chúng được lưu trữ trong một mảng NumPy Cuối cùng, kết quả dự đoán được in ra bằng cách sử dụng phương thức `predict` của đối tượng `neigh`.

- Sau khi đã thiếp lập xong, ta chạy mô hình và xuất ra kết quả:

(venv) nghiemtran@MacBook-Pro-cua-Chu0i demo % python main.py ket qua du doan du lieu test [ 99.36 98.746 98.935 98.935 100.227 99.418 99.634 100.048 100.227

MSE 3.8193494166666526 thu test 1 ban ghi

Nhap vao input1 - Sau khi chạy thuật toán, ta thu được kết quả dự đoán dữ liệu test là dãy gồm

12 số, tương ứng 25% dữ liệu test, ứng với chỉ số CCI mới được dự đoán cho năm

2019, từ đó so sánh kết quả này với chỉ số CCI thực tế đã được Sở Xây dựng TP.HCM công bố

- Tiến hành, tính toán độ lệch và sai số, từ đó đánh giá và nhận xét mô hình

- Ở đây ta thiết lập mô hình và nhập số K là số nguyên từ 1 – 15 để so sánh kết quả Kết quả tối ưu ứng với K = 10

Ta có được bảng sau đây:

Hệ số K MSE (Sai số bình phương trung bình)

Bảng 4.8: Kết quả MSE với K tương ứng

Hình 4.8: Biểu đồ tương quan giữa K và MSE

Khi K = 1, giá trị MSE đạt mức cao, nhưng khi tăng K, giá trị MSE giảm dần Cụ thể, tại K = 10, MSE đạt 3.819 và tiếp tục tăng khi K tăng Do đó, K = 10 được xác định là giá trị tối ưu trong trường hợp này.

Biểu đồ tương quan giữa K và MSE

Bảng 4.9: Kết quả của mô hình dự đoán chỉ số giá xây dựng

CHỈ SỐ GIÁ ĐÁNH GIÁ MÔ HÌNH THỰC TẾ DỰ ĐOÁN ĐỘ LỆCH SAI SỐ

Sai số dự đoán của mô hình so với kết quả thực tế trung bình là 1,373% (sai số cao nhất 2,3% và sai số thấp nhất 0,385%)

Mô hình dự đoán chỉ số giá xây dựng công trình dân dụng tại TPHCM cho thấy độ lệch và sai số dưới 1,5% so với số liệu thực tế từ Sở Xây dựng TPHCM, cho thấy tính chính xác cao của mô hình Các yếu tố ảnh hưởng đến chỉ số giá xây dựng đầu vào cũng khá sát với thực tế Phương pháp Machine Learning, đặc biệt là thuật toán KNN, cho thấy khả năng ứng dụng hiệu quả trong việc dự đoán các chỉ số xây dựng khác trong tương lai.

ĐỀ XUẤT CÁCH TÍNH TOÁN CHI PHÍ DỰ PHÒNG

Để tính toán chi phí dự phòng cho yếu tố trượt giá trong tổng mức đầu tư, cần xác định chỉ số giá xây dựng bằng cách tính bình quân các chỉ số giá xây dựng của ít nhất 3 năm gần nhất Việc này phải phù hợp với loại công trình và khu vực xây dựng, đồng thời cần xem xét khả năng biến động của các yếu tố chi phí và giá cả trong khu vực cũng như trên thị trường quốc tế.

Chi phí dự phòng cho yếu tố trượt giá được tính theo thời gian xây dựng công trình (tháng, quý, năm) và dựa vào mức giá xây dựng phù hợp với loại công trình cũng như khu vực xây dựng Công thức xác định chi phí này cần được áp dụng một cách chính xác để đảm bảo tính hợp lý và hiệu quả trong quản lý ngân sách.

- n T: n độ n dài n thời n gian n thực n hiện n dự n án n đầu n tư n xây n dựng, n T>1 n (năm);

- nt: nsố nthứ ntự nnăm n phân nbổ nvốn ntheo nkế nhoạch nthực nhiện ndự nán, nt n= n1÷T;

- n Vt: n vốn n đầu n tư n trước n dự n phòng n theo n kế n hoạch n thực n hiện n trong n năm n thứ nt;

- nLVayt: nchi nphí nlãi nvay ncủa nvốn nđầu n tư n thực nhiện ntheo nkế nhoạch ntrong nnăm nthứ n t

Chỉ số IXDCTbq là chỉ số giá xây dựng được sử dụng để dự phòng yếu tố trượt giá, được xác định bằng cách tính bình quân các chỉ số giá xây dựng liên hoàn trong vòng tối thiểu 3 năm gần nhất Thời điểm tính toán không bao gồm các thời điểm có biến động bất thường về giá nguyên liệu, nhiên liệu và vật liệu xây dựng.

T: n Số n năm n (năm n gần n nhất n so n với n thời n Điểm n tính n toán n sử n dụng n để n xác nđịnh n IXDCTbq; n T≥3;

In: n Chỉ n số n giá n xây n dựng n năm n thứ n n n được n lựa n chọn;

Chỉ số giá xây dựng năm n+1 phản ánh mức biến động bình quân của giá xây dựng so với năm trước đó Mức độ trượt giá bình quân được xác định dựa trên dự báo xu hướng biến động của các yếu tố chi phí giá cả trong khu vực và quốc tế, thông qua kinh nghiệm chuyên gia.

Vấn đề hiện tại liên quan đến chỉ số ∆I XDCT, tức là mức chênh lệch giữa trượt giá thực tế và mức trượt giá bình quân đã tính toán Thông thường, chỉ số này được mặc định là bằng không hoặc thiếu căn cứ cụ thể, chỉ dựa vào cảm tính Điều này sẽ ảnh hưởng đáng kể đến chi phí thực tế được tính toán.

Ví dụ về cách tính toán chi phí dự phòng trượt giá hiện nay sẽ được thực hiện và sau đó so sánh với kết quả từ mô hình dự báo.

Dự toán cho công trình nhà cao tầng tại Quận 2, TPHCM ước tính khoảng 243,3 tỷ đồng, với thời gian thực hiện đầu tư xây dựng dự kiến khoảng 2 năm, từ 2019 đến 2020.

- n Chi n phí n xây n dựng: n 200 n tỷ n đồng;

- nChi nphí nthiết nbị: n20 ntỷ nđồng;

- n Chi n phí n quản n lý n dự n án: n 3,3 n tỷ n đồng;

- n Chi n phí n tư n vấn: n 10 n tỷ n đồng;

- n Chi n phí n khác: n 10 n tỷ n đồng, n trong n đó n lãy n vay n là n 3 n tỷ n đồng n (trong n vòng n 2 nnăm)

Tổng mức đầu tư không bao gồm dự phòng phí là 243,3 tỷ đồng Bài toán này chỉ tập trung vào phân tích yếu tố dự phòng trượt giá, trong khi yếu tố dự phòng theo khối lượng đã được quy định cụ thể Chúng ta sử dụng công thức tính theo Thông tư 06/2016/TT-BXD.

Dự phòng trượt giá tính theo công thức:

G Ở đây giả sử kế hoạch vốn năm thứ 1 là 40% (V1= 97,32 tỷ đồng); năm thứ 2 là 60% (V2 = 145,98 tỷ đồng)

- Cách 1: Tính thông thường theo Thông tư 06/2016/TT-BXD

Bảng 4.10: Phân bổ vốn đầu tư theo tiến độ thực hiện

STT Nội dung Cách tính Năm 2019 Năm 2020

1 Mức phân bổ vốn từng năm (%) Tạm tính 40% 60%

2 Vốn phân bổ Vt (tỷ đồng) V*(1) 97.320.000.000 145.980.000.000

Mức vốn vay tín dụng hàng năm trên tổng số vốn (%)

4 Lãi vay ngân hàng Phân bổ 1.200.000.000 1.800.000.000

5 Vốn phân bổ tính DP trượt giá (Vt – Lvayt) (5) = (2) – (4) 96.120.000.000 144.180.000.000

Bảng 4.11: Tính mức độ trượt giá bình quân

Chỉ số giá xây dựng

2018 Chỉ số giá xây dựng công trình dân dụng công trình nhà cao tầng do Sở Xây dựng TPHCM công bố

Hệ số trượt giá (chỉ số giá năm đó chia cho năm liền trước) 0,966 1,024 1,017

Mức độ trượt giá trung bình hàng năm IXDCTbq được xác định là 1,0028 Trong bài toán này, giả định rằng mức chênh lệch giữa trượt giá thực tế và trượt giá bình quân đã tính toán là 0% mỗi năm, do chưa có căn cứ cụ thể để lựa chọn con số chính xác.

Bảng 4.12: Tính chi phí dự phòng theo yếu tố trượt giá

Tiến độ thực hiện (năm)

Chi phí thực hiện dự án theo tiến độ chưa có trượt giá

Kết quả cách tính chi phí dự phòng trượt giá theo TT BXD: 1.720.821.000

- Cách 2: Tính chi phí dự phòng dựa vào kết quả từ mô hình

Để tính chi phí dự phòng do yếu tố trượt giá, chúng ta sẽ sử dụng kết quả từ mô hình dự đoán chỉ số giá xây dựng trong giai đoạn 2019 – 2020, như đã trình bày ở phần trước.

Bảng 4.13: Dữ liệu đầu vào cho mô hình dự đoán chỉ số giá xây dựng theo từng năm

DỮ LIỆU THỐNG KÊ STT Input 1

5 2019 98,32 101,3 100,36 100,00 97,0 96,0 155,26 101,97 Đưa dữ liệu vào mô hình, sau đó tiến hành chạy mô hình và kết quả thu được như sau:

Mô hình được xây dựng nhằm dự đoán chỉ số giá xây dựng trong giai đoạn 6 năm (2014 - 2020), nhưng chỉ sử dụng kết quả của năm 2019 và 2020 cho các phép tính.

Công trình dự kiến thi công trong 2 năm (2019-2020) nên năm gốc để tính toán dự phòng phí theo yếu tố trượt giá sẽ là năm 2018

Bảng 4.14: Tính mức độ trượt giá bình quân từ kết quả của mô hình

Bảng 4.15: Chi phí dự phòng cho yếu tố trượt giá (theo kết quả từ mô hình)

Tiến độ thực hiện (năm)

Chi phí thực hiện dự án theo tiến độ chưa có trượt giá

Kết quả cách tính chi phí dự phòng trượt giá theo mô hình: 4.113.000.750

Chỉ số giá xây dựng

2020 Chỉ số giá xây dựng công trình dân dụng công trình nhà cao tầng do Sở

Xây dựng TPHCM công bố

Hệ số trượt giá (chỉ số giá năm đó chia cho năm liền trước) 1,017 1,011 1,006

Mức độ trượt giá trung bình hàng năm IXDCTbq

Bảng 4.16: Kết quả chi phí dự phòng tính theo các cách khác nhau

Cách tính Năm 2019 Năm 2020 Tổng cộng Thông tư 06/2016/TT-BXD 271.936.000 1.448.885.000 1.720.821.000

Kết quả tính toán chi phí dự phòng dựa trên mô hình và hướng dẫn của Bộ Xây dựng cho thấy có sự chênh lệch đáng kể Sự chênh lệch này xuất phát từ việc mức độ trượt giá hàng năm không tính đến các yếu tố biến động của chi phí và giá cả trong khu vực cũng như quốc tế Điều này dẫn đến việc so sánh với mức độ trượt giá bình quân hàng năm không chính xác.

Ngày đăng: 12/01/2022, 23:48

HÌNH ẢNH LIÊN QUAN

Hình 2.1: MNIST: bộ cơ sở dữ liệu của chữ số viết tay. - Nghiên cứu ứng dụng machine learning trong dự đoán chỉ số giá xây dựng công trình dân dụng tại thành phố hồ chí minh
Hình 2.1 MNIST: bộ cơ sở dữ liệu của chữ số viết tay (Trang 19)
Bảng 3.1: Sơ đồ nghiên cứu - Nghiên cứu ứng dụng machine learning trong dự đoán chỉ số giá xây dựng công trình dân dụng tại thành phố hồ chí minh
Bảng 3.1 Sơ đồ nghiên cứu (Trang 34)
Bảng 3.2: Sơ đồ xác định các yếu tố ảnh hưởng đến chỉ số giá xây dựng - Nghiên cứu ứng dụng machine learning trong dự đoán chỉ số giá xây dựng công trình dân dụng tại thành phố hồ chí minh
Bảng 3.2 Sơ đồ xác định các yếu tố ảnh hưởng đến chỉ số giá xây dựng (Trang 35)
Hình 3.1: Hình ảnh mô phỏng thuật toán KNN - Nghiên cứu ứng dụng machine learning trong dự đoán chỉ số giá xây dựng công trình dân dụng tại thành phố hồ chí minh
Hình 3.1 Hình ảnh mô phỏng thuật toán KNN (Trang 39)
Hình 3.2: Công thức tính khoảng cách giữa các điểm dữ liệu - Nghiên cứu ứng dụng machine learning trong dự đoán chỉ số giá xây dựng công trình dân dụng tại thành phố hồ chí minh
Hình 3.2 Công thức tính khoảng cách giữa các điểm dữ liệu (Trang 41)
Hình 3.3: Quy  n trình  n thực  n hiện  n của  n thuật  n toán  n KNN - Nghiên cứu ứng dụng machine learning trong dự đoán chỉ số giá xây dựng công trình dân dụng tại thành phố hồ chí minh
Hình 3.3 Quy n trình n thực n hiện n của n thuật n toán n KNN (Trang 42)
Hình 3.4: Đồ thị so sánh giữa kết quả dự đoán và dữ liệu đầu vào - Nghiên cứu ứng dụng machine learning trong dự đoán chỉ số giá xây dựng công trình dân dụng tại thành phố hồ chí minh
Hình 3.4 Đồ thị so sánh giữa kết quả dự đoán và dữ liệu đầu vào (Trang 43)
Bảng 3.4: Bảng dữ liệu ví dụ minh họa - Nghiên cứu ứng dụng machine learning trong dự đoán chỉ số giá xây dựng công trình dân dụng tại thành phố hồ chí minh
Bảng 3.4 Bảng dữ liệu ví dụ minh họa (Trang 45)
Hình 3.5: Biểu đồ ví dụ minh họa - Nghiên cứu ứng dụng machine learning trong dự đoán chỉ số giá xây dựng công trình dân dụng tại thành phố hồ chí minh
Hình 3.5 Biểu đồ ví dụ minh họa (Trang 45)
Hình 3.7: Biểu đồ ví dụ minh họa - Nghiên cứu ứng dụng machine learning trong dự đoán chỉ số giá xây dựng công trình dân dụng tại thành phố hồ chí minh
Hình 3.7 Biểu đồ ví dụ minh họa (Trang 48)
Bảng 4.1. Các yếu tố ảnh hưởng đến chỉ số giá xây dựng - Nghiên cứu ứng dụng machine learning trong dự đoán chỉ số giá xây dựng công trình dân dụng tại thành phố hồ chí minh
Bảng 4.1. Các yếu tố ảnh hưởng đến chỉ số giá xây dựng (Trang 49)
Bảng 4.4. Bảng dữ liệu các yếu tố đầu vào cho mô hình - Nghiên cứu ứng dụng machine learning trong dự đoán chỉ số giá xây dựng công trình dân dụng tại thành phố hồ chí minh
Bảng 4.4. Bảng dữ liệu các yếu tố đầu vào cho mô hình (Trang 53)
Hình 4.1: Màn hình code - Nghiên cứu ứng dụng machine learning trong dự đoán chỉ số giá xây dựng công trình dân dụng tại thành phố hồ chí minh
Hình 4.1 Màn hình code (Trang 62)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w