KIẾN THỨC NỀN TẢNG
Tổng quan về chứng khoán và thị trường chứng khoán
2.1.1.1 Khái niệm về chứng khoán
Chứng khoán là công cụ huy động vốn trung và dài hạn, bao gồm các giấy tờ có giá có thể chuyển nhượng và xác nhận quyền sở hữu cũng như quan hệ vay nợ giữa người nắm giữ và tổ chức phát hành Mỗi loại chứng khoán thường có những tính chất riêng biệt.
Tính thanh khoản của chứng khoán là khả năng chuyển đổi nhanh chóng giữa chứng khoán và tiền mặt Nó được thể hiện qua mức độ mua bán và trao đổi của chứng khoán trên thị trường.
Tính sinh lời của nhà đầu tư chủ yếu đến từ việc tăng giá chứng khoán trên thị trường cũng như các khoản tiền lãi được trả hàng năm.
Rủi ro là đặc điểm cốt lõi của chứng khoán, thể hiện qua việc giá trị của chúng có thể giảm hoặc thậm chí mất hoàn toàn trong quá trình giao dịch mua bán.
Cổ phiếu là loại chứng khoán xác nhận quyền sở hữu và lợi ích hợp pháp đối với thu nhập và tài sản của công ty cổ phần, được chia thành nhiều phần nhỏ gọi là cổ phần Người mua cổ phần được gọi là cổ đông, và cổ phiếu có thể được phát hành dưới dạng chứng chỉ vật chất hoặc bút toán ghi sổ Chỉ công ty cổ phần mới có cổ phiếu, với giá trị ban đầu ghi trên cổ phiếu là mệnh giá, tức giá trị danh nghĩa Số tiền từ khoản góp vốn được gọi là cổ tức, trong khi giá cổ phiếu có thể dao động qua các phiên giao dịch trên thị trường chứng khoán, tách rời so với mệnh giá Cổ phiếu được chia thành hai loại: cổ phiếu thường và cổ phiếu ưu đãi.
Chứng khoán nợ là loại chứng khoán mà người phát hành có nghĩa vụ thanh toán một khoản tiền cố định cho người nắm giữ vào những thời điểm nhất định và theo các điều kiện cụ thể Chứng khoán này có thể được phát hành dưới dạng chứng chỉ vật chất hoặc dưới hình thức bút toán ghi sổ.
3) Chứng chỉ quỹ đầu tư:
Chứng khoán quỹ là loại chứng khoán do công ty quản lý quỹ phát hành nhằm huy động vốn từ nhà đầu tư Vốn này được sử dụng để giao dịch các loại chứng khoán khác nhằm tạo lợi nhuận, và sau đó, lợi nhuận sẽ được chia sẻ lại cho các nhà đầu tư.
- Cổ phiếu ngành là cổ phiếu được tính toán tổng hợp giữa nhiều cổ phiếu do nhiều cổ phiếu của các công ty trong lĩnh vực cùng ngành
2.1.2.1 Khái niệm thị trường chứng khoán
Thị trường chứng khoán là nơi diễn ra hoạt động phát hành và giao dịch các loại chứng khoán trung và dài hạn, nhằm huy động vốn cho doanh nghiệp và chính phủ.
Thị trường chứng khoán (TTCK) đóng vai trò quan trọng trong thị trường vốn, với chức năng huy động nguồn vốn nhỏ từ xã hội và tập trung thành nguồn vốn lớn Điều này giúp doanh nghiệp và chính phủ có thể tiếp cận tài nguyên cần thiết để phát triển và thực hiện các dự án.
Ví dụ: TTCK New York (NYSE), TTCK Hồ Chí Minh (HOSE), TTCK Hà Nội(HNX),…
Chức năng cơ bản của TTCK: o Huy động vốn đầu tư cho nền kinh tế o Cung cấp môi trường đầu tư cho công chúng
Tạo ra một môi trường thuận lợi cho các cơ quan nhà nước và chính phủ là điều cần thiết để thực hiện các dự án mang tầm vĩ mô Đồng thời, việc đánh giá hiệu quả hoạt động của các doanh nghiệp cũng đóng vai trò quan trọng trong việc thúc đẩy sự phát triển kinh tế.
2.1.2.2 Vai trò của thị trường chứng khoán
Thị trường chứng khoán (TTCK) đang ngày càng trở thành yếu tố quan trọng trong nền kinh tế toàn cầu Khi các quốc gia phát triển đạt đến một mức độ nhất định, TTCK sẽ đóng vai trò hỗ trợ thiết yếu cho quá trình phát triển kinh tế.
Sự phát triển mạnh mẽ của thị trường chứng khoán (TTCK) mang lại nhiều lợi ích cho các quốc gia, đóng góp vào việc tạo ra nguồn vốn khả dụng cho doanh nghiệp Thực tế cho thấy rằng TTCK không chỉ hỗ trợ sự phát triển kinh tế mà còn thúc đẩy tăng trưởng bền vững cho các quốc gia.
Tổng quan về Deep Learning
Artificial Intelligence (AI) and Machine Learning (ML) are among the most prominent research topics today, frequently mentioned across the internet and in technology articles.
Thuật ngữ "AI" ngày càng phổ biến, không chỉ trong ngành công nghệ mà còn trong các cuộc trò chuyện hàng ngày Nhiều nhà cung cấp dịch vụ cam kết sẽ ứng dụng trí thông minh nhân tạo trong tương lai để nâng cao hiệu suất, nhưng thực tế là họ vẫn chưa hiểu rõ về khái niệm này.
Vì vậy, phần này cần các bạn đọc thật kĩ để hiểu được những điều cơ bản về AI cũng như
ML hay sâu hơn là Deep Learning, để nắm được cách thức mà Deep Learning – một loại Core-ML phổ biến nhất hiện nay
2.2.1.1 Artificial intelligence với Machine Learning
Trí tuệ nhân tạo (AI) là quá trình mô phỏng khả năng tư duy của con người trên máy tính, nhằm giúp máy tính thực hiện các hành vi tương tự như con người Mục tiêu lớn nhất của AI là khả năng suy luận và thực hiện những nhiệm vụ mà con người không thể, chẳng hạn như đưa ra dự đoán và quyết định một cách chính xác.
Công nghệ AI, lần đầu tiên được định nghĩa bởi nhà khoa học máy tính John McCarthy vào năm 1956 tại Hội nghị The Dartmouth, hiện nay bao gồm nhiều lĩnh vực khác nhau, từ tự động hóa robot đến các ứng dụng của người máy thực tế.
Công nghệ AI gần đây trở nên nổi tiếng, nhận được sự quan tâm của nhiều người là nhờ
Dữ liệu lớn (Big Data) đang ngày càng trở thành mối quan tâm hàng đầu của các doanh nghiệp, nhờ vào sự phát triển mạnh mẽ của công nghệ phần cứng Sự kết hợp này cho phép xử lý công nghệ AI với tốc độ nhanh hơn bao giờ hết, khẳng định tầm quan trọng của dữ liệu trong việc tối ưu hóa quy trình kinh doanh.
Machine Learning, theo định nghĩa cơ bản, là việc ứng dụng các thuật toán để phân tích dữ liệu, học hỏi từ đó và đưa ra quyết định hoặc dự đoán về các vấn đề liên quan Thay vì lập trình phần mềm theo cách thủ công với hướng dẫn cụ thể, máy được "đào tạo" bằng cách sử dụng một lượng lớn dữ liệu và các thuật toán, cho phép nó học cách thực hiện các tác vụ một cách tự động.
2.2.1.2 Supervised Learning (Học có giám sát)
Supervised learning là một phương pháp trong Machine Learning, cho phép dự đoán đầu ra của dữ liệu mới dựa trên các cặp dữ liệu đã biết trước, bao gồm input và output Các cặp này thường được gọi là dữ liệu và nhãn Đây là nhóm thuật toán phổ biến nhất trong lĩnh vực học máy.
Một cách toán học, thì khi chúng ra có một tập hơn biến đầu vào
(Nguồn: https://machinelearningcoban.com/2016/12/27/categories/)
Và một tập hợp nhãn tương ứng
(Nguồn: https://machinelearningcoban.com/2016/12/27/categories/)
Các vector \( x_i \) và \( y_i \) tạo thành các cặp dữ liệu đã biết trước \((x_i, y_i) \in X \times Y\), được gọi là tập dữ liệu huấn luyện (training data) Từ tập dữ liệu này, mục tiêu là xây dựng một hàm số nhằm ánh xạ mỗi phần tử từ tập \( X \) sang phần tử tương ứng (xấp xỉ) trong tập \( Y \).
(Nguồn: https://machinelearningcoban.com/2016/12/27/categories/)
Mục đích là xấp xỉ hàm số f thật tốt để khi có một dữ liệu xx mới, chúng ta có thể tính được nhãn tương ứng của nó y=f(x)
Trong nhận dạng chữ viết tay, chúng ta sử dụng hàng nghìn hình ảnh của các chữ số được viết bởi nhiều người khác nhau Những hình ảnh này được đưa vào một thuật toán, nơi chúng ta chỉ định mỗi bức ảnh với chữ số tương ứng Sau khi thuật toán tạo ra một mô hình, nó sẽ tiếp nhận một bức ảnh mới chưa từng thấy và dự đoán chữ số mà bức ảnh đó chứa.
Cách học của trẻ em khi nhận diện chữ cái rất giống với ví dụ này Khi chúng ta giới thiệu bảng chữ cái cho trẻ, chỉ ra chữ A và chữ B, sau một thời gian dạy dỗ, trẻ sẽ có khả năng nhận biết các chữ cái này trong sách mà chúng chưa từng thấy trước đó.
2.2.1.3 Unsupervised Learning (Học không giám sát)
Trong thuật toán học không giám sát (unsupervised learning), chúng ta chỉ có dữ liệu đầu vào mà không biết trước đầu ra hay nhãn Thuật toán này sử dụng cấu trúc của dữ liệu để thực hiện các nhiệm vụ như phân nhóm (clustering) hoặc giảm số chiều của dữ liệu (dimension reduction), giúp tối ưu hóa việc lưu trữ và tính toán.
Một cách toán học, Unsupervised learning là khi chúng ta chỉ có dữ liệu vào X mà không biết nhãn Y tương ứng
Thuật toán Unsupervised learning, khác với Supervised learning, không yêu cầu biết câu trả lời chính xác cho từng dữ liệu đầu vào Điều này tương tự như quá trình học tập tự nhiên, nơi không có giáo viên chỉ dẫn cụ thể, ví dụ như phân biệt chữ A và chữ B Tên gọi "không giám sát" phản ánh chính xác bản chất này.
Phân nhóm khách hàng dựa trên hành vi mua hàng giống như việc cho một đứa trẻ nhiều mảnh ghép với hình dáng và màu sắc khác nhau, như tam giác, vuông, tròn màu xanh và đỏ, và yêu cầu trẻ phân loại chúng Dù không được hướng dẫn cụ thể về sự tương ứng giữa hình và màu, trẻ vẫn có khả năng phân loại các mảnh ghép theo màu sắc hoặc hình dạng.
2.2.1.4 Cách hoạt động của Deep Learning
Với những kiến thức đã được trình bày, bạn đã sẵn sàng để khám phá sâu hơn về Deep Learning và cách thức hoạt động của nó.
Deep Learning là một phương pháp cốt lõi trong máy học (ML), cho phép người dùng dạy AI dự đoán đầu ra dựa trên bộ đầu vào Cả hai loại học không giám sát (Unsupervised) và có giám sát (Supervised) đều có thể được áp dụng để đào tạo AI Để hiểu rõ hơn về cách hoạt động của Deep Learning, chúng ta cần khám phá các khái niệm và mô hình liên quan.
XÂY DỰNG MÔ HÌNH LSTM
Nguồn dữ liệu
Dữ liệu được dùng là cổ phiếu ngành theo từng ngày được cùng cấp từ website chuyên về thị trường chứng khoán cohphieu68.vn
Dữ liệu bao gồm 7 tham số đầu vào có cấu trúc như hình sau:
Hình 3.1 Bảng cấu trúc tham số đầu vào
• Ticker: là mã cổ phiếu
• DTYYYYMMDD: là ngày kết thúc của phiên giao dịch theo định dạng YMD
• Volume: là khối lượng bán trong phiên giao dịch
• Open: là giá mở cửa của phiên giao dịch
• High: là giá cao nhất trong phiên giao dịch
• Low: là giá thấp nhất trong phiên giao dịch
• Close: giá đóng cửa của phiên giao dịch
Xử lý dữ liệu
Để dự đoán xu hướng tăng giảm của cổ phiếu, việc lựa chọn tham số đầu vào là rất quan trọng Sử dụng quá nhiều tham số có thể gây ra sự rối loạn và làm giảm độ chính xác của mô hình Vì vậy, chúng tôi đã quyết định chọn tham số làm tham số chính để dự đoán xu hướng của cổ phiếu trong ngành.
Dữ liệu được nhập từ file định dạng CSV vào dataframe, sau đó được lọc bằng phương pháp Gaussian để cải thiện chất lượng dữ liệu đầu vào thông qua các tham số cụ thể.
(Nguồn: https://en.wikipedia.org/wiki/Gaussian_filter)
Dữ liệu được chuẩn hóa về dạng [0,1] để thuận tiện cho việc train bằng công thức
(Nguồn:https://subscription.packtpub.com/book/big_data_and_business_intelligence/97817
89808452/1/ch01lvl1sec15/data-scaling)
Xmax là giá trị tối đa của mẫu và Xmin là giá trị tối thiểu của mẫu, sao cho x được ánh xạ tới [0,1].
Mô hình LSTM
Mô hình LSTM có ít tham số có thể điều chỉnh, nhưng thông qua nhiều lần thực nghiệm, có thể cấu trúc bộ siêu tham số để tối ưu hóa quá trình huấn luyện dữ liệu cho mô hình dự đoán LSTM Các siêu tham số này được trình bày trong bảng dưới đây.
Bảng 3.1 Danh sách các siêu tham số
Drop_rate Tỉ lệ của các lớp Drop
Batch_size Số lượng mẫu dữ liệu trong một batch
Epochs Số lần huấn luyện qua hết tất cả dữ liệu truyền vào
Lstm_neuron_unit Số lượng neuron trong mỗi lớp
Lstm_layer_count Số lượng lớp trong mô hình
Việc sử dụng nhiều lớp LSTM có thể dẫn đến hiện tượng overfitting, tốn thời gian huấn luyện và giảm độ chính xác Ngược lại, nếu số lượng lớp quá ít, thông tin dữ liệu không được huấn luyện chặt chẽ, cũng ảnh hưởng đến kết quả Do đó, nhóm chúng em đã tìm kiếm một mô hình với các đầu vào cố định và tối ưu hóa các tham số cụ thể ngay từ đầu Trong quá trình huấn luyện, chúng em áp dụng các phương pháp như chọn bộ thuật toán Optimizer hợp lý, kết hợp với weight regularization và Dropout để giảm thiểu nguy cơ overfitting Đặc biệt, các tham số cho các phương pháp này được lựa chọn dựa trên các nghiên cứu và công thức tối ưu nhất.
Cụ thể là tổng quan các lớp cài đặt trong mô hình được minh họa trong hình 3.1 với các hàm chuyển đổi tanh và selu theo công thức (2.2) và (2.3)
Hình 3.2 Mô hình LSTM và các thông số tóm tắt nhóm đang dùng
KẾT QUẢ THỰC NGHIỆM
Bộ dữ liệu thực nghiệm
Sàn chứng khoán Thượng Hải
• Phạm vi: giá của mã cổ phiếu theo ngày
• Đối tượng A-share Composite Index
• Nguồn: sàn Thượng Hải money163.com
Nhóm chúng em chia dữ liệu thành 3 phần trong đó 70% dùng để huấn luyện, 10% dùng để xác thực và 20% còn lại để đánh giá thực nghiêm
Sàn chứng khoán Việt Nam
• Phạm vi: giá cổ phiếu theo ngày
• Đối tượng các ngành trọng tâm giáo dục, vận tải, thực phẩm
Chúng tôi đã chia dữ liệu thành 80% cho huấn luyện, 10% cho xác thực và 10% cho đánh giá thực nghiệm Do mỗi mã cổ phiếu có giá trị xuất hiện và giá trị khác nhau, nên quá trình huấn luyện, xác minh và đánh giá cũng sẽ khác nhau cho từng cổ phiếu.
Các giá trị siêu tham số
Bảng 4.1 Danh sách các siêu tham số kèm giá trị
Siêu tham số Ý nghĩa Miền giá trị
Drop_rate Tỷ lệ drop tại lớp Dropout Có giá trị là 0.5
Batch_size Số lượng mẫu dữ liệu trong một batch
Epochs Số lần huấn luyện qua hết tất cả dữ liệu truyền vào
Lstm_neuron_unit Số lượng neuron trong mỗi lớp Nằm từ giá trị 256 xuống 1 là là bội số của 32 Lstm_layer_count Số lương lớp LSTM Dùng 3 lớp LSTM
Phương pháp đánh giá
Để đánh giá sự khác biệt giữa mức giá dự đoán và mức giá thực tế, chúng tôi áp dụng các chỉ số Accuracy và RMSE trong bối cảnh sàn chứng khoán Việt Nam.
(Nguồn: https://developers.google.com/machine-learning/crash- course/classification/accuracy)
(Nguồn: https://www.datatechnotes.com/2019/02/regression-model-accuracy-mae-mse- rmse.html)
Trong đó, yj đại diện cho giá đóng phiên thực tế tại ngày j, trong khi j là giá đóng phiên dự đoán tại thời điểm ngày j Số n là số tập mẫu được sử dụng để tiến hành đánh giá thực nghiệm.
Trên sàn chứng khoán Việt Nam và sàn chứng khoán Thượng Hải, các chỉ số được phân tích dựa trên dữ liệu gốc Nghiên cứu thực nghiệm đã được thực hiện với hai mô hình LSTM, bao gồm cả mô hình LSTM kết hợp với bộ lọc Gaussian.
Công nghệ sử dụng
Các thuật toán, mô hình được cài đặt trên ngôn ngữ và thư viện mở sau:
• Ngôn ngữ sử dụng: Python
• Cài đặt mô hình: keras
• Cài đặt tối ưu hóa: gaussian filter.
Kết quả thực nghiệm
Sàn chứng khoán Thượng Hải
4.5.1.1 Cổ phiếu Shanghai A-share Composite Index
Bảng 4.2 Phân chia data Cổ phiếu A-share Composite Index
Mã cổ phiếu Ngày tháng Data train Ngày tháng Data test
Bảng 4.3 Bảng so sánh LSTM-cải tiến và ELSTM
Mô hình LSTM cải tiến ELSTM Accuracy 73.63068313137724 57.2
Hình 4.1 Kết quả dự đoán A-Share Composite Index của tác giả
Hình 4.2 Kết quả dự đoán A-Share Composite Index cải tiến
Nhận xét: Việc cải tiến mô hình LSTM giúp cho mô hình dự đoán với độ chính xác và
MSE cao hơn so với tác giả X Pang và cộng sự [15]
Sàn chứng khoán Việt Nam
4.5.2.1 Cổ phiếu ngành thực phẩm
Bảng 4.4 Phân chia Data Cổ phiếu thực phẩm
Mã cổ phiếu Ngày tháng Data train Ngày tháng Data test
Bảng 4.5 Bảng so sánh khi sử dụng Gauss Filter
Có sử dụng Gauss Filter Không sử dụng Gauss Filter Accuracy 84.47210674937503 83.27227415097727
Hình 4.1 Kết quả dự đoán của Ngành thực phẩm khi không dùng Gauss
Hình 4.2 Kết quả dự đoán của ngành thực phẩm dùng bộ lọc gauss
4.5.2.2 Cổ phiếu ngành giáo dục
Bảng 4.6 Bảng phân chia Data cổ phiếu ngành giáo dục
Mã cổ phiếu Ngày tháng Data train Ngày tháng Data test
Bảng 4.7 Bảng so sánh khi dùng Gauss Filter cổ phiếu Ngành giáo dục
Có sử dụng Gauss Filter Không sử dụng Gauss Filter Accuracy 93.96905574069223 93.70440816268376
Hình 4.5 Kết quả dự đoán của ngành giáo dục không dùng bộ lọc gauss
Hình 4.6 Kết quả dự đoán của ngành giáo dục dùng bộ lọc gauss
4.5.2.3 Cổ phiếu ngành vận tải
Bảng 4.8 Bảng phân chia Data của ngành Vận Tải
Mã cổ phiếu Ngày tháng Data train Ngày tháng Data test
Bảng 4.9 Bảng phân so sánh khi dùng Gauss Filter với cổ phiếu Ngành Vận Tải
Có sử dụng Gauss Filter Không sử dụng Gauss Filter Accuracy 78.88746348291748 78.11481296905815
Hình 4.7 Kết quả dự đoán của ngành vận tải không dùng bộ lọc gauss
Hình 4.8 Kết quả dự đoán của ngành vận tải không dùng bộ lọc gauss
Sử dụng bộ lọc Gaussian để cải thiện tham số đầu vào không chỉ nâng cao độ chính xác của mô hình mà còn giảm thiểu giá trị RMSE, từ đó tối ưu hóa hiệu suất của mô hình.