Trong nghiíncứu năy, chúng tơi giớithiệu phương phâpGA-LSTM,sửdụngthuật tôn di truyền GA để lựa chọn câc đặctrưng đầu văo cho mô hình bộ nhớ dăi - ngắn hạn LSTM.Phương phâp GA-LSTM được
Trang 1Dự ĐOÁN GIÁ CỎ PHIẾU SỬ DỤNG THUẬT TOÁN DI TRUYỀN
NGUYỄN NĂNG ANH1*, NGUYỄN TẤN ĐẮT1, NGUYỄN HUỲNH ĐAN KHÁNH1,
ĐỖ THÀNH MINH PHÚ1, CAO HUỲNHVÕ THANH1, LÊPHÚC LŨ1 NGUYỄN HỮUTÌNH1
}Khoa Công nghệ Thông tin, TrườngĐại học Công nghiệp Thành phổ Hồ Chỉ Minh
*nanganhaỉ 0@ gmaiỉ.com
T óm tắt. Dự đoán giá cổ phiếu là một trongnhững bài toánthựctếthuhút được sựquan tâm của cả các nhà đầu tưvà nhà nghiêncứu về kinh tế Tuy nhiên,bài toán này gặpnhiều khó khăn do giá cổ phiếucó tínhngẫunhiênvà biến độngcao Trong nghiêncứu này, chúng tôi giớithiệu phương phápGA-LSTM,sử dụngthuật toán di truyền (GA) để lựa chọn các đặctrưng đầu vào cho mô hình bộ nhớ dài - ngắn hạn (LSTM).Phương pháp GA-LSTM được áp dụng để phân tíchvàdựđoán giá cổ phiếu, giúp cho việc đưa
ra các quyết định đầutư hởnên hiệu quả hơn Các kết quả thực nghiệmhên dữ liệuthực tế cho thấyrằng phươngpháp đềxuất đạt được kết quả tốt hơn so với các phương pháp thống kê truyền thống và mô hình học máy thông thường
Từ khoá Dựđoán giá cổ phiếu, Thuật toán di huyền, Bộnhớ dài -ngắn hạn, dựbáo tài chính, phân tích chuỗi thời gian
Abstract The problem ofpredicting stock prices is an interesting and important task that attracts the attention of investors and economic researchers However, it is a complexproblem, as stockprices are usually noisy and random In this paper, we introduce the GA-LSTM method that combines genetic algorithm (GA) and long short-term memory (LSTM) network to select input features for stock price analysis and prediction TheGA-LSTM method is applied to analyze and predict stockprices, improving the effectiveness ofinvestmentdecision-making Experimentalresults on realdata showthattheproposed method achieves betterperformance than traditional statistical methods and conventional machinelearning models
Keyword.Stockprice prediction, Genetic algorithm, LSTM, Financial forecasting, Time series analysis
1 GIỚI THIEL
Trong nền kinhtế phát hiển, số lượng côngty được niêmyết trên sànchứng khoán ngày càng tăngđãmở
ra nhiều cơ hội sinh lời chonhà đầutư, làm cho thị hường cổ phiếu hở thành mộtchủ đề hấpdẫn hong lĩnh vực tài chính [1] Sự biến đổi xuhướng củagiá cổphiếuphụ thuộc bởi nhiềuyếu khácnhau bao gồm: sự kiệnchính trịvà địachính trị;tỷ giáhối đoái; diễn biến củanhững thịhườngcổphiếu khác; tình hình nền kinh tếvà tâm lý của các nhà đầu tư [2] [3] [4] Phương pháp dự đoángiá cổ phiếu truyền thống thường xâydựngcác mô hình dựđoántuyếntính dựatrên dữ liệulịch sửcủa cổ phiếu
Tuy nhiên, do đặc thù của dữ liệu cổ phiếu nên Bowden và cộng sự [5] đã dùng phương phápARIMA (Autoregressive Integrated Moving Average) thườngđượcsử dụng để xây dựng để xâydựng mô hình tự hồiquỵ dựđoán giá cổphiếu Mặc dù phươngphápnày có một số ưu điểm về hiệusuất tính toán, giả định rằng phân phối thống kê và sự ổn định của dữ liệu nghiên cứugiới hạn khảnăng mô hình hóa chuỗithời gian vốn đã phi tuyến tính và không ổn định Bên cạnh đó các giátrị ngoại laitrongdữ liệu ảnh hưởng đáng
kể đến kết quả dựđoáncủamô hình Giá cổ phiếu có thể bị ảnh hưởng bởi nhiềuyếutố khác nhau
Cùng với sự phát hiểncủacác kỹ thuật thống kê trong lĩnhvực tài chính,các nhà nghiên cứu đã khai thác nhiềuyếutố ảnh hưởng đến thị trường chứng khoán và định lượng những yếu tốđó thành dữ liệucụ thể để
© 2023 Trường Đạihọc Côngnghiệp ThànhphốHồ Chí Minh 149
Trang 2Hội nghị Khoa học trẻ ỉần 5 năm 2023(YSC2023)-ỈUH
nghiên cứu xu hướng biếnđộng của các cổphiếu Sựhỗ trợ của dữ liệulớnđã hiện thực hoá khả năng của các thuật toánmáyhọc Ngàycàngcó nhiều nhà nghiên cứu bắt đầu sử dụng mô hình dự đoán phi tuyến tính của máy học để dựđoán giá cổphiếu Naữvà đồng nghiệp [6] đãđề xuất một hệ thống cây quyết định hên tập mờ.Phương pháp kết hợp nhữngưu điểm của cây quyết địnhvàtập mờ, nhưng dễ gặp hiệntượng overfitting khi xử lý tập dữ liệu cónhiều nhiễu dẫn đếnảnh hưởng đếnkếtquả dựđoán của môhình Theo
lýthuyết, mạng nơ-ron nhântạo (ANN) có thểhọc được bất kỳ mối quanhệphituyếntínhnàovà ítbị ảnh hưởnghơnbởi dữ liệu nhiễu, chính vì vậymànó đã đượcsử dụng phổ biến trong lĩnhvực dự đoán chuỗi thời gian Livà đồng nghiệp [7] đãtiến hànhmộtloạt mô hình dự đoánsử dụngmạng nơ-ron và đạt được kết quả khả quan hơnso với cây quyết định Tuynhiên, cácmạng nơ-ron dễ gặp vấn đềtối ưu hóa cục bộ trong quá trìnhthực nghiệm, và Support Vector Machine (SVM) dựa trên giảm thiểuhoá rủi ro cấu trúc giúp tỉ lệ rơivào lỗitối ưu cục bộ của mô hình giảm điđáng kể Cao và đồng nghiệp [8] đãxây dựng mô hình dựđoán cổ phiếu với SVMtừ đó cải thiện hiệu suấttổngthể của mô hình
Sự vượt bậc của trí tuệ nhân tạo, học máy, học sâu thuhút sự chú ý rộng rãi nhờ hiệu suất vượt trội trong cáclĩnh vựcnhư là: dịch máy [9] nhận diện cảm xúc giọng nói [10];nhậndạnghìnhảnh[11]và nhiều khía cạnh khác nữa So vớimô hình thống kê truyềnthống, Deep Neural Network (DNN)có thể phântích mối quan hệ phi tuyến phức tạp qua biểu diễn đặctrưngthànhcáclớp, điều này phù hợp với vấnđềphứctạp,
bị ảnhhưởng bởi nhiềuyếu tố, tínhmất ổn địnhvà phi tuyếntính của dữ liệu cổphiếu [12] Tsantekidis và đồng nghiệp [13] đề xuấtmộtmôhìnhdựđoán cổphiếu dựa hên mạng nơ-ron tích chập (CNN)và so sánh với các mô hình khác đểxác minh tính hiệu quả của mô hìnhtích chập trong dựđoán cổphiếu Tuy nhiên,
dotínhthời điểm của dữ liệu cổ phiếu, mạng nơ-ron tích chấp không phảilà mô hình mạng nơ-ron phù hợp nhất cho dựđoán cổphiếu Selvinvà đồngnghiệp [14] đã đề xuất ba mô hình dự đoán cổ phiếudựatrên CNN, mạngnơ-ron hồi quỵ(RNN)vàLSTM Kết quảcho thấy phương pháp LSTM là phù hợp nhất đểdự báo thị hườngchứngkhoán và chuỗi thời gian làdo khảnăng ghinhớdài hạncủa mạng Đối với dự báo tài chính dữ liệuđa biến, việclựa chọn được đặctrưng đóng vaihò rấtlàquantrọng Lựa chọn đặc trưng mang lại nhiều lợi ích, chẳng hạn như:
(i) giảm thời gianhuấn luyện mô hình;
(ii) đơn giảnhoá sự mô hìnhbằng cáchloại bỏ đặc trưng không cần thiết;
(iii) cải thiện độ chính xác của mô hình;
(iv) giảm việc overfitting nhờloại bỏđi những biến không cầnthiết [15]
Yu và đồng nghiệp [16]đãthànhcông cải thiện độ chính xác dựđoáncủa mô hìnhbằng cách sử dụng PCA
đểgiảmchiều dữ liệu kết hợp với mô hình SVM Dựa hên sự thay đổinhững thông tin ảnh hưởng qua các giai đoạn khác nhau, Zhengvà đồng nghiệp [16] đã sử dụng Multistage AttentionNetwork và học được thông tin ảnh hưởng của nhiều chuỗi thờigian không dựđoán tác độnglên chuỗi mục tiêuqua cácgiai đoạn thời gian khácnhau
Mặc dù nhữngphươngpháp này có thể có hiệu quả trong việcbắt lấy đặc trưngtạm thời nhưng chúng không thểxác định hiệu quả củamộttổ hợp yếu tố Khi mà số lượng yếutố dữ liệu tăng lên,và các yếu tố
có xu hướng tương quan hoặc ảnh hưởng lẫn nhau Việc áp dụngthuật toán ditruyền dựa trênquầnthể có thể giải quyết hiệu quả các vấn đềvề nhiễu và cộng tuyến của đặc trưng Bằngviệc ứng dụngthuật toán di huyềnđề chọn lọc đặc trưng và đưa nhữngđặc trưng đó vàomô hình dựđoán giá cổ phiếuLSTM
2.1 Dự đoán thị trường chúng khoán
Thị trường chứng khoánphải đối mặt với nhiều dữ liệuchứng khoán đến từcácngành công nghiệp khác nhau, bao gồm toànbộ dữ liệu về thịhường tài chính Dựa hêncác dự đoánvề thị hường, các nhàđầutư điều chỉnh hành độngcủa mìnhdựa trên việcmua và báncác cổphiếu Cómột số yếu tố ảnh hưởng đến tình trạng thị hường bao gồm: thông báovề lợi nhuận;thông báo chiacổtức; thayđổi đội ngũ quản lý; và nhiều yếu tố khác Các chuyêngia xemxét rằng cácvấn đề vềgiao dịch chứngkhoán có ảnh hưởng đến giá của cổ phiếu hên thị hường chứng khoán [17]
Hiện tại, các công cụ khaiphá dữ liệu đóng mộtvai trò khôngnhỏ trong việc hỗ hợcác nhà đầutư, quỹ đầutư, tổ chứcđể dự đoán xu hướng vàhành vi củathị trường, chủ động đưaracác giải pháp dựa hêndữ liệucó cơ sở kiến thức [18]
150 © 2023 TrườngĐạihọcCôngnghiệp ThànhphốHồ Chí Minh
Trang 32.2 RNN-LSTM
2.2.1 Giới thiệu về Deep learning
Deep Learning là một phần củaMachine learning, làphương pháp xây dụng mộtmạng nơ-ron có nhiều lớp Nhũng mạng lướithần kinh này cố gắng mô phỏng hànhvicủa não người cho phép deep learninghọc được từ mộtlượng lớn dữliệu.Trongkhi mạng nơ-ron có mộtlớp vẫn có thểđưa ra các dự đoán gần đúng, các lóp ần bỗ sung cóthểgiúp tối ưu hóa và tinh chỉnh để có độchính xác
Deep Learning thúc đẩy nhiềuứng dụngvà dịch vụ trítuệnhântạo(AI) nhằm cảithiện tựđộng hóa, thực hiệncác tác vụ phântích và vật lý mà không cầnsự can thiệp của con ngưòi
Côngnghệ deep learning được ứng dụng rộng rãi trong các sản phẩm và dịch vụ hàng ngày chẳnghạn như trợ lý kỹ thuật số, điềukhiển từ xa hỗtrợ giọng nóivà pháthiện gianlậnthẻ tín dụng cũngnhư các công nghệ mớinốichẳnghạnnhư ô tô tự lái
Các thuậttoán Deep learning nổi bật: Convolution NeuralNetwork (CNN) sử dụng rất phổbiến trong các bài toán về ComputerVision, RecurrentNeural Network(RNN) lại phù hợp với các loạidữ liệu có mối liên hệvềthời gian như time serial forecasting haytrongcác bàitoánvềxử lý ngôn ngữ tự nhiên, bởi vì một phầnoutput củanó ở thòi điểm này được đua trởlại thànhinput ở thờiđiểmtiếp theo,
2.2.2 Mạng mr-ron hồi quy (RNN)
Mạng nơ-ron hồi quy là mộtmạng nơ-ron nhân tạo có khả năngtính toán mạnhmẽ vàỗn định, đượcsử dụnghiệuquả trong việc giải quyết các vấn đề phức tạp trongnhiều lĩnh vựcbao gồm xửlý ngôn ngữ tự nhiên,nhận dạng giọng nóivà xửlýảnh [16], Khácvới mạng nơ-ron nhân tạo truyềnthống (ANN),không thểghinhớ được thông tin lịch sử trướcđócủa các chuỗi, RNN có hidden layer để duy trì các đặc điểmcủa toàn bộ chuỗi
Hình 1: Mạng nơ-ron hồiquy truyền thống(RNN)
Khi mà số lớp(layer) trongmạng ngày càng trởnên nhiều hơn,vấnđề của RNN là chỉmang đượcthông tínqua một sốbướcnhất định do vấn đề triệt tiêu đạo hầm - vanishing gradient[ 19] Bộnhó'dài ngắn hạn (LSTM) được đề xuấtbởiHochreiter và Schmidhuber đãgiảiquyết đượcvấn đề này [20] [21]
Cấutrúccủa mạng LSTM đượcthiết kế các ô nhớ cho việclưutrữ thông tindài hạn Quá trinh sử dụng rà thayđổi thông tincủacácthờiđiểm được quyết địnhqua ba cống: cổng rào - inputgate;cồngquên - forget gatevàcồng ra - outputgate
© 2023 TrườngĐạihọcCôngnghiệpThànhphố HồChí Minh 151
Trang 4Hội nghị Khoa học trẻ lần 5 nâm 2023(YSC2023)-ỈUH
Hình2:Tối ưu hoâ LSTM cho mộtđơnvị RNN
Cho h lẵ nhớ LSTM, c lă giâ tri của ônhớ vă X lădữ liệu đầu văo Quâ trìnhcập nhậtcó thể được chia thănh câc bước sau đđy:
(1) Đầu tiín chúng ta tính giâ trị từng thănh phần cho ônhớ ở thời điểm hiện tại ”,wxc vă whc dụa trín công thức RNNtruyền thống, lầnlượt lă dữliệu đầu văo vă ma trận trọngsố của đầu ra củaô nhớ trước đó
~ = tanh(w xc x t + IVt-i + ốc)
(2) Tínhtoân giâtrị it lượngdữ liệu được đi quacổng đầu văo cốngvăo dùng để điều khiển lượng giâ trị ảnh hưởng đốivới trạng thâi ô nhớ hiện tại Việc tínhtoân tất cả câc cổng không chỉ bị ảnhhưởng bỏidữ liệu hiện tạix t vă giâtrị đầu ra của ô nhớ liền trước đó hf-! mă còn bởi giâ trị củaônhớQ-! trước đó
Mô hình năy gọi lăpeephole connections
k = ơ(wxi x t h Wftiht— I + PkcjCf— i + bf).
(3) Tính toân giâ trị cửa cồng quín ft Khâcvớicống văo, cồng quín điều chỉnh sự ảnh hưởng của thông tinlịch sử vớitrạngthâihiện tại của ô nhớ
ft - a (yVxf x t + + tVc/Q-i + bf).
(4) Tính giâtrị trạng thâi củaô nhớ hiệntạic
Q =fto C t-1 + ít o
Q-0 được định nghĩală phĩp nhđn theo từng điểm - productpointby point
Công thức cho thấy trạng thâi ô nhó' được cập nhật dựa trín lượngthông tin đưa văo ô nhớ trước đósẽ loại
bỗ đithôngtin không cầnthiết vă xâc địnhlượng thông tin mớitừ giâtrị ô nhớ được đưa văo, lần lượt lă
ct_! văQ,vă hai phần năy được điều chỉnh bởi cổngquínvă văcổng văo tương ứng ftvă t
(5) Tính giâ đầu ra ot , đđy lă đầu ra để điều chỉnh giâ trị trạng thâi củađơn vị ô nhớ
Of ^(^xo^-t "b Wfioh-t- 1 “ b ^coQ — 1 “ b
bo)-(6) Đầuracuối cùngcủa một đơnvịLSTM
ht = Of o tanhlcf).
Hăm kích hoạt lă hăm Sigmoid chung trín câccông thứccó giâ trị từ khoảng 0đến 1 Thiết kế của 3 cổng
vẵ nhớ riíng cho phĩp đơn vị L STM lưutrữ, đọc, xóa vă cập nhật dù lă dăihayngắnhạn
2.3 Thuật toân di truyền (GA)
Thuật toân di truyền(GA) lă một thuậttoân metaheuústic chỉphương phâp toân nhằm tối truhoâ vấn đề của băi toân được lấy cảm hứng từquâtrình tiến hoâ vădi truyềntự nhiín Thuật toân được sử dụng rộng rêi như một thuật toântìm kiếm lời giảitối ưu hoặc sấpsỉ tối tru cho trong một khoảng tim kiếm lớn Quâ
152 © 2023 TrườngĐạihọcCôngnghiệpThănhphốHồChí Minh
Trang 5trình đi truyềncủa thuật toán bao gồm những toán tử bắt chước theo quátrinh di truyềntự nhiênvà nguyên tắc tiến hoá, có liên quan đến hoạtđộnglai ghép vàđột biến
ứng vớimỗi cá thể tượng trưng cho một lời giảinhất địnhđược mã hoá thành chuỗinhịphân Các cá thể
sẽ được một cách ngẫu nhiênvà dựa rào những toán tửnhư lai chéo, đột biến để có cơ hộitạo ranhững cá thể tốt hơn hay chinh là lời giải tốt hơn
2-3.2 Các bước trong giải thuật di truyền
Hình 3: Các bước thực hiệncơ bản của giải thuậtditruyền
2.3.2.1 Xác định quần thể ban đầu
Việc khỏitạoquầnthể hoàn toàn ngẫu nhiên các cá thể sẽ được mãhoánhị phân và đượckhởi tạo ngẫu nhiên, cần xácđịnh rõ quần thể có sốlượngcáthể đủlớn để đảm bảo độđa dạng của quần thể đó.Và tính chất của mỗi cá thểsẽ đượcxác định
2.3.2.2 Quá trình lai ghép các cá thể
Nguyên tắc chọn theo mô hìnhbánh xe roulette: Trong việc lựachọn các cá thểđểlaichéo,thuật toán mong muốncáthể được sẽđạt được những tiêu chí tốt và tạo ra thế hệ mói tốt hơn Có nhiềuphương pháp để lựa chọn cá thể tốt như là:
o Chọn theo thứ hạng (rank selection)
o Chọn theođộồnđịnh(steadyState selection)
o Chọn theo vòng xoayroulette (roulette wheelselection)
Trong đó phương pháp chọn theo bánh xe roulettecónhũngđặc đỉểm nhưsau: Các cá thể được chọnbằng cách đánhgiá trên độ thíchnghi củacáthể đó; nhữngcáthể tốt hon, thì xác suất đượcchọn sẽcao hon.Với
ý tưởng giống vòng xoay roulette, tuy nhiênphươngpháp nàycó những điểm khác biệt quan trọng là các
ô trên vòng xoay luôn có kích thước ngangnhau, đồng nghĩavói việc xácsuất được chọn lựa nhưnhau
© 2023 TrườngĐạihọcCôngnghiệp Thành phố HồChí Minh 153
Trang 6Hội nghị Khoa học trẻ lần 5 năm 2023(YSC2023)-IƯH
Hình 4: Bánhxeroulettenguyên bản Hình5: Bánhxeroulettecótrọng số
Thayvào đó chungở mỗi lần chọn cá thể được diễn ra,mộtphiên vòng xoay roulettecótrọng sốsẽđược tính toán Trong đótrọng số làcủamỗi cá thể, dựa trên giá trị thích nghi của cá thểđó Xác suấtđểcá thể được lựa chọnlà:
fi Pi
Với fj là giátrị thích nghicủa cá thể; N làsố lượng cá thể có trongquần thểđó
L e (0; F)
Hình 6: Dàntrảicácgiátrịtrọngsốcủa bánhxe roulette
Môphỏng quátrình nàycó được giảithích như sau:
[Sum] tính toán tổngF củatất cả các giá trị thích nghicủa cá thể thứ tươngứngvới fi với i E (0, N).
[Select] chọn ngẫu nhiên giátrị rtrong giá trị từ (0; F) hayhiểu làr E (0; F)
[Loop] tiến hành vòng lặp bắt đầu từ vị trí đầu tiên cho đến vị trí cuối cùng của quần thể và lần tính tổng các giá trị thích nghi cáccáthể để được giá trị là tổng s.
Khimàtổng slớn hơn r; s > r,dừnglại và trả vềcá thể đang chọn
totalSum ■= 0
pop thepopulation
for each chromosome E pop do
fitnessValuation <— computeFitness(c/iromosome)
totalSum := totalSum + fitnessValuation
rand <—get randomnumber between (0; totalSum)
partialSum := 0
for each chromosome E pop do
fitnessValuation <— computeFitness(c/iromosome)
partialSum ■= partialSum + fitnessValuation
if partialSum > rand then
return chromosome.
Mã giả của mô phỏngquátrìnhchọncá thể theo phương phápvòngxoay roulette
154 ©2023 TrườngĐại học Công nghiệp Thành phố Hồ Chí Minh
Trang 72.3.2.3 Lai ghép
Quá trình lai ghép diễn ra giữa 2 cáthểsẽ tiến hànhtrao đồi các đặc trưng nằm trên đoạn gene củacáthể
đó Cónhiềucáchđể tiếnhành lai ghép, trong đó 3 cách phố biếnđểlai ghép là: Ghép đơnđiểm (single point crossover); Ghép hai điểm (two point crossover) và Ghépđa điểmngẫu nhiên (multi-point crossover) Lai ghépđơn điểm, phép lai chọn một vị trí thứkbất ki trên các cáthểvà tiến hành bắt chéo để trao đối đặc trưngsao cho tạo thànhhai cá thểmới có cùngđộdài chuỗi
Lai ghép hai điểm, chọn haivịtríbất kì trên đoạnmãcủa hai cá thể và tiến hành và tiến hành trao đỗi các đậc trưng nằm giữahai điểm để tạo ra cáthể mới
Hình 8: Laighép hai điểm Lai ghép đa điểm, mỗi đỉểm trên cáthểđều có cơ hội ngẫu nhiênđể trao đổi chéo với cácthể khác
© 2023 TrườngĐạihọcCôngnghiệpThànhphố HồChí Minh 155
Trang 8Hội nghị Khoa học trẻ ỉần 5 năm 2023(YSC2023)-ỈUH
2.3.1.4 Đột biến thế hệ con
Đột biến thếhệcon giúp cho quầnthể đa dạng hơn và giúp choquầnthể không bị trả vềmộtgiátrị liên tục
ở một số điểm làmviệc giải bài toánkhông cókếtquả Đột biếnphảidựa vào tỷ lệ đột biến nhất định có thể thayđổi dựa vào từng bài toánkhác nhau vì sự thayđổi mang hướng ngẫu nhiêncủa mỗi bài toán là khác nhauvà phải có sự độtbiến đểbài toán không bị trả vềmộtgiátrị sai ởmột vị trí gen liên tục làmcho toàn bộ gen đều sai cùngmột vị hívà không thoát rađược
2.3.2.Ỗ Đánh giá con
Đánh giácá thể conbằng cách tạo một hàm thíchnghi để cáthể phù hợp với mục đích giải thuật Đánhgiá giúp cho ta biết cá thể xem thế hệ mà ta tạo ra đã đúng với mục đích hay không để dừng hoặc tiếptục chương trình Vàgiúp cho ta xemcá thểmới tốt haytệ hơncá thể cũ đểcó thể đưa raquyết địnhgiữ, thêm hoặc xóa cáthể đó
3 PHƯƠNG PHÁP TIÉP CẬN
3.1 Mô tả thuật toán thục hiện
Để xây dựng mô hình dựđoán giá cổphiếu GAvà LSTM quá hìnhsẽ được chia thànhhai giai đoạn chính Giai đoạn đầu tiên sử dụng GA đểsắp xếp các yếutốquan trọng theo các bước sau đây:
(i) Mahoánhị phân các cá thể là cơsở để xây dựng một quần thể, quá trình khởi tạo cá thể được diễnra một cách ngẫunhiên, được định nghĩa như sau:
' c l,l C l,2 cl,k ' POP = C2,l c2,2 ■ c2,k
pm,l Cm, 2 Cm,k
Trong đó POP là ma trận quần thểchứa các cá thể, mỗi dòng đạidiện cho01 cáthể tức là một bộcác đặc trưng được chọn Độ dàicủacủa một cá thể là k đạidiệncho tổng số củacác đặc trưng hiện có, sốm đại diệncho kíchthước quần thể Trong đó ứng với mỗiô giá trị Cjị nhận giá trị 0 hoặc 1, với1 đạidiệncho đặc trưng được tham gia, 0 đại diện chođặc trưngkhông được lựa chọn
(ii) Sử dụng phương pháp chọnvòng xoay roulette Trong quá trìnhthực hiện thuật toán di truyền sẽ cập nhật tỉlệgiátrị thích nghi của các cá thể.Vàcập nhật liên tục các trọng số hay xác suất được chọn của toàn
bộ quầnthể trong suốt vòng đờicủa một thếhệ.Độ thích nghi củamột bộ đặc trưng được chọnlà hệ số xác địnhR-squared định nghĩa như sau:
2Cy-ý)2 S(y-ỹ)2 Trong đó, hệ số xácđịnh được biểu diễn bởi r2, ỵ là giá trị thựctế, ỹ là giá trị mà mô hình dự đoán, ỹ là hung bình giá trị thực, và khoảng giátrịcủa r2 là [0,1] ■ Hệ số xácđịnh cànglớn đồng nghĩa với việckhả năngmà cá thể được di huyềncàng cao, đóng vai trò quan trọng hong việclai ghépvàđột biến hongquá hình di huyền
(iii) Phương phápđa điểm ngẫunhiên được lựa chọn cho quá trìnhlaighép, cácđặc hưngtrên mỗi cặp cá thể được chọn sẽ đổi chỗcho nhau Trongquá hình thuật toánxảyra sẽ sinhra một giá trị xác suất ngẫu nhiênnếu như giáhịnày nhỏ hơn xác suấtlai ghép được đặtra trước đó, thìviệc trao đổigen được diễn ra (iv) Đột biến nhịphân được áp dụng trong quá hình diễn ra thuật toán Tuynhiên mức độ đột biếnsẽđược ướcđịnhbằngmộtxác suất nhỏ,đểcó đảm bảo quần thể không bị biến động nhiều Đexác định xem đặc trưng nào hên quần thể sẽ đột biến, sinh ngẫu nhiên một giá hị xác suất nếu giá trị này nhỏ hơn xác suất đột biến được định sẵn thìđặc hưngđósẽ thayđổihạng thái được chọn từ 1 thành 0 hoặc ngượclại Tiến hành lặp lạicác bước (ii)đến(iv)với sốlần lặp đượcxác định sẵn.Kết thúc quá trình dihuyền, ta sẽ nhận được quầnthể có 100 cáthể chứa những đặc trưng tối ưu nhất Sauđó xácđịnh mức độ quan trọng của các đặc hưng bằng cách thống kêvàxếp hạnglại số lần xuất hiện của đặc trưng đó trong quầnthể Đặc hưng càng xuất hiện nhiềulần được xem là càng quanhọng
156 © 2023 TrườngĐạihọcCôngnghiệp ThànhphốHồ Chí Minh
Trang 9Giaiđoạn thứhai của tối ưu hoá bằng cáchlựa chọn cácđặc trưng quan trọng cho môhình LSTM cho mô hình dự đoán cỗ phiếu Dựa vào xếp hạng cácđạc trưng quantrọng đã được đánh giá, talựa chọnbộ 5, 10,
20, 30 và 40đặc trưng để đưa vàomôhình Bằngviệc đánh giá kếtquảdự đoáncủa mô hình, tasẽ chọn được những đặc trưng quan trọng, và những đặc trưng tối ưuhoá được môhình dựatrên việc so sánh dựa trên đường baseline giữacác mô hìnhvới nhau để đề xuất đượcmột mô hình tối ưu và cải thiện độ chính xác Vàđể đánhgiá độchínhxác của mô hình L STM sẽ dựatrên 3 chỉ số đánh giá chính:
Sai số toànphương trung bỉnh (M SE), độ lỗi tuyệt đối trung bình (M AE) ràđộ lỗiphần trăm tuyệt đối trung birih(MAPE)
Sai sốtoàn phương trung bình (MeanSquaredError)
USE = ^\yi -:£)2
i=l
Sai sốtuyệt đối trung bình (Mean Absolute Error)
n
Độ lỗi phần trămtrung bình tuyệtđối (Mean Absolute Percentage Error)
m
Trong đóm làsố lượng được lấymẫu, Yi là giá cố phiếu thựctế, y, là giá cỗ phiếu domôhình dựđoán Dựavào các chỉ số nàyta có thể đánh giá được độ chính xác của mô hình sau khi lựa chọn đượcbộ các đặc trưng hợp lý
3.2 Thực nghiệm với dữ liệu cụ thể
Dữ liệu thực nghiệm được lấy từ dataset "HugestockMarket Dataset" - Historical daily prices andvolumes
ofallU.S stocks and ETFscủaKaggle Dữ liệu cung cấpđầyđủvềkhối lượng và giá hàngngày cho tất
cả các cỗ phiếu vàquỹ ETF có trụsở tại Hoa Kỳ đang giao dịch trên NYSE, NASDAQ và NYSE MKT (đâylàmộttrong những bộdữ liệu tốt nhất thuộcloạinày) Dữ liệu cập nhật lầncuối vào ngày10/11/2017
và được trình bày ở định dạng CSV gồm: Date, Open,High, Low, Close, Volume, openlnt
Dữ liệu sau khi sort theo ngày sẽ có dạng như sau:
Hình 10: Top 5 của dataset được sắp xếp tăng dần theongày
Date Open High Low Close
0 1970-01-02 0.50627 0.30627 0.30627 0.30627
1 1970-01-05 0.30627 0.31768 0.30627 0.31385
2 1970-01-06 0.31385 0.31385 0.30996 0.30996
3 1970-01-07 0.31385 0.31385 0.31385 0.31385
4 1970-01-08 0.31385 0.31768 0.31385 0.31385
© 2023 TrườngĐạihọcCôngnghiệpThànhphố HồChí Minh 157
Trang 10Hội nghị Khoa học trẻ lần 5 nám 2023(YSC2023)-ỈUH
Hình 11: Dữliệuđược visualize dựatheoMidPrice Tiếptheo, ta tínhMid price dựa trên giá thấp nhất vàcaonhất củamỗi ngày rồi chia thành tập train (gồm
11 ngàn data pointđầu tiên) rà tập test (phần còn lại)
Ta chuẩn hóalại dữ liệu bằng hàmMinMaxScalar() để đưatất cả về khoảng (0; 1) Ta cóthể làm mịndữ liệubằng cách sử dụng exponential moving average Điều này giúphạn chế tính rờirạc vốn cócủadữ bệu
về giá cỗ phiếu và tạora một đườngcong mượt hơn
EMA =0.0
gamma = 0.1
for ti in range(11000):
EMA = gamma*train_data[ti] + (1-gamma)* EMA
train_data[ti] = EMA
all_mid_data = np.concatenate([train_data,test_data] , axis=o)
Tiếptheo, ta đùng MSE - sai sốtoànphươngđãtrìnhbày ở mục trước để dự đoán giá cồphiếu của ngày tiếp theo dựatrên100 ngày trước đó Do chỉcần dự đoán thêm 1 ngày tiếptheo nênkết quả đạt được có độ chính xáccao (99%) vàthu được kết quả như bên dưới:
Hình 12: Biểuđồsosánh giữaviệc dự đoánvà thực tếkhi dùng MSE
Tatiếptục có thểcải tiếnbằng cách sử dụng EM A (Exponential Moving Average)đãđềcập ở trên và thu được kết quả chính xác cao hơn nữa:
158 © 2023 TrườngĐạihọcCôngnghiệpThànhphốHồChí Minh