Kết hợp học máy tăng cường và học máy giám sát- 123docz.net

4.41 Lựa chọn trọng số ban đầu

4.4.2 Kết hợp học máy tăng cường và học máy giám sát

T5 small Bang 4.3 thể hiện kết quả của các phương pháp khác nhau trên bộ dit liệu Spider. Mô hình tinh chỉnh lần đầu với hàm mục tiêu NLL được sử dụng làm mô hình tham chiếu. Với mô hình T5 small, sử dung NLL cho độ chính xác EM và

EX lần lượt là 45.8% và 46.2%. Thuật toán REINFORCE nâng cao điểm số EM so với NLL 6.6 điểm phan trăm, nâng cao độ chính xác EX 4.6 điểm phan trăm.

Trong khi đó, RELAX nâng cao giá trị EX tương đương REINFORCE nhưng giá trị EM chỉ hơn 5%. Mặc dù không đưa được độ chính xác của T5 small lên tới mức

của mô hình 'T5 base phiên bản sử dụng NLL nhưng các thuật toán học máy tăng

cường đã giúp thu hẹp khoảng cách đáng kể giữa chúng, rút ngắn khoảng cách điểm EM từ 11.6% ban đầu xuống còn 5%.

Các giá trị khác nhau của tham số \ cho kết quả khá khác biệt nhưng nhìn chung đều cải thiện kết quả của mô hình. Khi \ tăng lên, mức độ khám phá do thành phần học máy tăng cường cũng tăng lên, dẫn tới mô hình học được nhiều từ các

câu lệnh SQL được lấy mẫu. Nhưng điều đó cũng có thể dẫn tới việc mô hình khám

phá quá nhiều, không được neo vào phiên bản NLL. Cuối cùng dan tới việc khi A quá lớn, mô hình sẽ bị lỗi, độ chính xác sẽ giảm mạnh gần như về 0%.

Exact Set Match

Hình 4.2: Thuật toán REINFORCE với các giá trị À khác nhau trên T5 small. NLL

được huấn luyện với nhiều lượt hơn nhưng đã được thay đổi tỉ lệ để tiện so sánh.

Hình 4.2 thể hiện chi tiết kết quả của mô hình T5 small khi áp dụng ham mất mát NLL và kết hợp học máy tăng cường với các giá trị A khác nhau. Ta có thé

thấy, không chỉ giá trị cực đại khi sử dụng \ cao hơn giá trị cực dai của NLL mà trong quá trình huấn luyện, độ chính xác của các thuật toán REINFORCE luôn cao hơn NLL một khoảng cách rõ ràng. Tương tự, hình 4.3 cũng cho thấy thuật toán RELAX cho kết quả tốt hơn NLL trong hầu hết quá trình tỉnh chỉnh. Các kết quả chứng minh thuật toán REINFORCE, RELAX và các kỹ thuật liên quan

đã góp phần nâng cao độ chính xác cho mô hình tham chiếu một cách đáng kể và ổn định.

T5 base Két quả trên mô hình T5 base cũng được thể hiện ở Bang 4.3. Khi chỉ

sử dụng hàm mục tiêu NLL, độ chính xác EM dat 57.4%, và độ chính xác EX đạt

60.2%. Thuật toán REINFORCE đã cải thiện 1.2 điểm phần trăm EM và 1.4 điểm

Exact Set Match

Hình 4.3: Thuật toán RELAX với các giá trị À khác nhau trên T5 small. NLL được

huấn luyện với nhiều lượt hơn nhưng đã được thay đổi tỉ lệ để tiện so sánh.

phần trăm EX so với phương pháp NLL. Đối với mô hình này, RELAX cho kết

quả tốt hơn khi nâng cao 2.0 và 1.9 điểm phần trăm EM và EX. Hình 4.4 thể hiện

độ chính xác trong quá trình tinh chỉnh sử dụng thuật toán RELAX với các giá

trị \ khác nhau và độ chính xác khi chỉ sử dung NLL. Có thể thấy kết quả trên

T5 base không vượt trội như T5 small, tuy nhiên với À = 0.1 va A = 0.3 thuật toán

kết hợp vẫn duy trì độ chính xác cao hơn trong phần lớn thời gian huấn luyện. Số điểm phan trăm chênh lệch ở mô hình T5 base ít hơn trên T5 small là điều có thể hiểu được vì mô hình T5 base vốn có nhiều thông tin hơn, độ chính xác khi chỉ sử dung NLL cũng đã lớn hơn nhiều so với T5 small. Đó cũng rất có thể là lý do trên

T5 base, tham số À tốt hơn có giá trị nhỏ hơn, 0.5 và 0.3 so với 0.05 và 0.1 lần lượt

trên T5 small và T5 base cho từng thuật toán REINFORCE và RELAX.

Mặc dù hàm phần thưởng không trực tiếp là độ chính xác EM hay EX nhưng

hai giá trị này đều được cải thiện đáng kể. Tại các điểm mà EM đạt đỉnh, giá trị

EX cũng đạt đỉnh hoặc gần đỉnh. Tuy vậy, giá trị EM được cải thiện nhiều hơn

EX. Điều này có thể lý giải thông qua cách thiết kế hàm phần thưởng. Hàm phan

thưởng được tính toán dựa trên câu lệnh SQL và gần với độ chính xác EM hơn,

0.60

0.55

0.50

0.45

Exact Set Match 0.40

0.35

0.30

0.25

Hình 4.4: Thuật toán RELAX với các giá tri À khác nhau trên T5 base. NLL được

huấn luyện với nhiều lượt hơn nhưng đã được thay đổi tỉ lệ để tiện so sánh.

dẫn tới mô hình có xu hướng cải thiện giá trị EM hơn là EX.

Độ phức tap của truy van SQL Bộ dữ liệu Spider phân loại các câu truy vấn theo bốn mức độ phức tạp khác nhau. Để đánh giá việc cải thiện chất lượng do

thành phần học máy tăng cường đóng góp theo từng mức độ, bảng 4.4 thống kê kết quả của mô hình NLL và RELAX theo độ chính xác EM. Có thể thấy với mức

dé, hiệu năng của RELAX tương đương với NLL. Còn với 3 mức độ vita, khó, và

rất khó thì RELAX cho thấy sự cải thiện đáng kể khi nâng độ chính xác EM lên

lần lượt 3.3, 1.2, và 1.8 điểm phần trăm. Ở chiều ngược lại, bảng 4.5 thể hiện độ

chính xác EM khi chỉ sử dụng NLL và sử dụng thêm thuật toán RELAX theo độ

phức tap của câu SQL được sinh ra bởi mô hình. Với mức độ dé và vita, kết qua

của RELAX có kém hơn một lượng không quá lớn (dưới 1%). Còn với hai mức độ

khó cao hơn, RELAX có độ chính xác cao hơn hắn, lần lượt là 49.1% và 37.1% so

với 41.1% và 34.5% của NLL.

Các kết quả này cho thấy sử dụng học máy tăng cường cho phép mô hình học được

cách sinh ra những truy vấn phức tạp tốt hơn đáng kể so với khi chỉ sử dụng học

may giám sát.

Dưới đây là một vài ví dụ của câu SQL đầu ra khi có và không sử dụng học máy

tăng cường:

Câu hỏi:

What are the major record formats of orchestras, sorted by their frequency?

Cấu trúc CSDL:

conductor: conductor_id, name, age, nationality, year of _work orchestra: orchestra_id, orchestra, conductor_id,

record_company, year_of_founded, major_record_format performance: performance_id, orchestra_id, type, date,

official_ratings, weekly_rank, share

show: show_id, performance_id, if_first_show, result, attendance

Câu SQL chuẩn:

SELECT major_record_format FROM orchestra

GROUP BY major_record_format ORDER BY COUNT(*) ASC

Cau SQL do NLL sinh ra:

SELECT major_record_format FROM orchestra ORDER BY frequency Câu SQL do RELAX sinh ra:

SELECT major_record_format FROM orchestra

GROUP BY major_record_format ORDER BY COUNT(*) ASC

Câu hỏi:

What is the best rank of losers across all matches?

Cấu trúc CSDL:

players: player_id, first name, last name, hand, birth_date, country_code

matches: best_ of, draw size, loser_age, loser_entry, loser_hand, loser_ht, loser id, loser ioc, loser name, loser_rank,

loser_rank_points, loser_seed, match num, minutes, round, score, surface, tourney date, tourney_id,

tourney_level, tourney_name, winner_age, winner_entry,

winner_hand, winner_ht, winner_id, winner_ioc, winner_name,

Bang 4.4: Độ chính xác EM trên T5 base theo mức độ phức tạp Độ phức tap NLL RELAX

Dé 85.9 85.5

Vua 56.3 59.6 Khó 44.8 46.0

Rất khó 29.5 31.3

Bang 4.5: Độ chính xác EM trên T5 base theo mức độ phức tap của câu SQL được sinh ra

Độ phức tạp NLL RELAX

của câu SQL sinh ra

Dã 80.1 79.4

Vita 59.8 58.0

Khó 411 49.1

Rất khó 345 37.1

winner_rank, winner_rank_points, winner_seed, year rankings: ranking date, ranking, player_id,

ranking points, tours

Câu SQL chuẩn:

SELECT MIN(loser_rank) FROM matches

Câu SQL do NLL sinh ra:

SELECT best_rank FROM matches

ORDER BY loser_rank_points DESC LIMIT 1 Câu SQL do RELAX sinh ra:

SELECT MIN(loser_rank) FROM matches

Kết hợp học máy tăng cường và học máy giám sát

Các độ đo cho bài toán text-to-SQL

Các bộ dữ liệu biến thể của Spider