Cấu trúc đại số trong miền ngôn ngữ tự nhiên 23 !

Một phần của tài liệu Luận án Tiến sĩ ngành Máy tính: Mô hình dự báo chuỗi thời gian ngôn ngữ dựa trên đại số gia tử (Trang 34)

1.2. Thơng tin và cấu trúc tốn học của miền ngôn ngữ tự nhiên 21!

1.2.1. Cấu trúc đại số trong miền ngôn ngữ tự nhiên 23 !

Miền ngôn ngữ của một biến ngôn ngữ ) trong tự nhiên là một tập các từ dùng để diễn tả giá trị có thể được gán cho biến đó, kí hiệu là &'(()). Ví dụ, ) là %pz để diễn tả tuổi của con người, hay wmzz& để diễn tả tốc độ của xe máy… Khi đó, &'((%pz) chứa các từ ngôn ngữ như ‘young’, ‘old’, ‘Very young’, ‘Rather young’, ‘Rather old’, ‘Very old’… và &'((wmzz&) chứa các từ ngôn ngữ diễn tả tốc độ như ‘slow’, ‘fast’, ‘Very slow, ‘Little slow, ‘Little fast’, ‘Very

fast’… Ngơn ngữ tự nhiên có khả năng diễn tả và truyền đạt lượng thông tin vô

cùng phong phú về thế giới thực. Từ mối quan hệ mật thiết giữa cấu trúc và thơng tin có thể thấy rằng trong miền ngơn ngữ vốn tồn tại một cấu trúc khá phức tạp. Trong phần này sẽ trình bày cách khám phá cấu trúc đó sử dụng các phương pháp tốn học.

1.2.1.1 Cú pháp ngữ nghĩa của biến ngôn ngữ )

Khi xem xét miền của nhiều biến ngôn ngữ trong thực tế, ta dễ dàng nhận thấy &'(()) chứa hai từ hạt nhân (hay cịn gọi là từ ngun thủy) có ngữ nghĩa trái ngược nhau, trong ĐSGT thường kí hiệu là 5# và 55. Ở các ví dụ trên, các từ ‘young’, ‘old’ trong &'((%pz) hay ‘slow’, ‘fast’ trong &'((wmzz&) chính là các cặp từ hạt nhân. Gọi { là tập hợp của các gia tử trong đó mỗi gia tử là một tính từ (adjective) hoặc trạng từ (adverb) có chức năng tăng hoặc giảm ngữ nghĩa khi thêm vào trước các từ ngơn ngữ. Ví dụ, ‘very’, ‘extremely’, ‘little’, ‘rather’, ‘more’, ‘less’,… và rất nhiều gia tử như vậy thường được dùng trong thực tế. Tuy nhiên, trong mỗi ứng dụng thực tế hay trong từng thực nghiệm, chúng ta thường chọn một số lượng hữu hạn các gia tử phù hợp nhất với bài toán đặt ra. Việc lựa chọn các gia tử vì thế rất quan trọng để xác định cú pháp ngữ nghĩa của miền ngôn ngữ.

1.2.1.2. Cú pháp ngữ nghĩa của biến và miền ngơn ngữ dưới góc nhìn đại số

Nếu tìm kiếm trên Google từ khóa ‘very very very …’, tức là nhiều từ ‘very’ liên tiếp, khá nhiều kết quả với cụm từ đó trả về khi đứng trước các từ khác được

trả về. Đó là một ví dụ dễ gặp về thói quen sử dụng gia tử trong ngơn ngữ của con người. Việc dùng gia tử ‘very’ nhiều lần trong trường hợp này để nhấn mạnh về trạng thái rất của một tính từ nào đó phía sau. Một cách khái quát, một hạng từ # của biến ngôn ngữ ) có thể biểu diễn dưới dạng # = ℎ*… ℎ'5, 5 ∈ {5#, 55} và ℎ, ∈ {, ∀W ∈ 1, … , -. Giống như xâu kí tự, chiều dài của # chính là số kí tự có mặt trong xâu và kí hiệu là |#| và |#| = - + 1.

Như vậy, cú pháp ngữ nghĩa của miền ngơn ngữ của ) có thể được biểu diễn dưới dạng một cấu trúc đại số, kí hiệu }) và được định nghĩa như sau.

Định nghĩa 1.9: (Đại số gia tử) [146] Giả sử ) là một biến ngôn ngữ trong miền giá trị &'(()). ĐSGT }) là một bộ gồm 5 thành phần, }) = (9, o, p, {, ≤), trong đó:

¥! 9 là tập các giá trị ngôn ngữ của ), 9 ⊆ &'(()).

¥! ≤ là quan hệ thứ tự được cảm sinh bởi ngữ nghĩa vốn có của các từ ngơn ngữ trong 9.

¥! p là tập các phần tử sinh nguyên thuỷ âm và dương, p = {5–, 55} và 5– ≤ 55.

¥! o = {0, Ä, 1} là tập các giá trị hằng ngôn ngữ tương ứng với phần tử nhỏ nhất, phần tử trung hịa và phần tử lớn nhất.

¥! { là tập các tốn tử một ngơi gọi là các gia tử, { = {# ∪ {5với {# và {5 tương ứng là tập các gia tử âm và tập các gia tử dương.

Xét từ ngôn ngữ # ∈ 9\o, khi tác động gia tử ℎ vào # sẽ sinh ra từ ngơn ngữ mới kí hiệu là ℎ#. Kí hiệu {(#) là tập hợp bao gồm tất cả các từ ngôn ngữ B ∈ 9 được tạo ra từ # bằng cách tác động các gia tử trong { và được kí hiệu là B = ℎ*… ℎ'#, với ℎ', … , ℎ* ∈ {. Nếu # ∈ {5#, 55} thì chuỗi B = ℎ*… ℎ'# được gọi là một biểu diễn chính tắc nếu ℎ,5'… ℎ'# ≠ ℎ,… ℎ'#, ∀j = 1, … , n − 1. Khi đó, B có độ dài - + 1 được kí hiệu là |B| hoặc 0(B). Để thuận tiện, kí hiệu 9(/) là tập tất cả các từ ngơn ngữ có độ dài nhỏ hơn hoặc bằng Ö và 9/ là tập tất cả các từ ngơn ngữ có độ dài đúng bằng Ư.

Mơ hình tính mờ của biến ngơn ngữ ): một đặc điểm nổi bật của các thông tin mờ, bao gồm các tập mờ, là tính mờ của chúng. Vậy làm thế nào để miêu tả được tính mờ của các từ ngơn ngữ? Theo cách tiếp cận ĐSGT thì việc này được thực hiện một cách chặt chẽ bằng mơ hình tốn học. Trong đó, tính mờ của các từ ngôn ngữ sẽ được định nghĩa trong cấu trúc đại số }G.

Các gia tử có chức năng tăng cường hoặc giảm bớt ngữ nghĩa của các từ ngôn ngữ. Với mọi từ ngôn ngữ # thuộc 9, {(#) là tập tất cả các từ được tạo ra bằng cách tác động tất cả các gia tử ℎ ∈ { lên từ nguyên #. Thêm vào đó, với mọi hằng số 5 ∈ o thì ℎ5 = 5. Tức là, {(5) = 5 là một đơn điểm (singleton), hay còn gọi là tập đơn vị (tập chỉ có một phần tử). Do đó, các hằng số cung cấp các thơng tin chính xác chứ khơng phải là thơng tin khơng chắc chắn. Như vậy, có thể xem xét {(#) chính là mơ hình tính mờ của từ ngôn ngữ #. Tập {(#) càng lớn thì tính mờ của # càng cao.

Mơ hình tính mờ của ) có những thuộc tính được xây dựng theo phương pháp tiên đề. Xét các từ ngôn ngữ ∀#, Ü ∈ 9, ta có:

a)!Nếu Ü ∈ {(#) thì {(Ü) ⊆ {(#). Khi đó, ta nói Ü có tính mờ ít hơn so với #.

b)!# và Ü được gọi là độc lập với nhau nếu # ∉ {(Ü) và Ü ∉ {(#). Ta dễ dàng thấy: -! Nếu # và Ü là độc lập thì {(#) ∩ {(Ü) = ∅. Do đó, 5# và 55 là độc lập với nhau. -! Với ∀ℎ, ℎH ∈ {, ℎ ≠ ℎH; ∀# ∈ 9, # ∉ o ta có {(ℎ#) ∩ {(ℎH#) = ∅ tức là ℎ# và ℎH# là độc lập với nhau. c)!∀# ∈ 9, {(#) = ⋃I∈K{(ℎ#).

Do tính chất làm tăng cường hoặc giảm bớt ngữ nghĩa của các gia tử, dễ nhận thấy thứ tự trong tập của {(ℎ#) cũng theo thứ tự của các từ ℎ#, ℎ ∈ {. Ví dụ, ta có tính chất sau ℎ# ≤ ℎH# ⇒ {(ℎ#) ≤ {(ℎH#). Thêm vào đó, ta cũng có các quan hệ: {(p) = {(5#) ∪ {(55), {(5#) ∩ {(55) = ∅ và 9 = {(p) ∪ o. Một cách tương tự, thứ tự của các tập {(5#) và {(55) cũng tuân theo thứ tự ngữ nghĩa giữa 5# và 55.

1.2.1.3. Ngữ nghĩa định tính của biến ngơn ngữ

Để mơ tả, truyền tải và biểu diễn thơng tin, trong đó bao gồm cấu trúc của thơng tin (ví dụ như miền tri thức ngữ nghĩa của con người) một cách hiệu quả thì sự giàu ngữ nghĩa của các biến ngơn ngữ trong tự nhiên có vai trị quan trọng. Trong cấu trúc ngôn ngữ, ngữ nghĩa của biến ngôn ngữ bao gồm hai loại quan hệ là quan hệ thứ tự ngữ nghĩa và quan hệ chung-riêng. Các quan hệ này đóng vai

trị thiết yếu đối với con người trong việc thu thập thông tin, lập luận, ra quyết định đối với các tình huống thực tế cũng như trong thực nghiệm.

* Quan hệ thứ tự ngữ nghĩa trên 9

Khi muốn đưa ra quyết định, con người cần có các tiêu chí để đánh giá các lựa chọn của mình. Do đó, lẽ tự nhiên trong ngơn ngữ của con người vốn đã tồn tại quan hệ thứ tự giữa các từ ngôn ngữ. Như vậy, trên 9 vốn đã tồn tại quan hệ thứ tự, ta kí hiệu quan hệ đó là ≤ và gọi là quan hệ thứ tự ngữ nghĩa. Các nghiên cứu [108], [109], [126], [144–146] đã chỉ ra quan hệ thứ tự ngữ nghĩa có thể được xem xét dưới các góc độ sau:

-!Quan hệ thứ tự giữa các phần tử sinh, các gia tử và dấu đại số của chúng:

Cho cú pháp ngữ nghĩa của ) được khai báo bằng cách đặt tên các phần tử sinh trong p = {5#, 55} và tập các gia tử { = {0(0+SSji), [([tSℎiâ), l(l'âi), h(hiâÜ),z(z#Sâi(ijÜ)}. Trước hết, ta thấy rằng 5# ≤ 55 ví dụ, Ü'B-, ≤ 'jq. Như vậy, hai phần tử sinh có xu hướng trái ngược nhau về ngữ nghĩa trong đó 5# được gọi là phần tử sinh âm và 55 được gọi là phần tử sinh dương, *+,-(5#) = −1 và *+,-(55) = +1. Điều này có thể dễ dàng được rút ra khi xét tác động gia tử tăng cường ngữ nghĩa h(hiâÜ) ta thấy h5# ≤ 5# và 55 ≤ h55. Ta cũng có thể nhận thấy, l và z có cùng hướng tác động như h, như l5# ≤ 5#, 55 ≤ l55 và z5# ≤ 5#, 55 ≤ z55. Do tính chất của các gia tử này đều làm tăng cường ngữ nghĩa của phần tử sinh dương nên được gọi là các gia tử dương. Từ đó, ta

định nghĩa *+,-(z) = *+,-(h) = *+,-(l) = +1.

Dễ dàng nhận thấy các gia tử cịn lại, [ và 0, có xu hướng tác động ngược lại tức là làm giảm ngữ nghĩa của phần tử sinh dương (hay làm tăng ngữ nghĩa

của phần tử sinh âm) do đó chúng được gọi là các gia tử âm và dấu của chúng là *+,-([) = *+,-(0) = −1.

Như vậy, tập các gia tử âm và tập các gia tử dương tương ứng là {- = {[, 0} và {5 = {l, h, z}.

Đến đây, dễ thấy rằng biến ngôn ngữ ) tự nó đã chứa rất nhiều thuộc tính ngữ nghĩa định tính vốn có.

-!Quan hệ dấu giữa các gia tử và dấu của các từ ngôn ngữ: Như đã đề cập,

với mọi từ ngôn ngữ # của biến ) không phải là các hằng ngôn ngữ đều có thể dưới dạng xâu # = ℎ*… ℎ'5, 5 ∈ p, ℎ, ∈ {, W = 1 … -. Ví dụ, khi xét về tuổi ta các các từ ngôn ngữ như # = h0_Ü'B-,, # = [0_Ü'B-, hay # = hz_Ü'B-,. Theo ngữ nghĩa vốn có của các từ ngơn ngữ, ta thấy h_Ü'B-, ≤ Ü'B-, ≤ [0_Ü'B-, ≤ 0_Ü'B-, ≤ h0_Ü'B-,.

Từ bất đẳng thức Ü'B-, ≤ [0_Ü'B-, ≤ 0_Ü'B-, ta nhận thấy trong khi 0 tác động vào Ü'B-, ta nhận được một từ ngơn ngữ có ngữ nghĩa lớn hơn

(0_Ü'B-, ) thì [ tác động lên 0_Ü'B-, sẽ tạo ra một từ ngơn ngữ có ngữ nghĩa bé hơn ([0_Ü'B-,). Như vậy, việc điều chỉnh ngữ nghĩa khi tác động 0 lên từ ngôn ngữ Ü'B-, và tác động [ lên từ ngơn ngữ 0_Ü'B-, có xu hướng trái ngược nhau nên ta nói rằng quan hệ dấu giữa gia tử [ đối với gia tử 0 là âm và kí hiệu *+,-([, 0) = −1.

Một cách tương tự, xét bất đẳng thức Ü'B-, ≤ 0_Ü'B-, ≤ h0_Ü'B-, dễ thấy xu hướng tác động của gia tử 0 lên từ ngôn ngữ Ü'B-, và xu hướng tác động của gia tử h lên từ ngôn ngữ 0_Ü'B-, là giống nhau. Ta nói rằng quan hệ dấu giữa gia tử h đối với gia tử 0 là dương và kí hiệu *+,-(h, 0) = +1.

Với một từ ngôn ngữ # bất kỳ, # = ℎ*… ℎ'5, 5 ∈ p, # có dấu được định nghĩa như sau:

*+,-(#) = *+,-(ℎ*, ℎ*#') … *+,-(ℎ), ℎ')*+,-(5) ∈ {-1, +1}.

Ý nghĩa của dấu đại số của một từ ngôn ngữ # bất kỳ, trong đó # khơng phải là các hằng ngơn ngữ, là một quan hệ tương đương: *+,-(ℎ#) = +1 ⇔ ℎ# ≥ #. Vì ℎ# ≠ # nên một cách ngữ nghĩa ta thấy # ∉ {(ℎ#), ∀ℎ ∈ {.

Bảng 1.2. Quan hệ dấu giữa gia tử trên các hàng đối với gia tử trên các cột sign(hi,hj) L R M V E L – + – – – R – + – – – M + – + + + V + – + + + E + – + + +

Hàm dấu trong lý thuyết ĐSGT được định nghĩa một cách hình thức như dưới đây:

Định nghĩa 1.10: (Hàm dấu trong ĐSGT) [146] Hàm dấu *+,-: 9 ⟶ {−1, 0, 1} đối với các gia tử ℎ, ℎ’ ∈ { và các phần tử sinh 5 ∈ {5#, 55} có các tính chất sau:

+) !"#$(&!) = −1, !"#$(&") = +1; (1.12)

+) !"#$(ℎ’ℎ.) = 0 nếu ℎ’ℎ. = ℎ.; (1.13)

+) !"#$(ℎ&) = −!"#$(&) 1+!"#$(&)2, nếu ℎ âm (dương) đối với &; (1.14) +) !"#$(ℎ’ℎ.) = −!"#$(ℎ.)1+!"#$(ℎ.)2, nếu ℎ’ℎ. ≠ ℎ. và ℎ’ âm (dương) đối

với ℎ. (1.15)

* Quan hệ chung-riêng trên 9

Một đặc tính quan trọng khác trong quan hệ ngữ nghĩa định tính của các từ ngôn ngữ là quan hệ chung-riêng. Dễ nhận thấy rằng quan hệ chung-riêng rất cần thiết cho con người để tổng hợp các mảnh ghép tri thức trong q trình tích lũy. Khái niệm này được định nghĩa hình thức như sau:

-! Do chức năng của mình, mọi gia tử ℎ là làm tăng cường hay giảm bớt ngữ nghĩa của các từ ngôn ngữ # bằng cách tác động nhằm tạo ra một từ mới ℎ#, cụ thể hơn hay cịn nói là riêng hơn. Nếu 0(#) = Ư > 0 thì ta gọi có tính riêng là Ö (k-specific hay k-specificity), trong đó 0(#) hay Ö là độ dài từ tối đa trong 9. Do đó, trong tiếp cận ĐSGT một từ # gọi là

chung hơn một từ Ü nếu tồn tại quan hệ bao hàm {(#) ⊇ {(Ü), kí hiệu là è(#, Ü) và được gọi là quan hệ chung-riêng.

-! Quan hệ è(#, Ü) thỏa mãn các tính chất sau (xem [130]): (i)! Với ∀# ∈ 9 và ∀ℎ ∈ {, ta ln có quan hệ è(#, ℎ#);

(ii)! Tính chất phản xạ: Với ∀# ∈ 9 đều tồn tại quan hệ è(#, #); (iii)! Tính chất đối xứng: Với ∀#, Ü ∈ 9, è(#, Ü) & è(Ü, #) ⇒ # = Ü; (iv)! Tính chất bắc cầu: Với ∀#, Ü, ë ∈ 9, è(#, Ü) & è(Ü, ë) ⇒ è(#, ë).

1.2.1.4. ĐSGT của biến ngơn ngữ - mơ hình tốn học cho cấu trúc ngữ nghĩa của miền ngôn ngữ được xây dựng theo phương pháp tiên đề

Cần nhấn mạnh rằng tất cả cú pháp và ngữ nghĩa định tính đều được phát hiện một cách tự nhiên từ ngôn ngữ. Chúng vốn đã tồn tại trong ngôn ngữ tự nhiên của con người và dễ dàng quan sát được chúng. Một số thuộc tính ngữ nghĩa của từ ngơn ngữ được dùng thiết lập một hệ tiên đề trong các nghiên cứu [108], [109], [126], [144–146] để tạo lên ĐSGT. Như vậy, ĐSGT có khả năng mơ hình hóa tốn học miền ngôn ngữ trong tự nhiên một cách phù hợp.

Như đã thảo luận ở trên, mỗi biến ngôn ngữ ) vốn đã tồn tại một quan hệ chung-riêng trên 9. Ví dụ: tồn tại một quan hệ è(#, Ü), ∀#, Ü ∈ 9 nếu và chỉ nếu {(#) ⊇ {(Ü). Do đó, nếu chỉ giới hạn trong tập 9 của ĐSGT }G và tập trung vào các quan hệ trên 9, ≤ và è, ta thu được cấu trúc íG = (9, ≤, è). Cấu trúc này gọi là cấu trúc ngữ nghĩa đa khía cạnh để nhấn mạnh sự phức tạp của cấu

trúc ngữ nghĩa tồn tại trong đó. Khả năng của ngơn ngữ con người trong truyền tải và biểu diễn thông tin từ thế giới thực trong một cấu trúc phức tạp tồn tại khách quan và ẩn chứa trong miền của biến ngơn ngữ. Nó chứng minh mối quan hệ gần gũi mật thiết giữa thơng tin và cấu trúc của nó trong ngơn ngữ của con người.

1.2.2. Lượng hóa cấu trúc ngữ nghĩa của ngôn ngữ bằng phương pháp tiên đề

Biến ngôn ngữ tự nhiên chứa một cấu trúc tốn học đủ ‘giàu’ và phức tạp có thể được định nghĩa bằng phương pháp tiên đề. Mặc dù vậy, chưa có đủ các tính chất số học để xây dựng các chương trình máy tính mơ phỏng khả năng của con người như mô tả thông tin về tri thức của con người từ một tập dữ liệu lớn dạng số. Do đó, vấn đề cần đặt ra là: “Làm thế nào để lượng hóa quan hệ thứ tự ngữ

nghĩa giữa các từ ngôn ngữ bằng phương pháp tiên đề”?

Trong cuộc sống thường ngày của mỗi cá nhân, con người có khả năng vận dụng các kinh nghiệm lâu năm của mình thu được bằng phương pháp thử-sai để xây dựng mối quan hệ giữa các từ ngôn ngữ và giá trị ngữ nghĩa thực tương ứng

của nó. Ví dụ, nếu biết chiều cao () = {zZp{ì) của một người trưởng thành là 174cm thì ta có thể nhận định chiều cao của anh ta là ‘high’. Như vậy, trong kinh nghiệm của mỗi người vốn đã tồn tại một quan hệ giữa ngữ nghĩa của từ ngôn ngữ và số liệu thực tế.

Một dạng khác của ngữ nghĩa số học của ngôn ngữ là ngữ nghĩa khoảng. Ví dụ, người ta thường thừa nhận độ tuổi trung niên của người Việt Nam từ 43 đến 49 tuổi. Do đó, ngữ nghĩa khoảng của tuổi () = %pz) trung niên (middle age) có thể được định nghĩa trong khoảng [43,49].

Theo cách này, có thể thiết lập mối quan hệ vốn có giữa ngữ nghĩa định tính, ngữ nghĩa số học và ngữ nghĩa khoảng của từ ngôn ngữ theo phương pháp tiên đề. Trên quan điểm nghiên cứu của ĐSGT, nhiệm vụ này là rất cần thiết về mặt lý thuyết. ĐSGT và khả năng lượng hóa của nó có thể thiết lập một nền tảng tốn

Một phần của tài liệu Luận án Tiến sĩ ngành Máy tính: Mô hình dự báo chuỗi thời gian ngôn ngữ dựa trên đại số gia tử (Trang 34)

Tải bản đầy đủ (PDF)

(130 trang)