1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp xác định độ tương tự giữa hai văn bản

85 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phương pháp xác định độ tương tự giữa hai văn bản
Tác giả Nguyễn Thị Hồng
Người hướng dẫn TS. Nguyễn Duy Phương
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Công nghệ thông tin
Thể loại Đồ án tốt nghiệp đại học
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 85
Dung lượng 23,49 MB

Nội dung

Cho đến thời điểm hiện tại, có nhiều phương pháp đã được đề xuất cho bài toán này, tuy nhiên đối với các văn bản tiếng Việt, việc nghiên cứu và áp dụngđang còn hạn chế, đa số các phương

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIÊN THÔNG

KHOA CÔNG NGHỆ THONG TIN I

——csÍ~Ìga——

DO AN TOT NGHIEP DAI HOC

DE TAI NGHIEN CUU:

“PHƯƠNG PHÁP XÁC ĐỊNH ĐỘ TƯƠNG TU GIỮA HAI VĂN BẢN.”

Giảng viên hướng dẫn : TS NGUYÊN DUY PHƯƠNGSinh vién thuc hién : NGUYEN THỊ HONG

Trang 2

SN TT

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

KHOA CÔNG NGHỆ THÔNG TIN I

—calOso—

DE TAI NGHIEN CUU:

“PHƯƠNG PHÁP XÁC ĐỊNH ĐỘ TƯƠNG TU GIỮA HAI VAN BẢN.”

Giảng viên hướng dẫn : TS NGUYEN DUY PHƯƠNGSinh vién thuc hién : NGUYEN THỊ HONG

Trang 3

NHAN XÉT

(Của giảng viên phản biện)

Trang 4

NHAN XÉT, ĐÁNH GIA, CHO DIEM

(Của giảng viên hướng dẫn)

Điểm: (bằng chữ: ccccSà, )

Hà Nội, ngày 22 tháng 12 năm 2021

Giảng viên hướng dẫn

Trang 5

Đồ án tốt nghiệp đại học

LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc đến các thầy cô giảng viên KhoaCông nghệ thông tin I nói riêng và các thầy cô giảng viên Học viện Công nghệ Bưuchính Viễn thông nói chung Trong suốt quá trình học tập tại Học viện, thầy cô đã làngười chi bảo, giảng dạy cho em rất nhiều kiến thức, kinh nghiệm quý bau dé em có

được một hành trang vững bước trong tương lai.

Bên cạnh đó, em xin được đặc biệt gửi lời cảm ơn đến thay Nguyễn Duy

Phương, người đã luôn hướng dẫn, chỉ bảo em tận tình trong suốt quá trình học tập,

nghiên cứu, xây dựng và hoàn thiện đồ án này

Em cũng xin gửi lời cảm ơn tới bố mẹ, người thân và bạn bè đã luôn bên cạnhchăm lo, quan tâm, giúp đỡ và động viên em trong suốt những tháng năm đại học

Với điều kiện thời gian cũng như kinh nghiệm của em về lĩnh vực này còn hạnchế nên đồ án không thể tránh được những thiếu sót Vì thế, em rất mong nhận được

sự chỉ bảo và đóng góp ý kiến của các thầy, cô dé em có thé bổ sung và nâng cao kiến

thức của mình hơn nữa.

Cuối cùng, em xin kính chúc quý thầy cô một năm mới dồi dao sức khỏe, an

khang, thịnh vượng và thành công hơn nữa trong sự nghiệp.

Em xin chân thành cảm ơn!

Hà Nội, ngày 01 tháng 01 năm 2022

Sinh viên

Nguyễn Thi Hong

Nguyễn Thị Hồng - D17CNPM04

Trang 6

Đồ án tốt nghiệp đại học

MỤC LỤC

LỜI CẢM ƠN iDANH MUC TU VIET TAT v

DANH MỤC HÌNH ANH viTONG QUAN DE TAI 1

1 Lý do chọn đề tài 1

2 Mục dich của dé tài 1

3 Đối tượng 1

4 Phương pháp nghiên cứu 2

5 N6i dung nghiên cứu 2

CHUONG 1: TONG QUAN VE ĐỘ TƯƠNG TỰ GIỮA HAI VĂN BẢN 3

1.1 Giới thiệu về văn bản 3

1.2 Giới thiệu về ngôn ngữ tự nhiên 3

1.2.1 Ngôn ngữ tự nhiên (NLP) 3

1.2.2 Tam quan trong và một số ứng dung của xử ly ngôn ngữ tự nhiên 7 1.2.3 Một số thuật ngữ phổ biến trong NLP 11 1.2.4 Vấn đề về độ tương tự trong văn bản 15 1.2.5 Các bài toán xử lý trong tiếng Việt 16

CHƯƠNG 2: CÁC PHƯƠNG PHÁP XÁC ĐỊNH MỨC ĐỘ TƯƠNG TỰ GIỮA

HAI VAN BAN 18

2.1 Bai toán so sánh văn ban tiếng Việt 18 2.1.1 Phát biếu về bài toán 18 2.1.2 Đặc điểm của ngôn ngữ tiếng Việt 18 2.1.2.1 Cấu tạo từ tiếng Việt 18 2.1.2.2 Từ dong nghĩa 19 2.1.2.3 Từ đồng âm khác nghĩa 19 2.1.2.4 Đặc điểm chính tả 20 2.1.2.5 Tiền xử ly văn bản 21 2.1.2.6 Biểu diễn văn bản 25 2.2 Độ tương đồng văn bản về mặt từ ngữ (Text Similarity) 25 2.2.1 Các thuật toán chuyển đổi văn bản sang Embedding 25

2.2.1.1 Bag of Words (BoW) 26 2.2.1.2 TF-IDF 26 2.2.1.3 Word2vec 27

Nguyễn Thị Hồng - D17CNPM04 6

Trang 7

Đồ án tốt nghiệp đại học

2.2.1.4 Doc2Vec 30

2.2.2 Cac thước do khoảng cách, độ tương tự trong Machine Learning 32 2.2.2.1 Độ tương đồng văn bản dựa trên tập từ chung 33 2.2.2.1.1 Jaccard Similarity 33 2.2.2.1.2 Contrast model 35

2.2.2.1.3 Jaro distance 35

2.2.2.2 Độ tương đồng văn bản dựa trên vector biểu diễn 36 2.2.2.2.1 Cosine Similarity 36

2.2.2.2.2 Euclidean distance 39 2.2.2.2.3 Manhattan distance 41

CHUONG III BO TUONG DONG VAN BAN VE MAT NGU NGHIA VA UNG

DUNG 43

3.1 Độ tương đồng văn ban về ngữ nghĩa (Semantic Similarity Methodologies) 43

3.1.1 Topological/Knowledge-based Methods 44 3.1.2 Statistical-Based Similarity 46 3.1.3 Language Model-Based Similarity: BERT Model 46

3.1.3.1 Transformers 47 3.1.3.2 BERT Model 53

3.2 Ứng dụng của BERT vào độ tương tự giữa hai văn bản 59

3.2.1 Quá trình xây dựng hệ thong 59 3.2.1.1 Thiết lập hệ thong 59 3.2.1.2 Bộ cơ sở dữ liệu huấn luyện 60 3.2.1.3 Huấn luyện dữ liệu và xây dựng ứng dụng 60 3.2.2 Kết quả thực nghiệm và đánh giá 64

KET LUẬN 67

TÀI LIỆU THAM KHẢO 68

Nguyễn Thị Hồng - D17CNPM04 7

Trang 8

Đồ án tốt nghiệp đại học

DANH MỤC TU VIET TAT

Ký hiệu chữ viết tắt | Chữ viết đầy đủ

ASR Automatic Speech Recognition

BERT Bidirectional Encoder Representations from Transformers BoW Bag of Words

CBOW Continuous Bag-of-Words

GLU score General Language Understanding Evaluation score

NER Named Entity

NLG Natural Language Generation

NLI Natural Language Inference

NLP Natural Language Processing

NLTK Natural Language Toolkit

NLU Natural Language Understanding

NSP Next Sentence Prediction

OCR Optical Character Recognition

Trang 9

Đồ án tốt nghiệp đại học

DANH MỤC HÌNH ẢNH

Hình 1.1: Xử lý ngôn ngữ tự nhiên trong giao tiếp 3

Hình 1.2: Các lĩnh vực của xử ly ngôn ngữ tự nhiên (NLP) 5

Hình 1.3: Mô hình nhận dạng tiếng nói (ASR) 7Hình 1.4: Mô hình tổng hợp tiếng nói (TTS) 8Hình 1.5: Mô hình nhận dạng chữ viết (OCR) 8Hinh 1.6: So dé phuong phap trich xuat trong van ban (Extrative) 10Hình 1.7: Sơ đồ phương pháp tóm lược ý trong văn bản (Abstractive) 10

Hình 1.8: Các kỹ thuật tach từ trong xử ly ngôn ngữ tự nhiên 13

Hình 1.9: Ví dụ về N-gram 14

Hình 2.1: Các phương pháp tach từ 22

Hình 2.2: Ví dụ về one-hot vector 28

Hình 2.3: Mô hình Skip-gram 29 Hình 2.4: Mô hình PV-DM 31 Hình 2.5: Mô hình PV-DBOW 32

Hình 2.6: Ví dụ về Jaccard Similarity 33

Hình 2.7: Jaccard Similarity trong Python 35

Hình 2.9: Ví dụ về Cosine Similarity 37

Hình 2.10: Cosine Similarity trong Python 39

Hinh 2.11: Vi du vé Euclidean Distance 40

Hinh 2.12: Euclidean Distance trong Python 41 Hinh 2.13: Manhattan distance trong Python 42

Hình 3.1: Vi du về độ tương đồng ngữ nghĩa trong văn ban 43

Hình 3.2: Các phương pháp Typological/Knowledge-based Methods 44

Hình 3.3: Vi dụ về Node-based/Information Content Approach 45Hình 3.4: Sơ đồ kiến trúc Transformer 47

Hình 3.5: Minh họa Position Encoding 48

Hinh 3.6: M6 hinh Encoder 49 Hinh 3.7: M6 hinh Self Attention Layer 50

Hinh 3.8: M6 hinh Multi Head Attention 51

Hình 3.9: Mô hình của Decoder 52

Nguyễn Thị Hồng - D17CNPM04 9

Trang 11

Đồ án tốt nghiệp đại học Tổng quan đề tài

TONG QUAN DE TÀI

1 Ly do chọn đề tàiNgày nay, với sự phát triển nhanh chóng và vượt bậc của khoa học công nghệ

đặc biệt là máy tính và mạng Internet thì thông tin dưới dạng văn bản đã trở nên phong

phú và đa dạng hơn Với sự trợ giúp đắc lực của các công cụ thì chỉ với một vai thaotác đơn giản ta có thé nhận được rất nhiều những thông tin mà chúng ta tìm kiếm.Cũng chính vì thế mà sự chọn lọc thông tin mới, hữu ích ngày càng trở nên khó khăn

hơn.

Natural Language Processing (NLP) hay còn được gọi là xử lý ngôn ngữ tự

nhiên - là một lĩnh vực nghiên cứu có sự kết hợp giữa công nghệ thông tin và ngôn

ngữ học Trong đó, vai trò của công nghệ thông tin ngày càng chứng tỏ sức mạnh và

tầm quan trong trong các nghiên cứu cũng như kết quả ứng dụng vào thực tế Hiệnnay, có rất nhiều nghiên cứu đã áp dụng kết quả vào triển khai ứng dụng thực tiễn đemlại hiệu quả cao như các bài toán tóm tắt văn bản, trích xuất tự động, dịch tự động, Đặc biệt là bài toán tính độ tương đồng giữa hai văn bản đang là đề tài đáng được chú

ý và quan tâm Cho đến thời điểm hiện tại, có nhiều phương pháp đã được đề xuất cho

bài toán này, tuy nhiên đối với các văn bản tiếng Việt, việc nghiên cứu và áp dụngđang còn hạn chế, đa số các phương pháp đã đề xuất sử dụng cho văn bản tiếng Anh

do đặc diém cau tạo của ngôn ngữ tiêng Việt có nhiêu diém khác biệt.

2 Mục dich của đề tàiNghiên cứu các phương pháp xác định độ tương đồng văn bản không những vềmặt từ ngữ mà còn cả về mặt ngữ nghĩa, từ đó làm tiền đề để xây dựng mô hình hệ

thống đánh giá sự tương đồng văn

3 Đổi tượng

- Cac van đê vê độ tương tự giữa hai văn ban và các bai toán xử lý trong tiêng

Việt.

Nguyễn Thị Hồng - D17CNPM04 1

Trang 12

Đồ án tốt nghiệp đại học Tổng quan đề tài

Các phương pháp xác định mức độ tương tự trong văn bản về mặt cú pháp như

mức độ câu, từ, đoạn văn,

Các mô hình, phương pháp xác định mức độ tương tự văn bản về mặt ngữ nghĩa

và ứng dụng trong so sánh văn bản.

4 Phương pháp nghiên cứu

Tìm kiếm, thu thập và hệ thống hóa các phương pháp nghiên cứu đã có về van

đề độ tương đồng trong văn bản

Nghiên cứu lí thuyết về mô hình xác định mức độ tương tự trong văn bản làmtiền đề cho việc xây dựng ứng dụng và đề xuất hướng giải quyết tối ưu cho bài

toán.

5 Nội dung nghiên cứu

Tìm hiểu tổng quan về các van đề trong việc xử lý ngôn ngữ tự nhiên

Nghiên cứu tìm hiểu bài toán so sánh văn bản

Nghiên cứu các phương pháp, mô hình biểu diễn văn bản

Tìm hiểu các phương pháp xác định mức độ tương tự trong văn bản

Xây dựng ứng dụng so sánh văn bản.

Nguyễn Thị Hồng - D17CNPM04

Trang 13

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

CHƯƠNG 1: TONG QUAN VE ĐỘ TƯƠNG TỰ GIỮA HAI VAN

-BAN

1.1 Giới thiệu về văn bản

Văn bản là một loại hình phương tiện dé ghi nhận, lưu giữ va truyền đạt các

thông tin từ chủ thể này sang chủ thé khác băng kí hiệu gọi là chữ viết Nó gồm tậphợp các câu có tính trọn vẹn về nội dung, hoản chỉnh về hình thức, có tính liên kết chặt

chẽ và hướng tới một mục tiêu giao tiếp nhất định Hay nói cách khác, văn bản là mộtdạng sản phẩm của hoạt động giao tiếp bằng ngôn ngữ được thê hiện ở dạng viết trên

một chất liệu nào đó ( giấy, bia đá, ) Văn bản bao gồm các tài liệu, tư liệu, giấy tờ

có pháp lý nhất định được sử dụng trong hoạt động của các cơ quan Nhà nước, các tổchức chính trị, chính trị - xã hội, các tổ chức kinh tế như các văn bản pháp luật, cáccông văn, tài liệu, giấy tờ

1.2 Gidi thiệu về ngôn ngữ tự nhiên

1.2.1 Ngôn ngữ tự nhiên (NLP)

Natural Language Processing (NLP) hay xử lý ngôn ngữ tự nhiên được con

người sử dụng dé giao tiếp và phát triển một cách tự nhiên Xử lý ngôn ngữ tự nhiên là

một lĩnh vực khoa học máy tính và ngôn ngữ học liên quan đến sự tương tác giữa máytính và với ngôn ngữ của con người Các hệ thống tạo ngôn ngữ tự nhiên chuyền đổithông tin từ cơ sở đữ liệu máy tinh sang ngôn ngữ con người có thé đọc được

Ngôn ngữ tự nhiên đề cập đến cách chúng ta, con người giao tiếp với nhau Cụthé là bài phát biểu hay văn bản Mỗi ngày chúng ta đều tiếp xúc với rất nhiều các loại

văn bản như: tin nhắn, email, các trang web, thực đơn, hợp đồng Với tầm quan trọngcủa loại dir liệu này, chúng ta phải có các phương pháp dé hiểu và lập luận về ngônngữ tự nhiên giống như chúng ta làm với các loại đữ liệu khác

Nguyễn Thị Hồng - D17CNPM04 3

Trang 14

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

Hình 1.1: Xử by ngôn ngữ tự nhiên trong giao tiếp

NLP đề cập đến nhánh của khoa học máy tính và cụ thể hơn là nhánh của trí tuệnhân tạo hoặc AI — liên quan đến việc cung cấp cho máy tinh khả năng hiểu văn bản

và lời nói theo cách giống như con người có thé Nó kết hợp ngôn ngữ học tính toán —

mô hình dựa trên nguyên tắc của ngôn ngữ con người — với các mô hình thống kê, học

máy và học sâu Cùng với nhau, các công nghệ nay cho phép máy tính xử ly ngôn ngữ

của con người dưới dang dit liệu văn bản hoặc giọng nói và hiểu ý nghĩa day đủ của

nó, hoàn chỉnh với ý định và cảm xúc của người nói hoặc người viết

Xử lý ngôn ngữ tự nhiên cung cấp nhiều kỹ thuật giải thích ngôn ngữ khácnhau Có các thuật toán học máy, mô hình thống kê và các phương pháp tiếp cận môhình dựa trên các bộ phận quy tắc Sự kết hợp của các kỹ thuật này được sử dụng dégiúp các hệ thống máy tính xử lý dữ liệu ngôn ngữ của con người

NLP được tạo ra với mục đích chia nhỏ các tập hợp lớn dữ liệu ngôn ngữ của

con người thành các thành phần nhỏ hơn, ngắn hơn va logic hơn được xây dựng déhiểu mục đích ngữ nghĩa và cú pháp của ngôn ngữ nói và viết của chúng ta Mục đíchbao quát là lay đầu vào ngôn ngữ và sử dụng các thuật toán dé chuyền đôi điểm giá trị

của dt liệu thành một thứ gì đó lớn hơn.

Như chúng ta đã biết, máy tính được cấu tạo từ những con số do đó nó chỉ cóthé đọc được dit liệu số mà thôi Trong NLP thì dé xử lý dữ liệu text chúng ta phảichuyển dữ liệu từ text sang numeric, tức là đưa nó vào một không gian mới, người ta

thường gọi là embedding Trước đây, người ta mã hóa theo kiểu one-hot coding — tức

là tạo một vocabulary cho di liệu và mã hóa các word trong document thành nhữngvector Nếu word đó có trong document thì mã hóa là “1”, còn không có sẽ là “0” Kết

quả tao ra một sparse matrix, tức là matrix hầu hết là “0” Các mã hóa này có nhiềunhược điểm như: thứ nhất là số chiều của nó rất lớn (NxM,N là số document, M là sốvocabulary), thứ hai các word không có quan hệ với nhau Điều đó dẫn đến người ta

nghĩ ra một model mới có tên là word embedding, ở đó các cặp word sẽ có quan hệ với

nhau về ngữ nghĩa, ví dụ như paris-tokyo, man-woman, boy-girl, những cặp từ này sẽ

có khoảng cách gần nhau hơn trong word embedding space Ví dụ điển hình mà ta thấy

Nguyễn Thị Hồng - D17CNPM04 4

Trang 15

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

đó là phương trình king — queen = man — woman Cái ưu điêm thứ hai của nó là sô chiêu giảm còn NxD.

Hình 1.2: Các lĩnh vực của xu ly ngôn ngữ tự nhiên (NLP)

Xử lý ngôn ngữ tự nhiên bao gồm: Managing Human — Computer Dialog

System, Machine Perception, Natural Language Understanding, Natural Language Classifier, Natural Language Generation.

- Machine Perception: Nhận thức máy móc Là khả năng của một hệ thống máy

tính để giải thích dữ liệu theo cách tương tự như cách con người sử dụng các

giác quan của mình để liên quan đến thế giới xung quanh Bất kỳ loại công

nghệ nào mô phỏng bất kỳ loại giác quan nào của con người cho dù đó là thịgiác, thính giác, vị giác, xúc giác hay cảm giác đều có thé được dan nhãn nhận

thức máy

- Natural Language Understanding (NLU): Sự hiểu biết ngôn ngữ tự nhiên

bao gồm 4 bước:

o Phan tích hình vị: là sự nhận biết, phân tích và miêu tả cau trúc của

những hình vị trong một ngôn ngữ cho trước và các đơn vị ngôn ngữ

Nguyễn Thị Hồng - D17CNPM04 5

Trang 16

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

khác như từ gốc, biên từ, từ loại, Có hai loại bài toán điển hình trongphần này, bao gồm bài toán tách từ (word segmentation) và gán nhãn từ

loại (POS).

o Phan tích cú pháp: là quy trình phân tích một chuỗi các biểu tượng ở

dạng ngôn ngữ tự nhiên hoặc ngôn ngữ máy tính tuân theo văn phạm hình thức Văn phạm hình thức thường được dùng trong phân tích cú

pháp của ngôn ngữ tự nhiên bao gồm Văn phạm phi ngữ cảnh

(context-free grammar: CFG) và Văn phạm phụ thuộc (dependency

grammar: DG) Dau vào của quá trình phân tích là một câu gồm mộtchuỗi từ và nhãn từ loại của chúng và đầu ra là một cây phân tích théhiện cấu trúc cú pháp của câu đó Các thuật toán phân tích cú pháp phổ

biến bao gồm CKY, Earley, Chart và GLR

o Phân tích ngữ nghĩa: là quá trình liên hệ cấu trúc ngữ nghĩa, từ cấp độ

cụm từ, mệnh đề, câu và đoạn đến cấp độ toàn bai viết với ý nghĩa độc

lập của chúng Nói cách khác, việc này nhằm tim ra ngữ nghĩa đầu vàocủa ngôn từ Phân tích ngữ nghĩa bao gồm hai mức độ: ngữ nghĩa từvựng biểu hiện các ý nghĩa của những từ thành phan và phân biệt nghĩacủa từ, ngữ nghĩa thành phan liên quan đến cách thức các từ liên kết vớinhau đề hình thành nghĩa rộng hơn

o Phân tích diễn ngôn: Ngữ dụng học là môn nghiên cứu về những mối

quan hệ giữa ngôn ngữ và ngữ cảnh sử dụng (context-of-use) Ngữ cảnh

sử dụng bao gồm danh tính của người hoặc vật, vì thế ngữ dụng học bao

gồm những nghiên cứu về các ngôn ngữ được dùng đề đề cập (hoặc tái

đề cập) tới người hoặc vật Ngữ cảnh sử dụng bao gồm ngữ cảnh diễn

ngôn, vì vậy ngữ dụng học cũng bao gồm những nghiên cứu về các thứccấu tạo nên diễn ngôn và các người nghe hiểu người đang đối thoại với

mình.

- Natural Language Generation (NLG) là phát triển ngôn ngữ tự nhiên NLG

đóng vai trò quan trọng trong việc tạo ra ngôn ngữ tự nhiên từ một hệ thốngbiểu diễn máy như một cơ sở tri thức hoặc một dạng logic NLG được ứng dung

Nguyễn Thị Hồng - D17CNPM04 6

Trang 17

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

trong các lĩnh vực như tạo cuộc đối thoại, tương tác giữa con người và máytính, dịch máy và tóm tắt văn bản tự động Trong NLP có 2 quan điểm cơ bản là

xử lý các từ ngữ bằng máy tính và làm cho máy tính hiểu được ngôn ngữ Hiệntại cả 2 van đề này đều đang được nghiên cứu và phát triển

1.2.2 Tâm quan trong và một số ứng dụng của xử ly ngôn ngữ tự nhiên

Tầm quan trọng của NLP:

- Giúp máy tinh phân tích dữ liệu nhanh hon: May móc được trang bị thuật

toán ML (Machine Learning) có thé phân tích và hiểu nhiều di liệu ngônngữ hơn con người vì chúng có khả năng học hỏi từ các mẫu được tìm thấy

trong dữ liệu được lưu trữ.

- Phat triển công nghệ nhanh chóng: Hệ thống NLP được phát triển để giúp

mang lại hiểu biết ngữ nghĩa để giao tiếp giữa con người với máy móc có

thể dẫn đến các tương tác tích cực và hợp lý Các hệ thống NLP giúp giải

quyết ngôn ngữ khó hiểu, mơ hồ băng cách thêm cấu trúc vào dữ liệu mà

chúng nhận được.

Một số ứng dụng phô biến của NLP như:

- Nhận dang tiếng nói (Automatic Speech Recognition — ASR, hoặc Speech

To Text - STT): từ sóng nói, nhận biết và chuyén đổi ngôn ngữ từ dang tiếngnói sang dạng văn bản tương ứng Giúp thao tác của con người trên các thiết

bị nhanh hơn và đơn giản hơn, chăng hạn như thay vì phải gd một tài liệu

nao đó ta có thé đọc nó lên và trình soạn thảo sẽ tự ghi nó ra Nó khả năng

hỗ trợ rất nhiều cho người khiếm thị.

Nguyễn Thị Hồng - D17CNPM04 7

Trang 18

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

- _ Tổng hợp tiếng nói (Speech synthesis hoặc Text to Speech — TTS): từ dữ liệu

dạng văn bản, phân tích và chuyên đổi thành tiếng nói Thay vì phải tự đọc mộtcuốn sách hay nội dung của một trang web thì nó sẽ tự động đọc cho chúng ta

allie — @® —-Ï

Ssseees°

Automatic Speech Natural Language Text to

Recognition Processing Speech

Hình 1.4: Mô hình tổng hợp tiếng nói (TTS)

- _ Nhận dang chữ viết (Optical Character Recognition — OCR): từ một văn ban

in trên giấy, nhận biết từng chữ cái và chuyên chúng thành một tệp văn bản

trên máy tính Có hai kiểu nhận dang, đầu tiên là nhận dạng chữ in như việcnhận dạng chữ trên sách giáo khoa rồi chuyên nó thành dạng văn bản điện tửnhư dưới định dạng docx của Microsoft Word Thứ hai là nhận dạng chữ

viết tay, ở dạng này gây ra nhiều khó khăn hơn vì chữ viết tay không có

khuôn dang rõ rang và thay đôi tùy thuộc vào mỗi đối tượng khác nhau Ứng

Nguyễn Thị Hồng — D17CNPM04 8

Trang 19

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

dụng cho việc nhận dạng chữ in ta có thể chuyên hàng ngàn đầu sách trong

thư viện thành văn bản điện tử trong một thời gian ngắn Còn việc nhận

dạng chữ viết thì được ứng dụng trong các lĩnh vực như khoa học hình sự,

ngân hàng, bảo mật thông tin (nhận dạng chữ ký điện tử).

Hình 1.5: Mô hình nhận dang chữ viết (OCR)

- Truy xuất thông tin (Information Retrieval — IR): có nhiệm vụ tìm các tài

liệu đưới dạng không có cấu trúc (thường là văn ban) đáp ứng nhu cầu vềthông tin từ những nguồn tổng hợp lớn như Google, Yahoo hay Bigsearch, Thông tin ngày càng tăng lên theo cấp số nhân, đặc biệt với sự trợ

giúp của internet việc tiếp cận thông tin trở nên dé dang hơn Việc khó khăn

là tìm thông tin mình cần chính xác nhất giữa vô vàn những kết quả đượctìm thấy và thông tin này phải đáng tin cậy Nổi bật của công nghệ này làGoogle, một trong những trang web tìm kiếm thông tin phổ biến đối với

chúng ta hiện nay.

- _ Trích chọn thông tin (Information Extraction — IE): từ một nguồn rất nhiều

tệp văn bản hay tiếng nói, tìm ra những đoạn bên trong một số tệp liên quanđến một vấn đề (câu hỏi) ta cần biết hay trả lời Khác với truy xuất thông tintrả về danh sách các văn bản hợp lệ thì IE trả về chính xác thông tin mà

người dùng cần Những thông tin này có thé là về con người, địa điểm, tổchức, ngày tháng hoặc thậm chí tên công ty, mẫu sản phâm, Một hệ trích

chọn thông tin có thé lần vào từng trang web liên quan, phân tích bên trong

và trích ra các thông tin cần thiết, nói gọn trong tiếng Anh đề phân biệt vớitìm kiếm thông tin là “find things but not pages”

Nguyễn Thị Hồng - D17CNPM04 9

Trang 20

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

- Tra lời câu hỏi (Question Answering — QA): có khả năng tự động trả lời câu

hỏi của con người ở dạng ngôn ngữ tự nhiên băng cách truy xuất thông tin

từ một tập hợp tải liệu Một hệ thống QA đặc trưng bao gồm 3 mô-đun:

+ Mô đun xử lý truy vấn (Query Processing Module): tiến hành phân loạicâu hỏi và mở rộng truy vấn

+ Mô đun xử lý tài liệu (Document Processing Module): tiến hành truy

xuất thông tin dé tìm ra tài liệu thích hợp

+ Mô hình xử lý câu trả lời (Answer Processing Module): trích chọn câu

trả lời từ tài liệu đã được truy xuất

- Tom tắt văn ban tự động (Text Summarization): từ một văn bản dai tom tắt

thành một văn bản ngắn hơn theo mong muốn nhưng vẫn chứa nội dungquan trọng nhất của văn bản đó

Có hai phương pháp chính trong tóm tắt văn bản là phương pháp trích xuất(extrative) và phương pháp tóm lược ý (abstractive) Tóm tắt trích xuất được hình

thành bằng cách ghép một số câu được lấy y nguyên từ văn bản cần được thu gọn.Tóm lược ý thường truyền đạt những thông tin chính của đầu vào và có thể sử dụng lạinhững cụm từ hay mệnh đề trong đó, nhưng nhìn chung chúng đều được thể hiện ở

ngôn ngữ của người tóm tat.

Text

Sentence 7 < 7 Summary

Extractive Sentence 2 > »| Sentence 2

Summarizer Sentence 3 ~ m Sentence 4

Sentence 4

Nguyễn Thị Hồng - D17CNPM04 10

Trang 21

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

Hình 1.6: Sơ đô phương pháp trích xuất trong văn bản (Extrative)

| Text

Hình 1.7: Sơ đồ phương pháp tóm lược ý trong van ban (Abstractive)

Phát hiện tri thức và khai phá dữ liệu văn bản (Knowledge discovery andtext data mining): từ những nguồn thông tin, văn bản hay không có liênquan gì với nhau nó có thê tìm ra được những thông tin mới chưa được phát

hiện Trên thực tế để làm được việc này rất khó, nó gần như mô phỏng quá

trình học tập, khám phá khoa học của con người Hiện tại, đây vẫn là một

van đề phức tạp đang được các chuyên gia nghiên cứu trên thế giới

Chatbot là việc chương trình máy tính có khả năng trò chuyện (chat), hỏi

đáp với con người qua hình thức hội thoại dưới văn bản (text) Chatbot

hường được sử dụng trong ứng dụng hỗ trợ khách hàng, giúp người dùng

ìm kiếm thông tin sản phẩm hoặc giải đáp thắc mắc

Dịch máy (Machine Translation — MT): là việc sử dụng máy tính để tự động

hóa một phần hoặc toàn bộ quá trình dịch từ ngôn ngữ này sang ngôn ngữkhác Các phương pháp dịch máy phổ biến bao gồm dich máy dựa trên vi dụ

(example-based machine translation — EBMT), dịch máy dựa trên luật

(rule-based machine translation —- RBMT), dich máy thống kê (statistical

machine translation — SMT), dich may và sử dụng mạng nơ-ron (neural

machine translation).

Kiém 16i chinh ta tu động là việc sử dung máy tính để tự động phát hiện các

lỗi chính tả trong văn bản (lỗi từ vựng, lỗi ngữ pháp, lỗi ngữ nghĩa) và gợi ý

đưa ra cach sửa lỗi.

Nguyễn Thị Hồng - D17CNPM04 11

Trang 22

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

1.2.3 Một số thuật ngữ phổ biến trong NLP

e Corpus

Corpus — tiếng Latinh có nghĩa là phan thân - là một thuật ngữ dùng dé chi phan

nội dung của văn bản Hình thức số nhiều của corpora

Nó có thể có một hoặc nhiều ngôn ngữ và có thể ở dạng ngôn ngữ nói hoặcngôn ngữ viết Corpora có thể có một chủ đề cụ thể hoặc có thể là một văn bản khái

quát Dù ở dang nao thi corpora được sử dụng cho việc phân tích ngôn ngữ thống kê

và ngôn ngữ tính toán Trong python, Gensim có thé giúp chúng ta xây dựng corpora

từ wiki hoặc các bài viết dựa trên wiki

e Stemming

Trong NLP, stemming là một kỹ thuật được sử dung dé tìm ra từ gốc bang cách

loại bỏ tất cả những tiền tố, phụ tố và hậu tố Mục đích chính của stemming là để tạo

cho thuật toán khả năng tìm kiếm và trích xuất những thông tin hữu ích từ một nguồn

không lồ như trên internet hoặc dữ liệu lớn Các thuật toán khác nhau được sử dụng dé

thực hiện stemming bao gồm:

- Bang tra cứu: một biểu mẫu có tất cả các biến thê có thé có của tất cả các từ

(tương tự như từ điển)

- _ Loại bỏ các hậu tố: loại bỏ các hậu tổ khỏi từ dé xây dựng dạng gốc của tw

- M6 hình ngẫu nhiên: một thuật toán duy nhất hiểu các quy tắc ngữ pháp của

hậu tô và sử dụng quy tắc đó dé trích xuất nguồn gốc của một từ mới

Chúng ta có thể thực hiện stemming trong Python bằng cách sử dụng các

phương thức được xác định trước trong gói NLTK.

Trang 23

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

Cụ thé chúng ta đưa về thé từ điển, còn được gọi là lema hay morphology Vớilemmatization ta có thể chuyển từ “paid” thành từ “pay” là dạng nguyên thể của nó

NLTK cũng cung cấp các phương pháp có thể được sử dụng để trích xuất lema của

một từ.

e Tokenization Tokenization là một qua trình chia nhỏ một câu thành các từ hoặc thành các

token Trong quá trình hình thành các token, dau cham câu hoặc những ký tự đặc biệt

thường được loại bỏ.

Các token được xây dựng từ một phần văn ban, cụ thé được sử dụng dé phantích và xử ly thống kê Điều đáng nói là một token không nhất thiết phải là một từ: vi

dụ như “rock ‘n’ roll”, “3-D printer” đều là những token Và chúng được xây dung từ

nhiều từ Ngoài ra, token có thể là ký tự hoặc subword Nói một cách đơn giản thìtokenization là một kỹ thuật được sử dụng để đơn giản hóa một kho đữ liệu để chuẩn

bị cho giai đoạn xử lý tiếp theo

Trong python, gói NLTK cũng cung cấp các phương thức để thực hiệntokenization, chăng han như sent tokenize và word tokenize Ngoài ra, NLTK còn

cung cap các ngôn ngữ khác ngoài tiêng Anh.

CÁC KỸ TH UẬT TÁCH TU :

TRONG XU LÝ NGÔN NGỮ TỰ NHIÊN

“Let”, “us”, “Let”, “us”, “learn”,

“learn”, “token”, “ization.”

“tokenization.”

MA HOA THEO TU MA HOA THEO TU PHU MA HOA THEO KY TU

Nguyễn Thị Hồng — D17CNPM04 13

Trang 24

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

Hình 1.8: Các kỹ thuật tach từ trong xử ly ngôn ngữ tự nhiên

e Lexicon

Khi nhắc đến nhiệm vụ xử ly ngôn ngữ tự nhiên, chúng ta cần xem xét nhiềuthứ hơn ngoài ngôn ngữ Chúng ta phải xem xét các thuật ngữ này có thê được sử dụngtrong một ngữ cảnh cụ thé dé có nghia cu thé Vi dụ như những từ “chan sút”, “việt vi”

là những thuật ngữ được sử dụng để miêu tả những khía cạnh khác nhau trong bóng

da Lexicon là một tap hợp các từ của một ngôn ngữ hay một nhánh tri thức.

Dé có một kết quả chính xác hơn từ các mô hình NLP thi Lexicon là rất cầnthiết Ví dụ, khi bạn phân tích cảm xúc của một s6 tweet (là các mau tin nhỏ, một dạngblog có giới hạn tối đa 280 kí tự trên trang mạng xã hội trực tuyến Twitter) và muốntìm hiểu những chủ đề xung quanh các tweet thì một phương thức chung dé biểu diễn

câu từ là bắt buộc

e Word Embeddings

May tinh không hiểu từ ngữ, vì vay nếu ta muốn chúng phân tích và sử dungngôn ngữ một cách chính xác thì ta phải trình bày những ngôn ngữ đó dé máy tính cóthé hiểu được Ngoài ra, việc phân tích văn bản có thé trở thành một khó khăn và việc

sử dụng các con số có thé dé dang hơn cho thuật toán và máy tính

Trong NLP, nhúng từ là một kỹ thuật được sử dụng dé chuyền các từ thành

vector số thực cho mục đích phân tích Khi những vector này được hình thành, chúng

có thê được sử dụng dé huấn luyện các mô hình, xây dựng mạng nơron cũng như các

kỹ thuật machine learning khác.

e N-gram

Trong việc phân tích văn ban, N-gram mang ham ý cho việc chuyển dữ liệuthành các khối n từ Các khối này thường được xây dựng bằng cách di chuyên từng từ

một Khi n=1, chúng ta sử dụng thuật ngữ unigram thay vì l-gram Trong trường hợp

n=2, chúng ta gọi là bigram và khi n=3 thì được gọi là trigram.

Trong python, việc viết một hàm tạo n-gram cho một câu tương đối đơn giản.Nhưng nếu không muốn tự thực hiện, ta có thể sử dụng các gói NLTK và textrob sẽ

Nguyễn Thị Hồng - D17CNPM04 14

Trang 25

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

cung cấp các phương thức giúp chúng ta có thể tạo n-gram tự động

chuẩn Việc đặt văn bản ở định dạng chuẩn được gọi là chuẩn hóa Ví dụ, nếu chúng ta

thực hiện tìm kiếm trong văn bản thì toàn bộ văn bản được viết hoa hoặc viết thường

sẽ tốt hơn

Quá trình chuẩn hóa thường được tiến hành sau khi mã hóa một đoạn văn vàmột truy vấn Tiếp theo, chúng ta có thé sẽ có hai cụm từ tương tự nhưng không giốngnhau 100% ví dụ như USA va U.S.A, nhưng bạn muốn mô hình của mình khớp haithuật ngữ này với nhau dù có bat kì sự khác biệt nào

Chuẩn hóa một văn bản có thê có cả tác động tốt và không tốt đến mô hình xử

lý ngôn ngữ tự nhiên Một mặt, việc chuẩn hóa có thé tạo sự kết hợp tốt hơn trong cáctác vụ tìm kiếm Mặt khác, việc chuyên đôi mọi thứ thành chữ thường hoặc chữ hoa có

thé ảnh hưởng đến độ tin cậy của ứng dụng tong thé

e Named Entity (NER)Trong bat kỳ tac vu NLP nao, chúng ta thường được yêu cau doc, lam sach va

phân tích một kho đữ liệu không lồ Đó là lý do tại sao hau hết các thuật ngữ trongdanh sách này là các kỹ thuật có thé giúp phân tích dé dang và hiệu quả hơn

Nguyễn Thị Hồng - D17CNPM04 15

Trang 26

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

NER là một kỹ thuật NLP khác giúp trích xuất thêm thông tin về một số vănbản băng cách gán nhãn các từ khác nhau thành các danh mục được xác định trướcnhư: người, địa điểm, thời gian, email, Việc thực hiện NER có thể giúp phân tíchvăn bản chính xác hơn Trong Python có thé thực hiện NER bang cách sử dụng các gói

Spacy và NLTK.

e Parts-of-speech (POS) Tagging

POS Tagging là một kỹ thuật phân tích hữu ich xác định từ loại của các thành

phần trong một văn bản hoặc một câu cụ thé Việc gan thẻ POS giúp tao ra một danh

sách các từ và thẻ từ loại cua nó (danh từ, động từ, tính từ ).

Trong hầu hết các ứng dụng, ban đầu chúng ta thường sử dụng một trình POSTag cơ bản và sau đó có thể nâng cao lên Gói NLTK cung cấp một trình gắn thẻ mặcđịnh, cho phép chúng ta gắn thẻ cho bất kỳ văn bản nào

1.2.4 Vấn đề về độ tương tự trong văn bản

Ngôn ngữ đóng một vai trò rất quan trọng như một phương tiện giao tiếp giữacác cá nhân Nó phân biệt con người với các sinh vật sống khác Nói chung, ngôn ngữ(băng văn bản hay lời nói) mang thông tin rất lớn Khi chúng ta nói hoặc viết một điều

gì đó, nó chỉ ra một chủ đề có chứa một số từ, các quy tắc ngữ pháp, tín hiệu của âmđiệu, Mỗi và mọi phan của ngôn ngữ đều cung cấp một số thông tin Nếu cố gắng

phân tích những thông tin đó, chúng ta có thé nhận được thông tin kết hợp chỉ ra một

số hành động hoặc điều gì đó tương tự nhau

Trên thực tế, mỗi cá nhân có thể tạo ra hàng nghìn từ và câu Ngoài ra, cấu trúc

câu và phong cách của những người khác nhau cũng khác nhau Vì thế dé tìm ra bat kỳcách phô biến nao dé biểu diễn dữ liệu là điều không thé Tat cả những điều này là vi

dụ về đữ liệu phi cấu trúc Những kĩ thuật này có thé dé dang được bộ não con ngườinhận ra và xử lý Ngày nay, một số kĩ thuật hiện đại như học máy, khoa học đữ liệu đãlàm được điều đó

Độ tương tự trong văn bản là một trong những chủ đề được nghiên cứu và ứng

dụng tích cực trong Xử lý ngôn ngữ tự nhiên Dé tìm câu trả lời cho câu “ Hai từ, cụm

từ, đoạn văn, tài liệu giông nhau như thê nào?” là một chủ đê quan trọng đê nghiên cứu

Nguyễn Thị Hồng - D17CNPM04 16

Trang 27

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

và ứng dụng trong NLP Độ tương tự giữa hai từ, cụm từ, đoạn văn, tài liệu là tính toán

xem giữa chúng gần nhau như thế nào Sự gần gũi đó có thể là từ vựng hoặc ngữ

nghĩa.

Sự giống nhau về ngữ nghĩa là sự gần gũi về ngữ nghĩa Sự tương đồng về mặt

từ vựng là sự gần gũi của tập hợp từ

Vi dụ ta có hai cụm từ sau:

- The dog bites the man

- The man bites the dog

Theo sự tương đồng về từ vựng thi hai cụm từ nay rất gần va gần như là giốnghệt nhau vì chúng có cùng một bộ từ Còn đối với sự giống nhau về ngữ nghĩa, chúng

ta hoàn toàn khác nhau vì chúng có nghĩa khác nhau mặc dù bộ từ của chúng giống

tóm tắt văn bản, đều cần đến phương pháp tính độ tương tự văn bản Ngoài ra, việcxác định mức độ tương tự còn ứng dụng cho việc chống sao chép, đạo văn dé bảo vệbản quyên

1.2.5 Các bài toán xử lý trong tiếng Việt

a Phan tách từ tiếng ViệtTách từ là bài toán cơ bản đầu tiên trong việc xử lý và hiểu ngôn ngữ Trong

các ngôn ngữ thông dụng, việc tách từ khá đơn giản vì giữa các đơn vi từ thường được

viết cách nhau băng kí tự trắng hoặc bằng các dấu câu Tuy nhiên, nhiều ngôn ngữ

không có kí hiệu đánh dấu biên của các từ, điều này làm cho việc tách từ không phải làviệc dé dang Chang hạn như tiếng Việt là một ngôn ngữ don lập điển hình, kí tự trang

Nguyễn Thị Hồng - D17CNPM04 17

Trang 28

Đồ án tốt nghiệp đại học Chương 1 Tổng quan về độ tương tự giữa hai văn bản

không được dùng dé tách các từ mà chỉ được dùng dé tách các âm tiết, trong khi đómột từ có thé chứa nhiều âm tiết Việc giải quyết vấn dé này được gọi là bài toán phân

tách từ.

Tiêu chí quan trọng nhất trong bài toán tách từ là độ chính xác Hiện tại, người

ta đã đạt được độ chính xác lên đến 97% tính theo từ Tuy nhiên, nếu tính theo câu (sốcâu được tách hoàn toàn đúng/tổng số câu) thì độ chính xác chỉ khoảng 50% Đây là

một van đề ảnh hưởng nghiêm trọng đến các bước xử lý sau như phân tích ngữ pháp,ngữ nghĩa vì một từ bị tách sai có ảnh hưởng toàn bộ đến cách phân tích cả câu

Ngoài ra tiêu chí độ chính xác của tách từ mới cũng quan trọng với các ứng

dụng thực tế vì nó luôn luôn biến đổi theo thời gian Các từ mới thuần Việt cũng nhưvay muon được tạo ra hàng ngày Vì thé, ta cần xử lý được những van dé này dé ứng

dụng đạt được hiệu năng tốt hơn

b Phân tách câu tiếng ViệtWord Segmentation hay phân tách câu là một phan khá cơ bản trong các kỹthuật xử lý của NLP Nhiệm vụ chính của phân tách câu là tách một đoạn, một chuỗi

các ký tự (text) thành những từ (word hay token) riêng lẻ.

c Phương pháp mô hình ngôn ngữ

Một mô hình ngôn ngữ cố nắm bắt trực giác của con người về một câu “tựnhiên” hoặc “không tự nhiên” do đó mô hình ngôn ngữ có thể coi là giải pháp tối hậu

cho bai toán tách từ Số cách tách từ cho một câu có thé rất lớn do tổ hợp lớn nên cần

có một bước xử lý để lọc ra một số lượng vừa đủ các cách tách từ làm đầu vào cho mô

hình ngôn ngữ Ví dụ như vnTokenizer sử dụng phương pháp đồ thị hóa trước khi áp

dụng mô hình ngôn ngữ.

d Tự động thêm dauChữ viết tiếng Việt là chữ viết có dau thanh Do đó, trong nhiều trường hợp nhưtìm kiếm, người dùng thông thường không gõ dấu thanh hay gõ sai dấu sẽ gây ranhững khó khăn cho việc máy tính hiểu ý nghĩa của chúng

Nguyễn Thị Hồng - D17CNPM04 18

Trang 29

Đồ án tốt nghiệp đại học Chương 2 Các phương pháp xác định mức độ

CHƯƠNG 2: CÁC PHƯƠNG PHÁP XÁC ĐỊNH MỨC ĐỘ TƯƠNG

TỰ DỰA TRÊN TỪ NGỮ

2.1 Bai toán so sánh văn bản tiếng Việt

2.1.1 Phát biểu về bài toán

Ngày nay, công nghệ càng phát triển thì máy tính càng trở thành một công cụ

hỗ trợ đắc lực đối với mỗi cá nhân trong công việc và học tập và do đó việc quản lý dữliệu văn bản dưới dạng điện tử cũng gây ra nhiều khó khăn Trước tình trạng này, một

van đề được đặt ra là làm thế nào dé so sánh được giữa các văn ban này là giống haykhác nhau Từ đó, bai toán so sánh độ tương đồng văn ban ra đời nham giải quyết van

đề trên Trong xử lý ngôn ngữ tự nhiên, đã có nhiều nghiên cứu, ứng dụng xây dựng hệthống đánh giá độ tương tự giữa các văn bản tiếng Anh đạt được thành tựu cao Cácứng dụng, hệ thống hữu ích trong việc phát hiện sự vi phạm bản quyền tác giả như

Turnitin, Writecheck, Grammarly, Plagium

Đối với xử ly ngôn ngữ tiếng Việt, hiện nay cũng đã xuất hiện các nghiên cứuchúng song tỉ lệ này vẫn chiếm khá ít Trong tiếng Anh, kho ngữ liệu hay mạng từ

tiếng Anh đã và đang phát triển rất tốt nên hiệu quả của các hệ thống so sánh đã cài đặt

là rất cao Do đặc điểm của ngôn ngữ tiếng Việt có nhiều điểm khác với tiếng Anh nênviệc xử lý văn bản và xây dựng được kho ngữ liệu chuẩn và đầy đủ là một vấn đề khó

khăn Cho đến nay, các phương pháp đánh giá độ tương tự văn bản vẫn đang được

nghiên cứu va phát trién.

2.1.2 Đặc điểm của ngôn ngữ tiếng Việt

2.1.2.1 Cấu tạo từ tiếng ViệtNguyên tắc tách từ cho tiếng Việt xét các loại đơn vị từ vựng sau đây:

- Tiéng: là don vị cơ sở để cấu tạo nên từ, là don vị nhỏ nhất có nội dung

được thể hiện Về mặt ý nghĩa, các tiếng có thê chia thành các loại như tiếng

tự thân nó đã có ý nghĩa, tự thân nó không có ý nghĩa và thường đi với một

tiếng khác có nghĩa và làm thay đổi sắc thái của tiếng đó hay tiếng tự thân

Nguyễn Thị Hồng - D17CNPM04 19

Trang 30

Đồ án tốt nghiệp đại học Chương 2 Các phương pháp xác định mức độ

nó không có ý nghĩa nhưng có thé ghép cặp với nhau dé tạo thành từ có

Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp với nhau theonhững quan hệ nhất định Ví dụ:

+ Từ “mặt” là từ gồm một tiếng

+ Từ “mặt trời” là từ gồm 2 tiếng

+ Cụm từ “khoa học xã hội” gồm2 từ hay 4 tiếng

- _ Câu: là một tập hợp từ, ngữ kết hợp với nhau theo những quan hệ cú pháp

xác định, được tạo ra trong quá trình tư duy, giao tiếp, có giá trị thông báo

va gan liên với mục đích giao tiệp.

2.1.2.2 Từ dong nghĩa

Từ đồng nghĩa là những từ có nghĩa giống nhau hoặc gần giống nhau Có thểchia từ đồng nghĩa thành 2 loại:

- Từ đồng nghĩa hoàn toàn (đồng nghĩa tuyệt đối): là những từ có nghĩa giống

nhau, được dùng như nhau va có thé thay déi cho nhau trong lời nói

- Tw đồng nghĩa không hoàn toàn (đồng nghĩa tương đối, đồng nghĩa sắc

thái): Là các từ tuy cùng nghĩa nhưng vẫn khác nhau phan nào sắc thái biểucảm (biểu thị cảm xúc, thái độ) hoặc cách thức hành động Khi dùng những

từ này cần cân nhắc lựa chọn cho phù hợp

2.1.2.3 Từ dong âm khác nghĩa

Nguyễn Thị Hồng - D17CNPM04 20

Trang 31

Đồ án tốt nghiệp đại học Chương 2 Các phương pháp xác định mức độ

Từ đồng âm khác nghĩa là những từ giống nhau về ngữ âm nhưng khác nhau về

ý nghĩa của nhiều đơn vị ngôn ngữ riêng biệt Hiện tượng đồng âm có thé xảy ra ở

nhiều cấp độ khác nhau như ở cấp độ câu, cụm, từ nhưng pho bién hon 1a hién tuongđồng âm ở cấp độ từ vì đơn vi ngôn ngữ càng ở cấp độ đơn giản thì hiện tượng đồng

âm càng dễ xảy ra.

Ở cấp độ từ vựng, hai từ được gọi là đồng âm khi chúng có hình thức ngữ âm

giống nhau và nghĩa khác nhau Ví dụ: đá (đá bóng), đá (hòn đá),

Phân loại các từ đồng âm: căn cứ vào chỗ khác nhau về nghĩa từ vựng và phạmtrù ngữ pháp, từ đồng âm tiếng Việt được chia làm 2 loại:

- _ Từ đồng âm từ vựng: đường (đi), đường (ăn)

- Tir đồng âm từ vựng - ngữ pháp: câu (cá), câu (nói)

Căn cứ vào nguồn góc, từ đồng đồng âm được chia làm 3 loại:

- Twi đồng âm ngẫu nhiên

- _ Từ đồng âm tạo ra do sự diễn biến ngữ âm

- _ Từ đồng âm tạo nên do sự phát triển và tách rời nghĩa của từ đa nghĩa

Hiện tượng đồng âm nói chung hay từ đồng âm nói riêng là một hiện tượng kháphô biến trong tiếng Việt

2.1.2.4 Đặc điểm chính taChính tả là sự chuẩn hóa hình thức chữ viết của ngôn ngữ Đó là một hệ thống

các quy tắc về cách viết các âm vị, âm tiết, từ, cách dùng dấu câu, lối viết hoa, Đặc

điểm chính tả tiếng Việt có ý nghĩa rất quan trọng trong các hệ thống xử lý dữ liệu văn

bản Một số đặc điềm chính tả tiếng Việt cần quan tâm như:

- Cac tiếng đồng âm: ki/ kỹ, li/ lý, thường được sử dụng lẫn lộn nhau như kĩ

thuật, kỹ thuật, vat lý, vật li,

- Cac từ địa phương: một số từ địa phương thường được sử dụng thay cho các

từ phô thông như: ló/lúa, lạc/đậu phộng, dứa/thơm

- Vi trí dau thanh: theo quy dinh danh dau trong tiéng Việt thì dau được đặt

trên nguyên âm có điểm cao nhất Tuy nhiên khi soạn thảo văn bản nhiều bộ

gõ không tuân thủ nguyên tắc này nên có hiện tượng dấu được đặt ở các vịtrí khác nhau, chăng hạn như thúy, thuý, toán, tóan,

Nguyễn Thị Hồng - D17CNPM04 21

Trang 32

Đồ án tốt nghiệp đại học Chương 2 Các phương pháp xác định mức độ

- _ Cách viết hoa: theo quy định chữ cái đầu tiên và tên riêng phải viết hoa, tuy

nhiên vẫn còn một số trường hợp viết hoa không đúng quy tắc

- _ Phiên âm nước ngoài: tồn tại các cách viết giữ nguyên gốc tiếng nước ngoài

và phiên âm ra tiếng Việt Ví dụ như vector/véc tơ, motor/m6 to,

- Từ gach nối: do cách viết đấu gạch nối tùy tiện, không phân biệt được nối

giữa tên riêng hay chú thích.

- Kytu ngắt câu: sử dụng nhiều các loại ký tự đặc biệt như “.”, “,” , “!”, “2”,

“ ”” ngăn cách giữa các câu hoặc các về trong câu ghép

Hiện nay có khá nhiều cách mã hóa các kí tự tiếng Việt khác nhau, dẫn đến cónhiều bảng mã khác nhau được sử dụng khi trình bay văn bản va mỗi bang mã có các

bộ phông chữ tương ứng Do các bảng mã chưa có sự thống nhất khi biểu diễn trênmáy tính nên việc thu thập, khai thác xử lý tiếng Việt gặp nhiều khó khăn, đòi hỏi các

hệ thông xử lý tiếng Việt cần phải có bước tiền xử lý để nhận dang và quy chuẩn các ki

tự về một bảng mã chung

2.1.2.5 Tiên xử lý văn bảnVăn bản trước khi đưa vào mô hình xử lý cần được tiền xử lý Quá trình này sẽ

giúp nâng cao hiệu quả của mô hình và giảm độ phức tạp của thuật toán được cài đặt

vì nó có nhiệm vụ làm giảm số từ có trong biểu dién văn bản Các bước xử lý văn bản

gồm: tách từ, loại bỏ từ có tần số thấp và xác định từ đồng nghĩa

a) Tách từTrong tiếng Việt, dấu cách (space) không được sử dụng như 1 kí hiệu để phân

tách từ, nó chỉ có ý nghĩa phân tách các âm tiết với nhau Vì thế để xử lý tiếng Việt,

công đoạn tach từ là 1 trong những bài toán cơ bản và quan trọng nhất

Ví dụ, từ “đất nước” được tạo ra từ 2 âm tiết “đất” và “nước”, cả 2 âm tiết nàyđều có nghĩa riêng khi chúng độc lập nhưng khi ghép lại sẽ mang một nghĩa khác Do

đó, tách từ trở thành một bài toán tiền đề cho các bài toán xử lý ngôn ngữ tự nhiênkhác như phân loại văn bản, so sánh văn bản, tom tắt văn bản, máy dịch tự động

Tách từ chính xác là một việc rất quan trọng, nếu không chính xác rất có thể

dẫn đến câu được hiểu sai ý nghĩa và ảnh hưởng đến tính chính xác của chương trình.

Nguyễn Thị Hồng - D17CNPM04 22

Trang 33

Đồ án tốt nghiệp đại học Chương 2 Các phương pháp xác định mức độ

Việc nay có nhiệm vụ xác định các từ có trong văn bản và đưa ra một tập các từ riêng

biệt Các trường hợp như số, dấu ngoặc, dấu chấm câu thường bị loại ra trong khi phântích vì một mình nó không mang lại ý nghĩa nào cho tài liệu (ngoại trừ một số trường

hợp đặc biệt, ví dụ như thu thập thông tin về lĩnh vực lịch sử) Tuy nhiên trong một số

trường hợp như đối với những từ ghép nói (state-of-art) không được phép bỏ dấu “-“ vì

sẽ làm thay đối nghĩa của từ

Hiện nay, đã có nhiều công trình nghiên cứu xây dựng mô hình tách từ tiếngViệt và đã đạt được kết quả chính xác cao như mô hình tách từ bằng WFST (Weighted

Finite-State Transducers) và mang Neural đã được sử dụng trong công trình của tác gia

Đình Điền (2021) Công cụ tách từ JvnTextPro hay vnTokenizer Bài toán tách từ gồm

hai hướng đó là dựa trên từ và dựa trên kí tự.

Tach từ

Dựa trên ký tự Dựa trên từ

Uni-gram N-gram Thống kê Từ dién Hybrid

Hình 2.1: Các phương pháp tách từ

- _ Hướng tiếp cận dựa trên từ: hướng tiếp cận này với mục tiêu tách được các

từ hoàn chỉnh trong câu.

o Hướng tiếp cận dựa trên thống kê: dựa trên các thông tin thống kê

như tần số xuất hiện của từ trong tập huấn luyện ban đầu Hướng tiếpcận này đặc biệt dựa trên tập ngữ liệu huấn luyện Vì thế mà nó trở

nên linh hoạt và hữu dụng trong nhiều lĩnh vực khác nhau

o Hướng tiếp cận dựa trên từ điển: ý tưởng của hướng tiếp cận này là

những cụm từ được tách ra từ văn bản phải được so khớp với các từ

Nguyễn Thị Hồng - D17CNPM04 23

Trang 34

Đồ án tốt nghiệp đại học Chương 2 Các phương pháp xác định mức độ

trong từ điển Do đó trong hướng tiếp cận này đòi hỏi từ điển riêng

cho từng lĩnh vực quan tâm.

o Hướng tiếp cận theo Hybrid: với mục đích kết hợp các hướng tiếp

cận khác nhau dé thừa hưởng được các ưu điểm của nhiều kỹ thuật vàcác hướng tiếp cận khác nhau nhằm nâng cao kết quả Hướng tiếp

cận này thường kết hợp giữa hướng dựa trên thống kê và dựa trên từđiển nhằm tận dụng các mặt mạnh của các phương pháp này Tuynhiên, hướng tiếp cận Hybrid lại mất nhiều thời gian xử lý, khônggian đĩa và đòi nhiều chỉ phí

- Hướng tiếp cận dựa trên kí tự: có thể được chia làm 2 nhóm nhỏ là uni-gram

va n-gram.

o Trong tiếng Việt, hình vị nhỏ nhất là “tiếng” được hình thành bởi

nhiều kí tự trong bảng chữ cái Hướng tiếp cận này đơn thuần rúttrích ra một số lượng nhất định các tiếng trong văn bản như rút trích

từ 1 ký tự (uni-gram) hay nhiều ký tự (n-gram) Theo nghiên cứu thìhướng tiếp cận dựa trên nhiều ký tự có ưu điểm nổi bật hơn Nó đơngiản, dé ứng dụng, ngoài ra còn đỡ tốn chi phí cho thao tác tạo chỉmục và xử lý nhiều câu truy vấn

- _ Một số phương pháp tach từ hiện nay:

o Phương pháp Maximum Matching: Forward/Backward

Phương pháp khớp tối da (MM — Maximum Matching): ở phương pháp này,

chúng ta sẽ duyệt một ngôn ngữ hoặc một câu từ trái sang phải và chon tit có nhiều âm

tiết nhất có mặt trong từ điển và cứ thực hiện lặp như vậy cho đến hết câu

Dạng đơn giản của phương pháp dùng dé giải quyết sự nhập nhang từ đơn Gia

sử chúng ta có một chuỗi ký tự C¡, Cs, C, Chúng ta sẽ áp dụng phương pháp từ đầuchuỗi Đầu tiên kiểm tra xem C; có phải là từ hay không, sau đó kiểm tra xem C,C, cóphải là từ hay không Tiếp tục thực hiện như thế cho đến khi tìm được từ dài nhất

Dạng phức tạp: quy tắc của dạng này là phân đoạn từ Thông thường người ta

chọn phân đoạn 3 từ có chiều dài tối đa Thuật toán bắt đầu từ dạng đơn giản, cụ thể là

nếu phát hiện ra những cách tách từ gây nhập nhang, như vi dụ ở trên, giả sử C, là từ

Nguyễn Thị Hồng - D17CNPM04 24

Trang 35

Đồ án tốt nghiệp đại học Chương 2 Các phương pháp xác định mức độ

và C¡C; cũng là một từ, khi đó chúng ta kiểm tra ký tự kế tiếp trong chuỗi C¡, C,

C, dé tìm tất cả các đoạn có 3 từ bắt đầu với C, hoặc C,C;

Phương pháp này thực hiện tách từ đơn giản, nhanh và chỉ cần dựa vào từ điển

dé thực hiện Và vì độ chính xác khi thực hiện tách từ phụ thuộc hoàn toàn vào tính đủ,tính chính xác của từ điển nên nó cũng trở thành một vấn đề đáng quan tâm

o Phương pháp Transformation-based Learning (TBL)

Phương pháp nay tiếp cận dựa trên tập ngữ liệu đã đánh dau Theo cách tiếp cậnnày dé cho máy tinh có thể nhận biết ranh giới giữa các từ dé có thé tách từ chính xác,chúng ta sẽ cho máy học các câu mẫu trong tập ngữ liệu đã được đánh dấu ranh giớigiữa các từ đúng Với phương pháp này, chúng ta chỉ cần cho máy học tập các mẫu câu

và sau đó máy sẽ tự rút ra quy luật của ngôn ngữ và dé từ đó sẽ áp dụng chính xác khi

có những câu đúng theo quy luật mà máy đã rút ra Và rõ ràng dé tách từ được hoàn

toàn chính xác trong mọi trường hợp thì đòi hỏi cần phải có một tập ngữ liệu tiếng Việtthay day đủ và phải được huấn luyện lâu dé có thé rút ra các luật đầy đủ

o_ Mô hình tách từ bằng WEST va mang Neural

Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số WEST — WeightedFinite-State Transducers đã được áp dung trong tach từ từ năm 1996 Y tưởng cơ ban

là áp dụng WFST với trọng số là xác suất xuất hiện của mỗi từ trong kho ngữ liệu.Dùng WFST để duyệt qua các câu cần xét, khi đó từ có trọng số lớn nhất là từ đượcchọn để tách Phương pháp này cũng đã được sử dụng trong công trình đã được công

bố của tác gia Đình Điền, tác giả đã sử dụng WFST để tach từ và xử lý các vấn đề liênquan đến một số đặc thù riêng của ngôn ngữ tiếng Việt như từ lay, tên riêng và tang

mang Neural dung dé khử nhập nhằng về ngữ nghĩa sau khi đã tách từ

o Phuong pháp tách từ tiếng Việt dựa trên thống kê từ Internet và

thuật giải di truyềnPhương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và thuật toán giảithuật di truyền — IGATEC (Internet and Genetics Algorithm based Text Categorizationfor Documents in VietNamese) do H.Nguyén dé xuất năm 2005 như một hướng tiếp

cận mới trong tách từ với mục dich phân loại văn ban mà không cân dùng đên một từ

Nguyễn Thị Hồng - D17CNPM04 25

Trang 36

Đồ án tốt nghiệp đại học Chương 2 Các phương pháp xác định mức độ

điển hay tập ngữ liệu học nào Trong hướng tiếp cận này, tác giả kết hợp giữa thuậttoán di truyền với đữ liệu thông kê được lấy từ Internet

o Sự nhập nhằng trong tách từ tiếng Việt

Nhập nhằng chồng chéo: chuỗi “abcd” được gọi là nhập nhằng chồng chéo nếunhư từ “abc”, “bed” đều xuất hiện trong từ điển, ví dụ trong câu “Chiếc ô tô màu đỏ”

thì chuỗi “Chiếc ô tô” nhập nhằng chồng chéo vì các từ “chiếc ô” và “tô màu” đều cótrong từ điền

Nhập nhằng kết hợp: chuỗi “abcđ” gọi là nhập nhằng kết hợp nếu các từ thành

phần “ab”, “cd”, “abcd” đều xuất hiện trong từ điển.

b) Loại bỏ từ dừng (stop words)

Từ dừng là những từ xuất hiện nhiều trong ngôn ngữ tự nhiên, tuy nhiên lại

AY? 66

không mang nhiều ý nghĩa Trong tiếng Việt từ dừng là những từ như: “như vậy”, “sau

đó”, “một số”, “chi”,

Có rất nhiều cách để loại bỏ từ dừng nhưng có 2 cách chính là dùng từ điển và

dựa theo tần suất xuất hiện của từ

Với phương pháp dùng từ điển: cách này đơn giản nhất, chúng ta tiễn hành việclọc văn bản, loại bỏ những từ xuất hiện trong StopWords

Với phương pháp dựa theo tần suất xuất hiện của từ chúng ta tiến hành đếm sốlần xuất hiện của từng từ trong data, sau đó sẽ loại bỏ những từ xuất hiện nhiều lần

(cũng có thê là ít lần)

c) Loại bỏ từ có tần số thấpChúng ta có thê loại bỏ các từ xuất hiện rất ít lần và có ảnh hưởng rất ít trong

tập văn bản.

d) Xác định từ đồng nghĩa

Từ đồng nghĩa là những từ tương đương về nghĩa trong một số ngữ cảnh nào

đó Với bài toán so sánh trong văn bản thì việc nhận ra các từ đồng nghĩa có ý nghĩaquan trọng bởi trong các câu, các đoạn văn luôn có các từ đồng nghĩa sẽ làm nâng caotính chính xác khi so sánh về độ tương đồng ngữ nghĩa giữa các đơn vị văn bản

2.1.2.6 Biểu diễn văn ban

Nguyễn Thị Hồng - D17CNPM04 26

Trang 37

Đồ án tốt nghiệp đại học Chương 2 Các phương pháp xác định mức độ

Sau khi văn bản được tiền xử ly ta sử dụng các phương pháp dé biểu diễn đặctrưng của văn bản Tùy theo thuật toán được áp dụng để so sánh văn bản mà ta lựa

chọn cách biểu diễn phù hợp Phổ biến nhất là phương pháp biểu diễn văn ban bang

vector.

2.2 Độ tương đồng van bản về mặt từ ngữ (Text Similarity)

2.2.1 Các thuật toán chuyển đỗi văn bản sang Embedding

Word Embedding — Vector hóa văn bản: là một bước quan trọng trong bat kỳbài toán nào của NLP Thông thường, máy tính không thể hiểu được ý nghĩa của các

từ Vì vay, dé xử lý được ngôn ngữ tự nhiên, ta cần có một phương pháp dé biéu diễnvăn bản dưới dang mà máy tính có thé hiểu được Phương pháp tiêu chuẩn để biểu

diễn văn bản đó là biểu diễn các văn bản theo dạng vector Trong đó, các từ, cụm từ

thuộc kho tài liệu ngôn ngữ ánh xạ thành những vector trên hệ không gian số thực Ta

có thê chia các phương pháp Vector hóa văn bản thành hai nhóm chính: phương pháp

Word Embedding cổ điển và Neural Embedding (Vector hóa văn bản theo phương

pháp mạng nơ-ron).

- Phương pháp Word Embedding cô điển: Bag of Words (BoW), TF-IDF,

Distributional Embedding.

- Phuong phap Neural Embedding: Word2Vec, Glove, FastText

2.2.1.1 Bag of Words (BoW)

Đây là cách biểu diễn vector truyền thống phổ biến nhất được sử dung, mỗi từ

hoặc n-gram từ sẽ được mô tả là một vector có số chiều bằng đúng số từ trong bộ từvựng Tại vi trí tương ứng với vi tri cua từ đó trong túi từ, phần tử vector đó sẽ đượcđánh dấu là “1” Những vị trí còn lại sẽ được đánh dấu là “0”

2.2.1.2 TH-IDF

TF-IDF là viết tắt của Term frequency-inverse document frequency Nó là mộtcông cụ vector văn bản chuyển văn bản thành dang vector Nó là sự kết hợp của tan

suất thuật ngữ và tần suất tải liệu nghịch đảo

TF-IDF được tinh theo công thức sau:

Nguyễn Thị Hồng - D17CNPM04 27

Trang 38

Đồ án tốt nghiệp đại học Chương 2 Các phương pháp xác định mức độ

TFIDF(t, d, D) = TF(t, d) x IDF(t, D)

TF (Term frequency) của một từ là tần suất của một từ (tức là số lần nó xuất

hiện) trong một tài liệu.

TF(t, d) =O

Trong đó: TF(t, d): Giá tri này sẽ thuộc trong khoảng [0, 1].

f(t, đ): số lần xuất hiện của từ t trong văn bản d

N: tong số từ trong văn bản d

IDE (Inverse Document Frequency) của một từ là thước đo mức độ quan trọng

của thuật ngữ đó trong toàn bộ ngữ liệu, tập văn bản (corpus) Mỗi từ chỉ có một giá trị

IDF duy nhất trong tập văn bản

|D|

{de D:te d}|

IDF(t, D) = log

Trong đó: |D| : tổng số văn bản trong tập D

|lýdD: te đ)| : số văn bản chứa từ nhất định, với điều kiện txuất hiện trong văn bản Nếu từ đó không xuất hiện ở bất cứ một văn bản nàotrong tập thì mẫu số sẽ bang 0 phép chia cho 0 không hợp lệ, lúc đó người tathường thay mẫu bang biểu thức: 1 + |{deD: te đ)|

Ví dụ: Nếu từ “thương mại” xuất hiện 50 lần trong tài liệu 1000 từ Và nếu có

10000 tải liệu, từ “thương mại” xuất hiện trong 500 tải liệu Thì lúc này:

TF của “thương mại” là: 50/1000 = 0.05 IDF: log(10000/500) = 1.3

TF-IDF cua “thương mai” là: 0.05*1.3 = 0.065.

Những từ có giá trị TF-IDF cao là những từ xuất hiện nhiều trong văn bản này

và ít xuất hiện trong văn bản khác Việc này giúp lọc ra những từ phổ biến và giữ lại

những từ có giá tri cao ( từ khóa của văn ban đó).

TF-IDF được nghiên cứu dựa trên logic rằng nếu từ một cu thé có tần suất xuất

hiện rất cao hoặc xuất hiện rất thấp, thì trong cả hai trường hợp này từ đó không có ý

nghĩa đối với việc tìm kiếm bắt kỳ thông tin có ý nghĩa nào Vì vậy, giá trị cao hơn củaTF-IDF mô tả ý nghĩa cao hơn của các từ trong khi giá trị thấp hơn biểu thị ý nghĩathấp hơn

2.2.1.3 Word2vec

Nguyễn Thị Hồng - D17CNPM04 28

Trang 39

Đồ án tốt nghiệp đại học Chương 2 Các phương pháp xác định mức độ

Word2vec là một loại mô hình nhúng từ sử dụng mạng nơ-ron dé lay biểu diễnnhúng của các từ trong kho ngữ liệu (tập hợp tài liệu) Word2vec có khả năng nam bắt

rất tốt ý nghĩa ngữ cảnh của các từ Nhúng từ (word embedding) là một biểu diễnvector n chiều của một thuật ngữ sao cho thuật ngữ tương tự có không gian vectortương tự dựa trên dữ liệu huấn luyện

Word2vec chủ yếu sử dụng hai loại kiến trúc dé tạo biéu diễn vector của các từ

đó là CBOW và Skip-gram Cả hai phương pháp này đều lấy đầu vào là biểu diễn mãhóa duy nhất của các từ Dé có được biểu diễn này, ban chỉ cần xây dựng một vector

có kích thước băng số từ duy nhất trong kho ngữ liệu của bạn, sau đó mỗi từ sẽ đượcbiểu diễn dưới dạng một vị trí cụ thể và các số không ở tất cả các vị trí khác của

vector.

Vi dụ: gia sử kho ngữ liệu của chúng ta chỉ có 3 từ: 6 tô, hoa, cà phê Ta có thé

đại diện cho chúng là:

Ý tưởng cơ bản của word2vec có thê được gói gọn trong các ý sau:

o Hai từ xuất hiện trong những văn cảnh giống nhau thường có ý nghĩa

gần với nhau

o Có thé đoán được một từ nếu biết các từ xung quanh nó trong câu Ví dụ,

với câu “Con hồ là một loài ăn thịt” thì từ trong dấu ba chấm có khả

năng cao là “động vật” Với câu hoàn chỉnh “Con hồ là một loài động vật

ăn thịt”, mô hình word2vec sẽ xây dựng ra embedding của các từ sao cho

xác suất dé từ trong dấu ba cham là “động vật” là cao nhất

Trong ví dụ trên, “động vật” đang được xét và được gọi là target word hay từ đích Những từ xung quanh nó còn được gọi là context words hay từ ngữ cảnh Với

mỗi từ đích trong một câu của cơ sở dữ liệu, các từ ngữ cảnh được định nghĩa là các từ

Nguyễn Thị Hồng - D17CNPM04 29

Trang 40

Đồ án tốt nghiệp đại học Chương 2 Các phương pháp xác định mức độ

trong cùng câu có vị trí cách từ đích một khoảng không quá C/2 với C là một số tự

nhiên dương.

Cách truyền thống dé thé hiện một từ là dùng one-hot vector

“a “abbreviations” “zoology”

Hinh 2.2: Vi du vé one-hot vector

o Độ lớn vector đúng bằng số lượng từ vung

o Word2vec giải quyết cho van đề làm thé nào dé thể hiện mối quan hệ giữa

các từ, tính tương đồng thế nào

- CBOW (Continuous Bag-of-Words): hay còn được gọi là túi từ liên tục, dựa

vào những từ ngữ cảnh dé dự đoán từ đích

Trong kiến trúc CBOW, mô hình dự đoán từ nào tương tự nhất trong ngữ cảnh

được cung cấp Do đó, các từ có nhiều khả năng xuất hiện hơn được coi là tương tự và

do đó biểu thi gần hơn không gian vector Các vector đại diện cho các từ tương tự nam

gần nhau bởi các khoảng cách khác nhau và các quan hệ số đóng gói một cách bổ

Sung.

CBOW phù hợp với các bộ dữ liệu lớn khi mà số mẫu huấn luyện được tạo ra từngữ cảnh (chỉ là một) ít hơn nhiều so với Skip-gram (tỉ lệ với kích thước cửa số ngữcảnh) CBOW biểu dién tốt hơn các từ xảy ra thường xuyên

Nguyễn Thị Hồng - D17CNPM04 30

Ngày đăng: 08/03/2024, 13:54

HÌNH ẢNH LIÊN QUAN

Hình 1.2: Các lĩnh vực của xu ly ngôn ngữ tự nhiên (NLP) - Phương pháp xác định độ tương tự giữa hai văn bản
Hình 1.2 Các lĩnh vực của xu ly ngôn ngữ tự nhiên (NLP) (Trang 15)
Hình 1.4: Mô hình tổng hợp tiếng nói (TTS) - Phương pháp xác định độ tương tự giữa hai văn bản
Hình 1.4 Mô hình tổng hợp tiếng nói (TTS) (Trang 18)
Hình 1.5: Mô hình nhận dang chữ viết (OCR) - Phương pháp xác định độ tương tự giữa hai văn bản
Hình 1.5 Mô hình nhận dang chữ viết (OCR) (Trang 19)
Hình 1.6: Sơ đô phương pháp trích xuất trong văn bản (Extrative) - Phương pháp xác định độ tương tự giữa hai văn bản
Hình 1.6 Sơ đô phương pháp trích xuất trong văn bản (Extrative) (Trang 21)
Hình 1.9: Vi dụ về N-gram - Phương pháp xác định độ tương tự giữa hai văn bản
Hình 1.9 Vi dụ về N-gram (Trang 25)
Hình 2.1: Các phương pháp tách từ - Phương pháp xác định độ tương tự giữa hai văn bản
Hình 2.1 Các phương pháp tách từ (Trang 33)
Hình 2.3: Mô hình Skip-gram - Phương pháp xác định độ tương tự giữa hai văn bản
Hình 2.3 Mô hình Skip-gram (Trang 41)
Hình 2.4: Mô hình PV-DM - Phương pháp xác định độ tương tự giữa hai văn bản
Hình 2.4 Mô hình PV-DM (Trang 43)
Hình 2.11: Vi dụ về Euclidean Distance - Phương pháp xác định độ tương tự giữa hai văn bản
Hình 2.11 Vi dụ về Euclidean Distance (Trang 53)
Hình 2.12: Euclidean Distance trong Python - Phương pháp xác định độ tương tự giữa hai văn bản
Hình 2.12 Euclidean Distance trong Python (Trang 54)
Hình 2.13: Manhattan distance trong Python - Phương pháp xác định độ tương tự giữa hai văn bản
Hình 2.13 Manhattan distance trong Python (Trang 55)
Hình 3.1: Vi dụ về độ twong dong ngữ nghĩa trong văn bản - Phương pháp xác định độ tương tự giữa hai văn bản
Hình 3.1 Vi dụ về độ twong dong ngữ nghĩa trong văn bản (Trang 56)
Hình 3.2: Các phương pháp Typological/Knowledge-based Methods - Phương pháp xác định độ tương tự giữa hai văn bản
Hình 3.2 Các phương pháp Typological/Knowledge-based Methods (Trang 57)
Hình 3.4: Sơ đô kiến trúc Transformer - Phương pháp xác định độ tương tự giữa hai văn bản
Hình 3.4 Sơ đô kiến trúc Transformer (Trang 61)
Hình 3.7: Mô hình Self Attention Layer - Phương pháp xác định độ tương tự giữa hai văn bản
Hình 3.7 Mô hình Self Attention Layer (Trang 65)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w