1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc

61 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Học Chuyển Tiếp Trong Bài Toán Trích Xuất Thông Tin Từ CV Xin Việc
Tác giả Nguyễn Hồng Sơn
Người hướng dẫn TS. Nguyễn Thị Thanh Huyền
Trường học Đại học Bách Khoa Hà Nội
Chuyên ngành Toán Tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 61
Dung lượng 1,23 MB

Cấu trúc

  • 1.1 Bài toán trích chọn thông tin trong văn bản (13)
    • 1.1.1 Giới thiệu (13)
    • 1.1.2 Bài toán nhận diện thực thể tên (13)
  • 1.2 Bài toán trích chọn thông tin trong CV xin việc (14)
    • 1.2.1 CV xin việc (14)
    • 1.2.2 Đặc điểm dữ liệu (16)
    • 1.2.3 Mục tiêu, bài toán (17)
    • 1.2.4 Một số nghiên cứu liên quan (18)
    • 1.2.5 Thách thức (18)
  • 1.3 Các hướng tiếp cận thông thường (19)
    • 1.3.1 Các phương pháp sử dụng luật (19)
    • 1.3.2 Các mô hình học máy (19)
    • 1.3.3 Các mô hình học sâu (21)
  • 2.1 BERT - Mô hình biểu diễn hai chiều tiền huấn luyện (22)
    • 2.1.1 Cơ chế attention (23)
    • 2.1.2 Mô hình Transformer (29)
    • 2.1.3 BERT (31)
  • 2.2 Flair - Chuỗi nhúng ngữ cảnh cho gán nhãn tuần tự (34)
    • 2.2.1 Mô hình tự hồi quy (34)
    • 2.2.2 Mô hình ngôn ngữ tự hồi quy (35)
    • 2.2.3 Mạng neuron hồi tiếp (35)
    • 2.2.4 Mạng bộ nhớ ngắn hạn dài (37)
    • 2.2.5 Mô hình ngôn ngữ Flair (38)
  • 3.1 Kiến trúc hệ thống (40)
  • 3.2 Phương pháp đánh giá (41)
  • 3.3 Nhận diện thực thể tên sử dụng mô hình BERT (43)
    • 3.3.1 Kết quả mô hình BERT (43)
    • 3.3.2 Nhận xét kết quả mô hình BERT (44)
    • 3.3.3 Nhược điểm của mô hình BERT (45)
  • 3.4 Nhận diện thực thể tên sử dụng mô hình Flair (47)
    • 3.4.1 Huấn luyện mô hình ngôn ngữ Flair (47)
    • 3.4.2 Mô hình nhận diện thực thể tên Flair (48)
    • 3.4.3 Kết quả mô hình Flair (51)
  • 3.5 Nhược điểm và phương hướng cải tiến (53)
    • 3.5.1 Nhược điểm (53)
    • 3.5.2 Hướng cải tiến (53)
  • 1.1 Ví dụ về CV xin việc (0)
  • 1.2 CV được trình bày dưới dạng bảng (0)
  • 2.1 Mô hình sequence-to-sequence thông thường (0)
  • 2.2 Soft attention (0)
  • 2.3 Global attention (0)
  • 2.4 Mô hình Transformer (0)
  • 2.5 Biểu diễn dữ liệu đầu vào của BERT (0)
  • 2.6 Mô hình ngôn ngữ tự hồi quy (0)
  • 2.7 Nguyên tắc hoạt động của RNN (0)
  • 2.8 Mạng neuron hồi tiếp hai chiều (bên phải) (0)
  • 2.9 Kiến trúc LSTM (0)
  • 3.1 Kiến trúc tổng quan (0)
  • 3.2 Confusion matrix (0)
  • 3.3 Kiến trúc mô hình BERT-NER (0)
  • 3.4 Mô hình gán nhãn tuần tự (0)
  • 3.5 Mô hình ngôn ngữ Flair (0)

Nội dung

Bài toán trích chọn thông tin trong văn bản

Giới thiệu

Trích chọn thông tin là một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên, với ứng dụng cao và nhu cầu thực tiễn cấp thiết Được định nghĩa là quá trình tự động thu thập thông tin có cấu trúc từ dữ liệu mà máy tính có thể đọc, trích chọn thông tin (Information extraction - IE) tập trung vào việc xử lý ngôn ngữ và văn bản, góp phần phát triển các công nghệ thông minh trong việc xử lý dữ liệu.

Dựa vào đặc điểm của thông tin cần được trích xuất mà bài toán được chia thành các bài toán con như sau:

• Tìm kiếm trong mẫu (Template filling)

• Nhận diện thực thể tên (Named entity recognition - NER)

• Phân tích mối liên hệ giữa các thông tin (Relationship extraction)

• Trích chọn thông tin có cấu trúc

– Trích chọn trường thông tin trong bảng

– Trích chọn câu văn, đoạn văn

Bài toán nhận diện thực thể tên

Nhận dạng thực thể tên (Named Entity Recognition - NER) hay còn gọi là nhận dạng thực thể định danh, là quá trình xác định các chuỗi từ trong văn bản liên quan đến tên của các đối tượng cụ thể.

Các thực thể như thời gian và tiền tệ thường dễ nhận diện, trong khi tên người, tổ chức và địa điểm thường có tính nhập nhằng cao, đòi hỏi mô hình phải phân tích ngữ cảnh câu văn để đưa ra dự đoán chính xác Bên cạnh đó, mỗi lĩnh vực chuyên môn còn xuất hiện các loại thực thể đặc thù; ví dụ, trong y tế, mô hình cần xác định các thực thể liên quan đến bệnh và thuốc, trong khi lĩnh vực sinh học cần định nghĩa các thực thể gen gây bệnh.

Bài toán nhận diện thực thể tên yêu cầu xác định chuỗi nhãn y i tương ứng với chuỗi quan sát x = (x 1 , x 2 , , x n ) Mỗi x i thường được biểu diễn dưới dạng vector Để gán nhãn cho dữ liệu, ta sử dụng BIO notation, trước đây được áp dụng trong bài toán trích xuất từ ngữ Mỗi thực thể kiểu T sẽ có hai nhãn B − T đánh dấu điểm khởi đầu của thực thể và I − T cho các từ nằm trong thực thể Thêm vào đó, nhãn O được sử dụng để chỉ ra rằng từ không thuộc về bất kỳ thực thể nào.

Ta có thể tham khảo ví dụ sau:

Steve Jobs was a co-founder of Apple Inc

Bài toán này là một chủ đề quan trọng đã được nghiên cứu rộng rãi, tuy nhiên, hiện tại vẫn còn thiếu các đánh giá cụ thể về kết quả của nó trong các lĩnh vực hẹp.

Bài toán trích chọn thông tin trong CV xin việc

CV xin việc

CV xin việc (Curriculum Vitae) là tài liệu quan trọng thể hiện thông tin cá nhân, từ các dữ liệu cơ bản đến chi tiết, nhằm chứng minh trình độ học vấn và kinh nghiệm làm việc của ứng viên.

CV xin việc thường bao gồm những thông tin quan trọng như thông tin cá nhân, kinh nghiệm làm việc, trình độ học vấn và kỹ năng Bên cạnh đó, nhiều CV còn bổ sung các thông tin như mục tiêu nghề nghiệp, sở thích cá nhân và lý do tìm việc mới Ngoài ra, chứng chỉ chuyên môn, giải thưởng và thành tích cũng đóng vai trò quan trọng trong việc thể hiện năng lực của ứng viên.

Trong phạm vi của luận văn này, tác giả tập trung vào các loại thông tin sau:

• Thông tin cơ bản (Personal information)

• Trình độ học vấn (Education background)

• Kinh nghiệm làm việc (Experience)

• Chứng chỉ chuyên môn (Certification)

• Thành tích, giải thưởng (Award)

Hình 1.1: Ví dụ về CV xin việc

Đặc điểm dữ liệu

Dữ liệu trong bài viết này bao gồm các CV xin việc dưới định dạng có thể đọc trực tiếp như PDF, DOC và DOCx Những CV này được thu thập từ internet hoặc từ các nguồn bên thứ ba Tác giả và nhóm của mình đã thực hiện việc dán nhãn để tạo ra một bộ dữ liệu chi tiết và có giá trị cao.

• Tổng số lượng CV xin việc được thu thập: 10036

• Các thông tin được gán nhãn và kích thước tập dữ liệu tương ứng với từng loại như sau:

– Thông tin cơ bản (Personal information): 1000 CV

– Trình độ học vấn (Education background): 2204 CV

– Kinh nghiệm làm việc (Experience): 2204 CV

• Ngôn ngữ: Tiếng Anh và Tiếng Việt

• Cách thức trình bày: Tự do

• Tính nhiễu của dữ liệu: Một số CV có chứa thông tin bị che giấu (bằng bôi đen hoặc bị thay thế bởi dấu *)

• Lĩnh vực của dữ liệu: Tự do

Hình 1.2 là một ví dụ khác về CV xin việc được trình bày dưới dạng bảng.

Hình 1.2: CV được trình bày dưới dạng bảng

Mục tiêu, bài toán

Mục tiêu của đề tài là phát triển hệ thống trích xuất thông tin quan trọng từ CV xin việc, nhằm tạo ra bản tóm tắt chất lượng cao với thông tin có ý nghĩa cho các bước xử lý tiếp theo Thông tin cần được xác định liên quan, đặc biệt là về trình độ học vấn, với việc sắp xếp chính xác theo thời gian và các cơ sở đào tạo, chuyên ngành tương ứng Do đó, tác giả cũng cần đề xuất phương pháp phân cụm các trường thông tin.

Tóm lại, đối với một CV xin việc, mục tiêu đặt ra bao gồm:

• Trích xuất các trường thông tin quan trọng

• Kết hợp, nhóm các trường thông tin có quan hệ với nhau thành từng cụm

• Xây dựng lược đồ thời gian đối với CV đó Để đạt được mục tiêu này, tác giả đã xây dựng và giải quyết các bài toán sau:

• Bài toán 1: Phân tích cấu trúc văn bản, tuần tự hóa dữ liệu.

• Bài toán 2: Phân loại câu văn

• Bài toán 3: Nhận diện thực thể tên

• Bài toán 4: Phân nhóm thực thể

Trong đó bài toán 1 được giải quyết bằng phương pháp sử dụng luật, bài toán

Trong luận văn này, tác giả sẽ tập trung vào việc giải quyết bài toán 3, trong khi bài toán 2 và 4 được tiếp cận thông qua học máy thống kê và bài toán còn lại được xử lý bằng phương pháp học chuyển tiếp.

Một số nghiên cứu liên quan

Bài toán trích xuất thông tin từ văn bản đã được nghiên cứu qua nhiều phương pháp khác nhau Chao H và cộng sự đã áp dụng phương pháp phân tích cấu trúc và nội dung văn bản bằng luật, trong khi Nguyen, M.T và cộng sự tiếp cận qua bài toán đọc hiểu và trả lời câu hỏi Tuy nhiên, nghiên cứu về trích xuất thông tin từ CV xin việc vẫn còn hạn chế, với một số kết quả đáng chú ý như công trình của Chen.

J và cộng sự [5] sử dụng luật và học máy thống kê (mô hình CRF) để phân tích và trích xuất thông tin từ sơ yếu lý lịch Bhatia, V cùng cộng sự [7] sử dụngBERT cho việc trích xuất thông tin và xếp hạng ứng viên.

Thách thức

Đề tài này chủ yếu nghiên cứu dữ liệu ở mức văn bản, vì vậy thách thức lớn nhất mà tác giả phải đối mặt là cách thức trình bày thông tin trong văn bản Đối với những mẫu phức tạp, thông tin thường được thể hiện dưới dạng bảng hoặc văn bản có nhiều cột, điều này gây khó khăn trong việc tuần tự hóa văn bản.

Vấn đề quan trọng thứ hai liên quan đến ngôn ngữ trong CV, vốn mang tính đặc thù và khác biệt so với ngôn ngữ trong văn học, văn bản hành chính hay giao tiếp hàng ngày Sự khác biệt này tạo ra một khoảng cách lớn, khiến cho các mô hình tiền huấn luyện dựa trên ngôn ngữ thông thường giảm hiệu quả khi áp dụng vào bộ dữ liệu CV Kết quả nghiên cứu cho thấy rằng các mô hình lớn được huấn luyện trên ngôn ngữ thông thường không đạt được hiệu suất tối ưu trên bộ dữ liệu này.

Một vấn đề quan trọng trong dữ liệu là tính nhiễu, do sự tồn tại của thông tin nhạy cảm mà cá nhân muốn che giấu, như xóa, bôi đen hoặc thay thế bằng ký tự đặc biệt Điều này tạo ra nhiễu trong dữ liệu, trở thành một thách thức lớn trong quá trình xử lý và phân tích thông tin.

Các hướng tiếp cận thông thường

Các phương pháp sử dụng luật

Hướng tiếp cận sử dụng hệ luật do chuyên gia xây dựng là phương pháp đơn giản và nhanh chóng, nhưng yêu cầu người sử dụng phải có kiến thức chuyên môn sâu về thực thể cần trích xuất để tạo ra bộ luật hiệu quả Tuy nhiên, tính kế thừa của phương pháp này khá yếu Hệ luật thường được phát triển bằng cách xem xét các yếu tố như từ loại (danh từ, động từ), ngữ cảnh (từ đứng trước, từ đứng sau) và thuộc tính riêng của thực thể (độ dài, viết hoa), kết hợp với bộ từ điển của thực thể để xây dựng luật.

"President Bush said Monday’s talk will incude discussion on security, a timetable for US forces to leave Iraq"

In this example, the term "Bush" following "President" is identified as a person's name, while "Iraq" after the verb "leave" is recognized as a location.

Các mô hình học máy

Đối với bài toán nhận diện thực thể tên, có những mô hình học máy đem lại hiệu quả khá tốt như:

• Mô hình Markov ẩn (Hidden Markov Model – HMMs) được giới thiệu chi tiết ở [8]: Thuật toán này sử dụng phương pháp ước lượng hợp lý cực đại

(Maximum Likelihood Estimation) để cực đại hóa xác suất p(x, y), trong đó xlà một chuỗi bất kỳ trong dữ liệu và ylà nhãn tương ứng với chuỗi đó.

Mô hình Markov cực đại hóa Entropy (Maximum Entropy Markov Models - MEMM) được áp dụng cho bài toán dán nhãn tuần tự, mang lại độ lỗi thấp hơn so với mô hình HMM Trong mô hình này, nhãn y i được ước lượng dựa vào các từ lân cận x i và các nhãn trước đó, với công thức p(y|x) = Y i p(y i |y i−k i−1 , x i+l i−l ).

Từ đó, bài toán trở thành cực đại hóa xác suất: p(y i |y i−1 i−k , x i+l i−l ) = exp

Training the MEMM model involves utilizing algorithms such as Generalized Iterative Scaling (GIS), Improved Iterative Scaling (IIS), and limited memory quasi-Newton methods like L-BFGS, which are commonly employed for implementation.

Mô hình trường điều kiện ngẫu nhiên (Conditional Random Fields - CRF) khác biệt với MEMM ở chỗ nhãn y_i không chỉ được ước lượng từ nhãn trước đó mà còn từ các nhãn tương lai Hơn nữa, CRF là một mô hình đồ thị vô hướng, trong khi HMM và MEMM là các mô hình đồ thị có hướng Mục tiêu của CRF là cực đại hóa xác suất p(y|x) = 1.

CRF tính toán Z(x) bằng cách tổng hợp tất cả khả năng nhãn của chuỗi x, do đó việc huấn luyện CRF thường tốn kém hơn so với MEMM Sarawagi và Cohen đã đề xuất mô hình semi-Markov CRF, cho phép gán nhãn cho các cụm từ trong chuỗi đầu vào x, đồng thời trích chọn đặc trưng trên các cụm từ này Mô hình này giúp giảm tải quá trình huấn luyện và đã được chứng minh mang lại hiệu suất cao hơn so với thuật toán CRF truyền thống.

Các mô hình học sâu

Mô hình học sâu đã được áp dụng rộng rãi trong xử lý ngôn ngữ tự nhiên gần đây, mang lại kết quả ấn tượng Hai lý do chính giúp các mô hình này đạt hiệu quả cao là khả năng học từ dữ liệu lớn và cải thiện tính chính xác trong việc hiểu ngữ nghĩa.

• Có khả năng khai thác được các đặc trưng quan trọng nhất của ngôn ngữ.

• Có khả năng khai thác ngữ nghĩa dựa trên tính chất tuần tự của dữ liệu.

Các kết quả tốt nhất hiện tại trong lĩnh vực xử lý ngôn ngữ tự nhiên đạt được bởi ba mô hình chính:

• Mạng neuron tích chập (Convolution neural network)

• Mạng bộ nhớ ngắn hạn dài (Long short term memory)

• Cơ chế Attention (Attention mechanisms)

Mặc dù các mô hình học sâu mang lại kết quả ấn tượng, nhưng nhược điểm lớn của chúng là cần một lượng dữ liệu huấn luyện khổng lồ, điều này thường khó thực hiện trong thực tế.

Học sâu và học máy thống kê đều có những ưu điểm và nhược điểm riêng Học máy thống kê thường đạt kết quả tốt với tập dữ liệu nhỏ, trong khi học sâu yêu cầu lượng dữ liệu lớn để tối ưu hóa hiệu quả Tuy nhiên, các mô hình học sâu thường mang lại kết quả tổng quát hơn.

Để kết hợp điểm mạnh của hai mô hình, câu hỏi tự nhiên đặt ra là làm thế nào để áp dụng một phương pháp mang lại kết quả tổng quát cao mà không cần quá nhiều dữ liệu huấn luyện Phương pháp học chuyển tiếp chính là giải pháp hứa hẹn có tính ứng dụng cao, và sẽ được trình bày chi tiết trong Chương 2.

Học chuyển tiếp (Transfer learning) là phương pháp khai thác kiến thức từ một vấn đề lớn để giải quyết bài toán nhỏ hơn có liên quan Phương pháp này liên quan đến học đa tác vụ và chuyển đổi ngữ cảnh, đồng thời thường sử dụng các mô hình học sâu, mặc dù học chuyển tiếp không phải là một lĩnh vực riêng biệt của học sâu.

Học chuyển tiếp trong lĩnh vực xử lý ngôn ngữ tự nhiên được phân chia thành nhiều loại dựa trên các yếu tố khác nhau, nhưng chủ yếu được thực hiện thông qua các mô hình tiền huấn luyện Các mô hình này nhằm mục đích học đặc trưng ngôn ngữ, mối quan hệ từ vựng, ngữ cảnh câu và quan hệ giữa các câu trong văn bản thông qua các tác vụ cụ thể Khi dữ liệu huấn luyện đủ lớn, mô hình sẽ có khả năng biểu diễn hiệu quả ý nghĩa của từ, ngữ cảnh và câu văn.

Trong luận văn này, tác giả nghiên cứu hai mô hình chính là BERT và Flair Các phần 2.1 và 2.2 sẽ cung cấp cái nhìn sâu sắc về đặc điểm và ứng dụng của từng mô hình này.

Flair là mô hình biểu diễn ngôn ngữ dựa trên ngữ cảnh, được huấn luyện thông qua việc mô hình hóa từ ngữ và ngữ cảnh dưới dạng chuỗi ký tự, sử dụng kiến trúc mạng LSTM, mang lại kết quả ấn tượng cho bài toán gán nhãn tuần tự Trong khi đó, BERT là mô hình biểu diễn hai chiều cho ngôn ngữ, áp dụng cơ chế tự chú ý và tuân theo mô hình tự mã hóa, cho thấy khả năng ấn tượng trên các bộ dữ liệu quan trọng trong xử lý ngôn ngữ tự nhiên.

BERT - Mô hình biểu diễn hai chiều tiền huấn luyện

Cơ chế attention

Tổng quan về cơ chế attention

Cơ chế attention ra đời nhằm cải thiện khả năng ghi nhớ và giải mã ý nghĩa câu văn trong máy dịch Nó cho phép mô hình tập trung vào một số ngữ cảnh cụ thể, thay vì xử lý tất cả từ ngữ như nhau, từ đó tạo ra trọng số cho từng trạng thái đầu vào để thể hiện ảnh hưởng của chúng lên ý nghĩa toàn cục hoặc cục bộ của câu Các khái niệm mã hóa và giải mã là nền tảng trong máy dịch, với bộ mã hóa chuyển đổi chuỗi thành vector và bộ giải mã biến vector đó thành chuỗi tương ứng.

Cơ chế attention được phát triển để cải thiện bài toán sinh chuỗi thông qua mô hình mã hóa - giải mã Nó cho phép điều chỉnh trọng số của vector trong quá trình giải mã, giúp mô hình tập trung vào các thành phần quan trọng trong chuỗi thay vì xem xét toàn bộ chuỗi Dưới đây là mô tả toán học cho hai quá trình mã hóa và giải mã.

Trong quá trình mã hóa, trạng thái ẩn h_t tương ứng với dữ liệu đầu vào thứ t, trong khi hàm số f được biểu diễn bởi mạng neuron, và c đại diện cho ngữ cảnh của toàn bộ câu văn Mục tiêu là tìm ra các vector đại diện cho ý nghĩa của từng từ và toàn bộ câu Ở bước giải mã, xác suất của mỗi từ p(y_t | {y_1, , y_{t−1}}, c) được tính toán dựa trên các từ trước đó y_{t−1}, vector ngữ cảnh s_t và vector ý nghĩa của câu văn c từ quá trình mã hóa.

Mô hình attention đầu tiên được đề xuất bởi Bahdanau và cộng sự vào năm

2015 [12] được gọi là soft attention hay attention mềm Mô hình toán học của phiên bản attention này được thể hiện như sau:

Trong hàm phân phối xác suất của bước giải mã, tham số điều kiện tương ứng với trạng thái t kiểm soát thông tin ảnh hưởng đến quá trình này Cụ thể, công thức p(y t |{y 1 , , y t−1 },x) = g(y t−1 , s t , c t ) được sử dụng, trong đó s t được xác định bởi f (s t−1 , y t−1 , c t ).

Vecto c t cho từng thành phần của chuỗi y t được tính toán tuần tự bằng cách tổng hợp có trọng số các vector ẩn tương ứng với từng vị trí đầu vào trong chuỗi.

Hình 2.2: Soft attention e tj = a(s t−1 , h t ) (2.1.6) α tj = exp(e tj )

Phương trình 2.1.6 là một mô hình căn chỉnh trọng số, thể hiện mối quan hệ giữa giá trị đầu vào xung quanh vị trí j và giá trị đầu ra tại vị trí t.

Các biến thể của attention

Nhận thấy sự hiệu quả của mô hình attention, rất nhiều biến thể của attention được đưa ra cho nhiều mục đích khác nhau:

– Xem xét attention như là các biến ẩn của mô hình

Trong bài viết này, chúng tôi xem xét một phân phối xác suất rời rạc được tham số hóa bởi {α}, trong đó c t được coi là một biến ngẫu nhiên Phân phối xác suất được định nghĩa bởi công thức p(s t,i = 1|s j3000 mẫu) trong tập dữ liệu đánh giá cho kết quả mô hình tương đối tốt Tuy nhiên, đối với trường dữ liệu địa chỉ công ty, kết quả lại ở mức tương đối thấp Điều này có thể được giải thích bởi hai nguyên nhân chính.

Sự thiếu hụt dữ liệu huấn luyện ảnh hưởng đến hiệu suất của mô hình, đặc biệt là trong trường địa chỉ công ty, nơi chỉ chiếm 1.5% tổng số mẫu Mặc dù tập dữ liệu có sự phân phối cân bằng giữa các trường khác nhau, nhưng tín hiệu từ trường địa chỉ công ty không đủ mạnh để tối ưu dự đoán Điều này dẫn đến sự mất cân bằng giữa hai giá trị Precision và Recall, chỉ xảy ra ở trường địa chỉ công ty mà không ở các trường khác.

Sự nhập nhằng trong dữ liệu huấn luyện gây khó khăn trong việc dự đoán địa chỉ công ty, vì dữ liệu này bao gồm toàn bộ thông tin từ CV xin việc, không chỉ kinh nghiệm làm việc Điều này dẫn đến việc có nhiều trường địa chỉ khác nhau, như địa chỉ ứng viên và địa chỉ trường học, làm cho mô hình dễ nhầm lẫn và giảm giá trị Precision của trường địa chỉ công ty.

Mô hình học tốt đặc điểm dữ liệu, đặc biệt trong trường địa chỉ công ty, với giá trị Recall cao dù kích thước tập huấn luyện nhỏ Điều này cho thấy mô hình ưu tiên các lớp tích cực, khi các địa chỉ khác được gán nhãn là từ ngữ thông thường Ngược lại, hành vi của mô hình sẽ thay đổi, dẫn đến giá trị Precision cao nhưng Recall thấp.

Nhược điểm của mô hình BERT

Mặc dù nhiều nghiên cứu đã chứng minh hiệu quả vượt trội của BERT và các mô hình liên quan trong gia đình BERT, nhưng kích thước lớn của chúng đã tạo ra những nhược điểm đáng chú ý.

Mô hình BERT có tốc độ xử lý thấp do khối lượng tính toán lớn, dẫn đến chi phí và thời gian huấn luyện cũng như triển khai tăng cao.

Khả năng áp dụng BERT vào các miền dữ liệu đặc thù là hạn chế do sức mạnh của nó chủ yếu đến từ mô hình ngôn ngữ tiền huấn luyện Mặc dù BERT có khả năng mô phỏng tốt đặc trưng ngôn ngữ từ nhiều nguồn khác nhau, nhưng trong một số trường hợp, ngôn ngữ không tuân theo các đặc trưng này, như dữ liệu liệt kê, ngôn ngữ ngắn hay tóm tắt Hơn nữa, ý nghĩa của câu văn còn phụ thuộc vào vị trí xuất hiện trong văn bản, dẫn đến việc sức mạnh của BERT không được phát huy tối đa.

Trong kỹ thuật xử lý dữ liệu của BERT, lớp nhúng vị trí được sử dụng để đánh dấu vị trí từ ngữ trong câu, nhưng không có thông tin vị trí nào khác được đưa vào, dẫn đến tín hiệu về tính tuần tự của dữ liệu không ảnh hưởng mạnh đến mô hình Để khắc phục nhược điểm này, nhiều mô hình như ALBERT và Distilled BERT đã được phát triển nhằm tăng tốc độ xử lý mà vẫn giữ lại các tham số quan trọng, tuy nhiên, chúng thường không đạt kết quả cao bằng BERT gốc Trong bối cảnh này, vấn đề chính tập trung vào tính đặc thù của dữ liệu.

Tác vụ tiền huấn luyện thứ hai của BERT là dự đoán câu tiếp theo, giúp xử lý thông tin ở mức độ đoạn văn BERT có khả năng xác định thứ tự và mối liên hệ ý nghĩa giữa các câu trong đoạn, làm cho nó trở thành công cụ hiệu quả cho các bài toán liên quan đến ngữ nghĩa.

Dữ liệu của CV xin việc thường được trình bày dưới dạng liệt kê, khiến cho ý nghĩa của từng câu văn tự nó đã đầy đủ và rõ ràng Do đó, sự liên kết giữa các câu trong CV không mạnh mẽ như trong ngôn ngữ thông thường.

Vì vậy mà tác vụ tiền huấn luyện này không phát huy quá nhiều hiệu quả trong khuôn khổ đề tài này.

Nhược điểm thứ hai có thể được coi là điểm yếu lớn nhất của mô hình BERT.

Có rất nhiều nghiên cứu tập trung vào đánh giá điểm yếu này, tác giả nêu ra ở đây một số ví dụ điển hình:

SCIBERT là một mô hình BERT được tiền huấn luyện trên dữ liệu ngôn ngữ khoa học, do Wen Tai và cộng sự phát triển Nghiên cứu này chỉ ra rằng miền dữ liệu có ảnh hưởng lớn đến hiệu quả của mô hình, được đánh giá qua hai yếu tố chính: quá trình tinh chỉnh và bộ từ điển của mô hình Kết quả cho thấy SCIBERT vượt trội hơn hẳn so với mô hình BERT cơ bản trên một số tập dữ liệu chuyên biệt.

K-BERT là một nghiên cứu của Weijie Liu và các cộng sự, trong đó họ chỉ ra rằng BERT có khả năng học cách biểu diễn dữ liệu tổng quát, nhưng lại không khai thác hiệu quả các đặc trưng của miền dữ liệu cụ thể Để khắc phục điều này, nhóm tác giả đã phát triển một phương pháp bổ sung kiến thức dựa trên các cơ sở kiến thức, nhằm nâng cao khả năng của BERT trong quá trình tinh chỉnh mô hình.

exBERT là một phương pháp được phát triển bởi Wen Tai và các cộng sự, nhằm mở rộng bộ từ điển của BERT Phương pháp này giúp cải thiện khả năng biểu diễn ngôn ngữ cho các miền dữ liệu cụ thể, tạo ra một bộ từ điển mới hiệu quả hơn.

Một nhược điểm quan trọng của kiến trúc attention là tính tuần tự của dữ liệu, khiến cho việc huấn luyện không thể diễn ra theo cách tuần tự mặc dù cho phép huấn luyện song song Tính tuần tự trong ngôn ngữ là một yếu tố thiết yếu, và nhiều nghiên cứu đã được thực hiện để khắc phục vấn đề này ở BERT Các mô hình như XLNET và BART đã thử nghiệm việc hoán vị từ ngữ trong câu Cụ thể, trong nghiên cứu của XLNET, Zhilin Yang đã cải tiến lớp nhúng vị trí bằng cách áp dụng vị trí tương đối thay vì vị trí tuyệt đối Kết quả thực nghiệm cho thấy các mô hình này vượt trội hơn rõ rệt so với BERT.

Nhận thấy những hạn chế của BERT, tác giả tìm kiếm một mô hình học chuyển tiếp hiệu quả hơn cho miền dữ liệu đặc thù Do giới hạn phần cứng, việc huấn luyện lại các mô hình dựa trên Transformer là không khả thi, vì vậy tác giả quyết định sử dụng mô hình LSTM cổ điển Mặc dù LSTM không hiệu quả bằng Transformer, nhưng không thể khẳng định rằng mô hình Transformer luôn vượt trội hơn LSTM trong mọi trường hợp Kết quả thực nghiệm đã xác nhận giả thuyết của tác giả.

Nhận diện thực thể tên sử dụng mô hình Flair

Nhược điểm và phương hướng cải tiến

Ngày đăng: 07/12/2021, 23:27

HÌNH ẢNH LIÊN QUAN

Hình 1.2: CV được trình bày dưới dạng bảng - Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
Hình 1.2 CV được trình bày dưới dạng bảng (Trang 17)
Hình 2.1: Mô hình sequence-to-sequence thông thường - Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
Hình 2.1 Mô hình sequence-to-sequence thông thường (Trang 23)
Hình 2.2: Soft attention - Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
Hình 2.2 Soft attention (Trang 25)
Hình 2.3: Global attention - Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
Hình 2.3 Global attention (Trang 26)
Hình 2.4: Mô hình Transformer - Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
Hình 2.4 Mô hình Transformer (Trang 29)
Hình 2.5: Biểu diễn dữ liệu đầu vào của BERT - Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
Hình 2.5 Biểu diễn dữ liệu đầu vào của BERT (Trang 32)
Hình 2.6: Mô hình ngôn ngữ tự hồi quy - Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
Hình 2.6 Mô hình ngôn ngữ tự hồi quy (Trang 35)
Hình 2.7: Nguyên tắc hoạt động của RNN - Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
Hình 2.7 Nguyên tắc hoạt động của RNN (Trang 36)
Hình 2.8: Mạng neuron hồi tiếp hai chiều (bên phải) - Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
Hình 2.8 Mạng neuron hồi tiếp hai chiều (bên phải) (Trang 37)
Hình 2.9: Kiến trúc LSTM - Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
Hình 2.9 Kiến trúc LSTM (Trang 38)
Hình 3.1: Kiến trúc tổng quan - Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
Hình 3.1 Kiến trúc tổng quan (Trang 40)
Hình 3.2: Confusion matrix - Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
Hình 3.2 Confusion matrix (Trang 41)
Hình 3.3: Kiến trúc mô hình BERT-NER - Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
Hình 3.3 Kiến trúc mô hình BERT-NER (Trang 43)
Bảng 3.1: Kết quả mô hình BERT-NER - Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
Bảng 3.1 Kết quả mô hình BERT-NER (Trang 44)
Hình 3.4: Mô hình gán nhãn tuần tự - Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
Hình 3.4 Mô hình gán nhãn tuần tự (Trang 49)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w