1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập

149 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Mô Hình Tìm Kiếm Và Gợi Ý Tài Nguyên Học Tập
Tác giả Trần Thanh Điện
Người hướng dẫn PGS.TS. Nguyễn Thái Nghe
Trường học Trường Đại học Cần Thơ
Chuyên ngành Hệ thống thông tin
Thể loại luận án tiến sĩ
Năm xuất bản 2022
Thành phố Cần Thơ
Định dạng
Số trang 149
Dung lượng 2,1 MB

Cấu trúc

  • CHƯƠNG 1. GIỚI THIỆU (7)
    • 1.1. Tính cấp thiết của nghiên cứu (7)
    • 1.2. Mục tiêu, đối tượng, phạm vi và phương pháp nghiên cứu (9)
    • 1.3. Nội dung nghiên cứu và hướng tiếp cận của luận án (9)
      • 1.3.1. Xây dựng mô hình phân loại tài nguyên học tập (11)
      • 1.3.2. Xây dựng mô hình tìm kiếm tài nguyên học tập (11)
      • 1.3.3. Xây dựng mô hình dự đoán kết quả học tập (12)
      • 1.3.4. Xây dựng mô hình gợi ý tài nguyên học tập (12)
    • 1.4. Các đóng góp của luận án (13)
    • 1.5. Bố cục của luận án (14)
  • CHƯƠNG 2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN (16)
    • 2.1. Khái quát về hệ thống quản lý tài nguyên học tập (16)
      • 2.1.1. Tài nguyên học tập và hệ thống quản lý tài nguyên học tập (16)
      • 2.1.2. Hệ thống quản lý tài nguyên học tập có quan tâm ngữ nghĩa (16)
      • 2.1.3. Hệ thống gợi ý tài nguyên học tập (16)
    • 2.2. Một số kỹ thuật phân loại văn bản (17)
      • 2.2.1. Phân loại với máy véc-tơ hỗ trợ SVM (18)
      • 2.2.2. Phân loại sử dụng giải thuật cây quyết định và rừng ngẫu nhiên (21)
      • 2.2.3. Phân loại với các kỹ thuật học sâu (21)
    • 2.3. Các kỹ thuật tính toán độ tương đồng văn bản (22)
      • 2.3.1. Độ tương đồng (22)
      • 2.3.2. Một số phương pháp tính độ tương đồng văn bản (22)
    • 2.4. Các kỹ thuật xây dựng mạng ngữ nghĩa phục vụ tìm kiếm (24)
      • 2.4.1. Khái quát về web ngữ nghĩa (24)
      • 2.4.2. Mô hình dữ liệu biểu diễn về lĩnh vực (ontology) (26)
    • 2.5. Hệ thống gợi ý và các kỹ thuật trong hệ thống gợi ý (28)
      • 2.5.1. Tổng quan về hệ thống gợi ý (28)
      • 2.5.2. Các nhóm giải thuật của hệ thống gợi ý (31)
      • 2.5.3. Một số kỹ thuật trong hệ thống gợi ý (34)
    • 2.6. Các nghiên cứu liên quan (58)
      • 2.6.1. Nghiên cứu về phân loại văn bản (58)
      • 2.6.2. Nghiên cứu về tìm kiếm tài liệu (61)
      • 2.6.3. Nghiên cứu về dự đoán xếp hạng và gợi ý (63)
      • 2.6.4. Thảo luận và đề xuất các nghiên cứu của luận án (65)
  • CHƯƠNG 3. MÔ HÌNH PHÂN LOẠI TÀI NGUYÊN HỌC TẬP (67)
    • 3.1. Giới thiệu (67)
    • 3.2. Mô hình phân loại tài nguyên học tập (68)
      • 3.2.1. Phân loại tài nguyên học tập (68)
      • 3.2.2. Tiền xử lý dữ liệu (69)
      • 3.2.3. Mô hình phân loại tài nguyên học tập (71)
    • 3.3. Mô tả tập dữ liệu và độ đo đánh giá mô hình (73)
    • 3.4. Cài đặt các siêu tham số và môi trường thực nghiệm (73)
    • 3.5. Kết quả thực nghiệm (75)
    • 3.6. Tổng kết chương (77)
  • CHƯƠNG 4. MÔ HÌNH TÌM KIẾM TÀI NGUYÊN HỌC TẬP (78)
    • 4.1. Giới thiệu (78)
    • 4.2. Tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản (79)
      • 4.2.1. Mô hình đề xuất (80)
      • 4.2.2. Mô tả dữ liệu và phương pháp đánh giá (82)
      • 4.2.3. Kết quả thực nghiệm (83)
    • 4.3. Tìm kiếm tài nguyên học tập dựa trên mạng ngữ nghĩa ontology (86)
      • 4.3.1. Mô hình đề xuất (87)
      • 4.3.2. Mô tả dữ liệu (90)
      • 4.3.3. Kết quả thực nghiệm (90)
    • 4.4. Tăng tốc xử lý dữ liệu tìm kiếm bằng kỹ thuật xử lý dữ liệu lớn (92)
    • 4.5. Tổng kết chương (92)
  • CHƯƠNG 5. MÔ HÌNH DỰ ĐOÁN KẾT QUẢ HỌC TẬP (94)
    • 5.1. Giới thiệu (94)
    • 5.2. Khái quát về dự đoán kết quả học tập (95)
      • 5.2.1. Dự đoán kết quả học tập dựa trên hồ sơ cá nhân (96)
      • 5.2.2. Dự đoán kết quả học tập theo kỹ thuật lọc cộng tác của hệ thống gợi ý (96)
    • 5.3. Mô hình dự đoán kết quả học tập trên toàn bộ dữ liệu sinh viên (96)
      • 5.3.1. Mô hình đề xuất (96)
      • 5.3.2. Mô tả dữ liệu (97)
      • 5.3.3. Tiền xử lý dữ liệu (99)
      • 5.3.4. Kết quả thực nghiệm (101)
    • 5.4. Mô hình dự đoán kết quả học tập theo nhóm năng lực học tập (104)
      • 5.4.1. Mô hình đề xuất (105)
      • 5.4.2. Mô tả dữ liệu (106)
      • 5.4.3. Kết quả thực nghiệm (107)
    • 5.5. Mô hình dự đoán kết quả học tập theo từng sinh viên (109)
      • 5.5.1. Mô tả dữ liệu thực nghiệm và tiền xử lý dữ liệu (109)
      • 5.5.2. Mô hình đề xuất và chuẩn hóa dữ liệu (110)
      • 5.5.3. Kết quả thực nghiệm (112)
    • 5.6. Tổng kết chương (114)
  • CHƯƠNG 6. MÔ HÌNH GỢI Ý TÀI NGUYÊN HỌC TẬP (115)
    • 6.1. Giới thiệu (115)
    • 6.2. Khái quát về vấn đề gợi ý tài nguyên học tập (116)
      • 6.2.1. Đối với dữ liệu về tài nguyên học tập (116)
      • 6.2.2. Đối với dữ liệu về môn học (117)
    • 6.3. Mô hình gợi ý tài nguyên học tập bằng mô hình phân rã ma trận sâu (117)
    • 6.4. Các phương pháp trong hệ thống gợi ý (119)
    • 6.5. Mô tả dữ liệu thực nghiệm (119)
    • 6.6. Kết quả thực nghiệm (121)
      • 6.6.1. Kết quả thực nghiệm trên các tập dữ liệu về tài nguyên học tập (121)
      • 6.6.2. Kết quả thực nghiệm trên các tập dữ liệu về kết quả học tập (123)
    • 6.7. Tổng kết chương (125)
  • CHƯƠNG 7. KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO (126)
    • 7.1. Kết luận (126)
    • 7.2. Hướng nghiên cứu tiếp theo (127)
  • TÀI LIỆU THAM KHẢO (131)

Nội dung

GIỚI THIỆU

Tính cấp thiết của nghiên cứu

Học tập mở (open learning) đã nổi lên như một phong trào đổi mới trong giáo dục từ những năm 1970, nhằm tăng cường cơ hội học tập trong các hệ thống giáo dục chính thức và bên ngoài chúng (Susan, 2009) Nó bao gồm nhiều phương thức giảng dạy và các hoạt động tương tác trong cộng đồng học tập, đồng thời phát triển và sử dụng tài nguyên giáo dục mở (Chang, 2010) Tài nguyên giáo dục mở là những tài liệu học tập được công bố công khai hoặc phát hành theo giấy phép mở, cho phép truy cập và chia sẻ miễn phí (UNESCO, 2019) Đối với giáo viên, tài nguyên này giúp đa dạng hóa nội dung giảng dạy và tiết kiệm chi phí Đối với người học, nó cung cấp môi trường học tập số hóa phong phú và hỗ trợ cho việc tự học cũng như học nhóm, tạo cơ hội tiếp cận tài liệu chất lượng cao (Jisc, 2016).

Tài nguyên học tập là các công cụ giáo dục được phát triển để hỗ trợ quá trình dạy và học, nhằm đạt được mục tiêu học tập (Smith, 2016) Chúng có thể được cung cấp qua các hệ thống như học trực tuyến, quản lý giáo trình, quản lý đào tạo và quản lý nghiên cứu Mặc dù mỗi hệ thống có đặc điểm riêng, nhưng đều hướng tới việc cung cấp tính năng hỗ trợ dạy và học cho các cơ sở giáo dục và nhu cầu tự học của người học (Barajas and Gannaway, 2007; Muñoz-Merino et al., 2009; Santos and Boticario, 2011) Sự phát triển nhanh chóng của công nghệ thông tin và hỗ trợ giáo dục trực tuyến đã làm tăng nhu cầu học tập mở, đặc biệt là học trực tuyến, để thích ứng với những thay đổi như hạn chế đi lại do dịch bệnh, từ đó thúc đẩy nhu cầu sử dụng tài liệu giảng dạy và học tập.

Trong bối cảnh tài nguyên học tập ngày càng phong phú và gia tăng, việc phát triển các mô hình tìm kiếm tài nguyên học tập có ý nghĩa quan trọng Những mô hình này sẽ hỗ trợ người học trong việc tìm kiếm và sử dụng tài nguyên một cách hiệu quả hơn Đặc biệt, việc chú trọng đến khía cạnh ngữ nghĩa trong tìm kiếm sẽ giúp người học dễ dàng tiếp cận những tài nguyên phù hợp với nhu cầu học tập của mình.

Hệ thống gợi ý học tập ngày càng trở nên quan trọng trong bối cảnh tài nguyên học tập ngày càng phong phú, giúp người học tìm kiếm thông tin phù hợp với nhu cầu và khả năng của họ Các hệ thống này tập trung vào việc cải thiện khả năng đề xuất tài nguyên dựa trên độ tương đồng văn bản và mạng ngữ nghĩa, đồng thời cung cấp các đề xuất được xếp hạng để giảm thiểu tình trạng quá tải thông tin Nhờ đó, người học có thể dễ dàng chọn lựa các tài nguyên học tập phù hợp nhất với đặc điểm cá nhân của mình (Imran et al., 2014; Xiao et al., 2018).

Trong những năm gần đây, nghiên cứu về tìm kiếm và gợi ý tài nguyên học tập đã phát triển, nhưng vẫn còn nhiều vấn đề cần cải tiến Để nâng cao hiệu quả tìm kiếm tài nguyên học tập, cần đề xuất các giải pháp mới nhằm đáp ứng tốt hơn nhu cầu của người học Hệ thống quản lý tài nguyên học tập cần giải quyết những thách thức này để tối ưu hóa trải nghiệm người dùng.

1 Việc tìm kiếm tài nguyên học tập không chỉ ở dạng cơ sở dữ liệu quan hệ mà chủ yếu ở dạng dữ liệu phi cấu trúc (như word, powerpoint, pdf, web, audio, video) và nguồn dữ liệu ngày càng lớn Vì vậy, cần giải quyết vấn đề tìm kiếm các tài liệu phi cấu trúc có quan tâm đến vấn đề ngữ nghĩa nhằm giúp người học tìm được nguồn tài nguyên học tập tốt hơn, phù hợp hơn với năng lực người học.

2 Tài nguyên học tập đa dạng thuộc nhiều lĩnh vực và không ngừng gia tăng, vì vậy cần có phương pháp tìm kiếm tài liệu hiệu quả hơn Một vấn đề quan trọng trong tìm kiếm là cần phân loại truy vấn và tài nguyên học tập trước khi thực hiện tìm kiếm nhằm giới hạn không gian tìm kiếm, giúp cho quá trình tìm kiếm nhanh và hiệu quả hơn Ngoài ra, vấn đề tìm kiếm có quan tâm ngữ nghĩa cần được quan tâm, đây là vấn đề còn mới trong lĩnh vực giáo dục, đặc biệt đối với các hệ thống quản lý tài nguyên học tập.

3 Thực tế, bài toán tìm kiếm và gợi ý không thể tách rời nhau Ngoài kết quả tìm kiếm, các hệ thống cần đề xuất các tài nguyên học tập có liên quan đến người học Ngoài ra, dự đoán xếp hạng và gợi ý thường được gắn kết nhau Để gợi ý thì cần có kết quả dự đoán xếp hạng, từ kết quả dự đoán có thể chọn ra các kết quả có hạng thuộc tốp đầu để gợi ý Hiện nay, có nhiều nghiên cứu dự đoán xếp hạng với các cách tiếp cận khác nhau Tuy nhiên, trong lĩnh vực giáo dục, các bài toán về dự đoán xếp hạng và gợi ý sử dụng dữ liệu thực tế về kết quả học tập của sinh viên và tài nguyên học tập có ít nghiên cứu Các hệ thống dự đoán xếp hạng và gợi ý được sử dụng chủ yếu là các kỹ thuật lọc cộng tác như k láng giềng, phân rã ma trận, phân rã ma trận thiên vị, Tuy vậy, với các tập dữ liệu lớn và giàu thuộc tính thì cần nghiên cứu phương pháp dự đoán xếp hạng và gợi ý hiệu quả hơn, đặc biệt là sử dụng các kỹ thuật tiên tiến như học sâu.

Luận án “Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập” được thực hiện nhằm đáp ứng nhu cầu nghiên cứu và ứng dụng trong việc triển khai các hệ thống quản lý tài nguyên học tập, mang lại ý nghĩa khoa học và thực tiễn quan trọng.

Mục tiêu, đối tượng, phạm vi và phương pháp nghiên cứu

Mục tiêu tổng quát của luận án là phát triển các mô hình tìm kiếm và gợi ý tài nguyên học tập, nhằm đáp ứng nhu cầu của người học và nâng cao hiệu quả học tập Các mục tiêu cụ thể sẽ được đề xuất để hỗ trợ quá trình học tập đạt kết quả tốt hơn.

1 Nghiên cứu xây dựng mô hình tìm kiếm tài nguyên học tập có quan tâm đến vấn đề ngữ nghĩa nhằm nâng cao hiệu quả tìm kiếm đáp ứng nhu cầu của người học.

2 Nghiên cứu xây dựng các mô hình dự đoán kết quả học tập và gợi ý tài nguyên học tập phù hợp với từng người học. Đối tượng nghiên cứu chính của luận án là các mô hình tìm kiếm và gợi ý tài nguyên học tập Để giải quyết hai vấn đề tìm kiếm và gợi ý tài nguyên học tập, mô hình phân loại tài nguyên học tập, tìm kiếm dựa trên độ tương đồng về nội dung văn bản và dựa trên mạng ngữ nghĩa của văn bản và một số vấn đề có liên quan được nghiên cứu.

Tài nguyên học tập rất phong phú, bao gồm nhiều loại học liệu như bài giảng, giáo trình, sách và bài báo dưới dạng văn bản Luận án này tập trung vào việc đề xuất các giải pháp để xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập trong các hệ thống quản lý, giới hạn phạm vi nghiên cứu chỉ ở dạng văn bản.

Luận án này áp dụng phương pháp nghiên cứu tổng hợp và phân tích các nghiên cứu liên quan từ tạp chí, kỷ yếu hội nghị, sách uy tín và các nguồn công bố đáng tin cậy Mục tiêu là đề xuất các mô hình và phương pháp tiếp cận mới để cải thiện hiệu quả tìm kiếm và gợi ý tài nguyên học tập Các vấn đề được giải quyết thông qua nhiều cách tiếp cận như máy học, phân loại dữ liệu, mạng nơ-ron truyền thẳng, mạng ngữ nghĩa ontology và hệ thống gợi ý Dữ liệu thực nghiệm được thu thập từ nhiều nguồn, bao gồm bài báo khoa học, tin tức trên báo điện tử, và dữ liệu học tập của sinh viên từ trường đại học Kết quả thực nghiệm được đánh giá bằng các độ đo khác nhau, tùy thuộc vào kỹ thuật sử dụng, nhằm cung cấp cái nhìn khách quan về các mô hình đề xuất.

Nội dung nghiên cứu và hướng tiếp cận của luận án

Mục tiêu chính của luận án là phát triển các mô hình tìm kiếm và gợi ý tài nguyên học tập để đáp ứng nhu cầu của người học Để thực hiện điều này, cần giải quyết hai vấn đề quan trọng: tìm kiếm và gợi ý, kết hợp phân loại và dự đoán xếp hạng nhằm tối ưu hóa hiệu quả của các mô hình đề xuất Cụ thể, vấn đề đầu tiên là xây dựng các mô hình tìm kiếm tài nguyên học tập, trong đó cần kết hợp phân loại truy vấn và tài nguyên học tập để hạn chế không gian tìm kiếm Thêm vào đó, yếu tố ngữ nghĩa cũng được chú trọng nhằm nâng cao hiệu quả trong quá trình tìm kiếm.

Vấn đề thứ hai là phát triển mô hình gợi ý tài nguyên học tập Sau khi hệ thống quản lý tài nguyên học tập cung cấp kết quả tìm kiếm, cần phải đề xuất các tài nguyên học tập liên quan đến người học Để đảm bảo tính phù hợp của các gợi ý, cần chú ý đến kết quả dự đoán xếp hạng, từ đó chọn ra những tài nguyên có thứ hạng cao nhất để gợi ý cho người dùng.

Tài nguyên học tập là các dạng tài nguyên số hỗ trợ cho quá trình giảng dạy và học tập, bao gồm văn bản như bài giảng, giáo trình, sách, bài báo, luận văn, luận án, cũng như hình ảnh, âm thanh, video và các nguồn học liệu số khác (State Government of Victoria, 2020) Để phát triển các mô hình tìm kiếm và gợi ý tài nguyên học tập trên các hệ thống quản lý, luận án này tập trung vào việc sử dụng tài nguyên học tập dưới dạng văn bản, bao gồm giáo trình, bài báo, dữ liệu kết quả học tập của sinh viên và đánh giá tài nguyên số.

Luận án này đề xuất giải quyết các vấn đề nghiên cứu liên quan đến kiến trúc tổng quát, như được mô tả trong Hình 1.1.

Để đạt được mục tiêu tổng quát của luận án là đề xuất các mô hình tìm kiếm và gợi ý tài nguyên học tập, nghiên cứu chia bài toán lớn thành các bài toán nhỏ hơn như phân loại, tìm kiếm, dự đoán và gợi ý Bài toán phân loại giúp giới hạn không gian tìm kiếm, từ đó tăng tốc độ tìm kiếm; trong khi bài toán dự đoán cung cấp nền tảng cho việc gợi ý chính xác và hiệu quả hơn.

1.3.1 Xây dựng mô hình phân loại tài nguyên học tập

Nội dung nghiên cứu đầu tiên tập trung vào việc phân loại tài nguyên học tập, nhằm giới hạn không gian tìm kiếm và nâng cao hiệu quả trong quá trình tìm kiếm Phân loại này được thể hiện trong mục  của kiến trúc Hình 1.1 và được trình bày chi tiết trong Chương 3 của luận án Kết quả từ nghiên cứu này là cơ sở cho việc tìm kiếm tài nguyên học tập được đề cập trong Chương 4.

Phân loại văn bản là một ứng dụng quan trọng trong việc xác định chủ đề của tài liệu (Thaoroijam, 2014; Li et al., 2017) Nhiều nhà khoa học đã nghiên cứu vấn đề này với các phương pháp khác nhau, trong đó các kỹ thuật học máy như k láng giềng gần nhất, Nạve Bayes, máy véc-tơ hỗ trợ, cây quyết định và mạng nơ-ron đang được sử dụng phổ biến gần đây (Cortes and Vapnik, 1995; McCallum and Nigam, 1998; Aggarwal and Zhai, 2012; Bijaksana et al., 2013; Haddoud et al., 2016).

Phân loại văn bản không phải là vấn đề mới, nhưng trong luận án này, chúng tôi đề xuất một phương pháp phân loại tài nguyên học tập sử dụng kỹ thuật học sâu Phương pháp này không chỉ hiệu quả trên các tập dữ liệu lớn và đa ngôn ngữ mà còn giải quyết tốt vấn đề mất cân bằng về số mẫu và số lớp trong tập dữ liệu Hơn nữa, chúng tôi cũng so sánh kỹ thuật tiên tiến này với các phương pháp học máy truyền thống để xác thực tính hiệu quả của mô hình được đề xuất.

1.3.2 Xây dựng mô hình tìm kiếm tài nguyên học tập

Nội dung nghiên cứu thứ hai tập trung vào việc tìm kiếm tài nguyên học tập, với mô hình tìm kiếm được phát triển dựa trên kết quả phân loại tài nguyên học tập từ nghiên cứu đầu tiên, giúp hạn chế không gian tìm kiếm Nội dung chi tiết của nghiên cứu này được trình bày tại mục .

Để tìm kiếm tài nguyên học tập hiệu quả, hai phương pháp chính được đề xuất là tìm kiếm dựa trên tính toán độ tương đồng nội dung văn bản và tìm kiếm dựa trên mạng ngữ nghĩa ontology Nhiều nghiên cứu đã được thực hiện để tính toán độ tương đồng văn bản, bao gồm các phương pháp như khoảng cách Jaro, mô hình tương phản và hệ số Jaccard Hiện nay, các phương pháp đo độ tương đồng chủ yếu dựa vào hai yếu tố: độ tương đồng ngữ nghĩa của văn bản (đo cosine) và độ tương đồng thứ tự của các từ trong văn bản.

Trong luận án năm 2004, tác giả đề xuất một phương pháp tìm kiếm tài nguyên học tập dựa trên độ tương đồng nội dung văn bản, kết hợp hai yếu tố quan trọng.

Bên cạnh việc tìm kiếm tài liệu dựa trên độ tương đồng văn bản, luận án còn đề xuất mô hình tìm kiếm tài nguyên học tập dựa trên ngữ nghĩa thông qua việc sử dụng ontology Tìm kiếm ngữ nghĩa đang ngày càng thu hút sự chú ý trong lĩnh vực này.

Năm 2014, Alfred và các cộng sự, cùng với Tang và Chen (2015) và Okuboyejo et al (2018), đã nghiên cứu về ontology và web ngữ nghĩa Luận án này đề xuất một phương pháp phân loại để xác định lĩnh vực của câu truy vấn, từ đó thực hiện tìm kiếm trên ontology đã được xây dựng trước đó, phù hợp với lĩnh vực của câu truy vấn.

1.3.3 Xây dựng mô hình dự đoán kết quả học tập

Nghiên cứu thứ ba tập trung vào việc dự đoán xếp hạng, cụ thể là dự đoán kết quả học tập của người học Để gợi ý tài nguyên học tập phù hợp với năng lực của từng học viên, việc dự đoán cách sử dụng tài nguyên và kết quả học tập mà họ có thể đạt được là rất quan trọng Nội dung này được thể hiện rõ trong mục  của kiến trúc nghiên cứu.

Hình 1.1, được mô tả chi tiết trong Chương 5, minh họa mô hình dự đoán kết quả học tập Kết quả của nghiên cứu thứ ba sẽ là cơ sở để đề xuất tài nguyên học tập phù hợp với năng lực của người học, được trình bày trong Chương 6.

Các đóng góp của luận án

Trong luận án này, các mô hình được đề xuất và tổ chức thực nghiệm cho từng nội dung nghiên cứu nhằm đạt được các mục tiêu đề ra Những kết quả nghiên cứu đạt được đã góp phần quan trọng vào lĩnh vực nghiên cứu, với những đóng góp chính được trình bày rõ ràng.

1 Về phân loại tài nguyên học tập: Để phân loại tài nguyên học tập phục vụ cho quá trình tìm kiếm tài nguyên học tập, cách tiếp cận dựa trên kỹ thuật học sâu (deep learning) với mạng nơ-ron truyền thẳng đa tầng MLP (Multilayer Perceptron) được đề xuất nhiều tập dữ liệu trên nhiều ngôn ngữ khác nhau được thu thập và sử dụng, mỗi tập dữ liệu có số lớp khác nhau để việc đánh giá phân loại tài nguyên học tập được khách quan Việc sử dụng diện tích dưới đường ROC hay AUC (Area under the Curve) làm phép đo đánh giá độ chính xác của phân loại tài nguyên học tập cho thấy đây là phép đo phù hợp cho dữ liệu sử dụng phân loại ở dạng mất cân bằng (về số lớp, số mẫu) Thực nghiệm cũng so sánh cách tiếp cận kỹ thuật học sâu với các kỹ thuật học máy khác, kết quả cho thấy cách tiếp cận được đề xuất phân loại tài nguyên học tập khả thi trên cùng tập dữ liệu.

Kết quả của đóng góp này được phản ánh qua hai công trình nghiên cứu, bao gồm CT1 (Dien, T T et al., 2019) và CT2 (Dien, Tran Thanh và Thanh-Hai, Nguyen et al., 2020).

2 Về tìm kiếm tài nguyên học tập: Để tìm kiếm tài nguyên học tập được hiệu quả, hai cách tiếp cận được đề xuất gồm (1) tìm kiếm tài nguyên học tập dựa trên tính toán độ tương đồng về nội dung văn bản và (2) dựa trên mạng ngữ nghĩa ontology Đối với cách tiếp cận (1), luận án đề xuất kết hợp độ tương đồng ngữ nghĩa của văn bản và độ tương đồng thứ tự của từ trong văn bản từ nghiên cứu của Li et al (2004) để áp dụng tìm kiếm tài nguyên học tập Đối với cách tiếp cận (2), giải pháp tìm kiếm tài nguyên học tập dựa trên mạng ngữ nghĩa ontology biểu diễn thông tin được áp dụng.

Cả hai phương pháp truy vấn đều được tiền xử lý và phân loại để xác định lĩnh vực liên quan, giúp thu hẹp không gian tìm kiếm trước khi thực hiện tìm kiếm trên các tài nguyên học tập đã được xây dựng sẵn Nghiên cứu này cũng thử nghiệm các giải pháp nhằm tăng tốc độ xử lý dữ liệu tìm kiếm.

Kết quả của đóng góp này được thể hiện qua ba công trình nghiên cứu, bao gồm CT3 (Dien, Tran Thanh et al., 2019), CT4 (Dien, T T et al., 2020) và CT5 (Trần Thanh Điện ctv., 2020).

3 Về dự đoán kết quả học tập: Để dự đoán kết quả học tập hay kết quả sử dụng tài nguyên học tập, các mô hình dự đoán kết quả học tập với các cách tiếp cận khác nhau dựa trên các kỹ thuật học sâu được đề xuất, bao gồm mô hình dự đoán kết quả học tập cho toàn bộ sinh viên sử dụng mạng nơ-ron tích chập CNN, mô hình dự đoán theo nhóm năng lực học tập sử dụng mạng nơ-ron đa tầng MLP và kỹ thuật học máy rừng ngẫu nhiên RF, và mô hình dự đoán theo từng sinh viên sử dụng bộ nhớ ngắn dài hạn LSTM.

Dữ liệu với các thuộc tính đa dạng được tiền xử lý bằng kỹ thuật QTF, giúp chuyển đổi thành dãy giá trị nhất định, từ đó cải thiện khả năng hội tụ của các thuật toán học sâu.

Các kết quả từ đóng góp này được thể hiện qua bốn công trình nghiên cứu, bao gồm CT6 (Dien, Tran Thanh và Hai, Nguyen Thanh et al., 2020), CT7 (Dien, Tran Thanh và Hoai-Sang, Luu et al., 2020), CT8 (Dien và Duy-Anh et al., 2021) và CT9 (Dien và Phuoc et al., 2021).

4 Về gợi ý tài nguyên học tập: Để gợi ý tài nguyên học tập, mô hình phân rã ma trận sâu DMF (Deep Matrix Factorization), được mở rộng từ phân rã ma trận chuẩn

Mô hình DMF đã được kiểm chứng trên hai nhóm dữ liệu, bao gồm tài nguyên học tập và kết quả học tập của sinh viên tại một trường đại học So với các kỹ thuật gợi ý khác, DMF cho thấy hiệu suất dự đoán xếp hạng vượt trội, giúp gợi ý tài nguyên học tập phù hợp với năng lực của người học Những kết quả này được công bố trong tài liệu CT10 (Tran Thanh Dien et al., 2021).

Bố cục của luận án

Luận án được trình bày thành 7 chương như sau:

Chương 1 giới thiệu tính cấp thiết của nghiên cứu, xác định mục tiêu, đối tượng, phạm vi và phương pháp nghiên cứu Kế tiếp, các nội dung nghiên cứu và hướng tiếp cận của luận án nhằm thực hiện được các mục tiêu đề ra được giới thiệu Cuối cùng là những đóng góp chính của luận án và bố cục trình bày luận án.

Chương 2 trình bày cơ sở lý thuyết và các nghiên cứu liên quan Trước tiên, hệ thống quản lý tài nguyên học tập được giới thiệu khái quát Kế tiếp, cơ sở lý thuyết về các kỹ thuật phân loại văn bản; các kỹ thuật tính toán độ tương đồng văn bản, các kỹ thuật xây dựng mạng ngữ nghĩa phục vụ tìm kiếm, hệ thống gợi ý và các kỹ thuật trong hệ thống gợi ý được trình bày Phần sau cùng là các nghiên cứu liên quan, thảo luận và đề xuất các nghiên cứu của luận án.

Chương 3 đề xuất mô hình phân loại tài nguyên học tập Đầu tiên, phân loại tài nguyên học tập và các kỹ thuật phân loại đã được sử dụng trong luận án được giới thiệu khái quát Sau đó, mô hình phân loại tài nguyên học tập sử dụng mạng nơ-ron truyền thẳng đa tầng MLP được đề xuất Các tập dữ liệu dùng thực nghiệm, các tham số và môi trường thực nghiệm được trình bày ở phần tiếp theo Phần cuối chương là kết quả thực nghiệm của mô hình phân loại tài nguyên học tập.

Chương 4 đề xuất mô hình tìm kiếm tài nguyên học tập Đầu tiên, mô hình tìm kiếm tài nguyên học tập dựa trên tính toán độ tương đồng về nội dung văn bản và tìm kiếm dựa trên mạng ngữ nghĩa được đề xuất Tiếp theo đó, mô hình tìm kiếm tài nguyên học tập dựa trên mạng ngữ nghĩa ontology được giới thiệu Trong chương này, ở mỗi

Bài viết trình bày 8 cách tiếp cận tìm kiếm, bao gồm các tập dữ liệu thực nghiệm, môi trường thực nghiệm và kết quả thu được Cuối cùng, một thử nghiệm về việc tăng tốc xử lý dữ liệu tìm kiếm thông qua kỹ thuật xử lý dữ liệu lớn cũng được giới thiệu.

Chương 5 đề xuất mô hình dự đoán kết quả học tập Đầu tiên, dự đoán kết quả học tập được giới thiệu khái quát Sau đó, lần lượt các cách tiếp cận xây dựng mô hình dự đoán được trình bày, bao gồm: mô hình dự đoán kết quả học tập trên toàn bộ dữ liệu sinh viên, mô hình dự đoán kết quả học tập theo nhóm năng lực học tập và mô hình dự đoán kết quả học tập theo từng sinh viên Ở mỗi cách tiếp cận, các tập dữ liệu thực nghiệm, các tham số, môi trường thực nghiệm cũng được trình bày được mô tả; cuối cùng là các kết quả thực nghiệm cho mỗi mô hình dự đoán được đề xuất.

Chương 6 đề xuất mô hình gợi ý tài nguyên học Đầu tiên, vấn đề gợi ý tài nguyên học tập được giới thiệu khái quát Tiếp theo đó, mô hình gợi ý tài nguyên học tập bằng mô hình phân rã ma trận sâu được trình bày Các phương pháp trong hệ thống gợi ý cũng được mô tả để so sánh mới kỹ thuật được đề xuất Sau đó, các tập dữ liệu thực nghiệm được mô tả Cuối cùng là các kết quả thực nghiệm của mô hình gợi ý được đề xuất.

Chương 7 trình bày tóm tắt các kết quả và đóng góp của luận án cũng như những hạn chế và hướng nghiên cứu tiếp theo của luận án.

CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

Khái quát về hệ thống quản lý tài nguyên học tập

2.1.1 Tài nguyên học tập và hệ thống quản lý tài nguyên học tập

Tài nguyên học tập là các dạng tài nguyên số hỗ trợ quá trình giảng dạy và học tập, bao gồm bài giảng, giáo trình, sách, bài báo, luận văn, luận án, cùng với hình ảnh, âm thanh, video và nhiều nguồn học liệu số khác Luận án này tập trung vào tài nguyên học tập dạng văn bản.

Tài nguyên học tập hiện diện trên nhiều hệ thống quản lý, bao gồm quản lý giáo trình, quản lý đào tạo và các công trình khoa học, đặc biệt là hệ thống học tập trực tuyến Hệ thống này được định nghĩa là các hình thức học tập và giảng dạy hỗ trợ điện tử, nhằm xây dựng kiến thức dựa trên kinh nghiệm cá nhân và thực hành của người học (Tavangarian et al., 2004) Các hệ thống quản lý tài nguyên học tập đóng vai trò quan trọng trong quá trình học tập, mang lại cơ hội cho người học tiếp cận kiến thức mọi lúc, mọi nơi, không bị giới hạn bởi không gian vật lý.

2.1.2 Hệ thống quản lý tài nguyên học tập có quan tâm ngữ nghĩa

Với sự phát triển của công nghệ web, đặc biệt là web ngữ nghĩa, các hệ thống quản lý tài nguyên học tập đã chú trọng đến yếu tố ngữ nghĩa Những hệ thống này ứng dụng ontology và công nghệ web ngữ nghĩa nhằm nâng cao khả năng mở rộng, tái sử dụng và tương tác của nội dung giáo dục trên nền tảng web.

Ontology là mô hình dữ liệu thể hiện ngữ nghĩa của một miền, cho phép truy xuất thông tin một cách thông minh Với sự phát triển của web ngữ nghĩa, ontology ngày càng trở nên phổ biến trong hệ thống quản lý tài nguyên học tập Công nghệ này đã được áp dụng trong ngữ cảnh hệ thống học tập trực tuyến và được sử dụng đa dạng tùy thuộc vào nhiệm vụ của hệ thống Nội dung về ontology và web ngữ nghĩa được trình bày chi tiết trong phần kỹ thuật xây dựng mạng ngữ nghĩa phục vụ tìm kiếm.

2.1.3 Hệ thống gợi ý tài nguyên học tập

Sự quá tải thông tin trong các hệ thống học tập trực tuyến đã thúc đẩy sự phát triển của các hệ thống gợi ý tài nguyên học tập (Santos và Boticario, 2011) Khi xây dựng những hệ thống này, có thể áp dụng hai quan điểm chính: cách tiếp cận từ trên xuống (top-down approach) và cách tiếp cận từ dưới lên (bottom-up approach) Cách tiếp cận từ trên xuống thường được sử dụng trong các hệ thống học tập trực tuyến chính thức, nơi các chuyên gia cung cấp tài liệu và kế hoạch học tập Trong khi đó, cách tiếp cận từ dưới lên phù hợp với hệ thống học tập tự chủ hơn, cho phép người học tự tìm kiếm và lựa chọn tài nguyên phù hợp với nhu cầu của mình.

Học tập trực tuyến không chính thức cho phép người học tương tác với nhiều nguồn thông tin đa dạng trên mạng, tạo điều kiện cho việc tiếp cận kiến thức linh hoạt và phong phú (Drachsler et al., 2008; Santos and Boticario, 2011).

Hệ thống gợi ý tài nguyên học tập khác biệt với các hệ thống gợi ý thông thường, tập trung vào việc hỗ trợ người học tìm kiếm tài nguyên và hoạt động học phù hợp để đạt mục tiêu học tập (Garcia-Martinez và Hamou-Lhadj, 2013) Chúng không chỉ giúp sinh viên lựa chọn môn học thích hợp mà còn cung cấp thông tin cho giảng viên về tài liệu cần thiết để cải tiến môn học (Drachsler et al., 2009; García et al., 2009) Hệ thống này còn hỗ trợ giảng viên nhận diện các sai sót và phát hiện sinh viên gặp khó khăn (Romero et al., 2009) Lợi ích của hệ thống gợi ý tài nguyên học tập được chia thành ba nhóm chính: cải thiện kết quả học tập của sinh viên, tăng cường khả năng học tập xã hội và gia tăng động lực học tập (Garcia-Martinez và Hamou-Lhadj, 2013).

Một số kỹ thuật phân loại văn bản

Trong các hệ thống tìm kiếm tài nguyên học tập quy mô lớn, giai đoạn đầu tiên là xử lý truy vấn để xác định chủ đề, từ đó tìm kiếm thông tin trong miền đó Việc phân loại truy vấn rất quan trọng, giúp giới hạn không gian tìm kiếm, tăng tốc độ và nâng cao độ chính xác của kết quả tìm kiếm.

Nghiên cứu về phân loại truy vấn đã áp dụng phương pháp biểu thức chính quy với luật ngữ pháp viết tay để xác định lớp câu hỏi đầu vào, tuy nhiên, phương pháp này gặp hạn chế về số lớp nhỏ, không phù hợp cho hệ thống tìm kiếm quy mô lớn Do đó, phương pháp xác suất, bao gồm học máy và mô hình ngôn ngữ, đã trở thành hướng tiếp cận chính cho vấn đề phân loại câu hỏi, với sự quan tâm đặc biệt từ các nhà nghiên cứu vào học máy.

Có nhiều thuật toán phân loại câu truy vấn trong học máy như k láng giềng gần nhất (kNN), Nạve Bayes, máy vector hỗ trợ (SVM) và cây quyết định Những thuật toán này học từ tập câu hỏi mẫu đã được gán nhãn để xây dựng mô hình phân loại Trong số đó, SVM được ưa chuộng và chứng tỏ hiệu quả cao trong nhiều nghiên cứu (McCallum và Nigam, 1998; Li và Roth, 2002; Liu và Zheng, 2005).

2.2.1 Phân loại với máy véc-tơ hỗ trợ SVM

2.2.1.1 Phân loại nhị phân với giải thuật SVM

Giải thuật máy véc-tơ hỗ trợ (SVM) được giới thiệu bởi Cortes và Vapnik vào năm 1995, nổi bật với khả năng xử lý hiệu quả các bài toán có dữ liệu nhiều chiều, chẳng hạn như véc-tơ biểu diễn văn bản SVM được coi là bộ phân loại chính xác nhất cho phân loại văn bản, nhờ vào tốc độ phân loại nhanh và hiệu quả cao trong lĩnh vực này (Chakrabarti, 2002).

Máy véc-tơ hỗ trợ SVM hoạt động dựa trên nguyên tắc tìm kiếm siêu phẳng tối ưu, nhằm tách biệt hai lớp dữ liệu một cách xa nhất có thể Siêu phẳng trong không gian n chiều được xác định bởi véc-tơ pháp tuyến w và độ lệch b từ gốc tọa độ SVM xác định siêu phẳng (w, b) để phân chia dữ liệu, sử dụng hai siêu phẳng hỗ trợ song song để thực hiện việc này.

Hình 2.1: Phân loại tuyến tính với SVM

Siêu phẳng hỗ trợ cho lớp dương (+1) là siêu phẳng mà các phần tử của lớp này nằm bên phải, trong khi siêu phẳng hỗ trợ cho lớp âm (-1) là siêu phẳng mà các phần tử thuộc lớp âm nằm bên trái Phương trình mặt siêu phẳng trong không gian được biểu diễn bằng w.x + b = 0, với w là véc-tơ trọng số và b là độ lệch (bias) Hướng và khoảng cách từ gốc tọa độ đến mặt siêu phẳng thay đổi theo giá trị của w và b Bộ phân loại SVM được xác định bởi biểu thức 2.1: +1,

Gọi y i mang giá trị +1 hoặc -1, trong đó y i = +1 biểu thị rằng x thuộc về lớp (+), còn y i = -1 nghĩa là x thuộc về lớp (-) Hai mặt siêu phẳng phân chia các mẫu thành hai phần được mô tả bởi các phương trình w.x + b = 1 và w.x + b = -1 Khoảng cách giữa hai mặt siêu phẳng này, hay còn gọi là margin, có thể được tính toán bằng hình học với công thức: margin = ‖ ‖.

Để ngăn chặn các điểm dữ liệu rơi vào vùng bên trong biên, cần xác định khoảng cách biên lớn nhất bằng cách tìm giá trị nhỏ nhất của công thức 2.2.

Khi đó, việc tìm siêu

Có thể viết lại như sau:

Để giải quyết bài toán phân loại nhiều lớp (k > 2) bằng SVM, chúng ta có thể cải tiến từ bài toán phân loại nhị phân Hai kỹ thuật phổ biến được sử dụng là một-tất cả (One-vs-All) và một-một (One-vs-One) Trong kỹ thuật One-vs-All, mỗi mô hình sẽ phân tách một lớp khỏi các lớp còn lại, dẫn đến việc xây dựng k mô hình cho k lớp.

(a) (Nghị, 2011) Với kỹ thuật One-vs-One, mỗi mô hình phân tách hai lớp, xây dựng k(k-1)/2 mô hình cho k lớp như Hình 2.2 (b).

Hình 2.2: SVM đa lớp với One-vs-All (a) và One-vs-One (b)

Ngoài ra, có thể áp dụng các phương pháp khác để phân tách hai nhóm, với mỗi nhóm bao gồm nhiều lớp, nhằm xác định cách phân tách hiệu quả nhất.

2.2.1.3 Áp dụng SVM vào phân loại câu truy vấn

SVM ban đầu được phát triển cho phân loại nhị phân, nhưng hiện nay đã được cải tiến để phục vụ cho phân loại đa lớp, đặc biệt là trong bài toán phân loại câu truy vấn Để xây dựng mô hình phân loại câu truy vấn dựa trên SVM, cần thực hiện hai bước chuẩn bị dữ liệu Đầu tiên, thiết kế mô hình cây phân cấp (taxonomy) cho tập lớp câu hỏi, trong đó độ phức tạp của taxonomy phụ thuộc vào miền ứng dụng của câu hỏi Thứ hai, xây dựng tập dữ liệu mẫu (corpus) đã được gán nhãn cho từng lớp câu hỏi, trong đó việc lựa chọn đặc trưng để biểu diễn câu hỏi đóng vai trò quan trọng và phụ thuộc vào đặc điểm của từng ngôn ngữ.

13 đặc trưng được lựa chọn khác nhau Ví dụ với tiếng Anh thì tập đặc trưng của nó là các từ.

Sau khi xây dựng được tập các lớp câu hỏi cùng với tập dữ liệu sẽ tiến hành “học”.

Mô hình học được mô tả như Hình 2.3.

Hình 2.3: Sơ đồ phân loại câu hỏi với SVM

Trong hình Hình 2.3, bước tiền xử lý thực hiện chức năng làm tinh lọc dữ liệu

Sau khi loại bỏ từ dừng, câu hỏi sẽ được rút trích các đặc trưng đã được lựa chọn trước Dữ liệu đầu vào cho bộ phân loại SVM sẽ là tập hợp các véc-tơ đặc trưng.

2.2.2 Phân loại sử dụng giải thuật cây quyết định và rừng ngẫu nhiên

Giải thuật cây quyết định là một phương pháp xấp xỉ giá trị các hàm mục tiêu rời rạc, được sử dụng rộng rãi trong học quy nạp từ tập dữ liệu lớn Phương pháp này tạo ra một cây có bậc tùy ý, trong đó các lá đại diện cho các lớp và các nhánh thể hiện các điều kiện, đặc trưng dẫn đến lớp ở đỉnh lá Một trong những ưu điểm nổi bật của cây quyết định là khả năng chuyển đổi dễ dàng sang dạng cơ sở tri thức dưới dạng các luật “Nếu…Thì”.

Rừng ngẫu nhiên (Random Forest - RF) là một thuật toán học có giám sát, ứng dụng cho cả phân loại và hồi quy Về mặt kỹ thuật, RF hoạt động bằng cách tổng hợp nhiều cây quyết định, được xây dựng trên các tập dữ liệu phân chia ngẫu nhiên, theo nghiên cứu của Tin Kam năm 1995.

Thuật toán của giải thuật RF được mô tả như sau:

1 Chọn các mẫu ngẫu nhiên từ tập dữ liệu đã cho.

2 Thiết lập cây quyết định cho từng mẫu và nhận kết quả dự đoán từ mỗi cây.

3 Bỏ phiếu bầu cho mỗi kết quả dự đoán.

4 Chọn kết quả được dự đoán nhiều nhất là dự đoán cuối cùng. Ưu điểm của RF là phương pháp chính xác và mạnh mẽ vì số cây quyết định tham gia vào quá trình này, không bị vấn đề quá khớp (overfitting) Tuy nhiên, hạn chế của nó là chậm tạo dự đoán do có nhiều cây quyết định.

2.2.3 Phân loại với các kỹ thuật học sâu

Ngoài các kỹ thuật phân loại sử dụng các giải thuật học máy như máy véc-tơ hỗ trợ

Các kỹ thuật tính toán độ tương đồng văn bản

2.3.1 Độ tương đồng Đa số các giải pháp đánh giá hiệu quả của một hệ thống tìm kiếm thông tin là dựa vào khái niệm tương đồng (similarity) Về lý thuyết, một tài liệu được cho là tương đồng với một truy vấn nếu như nội dung tài liệu đó trả lời được cho nhu cầu thông tin của người dùng chứ không phải là tài liệu đó có chứa đầy đủ các từ khóa của câu truy vấn mô tả cho nhu cầu thông tin của người dùng (Truong Quoc-Dinh et al., 2014). Việc đánh giá độ tương đồng sẽ thay đổi theo ngữ cảnh cũng như theo quan điểm, kiến thức, học vấn và kinh nghiệm của người dùng.

Trong lĩnh vực xử lý ngôn ngữ tự nhiên, các đơn vị được so sánh bao gồm từ, câu, đoạn văn và văn bản Ví dụ, hai câu "A là sinh viên Trường Đại học Cần Thơ" và "B là sinh viên Trường Đại học Cần Thơ" có độ tương đồng cao Kỹ thuật tính toán độ tương đồng văn bản có thể được thực hiện qua nhiều phương pháp khác nhau.

2.3.2 Một số phương pháp tính độ tương đồng văn bản

2.3.2.1 Độ tương đồng văn bản dựa trên tập từ chung Ở cách tiếp cận này, văn bản được biểu diễn dưới dạng mô hình đồ thị, mỗi đỉnh trong đồ thị là một câu trong văn bản, trong khi đó mỗi cạnh nối hai đỉnh trong đồ thị biểu diễn mối liên hệ giữa hai câu Trọng số của một cạnh chính là giá trị độ tương đồng của hai câu Thông thường, độ tương đồng được tính dựa trên ba phương pháp.

Phương pháp thứ nhất là tính độ tương đồng giữa hai chuỗi bằng khoảng cách Jaro

(Winkler, 1 1990) Với phương pháp Jaro, khoảng cách hai câu s 1 và s 2 được tính như sau:

Trong quá trình so sánh hai câu, số từ giống nhau được ký hiệu là m, trong khi t là số bước chuyển cần thiết Mỗi từ trong câu đầu tiên sẽ được đối chiếu với tất cả các từ trong câu thứ hai để xác định độ tương đồng giữa chúng Các trọng số ∝ và các yếu tố khác sẽ được áp dụng để tính toán chính xác hơn.

Phương pháp thứ hai là mô hình tương phản (Tversky, 1977) Độ tương đồng giữa hai câu A và B được tính như sau:

Hệ số Jaccard, được phát triển bởi Jaccard vào năm 1901, là một phương pháp đo lường độ tương đồng giữa các tập hợp Độ tương đồng giữa hai câu A và B được tính bằng công thức: |A ∩ B| / |A ∪ B|, trong đó |A ∩ B| là số phần tử chung giữa hai tập hợp, và |A ∪ B| là tổng số phần tử trong cả hai tập hợp.

2.3.2.2 Độ tương đồng văn bản dựa trên véc-tơ biểu diễn

Sau khi tiền xử lý, văn bản được chuyển đổi thành mô hình không gian véc-tơ, trong đó mỗi thành phần của véc-tơ tương ứng với một từ trong văn bản Một số phương pháp tính độ tương đồng văn bản dựa trên véc-tơ biểu diễn bao gồm độ tương đồng cosine Số lượng từ trong văn bản ban đầu sẽ trở thành số phần tử trong véc-tơ, với mỗi phần tử thể hiện mức độ quan trọng của từ đó trong văn bản Giả sử véc-tơ của hai văn bản cần so sánh lần lượt là:

D i = < , …, > với là trọng số của từ thứ t trong không gian véc-tơ i.

D = < 1 , …, > với là trọng số của từ thứ t trong không gian véc-tơ j. j

Khi đó, độ tương đồng cosine của hai văn bản D i và D j được tính như biểu thức

Ngoài ra, có các phương pháp tính độ tương đồng văn bản dựa trên véc-tơ biểu diễn như độ tương đồng Euclide và độ tương đồng Manhattan.

2.3.2.3 Độ tương đồng ngữ nghĩa của văn bản

Các nghiên cứu về độ tương đồng ngữ nghĩa giữa hai văn bản thường áp dụng véc-tơ đặc trưng ngữ nghĩa Véc-tơ này được xây dựng dựa trên việc tính toán độ tương đồng giữa các từ trong văn bản, với trọng số của từng thành phần được xác định bởi độ đo tương tự lớn nhất (Li et al., 2004).

Giả sử có hai văn bản d1 và d2 với m1 và m2 từ vựng đã được tách Từ của văn bản d1 được biểu diễn là T1 = {w11, w12, …, w1m1} và từ của văn bản d2 là T2 = {w21, w22, …, w2m2}.

T là phép hợp của T 1 và T 2 : T = T 1 T 2 = {w 1 , w 2 , …, w m } Trong đó, m là số lượng từ Véc-tơ đặc trưng ngữ nghĩa của văn bản T 1 và T 2 lần lượt biểu diễn là V 1 = (v 11 , v 12 ,

…, v 1m ), V 2 = (v 21 , v 22 , …, v 2m ) Độ tương đồng ngữ nghĩa (tương đồng cosine) của hai văn bản được tính dựa trên hai véc-tơ đặc trưng ngữ nghĩa V 1 và V 2 được tính như biểu thức 2.4:

Giá trị ( 1 bản càng cao.

2.3.2.4 Độ tương đồng văn bản dựa vào thứ tự của từ trong văn bản

Độ tương đồng về thứ tự từ trong văn bản là yếu tố quan trọng, bên cạnh độ tương đồng ngữ nghĩa Dù sử dụng cùng một tập từ, nhưng nếu sắp xếp theo thứ tự khác nhau, ý nghĩa của văn bản có thể thay đổi, thậm chí dẫn đến những ý nghĩa hoàn toàn trái ngược.

Ví dụ: Cho trước hai tập văn bản như sau: T 1 = {em, thương, cô_giáo}; T 2

Hai tập từ T1 và T2 chứa những từ giống nhau, chỉ khác nhau về thứ tự của cặp từ “em” và “cô_giáo” Do đó, mặc dù hai tập từ này hoàn toàn giống nhau, ý nghĩa của chúng có thể không giống nhau.

Nghiên cứu về trật từ trong văn bản, nhóm tác giả Li et al (2004) đã nghiên cứu phương pháp tính độ tương đồng thứ tự từ như sau:

Từ hai văn bản T1 và T2, phép hợp của hai tập từ được xác định là T = T1 T2 Véc-tơ đặc trưng thứ tự từ của hai văn bản được biểu diễn lần lượt là R1 = (r11, r12, …, r1m) và R2 = (r21, r22, …, r2m).

Véc-tơ thứ tự từ thể hiện vị trí của mỗi từ w_i trong các văn bản T_1 và T_2 Đối với mỗi từ w_i thuộc T, nếu w_i có mặt trong T_1, thì r_1i là vị trí của w_i trong T_1; nếu không, r_1i sẽ là 0 Tương tự, quy trình này cũng áp dụng cho T_2 Véc-tơ đặc trưng của từ cung cấp thông tin về cấu trúc từ trong văn bản Độ tương đồng về trật tự giữa hai văn bản được xác định dựa trên hai véc-tơ đặc trưng thứ tự từ.

Các kỹ thuật xây dựng mạng ngữ nghĩa phục vụ tìm kiếm

Việc sử dụng máy tìm kiếm thông thường không tận dụng được ưu điểm của web ngữ nghĩa Hệ thống tìm kiếm ngữ nghĩa cho phép tìm kiếm thông tin trên web ngữ nghĩa hoặc mạng tri thức, mang lại kết quả với cấu trúc hoàn chỉnh mà máy tính có thể hiểu, từ đó giúp việc xử lý thông tin trở nên dễ dàng hơn (Cohen et al., 2003; Gunter, 2009) Máy tìm kiếm ngữ nghĩa được phát triển dựa trên các công nghệ và kỹ thuật của các nền tảng khác nhau Để hiểu rõ về cấu trúc của máy tìm kiếm ngữ nghĩa, cần chú ý đến hai nền tảng chính: web ngữ nghĩa và mô hình dữ liệu biểu diễn lĩnh vực (ontology).

2.4.1 Khái quát về web ngữ nghĩa

Web ngữ nghĩa là sự phát triển của web hiện tại, nhằm cải thiện cách mà thông tin được hiểu và xác định ý nghĩa, từ đó giúp máy tính và con người tương tác hiệu quả hơn Khác với công nghệ web truyền thống, nội dung trên web ngữ nghĩa được tổ chức và gán nhãn rõ ràng, cho phép các hệ thống tự động xử lý và phân tích thông tin một cách thông minh hơn.

Semantic web bao gồm 17 hàm siêu văn bản, liên kết, hình ảnh và video, cho phép tích hợp các tài nguyên thông tin trừu tượng như con người, tổ chức, địa điểm và sự kiện Các liên kết trong semantic web không chỉ là siêu liên kết đơn thuần mà còn bao gồm nhiều loại liên kết và quan hệ khác, làm cho nội dung trở nên đa dạng, chi tiết và đầy đủ hơn (Gunter, 2009).

Kiến trúc của semantic web được cấu thành từ nhiều tầng, bao gồm Unicode và URI để đảm bảo việc sử dụng tập ký tự quốc tế và định danh các đối tượng Tầng XML cùng với các định nghĩa về namespace và schema cho phép tích hợp với các chuẩn XML khác Tầng RDF và RDF Schema (RDFS) tạo ra các phát biểu mô tả đối tượng bằng từ vựng và định nghĩa của URI, cho phép tham chiếu và gán kiểu cho các tài nguyên, đóng vai trò quan trọng nhất trong kiến trúc semantic web.

Hình 2.4: Kiến trúc phân tầng của semantic web (Berners-Lee et al., 2001)

Tầng Ontology trong hệ thống web ngữ nghĩa hỗ trợ sự tiến hóa của từ vựng bằng cách định nghĩa mối liên hệ giữa các khái niệm khác nhau, trong khi tầng Digital Signature xác định chủ thể tài liệu như tác giả của tài nguyên học tập Các tầng Logic, Proof và Trust hiện đang trong giai đoạn nghiên cứu, với Logic cho phép viết các quy tắc, Proof thi hành các quy tắc và Trust đánh giá độ tin cậy của chứng cứ Để xây dựng hệ thống web ngữ nghĩa thay thế cho web hiện tại, các nhà nghiên cứu tập trung vào ba hướng chính: chuẩn hóa ngôn ngữ biểu diễn dữ liệu (XML) và siêu dữ liệu (RDF), chuẩn hóa ngôn ngữ biểu diễn ontology, và phát triển nâng cao web có ngữ nghĩa (SWAD).

2.4.2 Mô hình dữ liệu biểu diễn về lĩnh vực (ontology)

Một trong những ý tưởng chính của semantic web là khả năng chia sẻ dữ liệu có nghĩa giữa các máy tính thông qua mô hình dữ liệu biểu diễn về miền, hay còn gọi là ontology, nhằm tạo ra dữ liệu toàn cầu (Berners-Lee et al., 2001) Hiện nay, ontology được hiểu theo nhiều cách khác nhau Brewster và O'Hara (2004) định nghĩa ontology là tập hợp các khái niệm và mối quan hệ giữa chúng trong một miền cụ thể, trong khi Studer et al (1998) cho rằng ontology là sự đặc tả chính quy, tường minh của các khái niệm được chia sẻ Gruber (1993) bổ sung rằng ontology mô hình hóa lĩnh vực thông qua các khái niệm, thuộc tính và quan hệ.

Most ontologies describe individuals or instances, classes or concepts, attributes, and relations The main components of an ontology are illustrated in Figure 2.5 (Kaushal, 2011).

Các cá thể là thành phần cơ bản của một ontology, bao gồm các đối tượng cụ thể như con người, động vật và vật thể, cũng như các khái niệm trừu tượng Các lớp trong ontology là các nhóm hoặc tập hợp các đối tượng trừu tượng, có thể chứa cá thể, lớp khác hoặc cả hai, và có thể bao gồm các lớp con Các thuộc tính mô tả các đối tượng trong ontology với tên và giá trị, lưu trữ thông tin về đối tượng Cuối cùng, các mối quan hệ trong ontology mô tả sự liên kết giữa các đối tượng, với mỗi mối quan hệ được xem như một thuộc tính có giá trị là một đối tượng trong ontology.

Hình 2.5: Các thành phần của ontology

Ngôn ngữ ontology là ngôn ngữ chính quy được sử dụng để mã hóa ontology, mang lại lợi ích từ khả năng suy luận trong mọi giai đoạn khái niệm, sử dụng và duy trì ontology (Kaushal, 2011) Để người dùng có thể chia sẻ và tái sử dụng các ontology, cần phải mô tả chúng bằng cấu trúc chặt chẽ và theo các chuẩn chung Một số ngôn ngữ ontology quan trọng bao gồm XML/XML Namespace/XML Schema, RDF, RDF Schema và OWL.

XML là một ngôn ngữ đơn giản cho phép người dùng tạo thẻ riêng để chú thích tài liệu web, giúp máy tính trao đổi dữ liệu mà không làm mất ý nghĩa XML Namespace giải quyết vấn đề xung đột tên phần tử, trong khi XML Schema định nghĩa cấu trúc tài liệu XML, bao gồm các phần tử, quan hệ cha con và kiểu dữ liệu XML Schema sử dụng cú pháp XML và là sự thay thế cho DTD, bắt đầu bằng khai báo theo chuẩn XML và sử dụng tiếp đầu ngữ xsd: để khai báo không gian tên.

Ngôn ngữ RDF (Resource Description Framework) là nền tảng thiết yếu của web ngữ nghĩa, cho phép mô tả thông tin về các tài nguyên trên internet và ngữ nghĩa của chúng theo cách mà máy tính có thể hiểu RDF sử dụng URI để xác định tài nguyên, và dữ liệu được tổ chức thành các bộ ba (triple) bao gồm chủ đề (subject), thuộc tính (predicate) và đối tượng (object) Trong đó, chủ đề là tài nguyên được mô tả, thuộc tính thể hiện mối quan hệ giữa chủ đề và đối tượng, và đối tượng có thể là một tài nguyên hoặc một giá trị cụ thể.

“Trường ĐHCT có website là www.ctu.edu.vn” sẽ được biểu diễn dưới dạng bộ ba như sau (“Trường ĐHCT”, “có website”, “www.ctu.edu.vn”).

Ngôn ngữ RDFS (RDF Schema) là một sự mở rộng của RDF, cho phép mô tả phân loại của các lớp và thuộc tính RDFS cung cấp các cơ chế để mô tả nhóm tài nguyên liên quan và mối quan hệ giữa chúng Trong RDFS, các lớp đại diện cho nhóm tài nguyên liên quan, trong khi các thuộc tính thể hiện mối quan hệ giữa các Subjects và Objects trong RDF.

Ngôn ngữ OWL, một phần của các ngôn ngữ biểu diễn tri thức, được thiết kế để tạo ra các ontologies và là sự mở rộng của RDF và RDFS (Kaushal, 2011) OWL kế thừa từ ngôn ngữ DAML + OIL và có mục tiêu chính là cung cấp khả năng suy luận cho semantic web Được viết dưới dạng XML, OWL cho phép xử lý thông tin trên web và dễ dàng được máy tính thông dịch Mặc dù OWL và RDF có nhiều đặc điểm tương đồng, OWL sở hữu một tập từ vựng phong phú hơn và được máy tính hiểu rõ hơn OWL được chia thành ba loại: OWL Lite, OWL DL và OWL Full, mỗi loại mang những đặc tính riêng biệt, phù hợp với các ứng dụng cụ thể (W3C, 2009).

2.4.2.4 Trình soạn thảo thiết kế ontology

Ontology editors are applications designed to assist in the creation and manipulation of ontologies (Kaushal, 2011) Currently, there are several ontology editors available DOME (DERI Ontology Management Environment), developed by the Ontology Management Working Group (OMWG), is used for managing ontologies (W3C, 2006) Knoodl, a community-driven ontology editor based on OWL and RDF knowledge bases, serves as a semantic technology platform It offers a Java-based service interface or a SPARQL (Simple Protocol and RDF Query Language) interface, enabling the community to build semantic applications using ontologies and knowledge bases (W3C).

Protégé là một trình soạn thảo ontology mã nguồn mở, được phát triển bởi Đại học Stanford và Đại học Manchester Được viết bằng Java, Protégé sử dụng Swing để tạo giao diện người dùng phức tạp, cho phép người dùng tạo ra khái niệm, thuộc tính, quan hệ và phân cấp giữa các khái niệm Với giao diện đồ họa thân thiện và tuân theo chuẩn ứng dụng web, Protégé đã trở thành công cụ phổ biến nhất trong lĩnh vực này.

Hệ thống gợi ý và các kỹ thuật trong hệ thống gợi ý

2.5.1 Tổng quan về hệ thống gợi ý

Hệ thống gợi ý (Recommender Systems - RS) là một loại hệ thống lọc thông tin, giúp dự đoán sở thích và xếp hạng của người dùng đối với những mục chưa được xem xét trước đó, như sách, bài hát hay tài nguyên học tập Hiện nay, RS đã được áp dụng rộng rãi trong nhiều lĩnh vực và ngày càng được triển khai nhiều trên Internet.

Trong hệ thống gợi ý (RS), ba thông tin chính được chú trọng bao gồm người dùng (user) như học viên hoặc người xem phim, mục tin (item) như sách, bài hát và tài nguyên học tập, cùng với phản hồi (feedback) từ người dùng đối với mục tin, thường là các xếp hạng hoặc đánh giá (rating) thể hiện mức độ yêu thích hoặc quan tâm của họ Mỗi dòng trong bảng dữ liệu đại diện cho một người dùng, mỗi cột là một mục tin, và mỗi ô chứa giá trị phản hồi thể hiện sự ưu tiên hoặc xếp hạng của người dùng đối với mục tin tương ứng.

Hình 2.7: Ma trận biểu diễn dữ liệu trong RS (user-item-rating matrix)

Các ô có giá trị trong ma trận là những item mà người dùng đã xếp hạng trước đó, dẫn đến việc tồn tại nhiều ô trống, tạo ra ma trận thưa Nhiệm vụ chính của hệ thống gợi ý (RS) là sử dụng dữ liệu quá khứ để dự đoán các ô trống thông qua mô hình đã xây dựng Sau đó, hệ thống sẽ sắp xếp các kết quả dự đoán theo thứ tự từ cao xuống thấp và chọn ra Top N items để gợi ý cho người dùng Bài toán gợi ý có thể được tóm tắt như vậy.

Gọi U là tập hợp n người dùng với |U| = n, trong đó u là một người dùng cụ thể (u ∈ U) Tương tự, I là tập hợp m mục thông tin với |I| = m, và i là một mục thông tin cụ thể (i ∈ I) R đại diện cho tập hợp các giá trị phản hồi của người dùng, trong đó r ui ∈ R (R ⊂ ℜ) là xếp hạng của người dùng u đối với mục thông tin i.

Tập dữ liệu huấn luyện được ký hiệu là D train ⊆ U × I × R, trong khi tập dữ liệu kiểm thử được ký hiệu là D test ⊆ U × I × R Hàm mục tiêu r: U × I → R (u, i) đo lường độ chính xác, với mục tiêu tối thiểu hóa giá trị Root Mean Squared Error, trong khi xác suất của hàm này cần được tối đa hóa.

Giá trị r ui có thể được xác định rõ ràng thông qua phản hồi tường minh, như việc đánh giá và xếp hạng, ví dụ như rating từ 1 đến 5 sao hoặc số lượng lượt thích.

Người dùng u có thể đánh giá mục thông tin i thông qua điểm số 22 cho sự thích và 0 cho sự không thích, hoặc bằng cách xem xét thời gian mà họ đã dành để duyệt hoặc xem nội dung này, được gọi là phản hồi tiềm ẩn.

Có 2 dạng bài toán chính trong RS là dự đoán xếp hạng (rating prediction) của các hệ thống có phản hồi tường minh (như trình bày ở trên) và dự đoán mục thông tin (item prediction/recommendation) là việc xác định xác suất mà người dùng thích mục tin tương ứng (Pilászy and Tikk, 2009).

2.5.2 Các nhóm giải thuật của hệ thống gợi ý

Trong lĩnh vực hệ thống gợi ý (RS), nhiều giải thuật đã được đề xuất và có thể được phân loại thành ba nhóm chính Theo các nghiên cứu trước đây (Su và Khoshgoftaar, 2009; Ricci et al., 2011; Bobadilla et al., 2013), các giải thuật này bao gồm lọc dựa trên nội dung (content-based filtering), lọc cộng tác (collaborative filtering) và lọc lai (hybrid filtering), trong đó lọc lai kết hợp cả hai phương pháp lọc trên.

Trong lĩnh vực gợi ý nội dung, có ba nhóm giải thuật chính: lọc theo nội dung (Content-based Filtering), lọc cộng tác (Collaborative Filtering) và gợi ý lai (Hybrid) Giải thuật lọc theo nội dung gợi ý item dựa trên hồ sơ người dùng hoặc thuộc tính của các item tương tự mà người dùng đã chọn trước đó Ngược lại, lọc cộng tác dựa vào sự tương đồng sở thích giữa người dùng, gợi ý các item mà những người có sở thích tương tự đã đánh giá cao Cuối cùng, giải thuật gợi ý lai kết hợp cả hai phương pháp, tạo ra gợi ý dựa trên sự tương đồng giữa người dùng và item, cũng như phản hồi của người dùng đối với các item.

Các nhóm giải thuật trong hệ thống gợi ý (RS) bao gồm nhiều phương pháp khác nhau, như lọc dựa vào bộ nhớ (Memory-Based Filtering), lọc dựa vào mô hình (Model-Based Filtering), kết hợp giữa bộ nhớ và mô hình, cùng với việc áp dụng học sâu (Deep Learning).

Memory-Based Filtering là phương pháp lưu trữ toàn bộ các trường hợp huấn luyện để dự đoán Khi cần đưa ra dự đoán, hệ thống sẽ tìm kiếm các trường hợp huấn luyện tương tự nhất với trường hợp cần dự đoán Một ví dụ cụ thể của phương pháp này là thuật toán k láng giềng gần nhất (kNN) Mặc dù phương pháp này dễ cài đặt, nhưng thời gian lọc chậm do cần tìm kiếm trên toàn bộ người dùng và mục tin trong hệ thống.

Model-Based Filtering là một phương pháp sử dụng dữ liệu để xây dựng các mô hình rút gọn như mô hình xác suất hoặc mô hình cây quyết định Những mô hình này sau đó được áp dụng để đưa ra tư vấn, giúp quá trình dự đoán diễn ra nhanh chóng nhờ vào việc dự đoán được thực hiện trên các mô hình đã được xây dựng trước.

Nhiều nghiên cứu đã chỉ ra rằng việc kết hợp giữa bộ nhớ và mô hình có thể khắc phục hạn chế của các phương pháp lọc đơn lẻ, từ đó cải thiện hiệu quả dự đoán, đặc biệt là trong việc xử lý dữ liệu thưa Tuy nhiên, phương pháp lai này cũng có thể gia tăng độ phức tạp và yêu cầu thời gian thực hiện nhiều hơn (Ghazanfar et al., 2012).

Các mô hình học sâu đã được nghiên cứu rộng rãi và chứng tỏ hiệu quả trong việc phát triển các hệ thống gợi ý trong những năm gần đây (Zhang et al., 2019) Học sâu, một nhánh quan trọng của học máy, đã cho thấy sức lan tỏa lớn trong các ứng dụng thực tiễn.

Các nghiên cứu liên quan

Trong những năm gần đây, nhiều nghiên cứu về hệ thống gợi ý tài nguyên học tập đã được thực hiện Các thuật toán và kỹ thuật chính trong hệ thống gợi ý được trình bày trong chương 2.5 Một nhiệm vụ quan trọng của hệ thống gợi ý là tìm kiếm tài nguyên học tập với sự chú ý đến ngữ nghĩa Để nâng cao tốc độ và hiệu quả của quá trình tìm kiếm, việc giới hạn không gian tìm kiếm là rất cần thiết Do đó, phân loại để xác định lĩnh vực của truy vấn là một yếu tố không thể thiếu trong quá trình này.

Các kỹ thuật phân loại văn bản và tìm kiếm ngữ nghĩa, bao gồm phương pháp dựa trên độ tương đồng văn bản và mạng ngữ nghĩa ontology, đã được thảo luận trong các phần 2.2, 2.3, 2.4 và 2.5 của chương này Bài viết này tóm lược các nghiên cứu liên quan đến phân loại, tìm kiếm, dự đoán xếp hạng và gợi ý tài nguyên học tập từ các công trình trước đây.

2.6.1 Nghiên cứu về phân loại văn bản

Hệ thống tìm kiếm thông tin nhằm cung cấp tài nguyên học tập phù hợp với nhu cầu người dùng từ không gian tìm kiếm rộng lớn Chúng tính toán độ tương đồng giữa câu truy vấn và tài liệu, từ đó tạo danh sách tài liệu sắp xếp theo độ tương đồng giảm dần Để tối ưu hóa quá trình tìm kiếm, phân loại văn bản và phân loại câu truy vấn là nhiệm vụ quan trọng, giúp gán nhãn cho các chủ đề đã định sẵn, từ đó tăng tốc độ và độ chính xác của tìm kiếm (Mishra et al., 2013).

Nhiều nghiên cứu đã tập trung vào việc phân loại truy vấn thông qua việc sử dụng các biểu thức chính quy dựa trên nguyên tắc ngữ pháp viết tay nhằm xác định lớp của câu hỏi đầu vào (Durme et al., 2003) Phương pháp này cho phép các nghiên cứu tiếp cận một cách có hệ thống và chính xác hơn trong việc phân loại các loại truy vấn khác nhau.

Nghiên cứu của 46 cứu đã đề xuất phương pháp biểu diễn ý nghĩa văn bản ràng buộc và chiến lược linh hoạt để so khớp câu hỏi với văn bản dựa trên sự tương đồng ngữ nghĩa và quan hệ trọng số giữa các từ Mặc dù phương pháp này đạt được một số thành công, nhưng vẫn còn nhiều hạn chế, bao gồm việc xây dựng mô hình tốn thời gian và cần sự hợp tác của chuyên gia ngôn ngữ học Hơn nữa, các quy tắc ngữ pháp viết tay và ngữ pháp cho từng loại truy vấn thiếu tính linh hoạt, yêu cầu các quy tắc mới khi có truy vấn mới xuất hiện Sự phức tạp của ngữ pháp cũng làm cho việc xử lý trở nên khó khăn, phụ thuộc vào đặc điểm từng ngôn ngữ Cuối cùng, việc mở rộng tập câu trả lời có thể dẫn đến việc phải viết lại hoàn toàn các quy tắc trước đó, gây khó khăn trong việc phát triển hệ thống.

Một phương pháp mới trong phân loại dữ liệu được các nhà nghiên cứu áp dụng gần đây là kỹ thuật học máy Trong nghiên cứu của Trần Cao Đệ và Phạm Nguyên Khang (2012), họ đã sử dụng giải thuật SVM để phân loại văn bản và so sánh hiệu quả với giải thuật cây quyết định Kết quả cho thấy SVM vượt trội hơn trong việc phân loại so với cây quyết định Thêm vào đó, việc áp dụng kỹ thuật phân tích giá trị đơn SVD để rút gọn số chiều của không gian đặc trưng đã góp phần nâng cao hiệu quả phân loại với SVM.

Một nghiên cứu khác của nhóm tác giả Trần Thị Thu Thảo và Vũ Thị Chinh

Năm 2012, nghiên cứu đã xây dựng mô-đun tách từ dựa trên mô hình N-gram và áp dụng kỹ thuật TF*IDF để mô hình hóa văn bản Sau khi chuyển đổi dữ liệu thành véc-tơ, nhóm tác giả sử dụng giải thuật Nạve Bayes để phân loại Kết quả phân loại đạt được khá khả quan, tuy nhiên nghiên cứu này chưa thực hiện so sánh đánh giá phương pháp Nạve Bayes với các phương pháp phân loại khác.

Gần đây, kỹ thuật học tăng cường (reinforcement learning) đã được áp dụng vào phân loại văn bản, bên cạnh các phương pháp học giám sát và không giám sát phổ biến Kỹ thuật này giúp xác định hành vi dựa trên hoàn cảnh nhằm tối đa hóa hiệu suất Nghiên cứu cho thấy rằng việc sử dụng học tăng cường trong phân loại văn bản đạt hiệu quả tương đương với các phương pháp học giám sát và không giám sát (Chai et al., 2020; Lin et al., 2020).

Nhiều nghiên cứu đã áp dụng các phương pháp học sâu (deep learning) để phân loại văn bản, trong đó ba kiến trúc chính được đề xuất bao gồm mạng niềm tin sâu (Deep Belief Neural - DBN), mạng nơ-ron tích chập (Convolutional Neural Network - CNN) và mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) (Zulqarnain Muhammad et al., 2020) Nghiên cứu cho thấy rằng các mô hình học sâu có tiềm năng lớn trong việc phân loại văn bản, nhưng việc lựa chọn mô hình phù hợp cần phụ thuộc vào tập dữ liệu cụ thể.

Để lựa chọn kỹ thuật phù hợp cho mô hình phân loại, cần xem xét 47 phương pháp khác nhau Đồng thời, việc so sánh giữa kỹ thuật học máy truyền thống và học sâu là cần thiết để xác định kỹ thuật nào tối ưu cho dữ liệu thực tế.

2.6.2 Nghiên cứu về tìm kiếm tài liệu

Trong thời gian qua, nhiều phương pháp tìm kiếm tài liệu đã được phát triển, nhưng tìm kiếm tài liệu chú trọng đến ngữ nghĩa vẫn được ưu tiên vì đáp ứng tốt hơn nhu cầu người dùng Để thỏa mãn nhu cầu này, nhiều nhà nghiên cứu đã áp dụng các phương pháp tìm kiếm dựa trên tính toán độ tương đồng văn bản và mạng ngữ nghĩa.

2.6.2.1 Tìm kiếm dựa trên độ tương đồng văn bản

Tìm kiếm tài liệu là quá trình kiểm tra độ tương đồng của văn bản để đề xuất tài liệu phù hợp, đóng vai trò quan trọng trong nghiên cứu và ứng dụng văn bản như tìm kiếm thông tin, phân loại văn bản, và tóm tắt Phương pháp tính độ tương đồng văn bản được Gomaa và Fahmy (2013) phân loại thành ba loại chính: dựa trên chuỗi (string-based), dựa trên tập ngữ liệu (corpus-based), và dựa trên tri thức (knowledge-based) Độ tương đồng dựa trên chuỗi tập trung vào từ vựng, trong khi hai phương pháp còn lại chú trọng vào ngữ nghĩa.

Một giải thuật mới được đề xuất để tính toán độ tương đồng văn bản, dựa trên việc kết hợp thông tin ngữ nghĩa của câu và thứ tự từ trong câu (Li et al.).

Năm 2004, nghiên cứu đã chỉ ra rằng độ tương đồng ngữ nghĩa giữa hai câu được xác định dựa trên cấu trúc từ vựng, tiếp theo là độ tương đồng về trật tự từ dựa trên vị trí của từ trong câu Hai độ tương đồng này được kết hợp thông qua một phép tính để xác định độ tương đồng câu, từ đó tính toán độ tương đồng văn bản Kết quả thực nghiệm cho thấy giải thuật này hoạt động hiệu quả trong hệ thống xử lý đàm thoại, tuy nhiên, nó chỉ áp dụng cho ngôn ngữ tiếng Anh.

Một giải thuật được đề xuất để đo độ tương đồng của câu dựa trên ngữ nghĩa và cú pháp, sử dụng mô hình không gian véc-tơ.

MÔ HÌNH PHÂN LOẠI TÀI NGUYÊN HỌC TẬP

MÔ HÌNH TÌM KIẾM TÀI NGUYÊN HỌC TẬP

MÔ HÌNH DỰ ĐOÁN KẾT QUẢ HỌC TẬP

MÔ HÌNH GỢI Ý TÀI NGUYÊN HỌC TẬP

Ngày đăng: 19/01/2022, 11:55

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w