1. Trang chủ
  2. » Cao đẳng - Đại học

Xây dựng hệ thống trả lời tự động tư vấn tuyển sinh tại trường cao đẳng bình định

72 88 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Hệ Thống Trả Lời Tự Động Tư Vấn Tuyển Sinh Tại Trường Cao Đẳng Bình Định
Tác giả Đinh Thị Bảo Châu
Người hướng dẫn TS. Trần Thiên Thành
Trường học Trường Đại Học Quy Nhơn
Chuyên ngành Khoa Học Máy Tính
Thể loại luận văn
Năm xuất bản 2020
Thành phố Quy Nhơn
Định dạng
Số trang 72
Dung lượng 2,06 MB

Cấu trúc

  • 1. Lý do chọn đề tài (10)
  • 2. Mục tiêu và nhiệm vụ nghiên cứu (12)
  • 3. Đối tượng và phạm vi nghiên cứu (0)
  • 4. Phương pháp nghiên cứu (13)
  • Chương 1. TỔNG QUAN VỀ HỆ THỐNG TRẢ LỜI TỰ ĐỘNG (14)
    • 1.1 Hệ thống trả lời tự động (14)
      • 1.1.1 Hệ thống trả lời tự động là gì? (14)
      • 1.1.2 Lịch sử phát triển các hệ thống trả lời tự động (15)
      • 1.1.3 Một số hệ thống trả lời tự động tiêu biểu (16)
      • 1.1.4 Tiêu chuẩn cho một hệ thống trả lời tự động (18)
    • 1.2 Kiến trúc của một hệ thống trả lời tự động (19)
    • 1.3 Phân loại câu hỏi dựa trên các phương pháp tiếp cận (21)
      • 1.3.1 Phương pháp tiếp cận ngôn ngữ (21)
      • 1.3.2 Phương pháp thống kê (21)
      • 1.3.3 Phương pháp đối sánh mẫu (22)
    • 1.4 Các kỹ thuật sử dụng trong hệ thống trả lời tự động (22)
      • 1.4.1 Kỹ thuật phân tích câu hỏi (22)
        • 1.4.1.1 Tiền xử lý văn bản (24)
        • 1.4.1.2 Trích xuất đặc trưng và vectơ hóa văn bản (24)
        • 1.4.1.3 Thuật toán huấn luyện mô hình phân lớp (25)
      • 1.4.2 Kỹ thuật xử lý dữ liệu (26)
      • 1.4.3 Kỹ thuật đưa ra câu trả lời (26)
    • 1.5 Bài toán phân lớp dữ liệu (27)
    • 1.6 Thuật toán phân lớp sử dụng mạng Nơron (28)
      • 1.6.1 Kiến trúc của mạng ANN (28)
      • 1.6.2 Quá trình học (Learning Processing) của ANN (32)
      • 1.6.3 Nguyên tắc huấn luyện (Training protocols) (32)
    • 1.7 Xử lý ngôn ngữ tự nhiên cho bài toán hỏi đáp tự động (33)
      • 1.7.1 Tách từ (word segmentation) (33)
      • 1.7.2 Xử lý từ gõ sai chính tả (33)
      • 1.7.3 Xác định từ loại (POS Tagging) (35)
    • 1.8 Bài toán trích chọn đặc trưng (36)
      • 1.8.1 Phương pháp Bag-of-words (36)
        • 1.8.1.1 Bag-of-words là gì (36)
        • 1.8.1.2 Mô hình Bag-of-words (37)
      • 1.8.2 Phương pháp tf-idf features (37)
      • 1.8.2 Phương pháp word2vec (38)
    • 1.9 Trích xuất thông tin (40)
  • Chương 2. XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG TƯ VẤN TUYỂN SINH (43)
    • 2.1 Giới thiệu về bài toán tư vấn tuyển sinh (0)
      • 2.1.1 Tuyển sinh (43)
      • 2.1.2 Tư vấn tuyển sinh (43)
      • 2.1.3 Sự cần thiết của tư vấn tuyển sinh (45)
      • 2.1.4 Thực trạng tư vấn tuyển sinh hiện nay (45)
        • 2.1.4.1 Thực trạng (45)
        • 2.1.4.2 Nguyên nhân (48)
        • 2.1.4.3 Hướng khắc phục (48)
      • 2.1.5 Bài toán tư vấn tuyển sinh (49)
    • 2.2 Xây dựng mô hình học máy cho hệ thống hỏi đáp tự động (50)
      • 2.2.1 Chuẩn bị dữ liệu (50)
      • 2.2.2 Xây dựng mô hình phân lớp câu hỏi (55)
      • 2.2.4 Lựa chọn câu trả lời (55)
  • Chương 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ (57)
    • 3.1 Chương trình thực nghiệm (57)
      • 3.1.1 Dữ liệu thử nghiệm (57)
      • 3.1.2 Xây dựng mô hình phân lớp câu hỏi (59)
      • 3.1.3 Độ chính xác (65)
    • 3.2 Kết quả (65)
    • 3.3 Nhận xét (66)
  • KẾT LUẬN (42)
  • TÀI LIỆU THAM KHẢO (70)

Nội dung

Mục tiêu và nhiệm vụ nghiên cứu

Mục tiêu của đề tài là ứng dụng học máy để xây dựng hệ thống trả lời tự động, nhằm nâng cao hiệu quả tư vấn tuyển sinh tại Trường Cao đẳng Bình Định Để đạt được mục tiêu này, cần thực hiện các nội dung cần thiết.

Nghiên cứu tổng quát về hệ thống hỏi-đáp tự động tập trung vào các phương pháp áp dụng cho ngôn ngữ tiếng Việt, dựa trên những thành quả xử lý ngôn ngữ hiện có Mục tiêu là đề xuất giải pháp xây dựng hệ thống tư vấn tự động bằng tiếng Việt trong tuyển sinh đào tạo Những nghiên cứu này sẽ cung cấp cơ sở lý thuyết và thực nghiệm cho việc phát triển các hệ thống trả lời tự động tiếng Việt hiệu quả trong tương lai.

3 Đối tƣợng và phạm vi nghiên cứu

+ Xử lý ngôn ngữ tự nhiên

+ Hệ thống trả lời tự động

Hệ thống trả lời tự động văn bản của Trường Cao đẳng Bình Định cung cấp thông tin chi tiết về tuyển sinh, giúp người dùng dễ dàng tiếp cận các vấn đề liên quan đến quy trình và yêu cầu tuyển sinh.

Nghiên cứu tài liệu, ngôn ngữ lập trình và công nghệ liên quan Tổng hợp các tài liệu, phân tích và xây dựng mô hình hệ thống

Phân tích yêu cầu thực tế của bài toán và đề xuất giải pháp xây dựng hệ thống trả lời tự động hỗ trợ tư vấn tuyển sinh

Xây dựng một hệ thống thông tin và dữ liệu dựa trên các số liệu và thống kê tuyển sinh của Nhà trường là rất quan trọng Việc này không chỉ giúp quản lý thông tin hiệu quả mà còn hỗ trợ trong việc đánh giá kết quả thực nghiệm một cách chính xác.

 Công cụ và kỹ thuật sử dụng

+ Ngôn ngữ lập trình: Python

+ Định dạng dữ liệu: JSON

+ Thư viện xử lý ngôn ngữ tự nhiên: NLTK, PYVI

+ Xây dựng mô hình học máy: TFlearn của Tensorflow

Chương 1 TỔNG QUAN VỀ HỆ THỐNG TRẢ LỜI

Chương này cung cấp cái nhìn tổng quan về hệ thống trả lời tự động, đồng thời giới thiệu các kỹ thuật học máy và xử lý ngôn ngữ tự nhiên phổ biến được áp dụng trong các hệ thống này.

1.1 Hệ thống trả lời tự động

1.1.1 Hệ thống trả lời tự động là gì?

Hệ thống trả lời tự động là công nghệ tìm kiếm câu trả lời từ nguồn tài liệu lớn một cách chính xác, bắt đầu phát triển từ những năm 1960 với các hệ thống hỏi đáp đầu tiên Những hệ thống này thường sử dụng cơ sở dữ liệu do các chuyên gia tạo ra Trong giai đoạn 1970-1980, nhiều dự án lớn đã tập trung vào việc "hiểu văn bản" và phát triển hệ thống hỏi đáp dựa trên mô hình ngôn ngữ thống kê Hội nghị TREC, diễn ra hàng năm từ cuối những năm 1990, đã thu hút nhiều nhóm nghiên cứu và đóng góp đáng kể vào sự phát triển của các hệ thống hỏi đáp.

Vào năm 1990, World Wide Web ra đời và nhanh chóng phát triển thành một kho dữ liệu khổng lồ Các nhà nghiên cứu hệ thống hỏi đáp đã bắt đầu khai thác web như một nguồn tìm kiếm câu trả lời Hiện nay, các kỹ thuật mới yêu cầu tốc độ cao và khả năng xử lý lượng dữ liệu web lớn đang được chú trọng.

Hình 1.1 : Lĩnh vực trả lời tự động

1.1.2 Lịch sử phát triển các hệ thống trả lời tự động

Trả lời câu hỏi tự động đã được nghiên cứu và phát triển từ những ngày đầu của ứng dụng AI Sự gia tăng sức mạnh máy tính đã dẫn đến sự chuyển đổi từ việc sử dụng cơ sở kiến thức mã hóa thủ công trong các lĩnh vực đơn giản sang việc áp dụng các tập hợp văn bản làm nguồn tri thức chính cho các lĩnh vực phức tạp hơn.

Thuật ngữ "Chatbot" đã trở nên phổ biến trong những năm gần đây, với dự đoán rằng 80% doanh nghiệp toàn cầu sẽ áp dụng công nghệ này vào năm 2020 Tuy nhiên, ít ai biết rằng Chatbot có một lịch sử phát triển lâu dài, bắt đầu từ những thập niên 50 của thế kỷ trước.

Hình 1.2: Lịch sử hình thành và phát triển của Chatbot (Nguồn: congdongchatbot.com)

Trong bối cảnh cách mạng công nghiệp 4.0 diễn ra mạnh mẽ, trí thông minh nhân tạo (AI) đang được ứng dụng rộng rãi qua các hình thức như hình ảnh, âm thanh và giọng nói Các bots ngày càng có khả năng thực hiện nhiều nhiệm vụ giống như con người, từ bán hàng và thanh toán hóa đơn đến chẩn đoán bệnh tật và quản lý tài chính, thậm chí có thể hiểu được cảm xúc của con người.

1.1.3 Một số hệ thống trả lời tự động tiêu biểu

Các chatbot giải trí trực tuyến tốt nhất dựa trên AI như Mitsuku, Rose và Insomno Bot có khả năng tương tác hiệu quả với người dùng Những bot này không chỉ hiểu tâm trạng của người dùng mà còn sử dụng ngôn ngữ đa dạng để tạo ra trải nghiệm thú vị và hấp dẫn.

Poncho, Siri và Cortana là những ChatBot được phát triển nhằm cung cấp thông tin thời tiết chuyên sâu Ngoài việc dự báo thời tiết, chúng còn gửi cảnh báo về điều kiện thời tiết xấu, nhưng chỉ khi có sự chấp thuận từ người dùng.

Yeshi là một ChatBot được thiết kế để nâng cao nhận thức về cuộc khủng hoảng nước ở Ethiopia, mang đến cho người dùng trải nghiệm sâu sắc về cuộc sống khắc nghiệt tại đây.

Nhà hàng và các ngành bán lẻ hiện nay đang chú trọng đến việc sở hữu các kênh bán lẻ online, bên cạnh chuỗi cửa hàng truyền thống Việc sử dụng các hình thức tiếp thị online như Email, SMS và xây dựng chat bot trên Fanpage Facebook sẽ giúp thúc đẩy doanh thu, nâng cao thương hiệu và tiết kiệm chi phí hiệu quả.

Mua sắm online đang trở thành xu hướng phổ biến do cuộc sống bận rộn khiến người dùng không có nhiều thời gian Việc giao dịch và đặt chỗ qua chatbot, như BizFly Chat của VCCorp, ngày càng được ưa chuộng Trước đây, thông tin về thực đơn và giá cả của các nhà hàng thường được tìm kiếm qua website, nhưng giờ đây, sự phát triển của thiết bị di động và nền tảng nhắn tin trên mạng xã hội đã thay đổi hành vi tiêu dùng của người dùng.

TỔNG QUAN VỀ HỆ THỐNG TRẢ LỜI TỰ ĐỘNG

XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG TƯ VẤN TUYỂN SINH

THỰC NGHIỆM VÀ ĐÁNH GIÁ

Ngày đăng: 10/08/2021, 15:57

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Phan Thị Tươi (2012), Xử lý ngôn ngữ tự nhiên. NXB Đại học quốc gia Tp. HCM Sách, tạp chí
Tiêu đề: Xử lý ngôn ngữ tự nhiên
Tác giả: Phan Thị Tươi
Nhà XB: NXB Đại học quốc gia Tp. HCM
Năm: 2012
[3]. Steven Bird, Ewan Klein and Edward Loper (2009), Natural Language Processing with Python, O'Reilly Sách, tạp chí
Tiêu đề: Natural Language Processing with Python
Tác giả: Steven Bird, Ewan Klein and Edward Loper
Năm: 2009
[4]. Yoav Goldberg , Graeme Hirst (2017), Neural Network Methods in Natural Language Processing, Morgan & Claypool Publishers Sách, tạp chí
Tiêu đề: Neural Network Methods in Natural Language Processing
Tác giả: Yoav Goldberg , Graeme Hirst
Năm: 2017
[5]. Sebastian Raschka, Vahid Mirjalili (2017), Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow, 2nd Edition, Packt Publishing Sách, tạp chí
Tiêu đề: Python Machine Learning: "Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow
Tác giả: Sebastian Raschka, Vahid Mirjalili
Năm: 2017
[6]. Sumit Raj (2018), Building Chatbots with Python: Using Natural Language Processing and Machine Learning, Apress Sách, tạp chí
Tiêu đề: Building Chatbots with Python: Using Natural Language Processing and Machine Learning
Tác giả: Sumit Raj
Năm: 2018
[7]. Sanjay K Dwivedi and Vaishali Singh, "Research and reviews in question answering system," in International Conference on Computational Intelligence: Modeling Techniques and Applications (CIMTA), 2013, pp. 417-424. doi: 10.1016/j.protcy.2013.12.378 Sách, tạp chí
Tiêu đề: Research and reviews in question answering system
[8]. Abraham Ittycheriah, Martin Franz, Wei-Jing Zhu, Adwait Ratnaparkhi, and Richard J Mammone, "IBM's Statistical Question Answering System," in Proceedings of the Text Retrieval Conference TREC-9, 2000 Sách, tạp chí
Tiêu đề: IBM's Statistical Question Answering System
[9]. Natural Language Annotation for Machine Learning – James Pustejovsky and Amber Stubbs, O’Reilly Publishers 2012 Sách, tạp chí
Tiêu đề: Natural Language Annotation for Machine Learning
[10]. WebAnno: A Flexible, Web-based and Visually Supported System for Distributed Annotations – Seid Muhie Yimam, Iryna Gurevych, Richard Eckart de Castilho, and Chris Biemann. 2013. In Proceedings Sách, tạp chí
Tiêu đề: WebAnno: A Flexible, Web-based and Visually Supported System for Distributed Annotations –
[11]. Zhiheng Huang, Marcus Thint and Zengchang Qin. Question Classification using Head Words and their Hypernyms. Proceedings of the 2008 Conference on Empirical Methods in atural Languae Processing. Pages 927-936, Honolulu, October 2008 Sách, tạp chí
Tiêu đề: Question Classification using Head Words and their Hypernyms
[12]. Michele Banko, Eric Brill, Susan Dumais, Jimmy Lin. AskMSR: Question Answering Using the Worldwide Web. Microsoft Research. In Preceedings of 2002 AAAI Spring Symposium on Mining Answers from Texts and Knowledge bases, Palo Alto, California, March 2002 Sách, tạp chí
Tiêu đề: Question Answering Using the Worldwide Web. Microsoft Research
[13]. Matthew W. Bilotti, Boris Katz, and Jimmy Lin. What Works Better for Question Answering: Stemming or Morphological Query Expansion?ACM SIGIR'04 Workshop Information Retrieval for QA, (Jul. 2004) Sách, tạp chí
Tiêu đề: What Works Better for Question Answering: Stemming or Morphological Query Expansion
[14]. Joachims, T. (1998). Text categorization with support vector machines: Learning with many relevant features (pp. 137-142). Springer Berlin Heidelberg Sách, tạp chí
Tiêu đề: Text categorization with support vector machines: "Learning with many relevant features
Tác giả: Joachims, T
Năm: 1998
[15]. Ikonomakis, M., Kotsiantis, S., & Tampakas, V. (2005). Text classification using machine learning techniques. WSEAS Transactions on Computers, 4(8), 966-974 Sách, tạp chí
Tiêu đề: Text "classification using machine learning techniques. WSEAS Transactions on Computers
Tác giả: Ikonomakis, M., Kotsiantis, S., & Tampakas, V
Năm: 2005
[16]. Diekema A.R, Yilmazel Ozgur, and Liddy E.D. “ Evaluation of Restricted Domain Question-Answering Systems” (2004).InProceedings of the ACL2004 Workshop on Question Answering in Restricted Domain ,p.p 2-7 Sách, tạp chí
Tiêu đề: Evaluation of Restricted Domain Question-Answering Systems"” (2004)."In "Proceedings of the ACL2004 Workshop on Question Answering in Restricted Domain
Tác giả: Diekema A.R, Yilmazel Ozgur, and Liddy E.D. “ Evaluation of Restricted Domain Question-Answering Systems”
Năm: 2004
[17]. Ellen Riloff and MichaelThelen.“A Rule Based Question Answering System for Reading Comprehension Tests”,(2003){rioloff,thelen} Sách, tạp chí
Tiêu đề: A Rule Based Question Answering System for Reading Comprehension Tests
Tác giả: Ellen Riloff and MichaelThelen.“A Rule Based Question Answering System for Reading Comprehension Tests”
Năm: 2003

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN