Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên

Giới thiệu

Quy trình quản lý đào tạo tại trường CĐ.ANND I

Quy trình nghiệp vụ quản lý đào tạo cho hệ Cao đẳng tại trường CĐ.ANND

I được tổ chức thực hiện theo Quyết định số 17/VBHN-BGDĐT, ngày 15 tháng

Vào năm 2014, Bộ trưởng Bộ Giáo dục và Đào tạo đã ban hành Quy chế đào tạo đại học và cao đẳng hệ chính quy theo hệ thống tín chỉ Đồng thời, Hướng dẫn số 11792/HD-X11-X14 của Tổng cục Chính trị Công an nhân dân cũng đã hướng dẫn thực hiện quy chế đào tạo này Ngoài ra, Quyết định số 499/QĐ-T33(P5) ngày 27 tháng 5 năm 2016 của Hiệu trưởng Trường Cao đẳng An ninh nhân dân I đã quy định về đào tạo cao đẳng hệ chính quy theo hệ thống tín chỉ Lưu đồ được xây dựng nhằm quy định trách nhiệm, phương pháp tổ chức thực hiện và quản lý việc giảng dạy của Phòng Quản lý Đào tạo, các Khoa, Bộ môn và các Phòng chức năng liên quan.

Bước Công đoạn Hồ sơ

1 Quyết định và danh sách thí sinh trúng tuyển các khóa

Quyết định thành lập khoá học

5 Lịch giảng dạy chi tiết

Thành lập khoá học Kết quả tuyển sinh

K hông Lập Thời khoá biểu chi tiết Lập khung thời gian khoá học

Thực hiện công tác giảng dạy

Quản lý tổ chức giảng dạy

Quản lý nội dung giảng dạy

Quản lý tiến độ khoá học

8 Đề thi Bài thi Kết quả thi

Bảng điểm Mạng nội bộ

10 Quy chế xét và cấp bằng tốt nghiệp

Báo cáo tổng hợp tình hình giảng dạy

Hàng năm, dựa trên chỉ tiêu tuyển sinh được Bộ Công an phê duyệt, nhà trường tiến hành tuyển sinh, tổ chức họp xét điểm chuẩn, và lập quyết định cùng danh sách thí sinh trúng tuyển.

Dựa trên danh sách thí sinh trúng tuyển, phòng Quản lý Đào tạo sẽ thực hiện việc phân lớp và phân công cán bộ quản lý đào tạo theo Quyết định thành lập từng khóa học.

Hàng năm, phòng Quản lý Đào tạo sẽ lập kế hoạch giảng dạy dự kiến cho toàn bộ năm học, dựa trên chương trình đào tạo và tiến độ của các khóa học.

Bước 4 trong quy trình lập kế hoạch giảng dạy là việc cán bộ phòng QLĐT sẽ sắp xếp lịch giảng cụ thể cho từng môn học Sau khi hoàn thành, lịch này sẽ được chuyển đến các khoa đào tạo để phân công giảng viên và đề nghị điều chỉnh lịch nếu cần thiết.

Dựa trên kế hoạch lịch giảng của năm học, cán bộ quản lý sẽ lập lịch giảng chi tiết cho từng khóa học, bao gồm cả lịch giảng cho toàn bộ năm học, kèm theo phiếu báo lịch giảng cho từng môn học.

- Bước 6: Giảng viên thực hiện theo các lịch giảng chi tiết;

- Bước 7: Quản lí quá trình giảng dạy

Phân cấp trách nhiệm quản lí quá trình giảng dạy

✓ Phân công giảng viên phụ trách các học phần và báo về phòng QLĐT;

Quản lý đánh giá kết quả giảng dạy

Cập nhật & lưu giữ hồ sơ Quản lý kết quả học tập

Kiểm tra giáo trình và giáo án của giảng viên là một phần quan trọng trong việc đảm bảo chất lượng giảng dạy Tổ chức kiểm tra việc thực hiện lịch trình giảng dạy giúp đánh giá hiệu quả giảng dạy và công tác phục vụ giảng dạy.

✓ Nắm khối lượng và tình hình giảng dạy của giảng viên, học tập của sinh viên thông qua Giáo vụ khoa, bộ môn

✓ Chịu trách nhiệm về chất lượng giảng dạy của Khoa, Bộ môn;

✓ Tổ chức sinh hoạt bộ môn theo đúng quy chế của Trường;

+ Giáo vụ khoa, bộ môn

✓ Cập nhật thời khoá biểu, lịch trình, lịch thi;

✓ Theo dõi việc thực hiện công tác giảng dạy và học tập của giảng viên và sinh viên trong Khoa;

✓ Trực kiểm tra việc thực hiện giờ lên lớp theo kế hoạch giảng dạy của năm học;

Kiểm tra tiến độ giảng dạy theo lịch trình và quản lý sổ theo dõi giảng dạy là rất quan trọng Dựa vào việc thực hiện giờ lên lớp, cần thống kê số giờ còn thiếu và yêu cầu dạy bù để đảm bảo đủ số tiết học.

Mỗi tháng, cần tổng hợp các trường hợp vi phạm như vắng tiết, quên giờ, bỏ giờ và các trường hợp phát sinh khác Sau đó, lập báo cáo và gửi về phòng Quản lý học viên để theo dõi và xử lý kịp thời.

+ Chuyên viên Phòng thanh tra: Có trách nhiệm kiểm tra:

✓ Việc thực hiện giờ lên lớp theo quy định chung;

✓ Tiến độ giảng dạy theo lịch trình giảng dạy;

✓ Việc ghi chép, sử dụng theo biểu mẫu, sổ sách và quản lý giờ giảng + Ban Giám hiệu

Hiệu trưởng, với vai trò là Chủ tịch Hội đồng khen thưởng và kỷ luật Trường, có thẩm quyền quyết định hình thức kỷ luật đối với giảng viên vi phạm Trong những trường hợp nghiêm trọng, Hiệu trưởng sẽ triệu tập cuộc họp để xem xét và quyết định khen thưởng hoặc kỷ luật các đơn vị và cá nhân liên quan.

Quản lí nội dung giảng dạy

Căn cứ vào phân công trách nhiệm, quản lý nội dung giảng dạy gồm: + Quản lý khung chương trình

+ Quản lý đề cương chi tiết của các học phần

+ Quản lý giáo trình, giáo án

+ Đảm bảo số giáo trình, tài liệu tham khảo của các môn học

Sau khi nhận được sự thống nhất từ Hội đồng khoa học Khoa hoặc Hội đồng khoa học Trường, việc bổ sung và cập nhật các thay đổi về chương trình giảng dạy sẽ được thực hiện.

Quản lý tiến độ giảng dạy

Căn cứ vào phân công trách nhiệm, nội dung quản lý tiến độ gồm:

+ Tại các lớp học lý thuyết, việc thực hiện giờ giảng cho từng môn học được ghi chép vào Sổ theo dõi giảng dạy và học tập

+ Quản lý danh sách giảng viên báo nghỉ dạy và kiểm tra việc thực hiện dạy bù

+ Phòng QLĐT căn cứ vào theo dõi thực hiện thời khoá biểu sẽ thống kê số giờ còn thiếu và yêu cầu giảng viên dạy bù đủ số tiết

Phòng Khảo thí đảm bảo chất lượng thực hiện tổ chức thi hết học phần cho các khóa học, bao gồm việc chuyển đề thi, nhận bài thi theo quy trình phối hợp, tổ chức chấm thi và chuyển điểm về phòng Quản lý Đào tạo đúng thời gian quy định.

Khi nhận bảng điểm từ phòng Khảo thí đảm bảo chất lượng, phòng Quản lý Đào tạo sẽ photo 2 bản: 1 bản gửi đến các khoa, bộ môn và 1 bản công bố cho sinh viên Tổ điểm gốc sẽ nhập điểm vào hệ thống mạng nội bộ.

Phòng QLĐT sẽ căn cứ vào tiến độ đào tạo và quy chế của từng khóa học để tiến hành xét chuyển giai đoạn, điều kiện dự thi tốt nghiệp và xét tốt nghiệp cho học viên Kết quả xét này sẽ được công bố sau khi được Hội đồng thông qua, từ đó phòng QLĐT sẽ thực hiện các bước tiếp theo của khóa học.

- Bước 11: Cập nhật và lưu trữ hồ sơ

1.2 Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường

Trường Cao đẳng An ninh nhân dân I, trực thuộc Bộ Công an, có sứ mệnh đào tạo và huấn luyện chiến sĩ có trình độ cao, đảm bảo phẩm chất chính trị vững vàng, nhằm đáp ứng nhu cầu nhân lực cho lực lượng vũ trang Công an nhân dân Việt Nam.

Về ngành, nghề đào tạo: Trong hơn 50 năm xây dựng và phát triền, nhà

Một số nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục

Khai phá dữ liệu cho giáo dục đang thu hút sự quan tâm lớn từ các nhà nghiên cứu toàn cầu, thể hiện qua sự phát triển của các kỹ thuật phân tích dữ liệu trong môi trường giáo dục Hội thảo Education Data Mining được tổ chức thường niên, bắt đầu từ năm 2008 với hội nghị đầu tiên tại Montreal, Quebec, Canada Tại hội nghị International Conference on Educational Data Mining, nhiều công trình và bài báo về lĩnh vực này đã được công bố, góp phần quan trọng vào nghiên cứu và ứng dụng khai phá dữ liệu trong giáo dục.

Trong "Conceptual Framework of Data Mining Process in Management

In their 2008 study "Education in India: An Institutional Perspective," Ranjan J and Khalil S employed decision trees and Bayesian networks to enhance the admission process, analyze the quality of education, and evaluate student learning outcomes in India Additionally, the 2009 research titled "Data mining for adaptive learning sequence in English language instruction" by Y H Wang, Tseng, and Liao focused on leveraging data mining techniques to improve the instructional sequence in English language teaching.

Wang Y., Tseng M và Liao H đã áp dụng cây quyết định để đề xuất trình tự học tối ưu, nhằm hỗ trợ quá trình học tập và tối đa hóa kết quả của học sinh Trong bài báo "Recommender system for predicting student performance", các tác giả Thai-Nghe N., Drumond L., Krohn-Grimberghe A và Schmidt-Thieme L đã giới thiệu một phương pháp sử dụng kỹ thuật khai thác dữ liệu, đặc biệt là các kỹ thuật dự đoán kết quả học tập của học sinh.

The study by Psaromiligkos, Orfanidou, Kytagias, and Zafiri (2011) focuses on analyzing learner behavior in web-based learning management systems through mining log data The authors employed specific rules to extract meaningful insights from the data, enhancing the understanding of how learners interact with online educational platforms This research highlights the importance of data analysis in improving online learning experiences.

9 kết hợp để cải thiện quy trình phản hồi liên tục trong suốt quá trình giáo dục

"Application of data mining in academic educational databases for predicting trends and patterns" (Parack, Zahid, & Merchant, 2012) Parack S Merchant và

Zahid F Z đã sử dụng các quy tắc kết hợp và phân cụm để xác định hồ sơ của sinh viên "Improving the Student's Performance Using Educational Data

Mining" (Priya, 2013) đã sử dụng cây quyết định để cải thiện hiệu suất của học sinh trong các khóa học "Data Mining: A prediction for Student's Performance

Using Classification Method" (Badr, Din, & Elaraby, 2014) do Ahmed A và

Elaraby I phát triển, trong đó cây quyết định được sử dụng để dự đoán điểm của học sinh cuối cấp "Educational Data Mining: Performance Evaluation of

Bài báo "Cây Quyết Định và Kỹ Thuật Phân Cụm Sử Dụng Nền Tảng WEKA" (Saxena, 2015) do Saxena R phát triển, tập trung vào việc so sánh hiệu suất của cây quyết định và các kỹ thuật phân cụm dựa trên dữ liệu từ lĩnh vực giáo dục, sử dụng công cụ WEKA.

Nhiều nghiên cứu điển hình đã áp dụng các kỹ thuật khai thác dữ liệu trong giáo dục, nhằm tìm kiếm câu trả lời cho các tình huống cụ thể trong lĩnh vực Khai thác Dữ liệu Giáo dục Mục tiêu của việc khai thác tri thức không chỉ phục vụ cho người khai thác mà còn mang lại lợi ích cho cả người sở hữu dữ liệu Do đó, ứng dụng khai thác dữ liệu trong giáo dục có thể hướng tới nhiều đối tượng khác nhau từ các góc nhìn đa dạng.

Hướng tới học viên: tư vấn, đề xuất kinh nghiệm học tập: chọn ngành học, chọn môn học, chọn lộ trình học…

Hướng tới giáo viên, bài viết cung cấp tư vấn và đề xuất các phương pháp dạy học phù hợp bằng cách phân lớp học viên theo mức độ Nó chỉ ra những điểm mâu thuẫn và bất thường trong lộ trình học, đồng thời liệt kê các hoạt động hiệu quả giúp giáo viên cải thiện và xây dựng lại nội dung bài giảng một cách hợp lý, từ đó đạt được kết quả tốt hơn.

Nhà quản lý cần thực hiện phân tích và đánh giá chính xác kết quả học tập của học viên để đưa ra định hướng và hoạch định hiệu quả Việc này bao gồm đầu tư bồi dưỡng giáo viên hàng năm, phát hiện học viên giỏi để nâng cao năng lực, cũng như nhận diện học viên yếu cần được hỗ trợ thêm Đồng thời, cần có kế hoạch tăng giờ học và số tiết học cho những học viên cần cải thiện.

Hướng tiếp cận của luận văn

Bài viết tập trung vào nghiên cứu lý thuyết khai phá dữ liệu thông qua việc sử dụng công cụ SSDT-BI do Microsoft phát triển Công cụ này hỗ trợ trong việc phân tích và xử lý dữ liệu hiệu quả.

Mười thuật toán khai phá dữ liệu được áp dụng để phân tích kết quả học tập của sinh viên tại trường Cao đẳng ANND Để dự đoán và dự báo kết quả học tập, luận văn sử dụng các thuật toán khai thác dữ liệu có sẵn trong SQL Server.

Tác giả sẽ chọn ra mô hình dự đoán tốt nhất từ các mô hình đã được phân tích và xây dựng chương trình thực nghiệm nhằm hỗ trợ học tập cho học viên.

Kết luận chương 1

Chương này trình bày bài toán thực tiễn tại Trường Cao đẳng ANND I, nêu rõ các vấn đề cần giải quyết, đồng thời đề xuất một số hướng nghiên cứu về kiến thức pháp luật trong giáo dục hiện nay và phương pháp tiếp cận của luận văn.

Cơ sở lý thuyết

Khai phá dữ liệu

Khai phá dữ liệu là tập hợp các kỹ thuật tự động nhằm khám phá và xác định mối quan hệ giữa các dữ liệu trong một bộ dữ liệu lớn và phức tạp, đồng thời phát hiện các mẫu tiềm ẩn trong tập dữ liệu đó.

Hình 1.1 cho thấy khai phá dữ liệu là một bước trong quá trình KDD (Knowledge Discovery in Database) và KDD được tiến hành qua 6 giai đoạn [3]

Hình 1.1: Quá trình của khai thác tri thức

1 Gom dữ liệu: là bước đầu tiên trong quá trình KPDL bằng việc thu thập dữ liệu từ CSDL, kho dữ liệu hay là từ các Website

2 Trích lọc dữ liệu: Dữ liệu được tuyển chọn hoặc phân chia theo một tiêu chí nhất định dùng cho việc khai tác Ví dụ: chọn ra cá học viên có điểm trung bình học kỳ lớn hơn 7.0 và là người dân tộc thiểu số

3 Làm sạch, tiền xử lý dữ liệu: Là việc xử lý loại bỏ những dữ liệu dư thừa, thiếu logic dẫn tới kết quả bị sai lệch Ví dụ: Điểm Trung bình = 11.5

4 Chuyển đổi dữ liệu: Là đưa dữ liệu về dạng phù hợp, thuận tiện cho khai phá bằng cách nhóm hoặc tập hợp Ví dụ: Điểm TB học kỳ của học viên là biến số, biến định lượng, nếu muốn đánh giá học lực của các học viên chúng ta phải tạo cột dữ liệu mới với biến định danh có giá trị “Giỏi”, “Khá”, “Trung bình”, “ Kém”, “Yếu” được đặt ra bằng cách phân theo điều kiện của mức điểm trung bình

5 Khai phá dữ liệu: Đây là bước thể hiện tư duy trong KPDL Trong giai đoạn này sử dụng các thuật toán, phương pháp, các mô hình phân tích khác nhau như: Decision Tree, Classification, Association, Regression, …mục đích phát hiện, trích xuất các thông tin hữu ích, giá trị tiềm năng từ những mẫu dữ liệu, quy luật và xu hướng dữ liệu

6 Đánh giá luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ liệu hay thông tin thu được từ quá trình khai khác sẽ được đánh giá, xác định mức độ chính xác bằng việc xây dựng các giả thuyết và tiến hành kiểm định, dựa trên mức độ tin cậy và kết quả kiểm định để xem xét Sau đó thể hiện kết quả bằng các công cụ trực quan hóa, sử dụng đồ thị, bảng, biểu đồ để dễ dàng diễn giải kết quả đến người xem

2.1.2 Những hướng tiếp cận trong KPDL

Về cơ bản KPDL được chia theo một số hướng chính sau:

Mục đích của bài viết là nêu rõ các đặc trưng và tính chất liên quan đến khái niệm Một số dạng điển hình bao gồm tổng quát hóa, tóm tắt, phát hiện các đặc trưng ràng buộc và so sánh tương phản.

Bài toán khai phá luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, giáo dục, viễn thông, tài chính, thị trường chứng khoán…

Phân tích luật kết hợp sẽ khám phá được các luật kết hợp giữa các thuộc tính hay xuất hiện cùng nhau ở trong tập dữ liệu

Ví dụ: “70% nam giới mua bia thì có tới 80% trong số đó sẽ mua thêm lạc” 2.1.2.3 Phân lớp và dự đoán

Phân lớp là một phương pháp phổ biến trong KPDL, trong đó các đối tượng được sắp xếp vào các lớp đã biết, chẳng hạn như phân loại vùng địa lý dựa trên dữ liệu thời tiết hoặc phân loại bệnh nhân theo hồ sơ bệnh án Phương pháp này thường áp dụng các kỹ thuật học máy như cây quyết định và mạng nơ ron nhân tạo, và được gọi là học có giám sát (Supervised learning).

Phân cụm dữ liệu là quá trình nhóm các đối tượng dữ liệu thành các cụm, trong đó các đối tượng trong cùng một cụm có sự tương đồng theo một tiêu chí nhất định Trong bài toán phân cụm, số lượng và tên của các cụm chưa được xác định trước.

Trong phân cụm, các đối tượng được nhóm lại với nhau dựa trên mức độ tương quan cao nhất trong cùng một cụm, trong khi mức độ tương quan giữa các đối tượng ở các cụm khác nhau là thấp nhất Phân cụm thường được coi là một dạng học không giám sát (Unsupervised learning).

2.1.2.5 Phân tích chuỗi theo thời gian:

Giống như KPDL với luật kết hợp, luật mô tả tuần tự không chỉ kết hợp tính thứ tự mà còn tính thời gian Cấu trúc của luật này là X → Y, cho thấy sự xuất hiện của biến X sẽ dẫn đến biến cố Y Phương pháp này thường được áp dụng trong các lĩnh vực dự báo, đặc biệt là tài chính và thị trường chứng khoán.

2.1.3 Các bước xây dựng một giải pháp về KPDL

Có thể liệt kê ra các bước của một hệ thống KPDL như sau:

- Bước 1: Xác định mục tiêu

- Bước 2: Tổng hợp dữ liệu

- Bước 3: Làm sạch, chuyển đổi dữ liệu

- Bước 4: Tạo mô hình khai phá

- Bước 5: Đánh giá mô hình

- Bước 8: Tích hợp với ứng dụng

- Bước 9: Quản lý mô hình

2.1.4 Các lĩnh vực ứng dụng của KPDL

Khai phá dữ liệu là lĩnh vực thu hút sự chú ý của nhiều nhà nghiên cứu nhờ vào các ứng dụng thực tiễn trong cuộc sống Dưới đây là một số ngành và lĩnh vực mà khai phá dữ liệu mang lại lợi ích đáng kể.

Trong lĩnh vực tài chính và ngân hàng, công nghệ giúp xác định hiệu quả phân khúc khách hàng, dự đoán khả năng vay và trả nợ của từng cá nhân Đồng thời, nó còn tự động phát hiện và ngăn chặn các giao dịch gian lận cũng như tội phạm tài chính.

Trong lĩnh vực y tế và chăm sóc sức khỏe, việc thu thập và phân tích dữ liệu về nhân khẩu học và hồ sơ bệnh nhân đóng vai trò quan trọng trong việc hỗ trợ kiểm soát các loại dịch bệnh.

Tại các bệnh viện, việc phát hiện mối liên hệ giữa bệnh, triệu chứng và phương pháp chữa trị là rất quan trọng Điều này giúp dự đoán khả năng bệnh nhân mắc các bệnh lý dựa trên các yếu tố rủi ro.

Một số kỹ thuật KPDL trong phân lớp, dự đoán

Cây quyết định (Decision Tree) là một thuật toán cổ điển, được cấu trúc như một cây, với mỗi nút bên trong thể hiện một 'thử nghiệm' trên một thuộc tính.

Cây quyết định (Decision Trees) bao gồm các thành phần chính như nút (node), nhánh (branches) và lá (leafs) Mỗi nút thể hiện một thuộc tính hoặc tính năng, trong khi mỗi nhánh biểu thị một quy tắc hoặc quyết định, và mỗi lá đại diện cho một kết quả cuối cùng Độ sâu của cây được xác định bởi số cấp, không tính nút gốc.

Hình 2.1: Cấu trúc của cây quyết định

Trong Hình 2.1 chúng ta có thể thấy:

Điểm gốc là nơi chứa giá trị của biến đầu tiên được sử dụng để phân nhánh Các nút nội bộ nằm trong thân cây, chứa các biến với thuộc tính và giá trị dữ liệu, được sử dụng để xem xét các phân nhánh tiếp theo.

Leaf node: là các lá cây chứa giá trị của biến phân loại sau cùng

Branch là quy luật phân nhánh, thể hiện mối quan hệ giữa giá trị của biến độc lập (Internal node) và giá trị của biến mục tiêu (Leaf node).

Trong khai phá dữ liệu và Machine Learning, cây quyết định (Decision Tree) được sử dụng để dự báo khả năng xảy ra dựa trên thông tin đầu vào Ví dụ, trong lĩnh vực ngân hàng, cây quyết định có thể dự đoán khả năng khách hàng có thể trả nợ (no default) hoặc không trả nợ (default) dựa trên các yếu tố như khoản tiết kiệm, thu nhập và tài sản.

Hình 2.2: Cây quyết định dự báo khả năng khách hàng

Nếu khách hàng có khoản tiết kiệm trung bình (savings = medium), họ sẽ không gặp phải nợ xấu Đối với khách hàng có khoản tiết kiệm cao (savings = high), cần xem xét thêm thu nhập; nếu thu nhập lớn hơn 10.000k, khả năng thanh toán nợ sẽ cao Ngược lại, nếu thu nhập thấp hơn mức này, khách hàng có thể gặp khó khăn trong việc trả nợ.

Cây quyết định (Decision tree) là một phương pháp phổ biến trong khai phá dữ liệu, được sử dụng để phân loại các đối tượng dữ liệu chưa được phân loại vào các nhóm phù hợp Đây là một kỹ thuật học có giám sát, mang lại kết quả dự báo và phân loại chính xác, ổn định, đồng thời dễ dàng diễn giải.

Naive Bayes Classification (NBC) là một thuật toán phân loại dựa trên tính toán xác suất áp dụng định lý Bayes [5]

Định lý Bayes cho phép tính toán xác suất xảy ra của sự kiện A khi đã biết sự kiện B xảy ra, được ký hiệu là P(A | B) Trong đó, P(A) đại diện cho xác suất của sự kiện A.

A xảy ra và P(B) là xác suất sự kiện B xảy ra Ta có công thức tính xác suất ngẫu nhiên của sự kiện A khi biết B như sau:

Thuật toán Naive Bayes Classification được áp dụng vào trong các loại ứng dụng sau:

1 Real time Prediction: NBC chạy khá nhanh nên nó thích hợp áp dụng ứng dụng nhiều vào các ứng dụng chạy thời gian thực, như hệ thống cảnh báo, các hệ thống trading …

2 Multi class Prediction: Nhờ vào định lý Bayes mở rộng ta có thể ứng dụng vào các loại ứng dụng đa dự đoán, tức là ứng dụng có thể dự đoán nhiều giả thuyết mục tiêu

3 Text classification/ Spam Filtering/ Sentiment Analysis: NBC cũng rất thích hợp cho các hệ thống phân loại văn bản hay ngôn ngữ tự nhiên vì tính chính xác của nó lớn hơn các thuật toán khác Ngoài ra các hệ thống chống thư rác cũng rất ưu chuộng thuật toán này Và các hệ thống phân tích tâm lý thị trường cũng áp dụng NBC để tiến hành phân tích tâm lý người dùng ưu chuộng hay không ưu chuộng các loại sản phẩm nào từ việc phân tích các thói quen và hành động của khách hàng

4 Recommendation System: Naive Bayes Classifier và Collaborative Filtering được sử dụng rất nhiều để xây dựng cả hệ thống gợi ý, ví dụ như xuất hiện các quảng cáo mà người dùng đang quan tâm nhiều nhất từ việc học hỏi thói quen sử dụng internet của người dùng, hoặc như ví dụ đầu bài viết đưa ra gợi ý các bài hát tiếp theo mà có vẻ người dùng sẽ thích trong một ứng dụng nghe nhạc

Khai phá luật kết hợp là một kỹ thuật quan trọng trong KPDL, nhằm mục tiêu tìm kiếm các mẫu phổ biến và mối quan hệ giữa các tập đối tượng trong cơ sở dữ liệu (CSDL) và các kho thông tin khác.

Luật kết hợp được ứng dụng trong đời sống ở nhiều lĩnh vực khác nhau

18 như: khoa học, kinh doanh thương mại, phân tích thị trường tài chính…

{Bánh mì, bơ} → {Sữa tươi} [2%; 70%]

Luật này chỉ ra rằng khi người tiêu dùng mua bánh mì và bơ, có đến 70% khả năng họ sẽ mua thêm sữa tươi Mặc dù bánh mì, bơ và sữa tươi thường được mua chung, nhưng chúng chỉ chiếm 2% tổng số giao dịch.

Các khái niệm cơ bản:

Cơ sở dữ liệu chứa các mặt hàng I = {i1, i2, …, in} với n mục (item) Một tập hợp X ⊆ I được gọi là tập mục (itemset), và nếu X có k mục (tức |X| = k), thì X được xác định là k-itemset.

KPDL với MS SQL Server

Hình 2.7 dưới đây mô tả kiến trúc tổng quan của KPDL với Microsoft SQL Server:

Hình 2.7: Kiến trúc tổng quan KPDL với MS SQL Server

Một số công cụ hỗ trợ KPDL với SQL Server gồm:

- SQL Server Business Intelligence: hỗ trợ từ bản Microsoft Visual Studio

- Bộ công cụ SQL Server 2012 (Analysis Service): ứng dụng hỗ trợ lưu trữ dữ liệu và phân tích dữ liệu

KPDL trong SQL Server bao gồm các loại thuật toán sau:

- Các thuật toán phân loại dự đoán một hoặc nhiều biến rời rạc, dựa trên các thuộc tính khác trong tập dữ liệu

Các thuật toán hồi quy được sử dụng để dự đoán một hoặc nhiều biến số liên tục, chẳng hạn như lãi hoặc lỗ, dựa trên các thuộc tính khác trong tập dữ liệu.

- Các thuật toán phân đoạn chia dữ liệu thành các nhóm hoặc cụm, các mục có các thuộc tính tương tự

Các thuật toán kết hợp tìm kiếm mối tương quan giữa các thuộc tính trong tập dữ liệu, với ứng dụng nổi bật nhất là tạo ra các quy tắc liên kết, thường được sử dụng trong phân tích rổ thị trường.

Các thuật toán phân tích trình tự tóm tắt chuỗi hoặc tập thường xuyên trong dữ liệu, như chuỗi nhấp chuột trên trang web hoặc các sự kiện nhật ký trước khi bảo trì máy.

Việc lựa chọn thuật toán tối ưu cho bài toán là một thách thức, và không nên chỉ sử dụng một thuật toán duy nhất Các nhà phân tích có kinh nghiệm thường áp dụng một thuật toán để xác định các yếu tố đầu vào hiệu quả, sau đó sử dụng một thuật toán khác để dự đoán kết quả dựa trên dữ liệu đó KPDL với SQL Server cho phép xây dựng nhiều mô hình trên một cấu trúc khai thác duy nhất, giúp chúng ta có thể sử dụng thuật toán phân cụm, mô hình cây quyết định và mô hình Naive Bayes để có những cái nhìn khác nhau về dữ liệu Ngoài ra, việc sử dụng nhiều thuật toán trong một giải pháp cho phép thực hiện các nhiệm vụ riêng biệt, chẳng hạn như sử dụng hồi quy để dự báo tài chính và thuật toán mạng thần kinh để phân tích các yếu tố ảnh hưởng đến dự báo.

Bảng 2.1 sau gợi ý cho chúng ta lựa chọn thuật toán phù hợp cho giải pháp KPDL với Microsoft SQL Server

Bảng 2.1: Lựa chọn các thuật toán KPDL theo mục đích

Nhiệm vụ Thuật toán Microsoft sử dụng

Dự đoán thuộc tính rời rạc

- Đưa ra khách hàng trong danh sách người mua tiềm năng là khách hàng tiềm năng tốt hoặc kém

- Tính xác suất để một máy chủ bị lỗi trong vòng 6 tháng tới

- Phân loại kết quả của bệnh nhân và khám phá các yếu tố liên quan

Dự đoán thuộc tính liên tục

- Dự đoán doanh số năm tới

- Dự đoán khách truy cập trang web theo lịch sử trước đây và theo xu hướng

Dự đoán một trình tự

- Phân tích các yếu tố dẫn đến lỗi máy chủ

Nắm bắt và phân tích chuỗi hoạt động trong quá trình thăm khám bệnh nhân ngoại trú là rất quan trọng để xây dựng các phương pháp tốt nhất cho các hoạt động chung Điều này giúp cải thiện chất lượng dịch vụ y tế và nâng cao trải nghiệm của bệnh nhân.

Tìm nhóm của những mục chọn trong các giao dịch

- Đề xuất sản phẩm bổ sung cho khách hàng để mua

Phân tích dữ liệu khảo sát từ khách tham dự sự kiện giúp xác định các hoạt động hoặc gian hàng có mối liên hệ, từ đó lập kế hoạch cho các sự kiện trong tương lai hiệu quả hơn.

Tìm những mục giống nhau

- Tạo nhóm hồ sơ rủi ro bệnh nhân dựa trên các thuộc tính như nhân khẩu học và hành vi

DMX – Data Mining eXtensions là ngôn ngữ truy vấn khai phá dữ liệu được Microsoft phát triển trong OLE DB, nhằm mục đích hỗ trợ các hoạt động khai phá dữ liệu hiệu quả.

Giống như SQL, hệ thống này hỗ trợ định nghĩa, thao tác và truy vấn dữ liệu với cú pháp tương tự Người dùng quen thuộc với SQL sẽ dễ dàng làm quen với các câu lệnh trong hệ thống này.

DMX là ngôn ngữ được sử dụng để làm việc với các mô hình khai thác dữ liệu, cho phép tạo ra cấu trúc mới, huấn luyện, duyệt, quản lý và dự đoán Nó bao gồm các câu lệnh ngôn ngữ định nghĩa dữ liệu (DDL), câu lệnh thao tác dữ liệu (DML), cùng với các hàm và toán tử, hỗ trợ tối ưu hóa quy trình khai thác dữ liệu.

Với DDL cho phép chúng ta có thể:

- Tạo mô hình khai thác dữ liệu mới và cấu trúc khai thác với các toán tử như: CREATE MINING STRUCTURE, CREATE MINING MODEL

- Xóa các mô hình khai tác dữ liệu và các cấu trúc khai thác với các toán tử như: DROP MINING STRUCTURE, DROP MINING MODEL

- Kết xuất và nhập cấu trúc khai thác với các toán tử: EXPORT, IMPORT

- Sao chép dữ liệu từ mô hình khác thác này sang mô hình khai thác khác với toán tử: SELECT INTO

Với DML cho phép chúng ta có thể:

- Huấn luyện mô hình khai thác với toán tử: INSERT INTO

- Duyệt dữ liệu trong các mô hình khai thác với toán tử: SELECT FROM

- Đưa ra dự đoán bằng mô hình khai thác với toán tử: SELECT FROM PREDICTION JOIN

DMX là ngôn ngữ chuyển đổi dữ liệu từ bảng thành định dạng case và attributes, giúp tối ưu hóa cho các thuật toán khai thác dữ liệu Hai đối tượng chính trong quá trình này là cấu trúc khai thác và mô hình khai thác.

Cấu trúc khai thác dữ liệu bao gồm tất cả các mô hình dùng để phân tích dữ liệu nguồn, được định nghĩa là danh sách các cột chứa kiểu dữ liệu và thông tin mô tả Dữ liệu cần được xử lý dưới dạng phân loại (categorical) hoặc liên tục (continuous) tùy thuộc vào yêu cầu của từng thuật toán Chẳng hạn, thuật toán Microsoft Naive Bayes chỉ chấp nhận dữ liệu phân loại, trong khi Microsoft Linear Regression yêu cầu dữ liệu liên tục.

Mô hình khai thác dữ liệu (mining model) đóng vai trò quan trọng trong việc chuyển đổi các tập dữ liệu thành các trường hợp cụ thể và thực hiện học máy thông qua các thuật toán khai thác dữ liệu đã được chỉ định Mỗi mô hình khai thác dữ liệu có thể được xem như là một tập con của các cột dữ liệu.

Trong cấu trúc, 27 được sử dụng tương tự như thuộc tính, có thể là đầu ra, đầu vào hoặc cả hai Bên cạnh đó, các tham số thuật toán và thuật toán sẽ được áp dụng để thực hiện quá trình học máy trên dữ liệu cấu trúc.

Trong DMX, "Case" là một ví dụ độc đáo phục vụ cho thuật toán KPDL, bao gồm một tập hợp thuộc tính với các giá trị liên kết Mỗi "Case" thường được biểu diễn bởi một dòng trong bảng, với các cột tương ứng với các thuộc tính Chẳng hạn, khi đặt ra câu hỏi "Các yếu tố của khách hàng ảnh hưởng đến rủi ro tín dụng", "Case" ở đây chính là khách hàng, bao gồm tất cả thông tin liên quan đến khách hàng đó.

Attribute là yếu tố cơ bản nhất của một truy vấn KPDL Ví dụ như giới tính một học viên, độ tuổi, điểm số…

Khi chọn thuộc tính cho KPDL, cần chú ý chọn những thuộc tính có liên quan đến truy vấn và có thể cung cấp thông tin hữu ích cho các thuật toán KPDL Nhiều thuộc tính không phù hợp cho quá trình này.

Chúng ta đề cập đến hai loại thuộc tính sau:

Kết luận chương 2

Chương 2 trình bài khái niệm về KDPL, một số thuật toán thường được sử dụng với KDPL ở dạng phân lớn, dự báo đó là: Cây quyết định, Hồi quy tuyến tính, mạng nơ-ron, phân lớp Nạve Bayes, luật kết hợp

Chương 2 của luận văn trình bày kỹ thuật KPDL với hệ quản trị cơ sở dữ liệu SQL Server 2012, sử dụng bộ công cụ SSDT-BI của Microsoft, ngôn ngữ DMX và các kỹ thuật lập trình KPDL trên máy client thông qua thư viện ADOMD.NET trong Analysis Services APIs Hệ thống tư vấn sẽ áp dụng các kỹ thuật này, và cách thức thực hiện sẽ được giới thiệu chi tiết trong chương 3.

Giải quyết bài toán

Tiêu đề	Nghiên Cứu Ứng Dụng Các Kỹ Thuật Trong Khai Phá Dữ Liệu Hỗ Trợ Học Tập Cho Sinh Viên
Tác giả	Lê Xuân Lâm
Người hướng dẫn	PGS.TS. Nguyễn Hà Nam
Trường học	Đại học Quốc gia Hà Nội
Chuyên ngành	Công nghệ Thông tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2020
Thành phố	Hà Nội

Định dạng
Số trang	81
Dung lượng	2,54 MB