1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia

79 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hệ Tư Vấn Cho Học Sinh Chọn Tổ Hợp Môn Thi Tốt Nghiệp Trung Học Phổ Thông Quốc Gia
Tác giả Lâm Thị Anh Hoàng
Người hướng dẫn TS. Văn Thế Thành
Trường học Trường Đại Học Bà Rịa - Vũng Tàu
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2021
Thành phố Bà Rịa – Vũng Tàu
Định dạng
Số trang 79
Dung lượng 3,35 MB

Cấu trúc

  • Chương 1. TỔNG QUAN VỀ HỆ TƯ VẤN CHO HỌC SINH CHỌN MÔN THI

    • 1.1. TỔNG QUAN VỀ NHU CẦU HỆ TƯ VẤN CHỌN MÔN THI

      • 1.1.1. Sự cần thiết của hệ tư vấn

      • 1.1.2. Các nghiên cứu liên quan

      • 1.1.3. Cơ sở lý thuyết liên quan đến luận văn

      • 1.1.4. Cấu trúc hệ thống

      • 1.1.5. Sự đóng góp của hệ thống

    • 1.2. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

      • 1.2.1. Đối tượng nghiên cứu

      • 1.2.2. Phương pháp nghiên cứu

    • 1.3. LĨNH VỰC NGHIÊN CỨU

    • 1.4. NỘI DUNG NGHIÊN CỨU

    • 1.5. QUÁ TRÌNH THỰC HIỆN

      • 1.5.1. Các bước thực hiện

      • 1.5.2. Các kỹ thuật cần nghiên cứu

      • 1.5.3. Các công cụ áp dụng

      • 1.5.4. Nội dung các chương trong luận văn

    • 1.6. TỔNG KẾT CHƯƠNG

  • Chương 2. HỆ TƯ VẤN CHỌN MÔN THI TỔ HỢP CHO HỌC SINH

    • 2.1. TỔNG QUAN

    • 2.2. PHÂN CỤM DỮ LIỆU DỰA TRÊN K-MEANS

      • 2.2.1. Thuật toán K-Means

      • 2.2.2. Ví dụ thực nghiệm cho thuật toán K-means

    • 2.3. MẠNG SOM

      • 2.3.1. Cấu trúc mạng SOM

      • 2.3.2. Một ví dụ thực nghiệm cho việc huấn luyện mạng SOM

      • 2.3.3. Thuật toán chọn cụm chiến thắng

      • 2.3.4. Ví dụ thực nghiệm cho việc chọn cụm chiến thắng

    • 2.4. PHƯƠNG PHÁP PHÂN LỚP K-NN

      • 2.4.1. Thuật toán phân lớp k-NN

      • 2.4.2. Ví dụ thực nghiệm cho thuật toán k-NN

    • 2.5. HỆ TƯ VẤN CHO HỌC SINH THI TỐT NGHIỆP THPT

      • 2.5.1. Mô hình hệ thống

      • 2.5.2. Quá trình huấn luyện mạng SOM

      • 2.5.3. Quá trình phân lớp, tư vấn

    • 2.6. TỔNG KẾT CHƯƠNG

  • Chương 3. THỰC NGHIỆM

    • 3.1. GIỚI THIỆU

    • 3.2. MÔ HÌNH THỰC NGHIỆM

    • 3.3. XÂY DỰNG HỆ THỐNG

      • 3.3.1. Thiết kế sơ đồ lớp

      • 3.3.2. Cài đặt cấu trúc lớp

    • 3.4. MÔI TRƯỜNG THỰC NGHIỆM

      • 3.4.1. Ngôn ngữ lập trình

      • 3.4.2. Môi trường thực nghiệm

      • 3.4.3. Dữ liệu thực nghiệm

      • 3.4.4. Ứng dụng thực nghiệm trên Server

      • 3.4.5. Ứng dụng thực nghiệm trên Client

      • 3.4.6. Kết quả thực nghiệm trên bộ dữ liệu có 1073 mẫu

      • 3.4.7. Kết quả thực nghiệm 30% trên 5231 mẫu dữ liệu

    • 3.5. TỔNG KẾT CHƯƠNG

  • KẾT LUẬN

  • TÀI LIỆU THAM KHẢO

  • PHỤ LỤC

    • CÀI ĐẶT CÁC HÀM CHÍNH CỦA HỆ THỐNG

Nội dung

TỔNG QUAN VỀ NHU CẦU HỆ TƯ VẤN CHỌN MÔN THI

Sự cần thiết của hệ tư vấn

Trước năm 2016, Bộ GD&ĐT quy định kỳ thi tốt nghiệp THPT gồm 4 môn, bao gồm 3 môn bắt buộc là Toán, Ngữ văn, Ngoại ngữ và 1 môn tự chọn từ các môn Vật lý, Hóa học, Sinh học, Lịch sử, Địa lý Các trường THPT đã tổ chức cho học sinh đăng ký môn thi dựa trên năng lực của từng em.

Vào ngày 28/9/2016, Bộ GD&ĐT đã công bố phương án thi THPT Quốc gia, trong đó học sinh sẽ thi 4 bài, bao gồm 3 bài thi bắt buộc là Toán, Ngữ văn và Ngoại ngữ, cùng với 1 bài thi tự chọn là Khoa học Tự nhiên hoặc Khoa học Xã hội Đối với bài thi Ngoại ngữ, học sinh có thể lựa chọn giữa các thứ tiếng như Anh, Nga, Pháp, Trung, Đức và Nhật Học sinh có quyền tham gia thi cả 5 bài để sử dụng kết quả cho việc xét tuyển vào các trường ĐH, CĐ.

Kể từ năm học 2016 – 2017, các trường THPT đã phải đối mặt với nhiều thách thức trong việc sắp xếp lớp cho học sinh lớp 12, phân công chuyên môn và điều chỉnh thời khóa biểu Mặc dù các quyết định này được đưa ra dựa trên mong muốn của phụ huynh và học sinh, nhưng việc lựa chọn môn thi chủ yếu dựa vào ý kiến chủ quan hoặc theo xu hướng của số đông Điều này có thể dẫn đến việc chưa khai thác tối đa năng lực của học sinh.

Việc lựa chọn không dựa trên khả năng cá nhân và thiếu một phương pháp phân tích khoa học đáng tin cậy.

Đề tài luận văn này tập trung vào việc xây dựng một hệ thống tư vấn hỗ trợ học sinh và phụ huynh trong việc lựa chọn tổ hợp môn học phù hợp với năng lực học tập của từng cá nhân Hệ thống này sẽ giúp định hướng đúng đắn cho học sinh, từ đó nâng cao hiệu quả học tập và phát huy tối đa tiềm năng của các em.

Các nghiên cứu liên quan

Nhiều nhóm nghiên cứu đã đề xuất các giải pháp khác nhau để tư vấn và phân loại học sinh theo năng lực Các phương pháp này bao gồm sử dụng thuật toán K-means để gom cụm học sinh theo 6 mức năng lực dựa trên điểm số môn học, áp dụng kỹ thuật cây quyết định, Bayesian, mạng nơ-ron, và K-MEDIODS để phân lớp học sinh dựa trên mối quan hệ với giáo viên Ngoài ra, việc phân nhóm học sinh theo điểm trung bình từng môn học theo học kỳ cũng được thực hiện để đưa ra tư vấn phù hợp Các nghiên cứu còn sử dụng phương pháp phân cụm và phân cấp kết hợp với K-means để tư vấn nghề nghiệp cho học sinh THPT, cũng như kỹ thuật bảng đồ tự tổ chức SOM để mở các lớp học thích hợp Hơn nữa, kỹ thuật học sâu kết hợp với cây FP-Tree và Adaboost được áp dụng để phân loại học sinh nhằm nâng cao hiệu suất học tập Các phương pháp phân tích điểm số và học không giám sát cũng được nghiên cứu để đánh giá và cải thiện hiệu suất học tập của học sinh.

Oyelade và cộng sự (2010) đã áp dụng thuật toán K-means để dự đoán hiệu suất học tập của sinh viên bằng cách phân nhóm học sinh thành 6 mức độ học lực khác nhau (Excellent, Very Good, Good, Very Fair, Fair, Poor) Phương pháp này giúp định hướng kế hoạch học tập cho học sinh Tuy nhiên, do K-means yêu cầu số nhóm được xác định trước, nên khi dữ liệu thay đổi hoặc tăng trưởng, việc phân nhóm cần phải thực hiện lại từ đầu, có thể dẫn đến kết quả khác biệt.

Khadir và cộng sự (2015) đã sử dụng kỹ thuật phân cụm dựa trên bảng đồ tự tổ chức SOM để phân tích hiệu suất học tập của học sinh, giúp theo dõi định hướng các khóa học tiếp theo Phương pháp này thực hiện phân cụm học sinh bằng cách gom nhóm dữ liệu để huấn luyện trọng số cho mô hình SOM Tuy nhiên, việc phân cụm chỉ dựa vào các đặc tính tương tự của học sinh, do đó cần một thuật toán gom cụm phù hợp với dữ liệu đang tăng trưởng.

Z Fan và cộng sự (2017) sử dụng phương pháp phân cụm K-means để phân nhóm các học sinh dựa trên điểm trung bình của các môn học theo từng học kỳ [5] Đối với phương pháp của nhóm tác giả này, các tâm cụm khởi tạo cho thuật toán K-means được chọn bằng cách chia theo từng nhóm dữ liệu, từ đó các nhóm học sinh được phân loại Việc áp dụng thuật toán K-means cho bộ dữ liệu điểm số của học sinh chưa thể bổ sung các phần tử dữ liệu mới, hơn nữa với mỗi phần tử dữ liệu mới này chưa thể phân loại và phân lớp các học sinh

Lee và cộng sự (2019) đã kết hợp mạng SOM với phương pháp phân cụm phân cấp để phân loại học sinh dựa trên năng lực Kết quả thực nghiệm cho thấy việc đánh giá và phân loại học sinh đạt độ chính xác cao, đồng thời cho phép theo dõi dữ liệu theo dòng thời gian cho từng học sinh.

Purbasari và cộng sự (2020) đã phát triển một mạng SOM để huấn luyện trọng số nhằm phân loại học sinh dựa trên điểm trung bình của từng môn học Tuy nhiên, nghiên cứu này chỉ đưa ra các nhóm phân loại dựa vào véc-tơ chiến thắng mà chưa kết hợp các phần tử láng giềng, đồng thời cũng không cung cấp định hướng cho học sinh về cách nâng cao hiệu suất học tập và kế hoạch học tập tiếp theo.

Việc kết hợp phân cụm K-means và mạng SOM để phân loại học sinh là một phương pháp khả thi và đang được nghiên cứu rộng rãi Phương pháp này giúp giảm thiểu tính chủ quan trong quá trình phân loại, đồng thời cho phép dự báo năng lực của học sinh dựa trên dữ liệu mới Qua đó, việc phân nhóm học sinh sẽ hỗ trợ đưa ra những tư vấn phù hợp, nâng cao hiệu quả giáo dục.

Luận văn này xây dựng một hệ tư vấn chọn lựa cho học sinh dựa trên dữ liệu quá khứ và dữ liệu huấn luyện, nhằm phân loại và tư vấn hiệu quả Dữ liệu huấn luyện được thu thập theo năng lực điểm số và phân cụm bằng phương pháp K-means, từ đó làm đầu vào cho mạng SOM Mạng SOM được huấn luyện để tinh chỉnh các véc-tơ trọng số, giúp phân loại học sinh đầu vào bất kỳ Sau khi phân loại, các phần tử láng giềng trong mạng SOM được trích xuất để áp dụng phương pháp k-NN Mô hình này sử dụng dữ liệu từ nhiều trường THPT khác nhau, hỗ trợ học sinh chọn lựa tổ hợp môn trong kỳ thi tốt nghiệp THPT Quốc gia Hệ thống kết hợp cải tiến phương pháp K-means và phân nhóm bán giám sát theo SOM và k-NN.

Cơ sở lý thuyết liên quan đến luận văn

1.1.3.1 Phương pháp học giám sát

Học có giám sát (Supervised learning) là một kỹ thuật trong học máy, cho phép xây dựng mô hình dự đoán bằng cách sử dụng dữ liệu huấn luyện chứa các cặp đầu vào và nhãn đầu ra mong muốn Mô hình sau khi được huấn luyện sẽ được áp dụng để dự đoán nhãn lớp cho các đối tượng đầu vào mới.

Hình 1.1 Mô hình học có giám sát

Cho một tập hợp biến đầu vào 𝑋 = {𝑥 1 , 𝑥 2 , 𝑥 3 , … , 𝑥 𝑁 } và một tập nhãn tương ứng 𝑌 = {𝑦 1 , 𝑦 2 , 𝑦 3 , … , 𝑦 𝑁 }, trong đó 𝑥 𝑖 , 𝑦 𝑖 là các véc-tơ, các cặp dữ liệu (𝑥 𝑖 , 𝑦 𝑖 ) ∈ 𝑋 × 𝑌 được gọi là tập dữ liệu huấn luyện Mục tiêu của chúng ta là xây dựng một hàm số để ánh xạ mỗi phần tử từ tập 𝑋 sang phần tử tương ứng trong tập 𝑌.

Mục đích là xấp xỉ hàm số 𝑓 thật tốt để khi có một dữ liệu 𝑥 𝑘 mới, chúng ta có thể dự đoán nhãn tương ứng 𝑦 𝑘 = 𝑓(𝑥 𝑘 )

Thuật toán học có giám sát được chia thành hai loại chính:

Phân loại dữ liệu là một kỹ thuật quan trọng, sử dụng tập huấn luyện và nhãn lớp để phân loại dữ liệu mới Quá trình phân lớp bao gồm hai bước chính: xây dựng mô hình và áp dụng mô hình Trong bước xây dựng mô hình, các lớp được định nghĩa trước sẽ được mô tả, và mỗi bộ dữ liệu sẽ được gán nhãn tương ứng với lớp đã được xác định dựa trên thuộc tính.

Kết quả dự đoán nhãn lớp từ mô hình được xây dựng dựa trên tập huấn luyện, nhằm mục đích phân lớp dữ liệu trong tương lai hoặc cho các đối tượng chưa được gán nhãn Trước khi áp dụng mô hình, cần đánh giá tính chính xác bằng cách so sánh nhãn đã biết của bộ kiểm tra với kết quả phân lớp của mô hình Độ chính xác được tính bằng phần trăm mẫu kiểm tra được phân lớp đúng, và bộ kiểm tra phải độc lập với tập huấn luyện.

Hồi quy là một kỹ thuật phân tích nhằm xác định mối quan hệ giữa hai biến số Mô hình hồi quy được sử dụng để dự đoán hoặc ước lượng giá trị của một biến số dựa trên một hoặc nhiều biến số khác.

1.1.3.2 Phương pháp học không giám sát

Học không giám sát (Unsupervised Learning) là một phương pháp trong học máy, giúp tìm ra mô hình từ các tập dữ liệu chưa được gán nhãn Phương pháp này huấn luyện mô hình để phát hiện cấu trúc và mối quan hệ giữa các dữ liệu đầu vào Một trong những kỹ thuật quan trọng trong học không giám sát là gom cụm (clustering), nhằm tạo ra các cụm khác nhau, mỗi cụm đại diện cho một đặc trưng của dữ liệu Các dữ liệu mới sẽ được phân loại vào các cụm dựa trên đặc trưng tương đồng với cụm đầu vào.

Hình 1.2 Mô hình học không giám sát

Dữ liệu không được gán nhãn

Thuật toán để gom cụm

Các cụm chứa các phần tử tương tự nhau

1.1.3.3 Phương pháp học bán giám sát

Học bán giám sát (Semi-Supervised Learning) kết hợp giữa học có giám sát và không giám sát, sử dụng cả dữ liệu đã được gán nhãn và chưa gán nhãn Tùy vào mục đích cụ thể, phương pháp này có thể áp dụng thuật toán k-NN để phân loại hoặc phân cụm các đối tượng chưa gán nhãn, và thuật toán K-Means để dự đoán đầu ra cho dữ liệu đã gán nhãn Sau khi đạt kết quả mong muốn, thuật toán này có thể được sử dụng để gán nhãn cho các cụm trong bộ dữ liệu đã được phân cụm trước đó.

Gom cụm (Clustering) là mô hình phân loại dữ liệu không có nhãn, trong đó các dữ liệu trong cùng một cụm có tính chất tương đồng, trong khi dữ liệu của các cụm khác nhau lại có tính chất khác biệt Bài toán gom cụm dữ liệu nhằm phân chia tập dữ liệu 𝑋 thành các cụm nhỏ dựa trên mối quan hệ giữa các bộ dữ liệu trong mỗi nhóm Để thực hiện quá trình này, các thuật toán như K-means, SOM và độ đo tương tự Euclide thường được sử dụng.

Thuật toán K-Means là phương pháp gom cụm không giám sát, được sử dụng để phân chia dữ liệu tương tự thành các cụm khác nhau Ý tưởng chính của K-Means là chia một tập dữ liệu thành k cụm, trong đó dữ liệu trong mỗi cụm có tính chất tương đồng và liên quan đến nhau Quy tắc của thuật toán yêu cầu các dữ liệu trong cùng một cụm phải sở hữu những đặc trưng nhất định, đảm bảo sự đồng nhất trong mỗi nhóm.

Thuật toán gom cụm K-Means:

Dữ liệu đầu vào: Một bộ dữ liệu 𝑥 1 , 𝑥 2 , 𝑥 3 , … , 𝑥 𝑁 , với mỗi dữ liệu là véc- tơ đặc trưng của đối tượng đầu vào Số cụm cho trước k cụm

Dữ liệu đầu ra: Bộ dữ liệu đầu vào được phân thành k cụm

Trước khi thực hiện gom cụm ta chuẩn hóa dữ liệu bằng cách chuyển dữ liệu về miền giá trị [0,1]

 Bước 1: Chọn k tâm cụm ngẫu nhiên𝑐 1 , 𝑐 2 , 𝑐 3 , … , 𝑐 𝑘

 Bước 2: Với mỗi dữ liệu 𝑥 𝑖 , xác định cụm của nó Tìm tâm cụm gần nhất

Ta có thể sử dụng độ đo Euclide để tính khoảng cách giữa 𝑥 𝑖 đến các tâm cụm

 Bước 3: Phân phối các mẫu dữ liệu vào k cụm, tính toán lại vị trí của tâm cụm để đảm bảo tâm của cụm nằm ở chính giữa cụm

 Bước 4: Bước 2 và Bước 3 được lặp cho tới khi vị trí của tâm cụm không thay đổi (hội tụ)

Hình 1.3 Mô hình gom cụm K-means

Phân lớp (Classification) là quá trình gán nhãn cho một đối tượng dữ liệu vào các lớp đã được xác định trước Quá trình này bao gồm hai bước chính: đầu tiên, bước học (giai đoạn huấn luyện) xây dựng mô hình phân lớp bằng cách phân tích tập dữ liệu huấn luyện đã được gán nhãn; tiếp theo, bước phân lớp sử dụng mô hình đã xây dựng để phân loại dữ liệu mới.

Hình 1.4 Mô hình phân lớp

Phương pháp phân lớp k-NN (K-Nearest Neighbors) là một thuật toán dùng để phân loại các đối tượng đã được gán nhãn dựa trên khoảng cách gần nhất giữa chúng Mỗi đối tượng sẽ được phân loại dựa vào k láng giềng gần nhất, thường sử dụng khoảng cách Euclide để đo lường sự tương đồng giữa các đối tượng.

Thuật toán k-NN được mô tả như sau:

 Bước 1: Xác định k láng giềng gần nhất

 Bước 2: Dùng độ đo Euclide để tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng trong training data

 Bước 3: Sắp xếp khoảng cách theo thứ tự tăng dần và xác định k láng giềng gần nhất với các đối tượng cần phân lớp

 Bước 4: Lấy tất cả các lớp của k láng giềng gần nhất đã xác định

 Bước 5: Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho các đối tượng cần phân lớp

Hình 1.5 Mô hình thuật toán k-NN

Trong hình ảnh, dữ liệu huấn luyện được thể hiện qua các dấu (+) và (-), trong khi đối tượng cần xác định lớp, được gọi là điểm truy vấn, được biểu thị bằng hình tròn màu xám.

 Trong trường hợp k láng giềng là 1 thì đối tượng cần được phân lớp sẽ là lớp –

 Trong trường hợp k láng giềng là 2 thì đối tượng cần được phân lớp sẽ không xác định vì không lớp nào có số đối tượng nhiều hơn

 Trong trường hợp k láng giềng là 5 thì đối tượng cần được phân lớp sẽ là lớp +

1.1.3.7 Bản đồ tự tổ chức SOM

SOM (Self Organizing Map) là một mạng nơ-ron tự tổ chức, bao gồm một tầng đầu vào và một tầng đầu ra, giúp tìm cụm chiến thắng với giá trị nhỏ nhất Tính tự tổ chức của SOM được thực hiện qua nguyên tắc học cạnh tranh, không giám sát, nhằm ánh xạ dữ liệu từ không gian nhiều chiều về không gian ít chiều hơn Điều này cho phép các dữ liệu có đặc trưng tương đồng được đại diện bởi một nơ-ron hoặc các nơ-ron gần nhau, từ đó hình thành bản đồ đặc trưng của tập dữ liệu đầu vào.

Thuật toán SOM được mô tả như sau:

Dữ liệu đầu vào: tập 𝑁 véc-tơ đặc trưng của bộ dữ liệu 𝑋 = {𝑥 1 , 𝑥 2 , 𝑥 3 , … , 𝑥 𝑁 } Trong đó, mỗi véc-tơ 𝑥 𝑖 có 𝑑 chiều 𝑥 𝑖 = {𝑥 𝑖1 , 𝑥 𝑖2 , 𝑥 𝑖3 , … , 𝑥 𝑖𝑑 }

Dữ liệu đầu ra: bộ véc-tơ trọng số 𝑊 = {𝑤 1 , 𝑤 2 , 𝑤 3 , … , 𝑤 𝑚 }

 Bước 1: Khởi tạo véc-tơ trọng số cho mỗi nơ-ron

Tương ứng với mỗi véc-tơ 𝑥 𝑖 có 𝑑 chiều, khởi tạo một véc-tơ trọng số

𝑤 𝑖 = {𝑤 𝑖1 , 𝑤 𝑖2 , 𝑤 𝑖3 , … , 𝑤 𝑖𝑑 } Tập véc-tơ trọng số của 𝑁 bộ dữ liệu là 𝑊 {𝑤 1 , 𝑤 2 , 𝑤 3 , … , 𝑤 𝑚 }

 Bước 2: Chọn ngẫu nhiên một véc-tơ 𝑥 𝑖 trong tập dữ liệu làm mẫu huấn luyện

 Bước 3: Tìm phần tử nơ-ron chiến thắng

Để tìm phần tử khớp nhất giữa các véc-tơ trọng số 𝑤 𝑖 và véc-tơ đầu vào 𝑥 𝑖, ta xác định nơ-ron chiến thắng bằng cách so sánh độ gần gũi của các véc-tơ này Nơ-ron có véc-tơ trọng số 𝑤 𝑖 gần nhất với véc-tơ đầu vào 𝑥 𝑖 sẽ được chọn là nơ-ron chiến thắng Phương pháp xác định này có thể sử dụng khoảng cách Euclide giữa các véc-tơ trọng số và véc-tơ đầu vào để đánh giá sự tương đồng.

 Bước 4: Xây dựng các phần tử lân cận

Bước này xác định các nơ-ron lân cận của nơ-ron chiến thắng bằng cách sử dụng một ngưỡng 𝛿 ∈ (0,1) gọi là bán kính lân cận Khoảng cách Euclide từ tâm nơ-ron chiến thắng đến các nơ-ron lân cận được tính toán để xác định vùng lân cận Những nơ-ron nằm trong bán kính 𝛿 sẽ được coi là các phần tử lân cận của cụm chiến thắng.

 Bước 5: Hiệu chỉnh trọng số các phần tử lân cận

Cấu trúc hệ thống

Hệ thống này sử dụng kỹ thuật học không giám sát để phân cụm năng lực học sinh thông qua thuật toán K-means, kết hợp với mạng SOM (Self-Organizing Map) để tổ chức các cụm theo mô hình láng giềng Việc phân loại học sinh dựa trên các cụm chiến thắng được thực hiện theo quy tắc suy luận mờ Takagi-Sugeno Sau khi xác định cụm chiến thắng, phương pháp k-NN (k-nearest neighbour) được áp dụng để phân lớp năng lực học tập của học sinh trong cùng một cụm, xác định mỗi học sinh thuộc về nhóm môn tổ hợp 1 (Lý, Hóa, Sinh) hoặc nhóm môn tổ hợp 2 (Sử, Địa, Công dân) Quá trình xử lý dữ liệu và tư vấn được chia thành hai pha, với pha đầu tiên là phân cụm bằng thuật toán K-means dựa trên bộ dữ liệu điểm số của hai năm học.

Trong nghiên cứu này, ở lớp 10 và lớp 11, quá trình phân loại học sinh được thực hiện qua hai giai đoạn Giai đoạn đầu sử dụng mạng SOM kết hợp với suy luận mờ để xác định các cụm Kết quả từ cụm chiến thắng sau đó được áp dụng trong giai đoạn phân lớp, nơi phương pháp k-NN được sử dụng để xác định năng lực học sinh thuộc nhóm môn tổ hợp nào, cụ thể là Môn tổ hợp 1 hoặc Môn tổ hợp 2.

Hình 1.6 Mô hình tổng quát hệ thống tư vấn

DL một hs Kết quả phân tích

Tư vấn chọn tổ hợp môn

Hệ thống tư vấn chọn tổ hợp môn cho học sinh được thực hiện qua các bước như sau: Đầu tiên, cơ sở dữ liệu điểm trung bình của học sinh được thu thập từ các trường THPT và chuẩn hóa trên miền giá trị [0,1] Dữ liệu này sẽ làm đầu vào cho thuật toán gom cụm, tạo ra các phần tử nhóm láng giềng ban đầu để huấn luyện trọng số của mạng SOM Tiếp theo, việc dự báo và tư vấn cho học sinh được thực hiện thông qua phân loại trên mạng SOM kết hợp với suy luận mờ, nhằm xác định phần tử chiến thắng và cụm chiến thắng Cuối cùng, thuật toán k-NN được áp dụng trên cụm chiến thắng để phân lớp dữ liệu, từ đó tư vấn cho học sinh chọn tổ hợp môn thi trong kỳ thi tốt nghiệp THPT Quốc gia Quá trình xây dựng hệ thống này bao gồm hai pha chính.

Pha 1: Pha xử lý dữ liệu

Để áp dụng kỹ thuật phân cụm K-means, bước đầu tiên là chuẩn hóa dữ liệu điểm trung bình của học sinh, chuyển đổi các giá trị điểm trung bình về một dạng thứ nguyên thống nhất.

Bước 2 trong quy trình phân cụm dữ liệu là áp dụng thuật toán K-means trên dữ liệu đã được chuẩn hóa Thuật toán này tìm kiếm các tâm cụm, nơi có mật độ dữ liệu cao nhất trong một bán kính xác định Nếu một phần tử nằm ngoài bán kính của cụm gần nhất, nó sẽ tạo ra một cụm mới.

Do đó, quá trình tạo cụm phù hợp dữ liệu tăng trưởng

Bước 3 trong quá trình huấn luyện mạng SOM bao gồm việc khởi tạo ngẫu nhiên các véc-tơ trọng số và đào tạo chúng dựa trên mô hình véc-tơ chiến thắng từ bộ dữ liệu đã được phân cụm bằng thuật toán K-means Kết quả cuối cùng là một mô hình phân loại với các trọng số của mạng SOM.

Pha 2: Pha tư vấn học sinh

Để tiến hành phân loại trên mạng SOM, bước đầu tiên là chuẩn hóa dữ liệu điểm trung bình môn của từng học sinh Mỗi điểm số của học sinh sẽ được chuẩn hóa theo phương pháp đã áp dụng trong quá trình huấn luyện dữ liệu, nhằm tạo ra đầu vào chính xác cho quá trình phân loại.

Bước 2 trong quy trình là thực hiện phân loại sử dụng kỹ thuật mạng SOM, kết hợp với phương pháp lựa chọn cụm chiến thắng thông qua suy luận mờ Takagi-Sugeno Phương pháp này giúp xác định cụm chiến thắng dựa trên các yếu tố ngoài khoảng cách theo độ đo, tối ưu hóa quá trình phân loại.

 Bước 3: Thực hiện phân lớp bằng kỹ thuật k-NN dựa trên cụm chiến thắng và các cụm lân cận nhằm tìm ra môn tổ hợp cho mỗi học sinh.

Sự đóng góp của hệ thống

Việc lựa chọn môn thi tổ hợp của học sinh có ảnh hưởng lớn đến quá trình học tập và chất lượng đào tạo của nhà trường Nếu sự chọn lựa này không phù hợp với năng lực học sinh, kết quả thi sẽ không đạt yêu cầu, ảnh hưởng đến định hướng nghề nghiệp sau này Đồng thời, nhà trường và phụ huynh gặp khó khăn trong việc giảng dạy và định hướng cho học sinh Đặc biệt, trong bối cảnh số lượng thí sinh tham gia kỳ thi tốt nghiệp THPT Quốc gia rất lớn, việc chọn lựa sai môn thi, nhất là ở các vùng thiếu thông tin, sẽ tác động tiêu cực đến nguồn nhân lực và tương lai nghề nghiệp của thí sinh Để khắc phục những vấn đề này, cần xây dựng một hệ thống tư vấn hỗ trợ học sinh, nhà trường và phụ huynh, nhằm giúp học sinh phát hiện năng lực và chọn môn thi phù hợp dựa trên kết quả học tập Do đó, đề tài luận văn “Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia” được thực hiện với mong muốn này.

ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

Đối tượng nghiên cứu

Bài viết này nghiên cứu phân tích thông tin điểm số và đánh giá năng lực học sinh nhằm phân loại học sinh theo tổ hợp môn thi phù hợp Ngoài ra, các thuật toán cũng được đề xuất để phân cụm học sinh dựa trên kết quả học tập, từ đó tư vấn cho học sinh chọn môn thi thích hợp Đối tượng nghiên cứu bao gồm học sinh ở nhiều cấp độ khác nhau.

(1) Cấu trúc điểm số của học sinh liên quan đến các môn tổ hợp

(2) Véc-tơ đặc trưng mô tả năng lực của học sinh

(3) Phương pháp phân cụm K-means nhằm phân nhóm năng lực học sinh

(4) Phương pháp suy luận mờ kết hợp mạng SOM để chọn lựa cụm chiến thắng đối với mỗi học sinh

(5) Phương pháp phân lớp k-NN nhằm phân loại học sinh thuộc năng lực phù hợp đối với các môn thi tổ hợp

(6) Mô hình và thuật toán nhằm xây dựng công cụ tư vấn cho học sinh chọn lựa các môn thi tổ hợp.

Phương pháp nghiên cứu

Để thực hiện đề tài này, các phương pháp nghiên cứu sau đây được áp dụng:

Phương pháp đánh giá và so sánh năng lực học sinh được khảo sát để phân tích ưu, nhược điểm của từng phương pháp Dựa trên phân tích này, một phương pháp cải tiến được đề xuất nhằm phù hợp với môi trường thực nghiệm và bối cảnh kỳ thi tốt nghiệp THPT Quốc gia.

Dựa trên nền tảng khoa học dữ liệu và khai phá dữ liệu, bài viết phân tích và lựa chọn các phương pháp phù hợp để phát triển một hệ thống tư vấn cho học sinh trong việc chọn môn thi tổ hợp.

Phương pháp mô hình hóa được xây dựng dựa trên lý thuyết đã chọn và thực tế của kỳ thi tốt nghiệp THPT Quốc gia, nhằm tạo nền tảng cho việc phát triển công cụ hỗ trợ tư vấn học sinh và đề xuất các thuật toán phù hợp.

Phương pháp thực nghiệm được áp dụng để xác minh tính chính xác của mô hình và các thuật toán đã đề xuất Quy trình thực nghiệm bao gồm hai giai đoạn chính: đầu tiên là huấn luyện mô hình, sau đó là kiểm thử tính đúng đắn của dữ liệu.

LĨNH VỰC NGHIÊN CỨU

Đề tài luận văn tập trung vào việc xây dựng một hệ thống tư vấn cho học sinh trong kỳ thi tốt nghiệp THPT Quốc gia, sử dụng phân tích dữ liệu, khai phá dữ liệu và trí tuệ nhân tạo Hệ thống này nhằm cung cấp hỗ trợ cho học sinh trong việc lựa chọn môn thi tổ hợp phù hợp, đồng thời có thể áp dụng cho các lĩnh vực tư vấn khác như tư vấn sản phẩm khách hàng và tư vấn trong sản xuất Đề tài sử dụng phương pháp gom cụm K-means và phân lớp k-NN để trích xuất dữ liệu hữu ích từ học sinh, đồng thời áp dụng kỹ thuật học không giám sát và bán giám sát trong trí tuệ nhân tạo để tạo ra một hệ thống thông minh Kết quả là một hệ thống tự động tư vấn cho học sinh dựa trên cơ sở khoa học vững chắc.

Hệ thống phân tích dữ liệu học sinh THPT sử dụng phương pháp SOM và suy luận mờ để tạo ra các phân nhóm Qua đó, dữ liệu được phân lớp bằng k-NN nhằm phân loại năng lực học sinh trong các môn thi tổ hợp, giúp cung cấp thông tin tư vấn phù hợp cho từng học sinh.

Công cụ tư vấn cho học sinh chọn môn thi tổ hợp kết hợp khoa học dữ liệu, khai phá dữ liệu và trí tuệ nhân tạo Kết quả của đề tài là mô hình, thuật toán và công cụ hỗ trợ học sinh, có khả năng ứng dụng trong các hệ thống tư vấn khác nhau Đây cũng là minh chứng cho việc áp dụng trí tuệ nhân tạo trong việc hỗ trợ quyết định cho người dùng.

NỘI DUNG NGHIÊN CỨU

Hệ thống theo dõi kết quả học tập và tư vấn chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia giúp học sinh phát triển năng lực học tập Được xây dựng dựa trên kỹ thuật phân cụm, suy luận mờ và phân lớp, hệ thống sử dụng thuật toán K-means để phân loại học sinh theo năng lực, từ đó đưa ra tư vấn phù hợp cho việc đăng ký môn thi Kết quả nghiên cứu đã được ứng dụng tại trường THPT nơi tôi công tác.

Nghiên cứu các công trình liên quan giúp phân tích các ưu và nhược điểm, từ đó đề xuất các kỹ thuật cải tiến phù hợp cho bài toán.

Nghiên cứu các kỹ thuật khai phá dữ liệu và phân tích dữ liệu nhằm phát triển nguồn thông tin hữu ích cho việc tư vấn chọn môn thi tổ hợp cho học sinh.

(3) Nghiên cứu các kỹ thuật học không giám sát, bán giám sát để từ đó thực hiện gom cụm, phân lớp dữ liệu của học sinh THPT

(4) Nghiên cứu phương pháp phân cụm K-means và mô hình phân loại SOM kết hợp với k-NN.

QUÁ TRÌNH THỰC HIỆN

Các bước thực hiện

Để xây dựng hệ tư vấn giúp học sinh chọn tổ hợp môn cho kỳ thi tốt nghiệp THPT Quốc gia, luận văn được thực hiện theo các bước cụ thể.

Tìm hiểu tài liệu của Bộ GD&ĐT về kỳ thi tốt nghiệp THPT Quốc gia và nghiên cứu quy chế đánh giá năng lực học sinh là rất quan trọng.

(2) Phân tích các công trình liên quan và chọn các phương pháp phù hợp:

- Phân tích thông tin về đặc trưng đánh giá kết quả học tập của học sinh để phân cụm theo năng lực học sinh

- Xây dựng mô hình thực hiện công cụ tư vấn cho học sinh

- Nghiên cứu các phương pháp phân cụm K-means, phân loại trên mạng SOM, phân lớp k-NN và hệ suy luận mờ

Xây dựng một hệ thống tư vấn hỗ trợ quyết định cho học sinh nhằm đánh giá năng lực và khả năng của từng học sinh theo từng tổ hợp môn thi cụ thể.

- Đề xuất thuật toán nhằm chuyển đổi dữ liệu đánh giá học sinh và tư vấn chọn môn thi

- Xây dựng ứng dụng thực nghiệm và đánh giá hiệu suất của phương pháp đồng thời so sánh với các phương pháp khác.

Các kỹ thuật cần nghiên cứu

Trong hệ thống dự báo học sinh dựa trên điểm số, cần xây dựng mô hình mạng SOM và thực hiện cơ chế suy luận Có hai phương pháp chính là học có giám sát và học không giám sát Thuật toán K-means sử dụng mô hình phân cụm, trong đó các đặc trưng của dữ liệu được kết hợp và đánh giá để đảm bảo rằng các phần tử trong cùng một cụm có độ đo tương tự cao, trong khi các phần tử thuộc các cụm khác có độ đo khác biệt lớn.

Phương pháp học có giám sát sử dụng các mẫu dữ liệu huấn luyện có gán nhãn để xây dựng mô hình phân loại Trong luận văn này, mạng SOM được huấn luyện để tạo trọng số cho việc phân lớp dữ liệu đầu vào, kết hợp kỹ thuật học không giám sát và có giám sát Dữ liệu huấn luyện mẫu được lấy từ kết quả của thuật toán K-means trong quá trình phân cụm học sinh Để phân loại học sinh, phương pháp k-NN được áp dụng dựa trên các láng giềng gần nhất, cho phép phân lớp mà không cần huấn luyện mô hình Do đó, kỹ thuật học bán giám sát cần được thực hiện và áp dụng trên bộ dữ liệu học sinh dựa trên thuật toán k-NN.

Các công cụ áp dụng

Để áp dụng các kỹ thuật học không giám sát, có giám sát và bán giám sát trong việc xây dựng hệ tư vấn chọn tổ hợp môn cho học sinh thi tốt nghiệp THPT Quốc gia, các đối tượng liên quan sẽ được xem xét.

Phân cụm đối tượng K-means là một kỹ thuật học không giám sát, giúp nhóm các học sinh có mức độ tương tự thành một cụm Quá trình này không phụ thuộc vào việc gán nhãn dữ liệu mẫu ban đầu, mà chỉ dựa vào độ đo tương tự dựa trên các thuộc tính của từng học sinh.

Trên mạng SOM, việc phân loại đối tượng được thực hiện dựa trên các cụm do thuật toán K-means tạo ra, trong đó mỗi cụm tương ứng với một phân loại Hai cụm có thể được xem là láng giềng nếu độ tương tự giữa hai tâm cụm nhỏ hơn một ngưỡng nhất định Quá trình phân loại này yêu cầu huấn luyện các trọng số dựa trên mẫu phân loại do K-means cung cấp, thuộc dạng học có giám sát, áp dụng cho bộ dữ liệu của học sinh với các nhãn là các phân nhóm của các cụm.

Phương pháp k-NN được áp dụng để phân loại học sinh dựa trên các cụm chiến thắng và bộ dữ liệu của họ Việc phân loại này dựa vào tần suất xuất hiện của các phân lớp đã được gán nhãn trong cụm chiến thắng Dữ liệu mới của từng học sinh sẽ được phân lớp vào các lớp chiếm ưu thế, từ đó hỗ trợ quá trình tư vấn chọn tổ hợp môn học phù hợp Quá trình này sử dụng phương pháp học bán giám sát, cho phép k-NN hoạt động mà không cần huấn luyện mô hình, nhưng vẫn dựa vào các mẫu phân lớp đã được gán nhãn trước.

Nội dung các chương trong luận văn

Đề tài luận văn tập trung vào việc phát triển một công cụ hỗ trợ học sinh trong kỳ thi tốt nghiệp THPT Quốc gia, áp dụng các phương pháp xử lý và phân tích dữ liệu để xây dựng mô hình và kỹ thuật xử lý dữ liệu cho học sinh Nội dung của luận văn được cấu trúc thành ba chương và phần kết luận.

Chương 1 Tổng quan về hệ tư vấn cho học sinh chọn môn thi: trong chương này, các thông tin của học sinh được khảo sát và phân tích Từ đó, các công cụ về trí tuệ nhân tạo, khai phá dữ liệu lần lượt được khảo sát và chọn lựa Các đối tượng nghiên cứu, phương pháp nghiên cứu, quá trình thực hiện cũng được đề xuất nhằm áp dụng xây dựng công cụ hỗ trợ tư vấn cho học sinh

Chương 2 Hệ tư vấn chọn môn thi tổ hợp cho học sinh: trong chương này lần lượt phân tích các công cụ khai phá dữ liệu nhằm áp dụng cho hệ tư vấn, gồm: phương pháp phân cụm K-means, phương pháp chọn lựa cụm dựa trên mạng SOM và suy luận mờ, phương pháp phân lớp dựa trên k-NN Các phương pháp được thực hiện trên các dữ liệu cụ thể của học sinh THPT nhằm làm cơ sở cho việc xây dựng hệ thống tư vấn chọn môn thi tổ hợp trong kỳ thi tốt nghiệp THPT Quốc gia Trong chương này cũng phân tích sự phù hợp của từng phương pháp đối với dữ liệu học sinh và sự phù hợp về mặt khoa học cũng như quá trình xử lý

Các bước thực hiện của mô hình đã được phân tích và trình bày, tạo nền tảng cho việc xây dựng ứng dụng thực nghiệm Những thuật toán dựa trên mô hình được đề xuất nhằm cung cấp cơ sở thực nghiệm và chứng minh tính chính xác của mô hình.

Chương 3 Thực nghiệm: trong chương này thiết kế một hệ thống thực nghiệm trên một môi trường lập trình cụ thể Các dữ liệu thực nghiệm và kết quả thực nghiệm cũng được phân tích và đánh giá nhằm minh chứng tính hiệu quả của phương pháp đề xuất Mỗi thuật toán cũng sẽ được mô tả cụ thể và các ví dụ được áp dụng nhằm minh chứng tính đúng đắn và khả thi.Các kết quả thực nghiệm này cũng sẽ được đánh giá và phân tích tính khả thi trên nhiều bộ dữ liệu khác nhau theo từng năm ứng với các trường THPT trong địa bàn Thành phố Vũng Tàu Từ đó, một kết luận và định hướng phát triển được đề nghị nhằm xây dựng các hệ thống, công cụ tư vấn cho từng lĩnh vực.

TỔNG KẾT CHƯƠNG

Chương này trình bày quá trình xây dựng hệ tư vấn giúp học sinh lựa chọn tổ hợp môn thi cho kỳ thi tốt nghiệp THPT Quốc gia Đối tượng và phương pháp nghiên cứu được xác định qua phân tích các công trình đã công bố gần đây Hệ thống đề xuất dựa trên thuật toán K-means, mạng SOM và k-NN, mang tính khả thi và cải tiến Mô hình tổng quát được áp dụng trên dữ liệu khảo sát tại các trường THPT tỉnh Bà Rịa – Vũng Tàu Các kỹ thuật học máy giám sát, bán giám sát và không giám sát được áp dụng tương ứng với các thuật toán K-means, mạng SOM và k-NN Các kỹ thuật này sẽ được triển khai và mô tả chi tiết trong các phần tiếp theo, bao gồm xây dựng hệ thống tư vấn trên dữ liệu cụ thể và đánh giá hiệu suất của quá trình gom cụm và phân lớp.

HỆ TƯ VẤN CHỌN MÔN THI TỔ HỢP CHO HỌC SINH

TỔNG QUAN

Chương này tiếp cận các công cụ xử lý dữ liệu như phương pháp gom cụm, chọn cụm chiến thắng và phân lớp dữ liệu, dựa trên lý thuyết đã khảo sát Đầu tiên, phương pháp gom cụm K-means được áp dụng để nhóm các dữ liệu học sinh, tiếp theo là việc chọn cụm chiến thắng thông qua việc huấn luyện mạng SOM Để phân loại học sinh, phương pháp k-NN được sử dụng dựa trên các láng giềng của cụm chiến thắng Các công cụ này sẽ được phân tích dựa trên các bộ dữ liệu cụ thể của học sinh, nhằm xây dựng thực nghiệm cho hệ tư vấn chọn tổ hợp môn.

Dữ liệu học sinh được thu thập từ các trường THPT tại Thành phố Vũng Tàu, sau đó được tổng hợp và chuẩn hóa Thuật toán K-means được áp dụng để phân nhóm học sinh theo mức độ học lực Mỗi cụm sẽ khởi tạo một véc-tơ trọng số, được huấn luyện để xác định véc-tơ chiến thắng trong mô hình mạng SOM Quá trình huấn luyện cập nhật trọng số nhằm giảm sai số trong việc chọn cụm chiến thắng, và sẽ tiếp tục cho đến khi mạng hội tụ, đạt được sai số đủ nhỏ để lựa chọn cụm chiến thắng cho dữ liệu của từng học sinh đầu vào.

Dữ liệu điểm số của từng học sinh được chuẩn hóa để chọn ra cụm chiến thắng và các cụm láng giềng trên mạng SOM Thuật toán k-NN được áp dụng để phân loại học sinh dựa trên các phần tử láng giềng, đồng thời tính toán tần suất xuất hiện của các phân lớp gần nhất trong cụm chiến thắng và các cụm láng giềng Chương này sẽ xây dựng mô hình và phát triển hệ tư vấn giúp học sinh lựa chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia.

PHÂN CỤM DỮ LIỆU DỰA TRÊN K-MEANS

Thuật toán K-Means được sử dụng để gom cụm dữ liệu, với mục tiêu là làm cho các phần tử trong cùng một cụm có độ tương đồng cao và các phần tử ở các cụm khác nhau có độ tương đồng thấp Quá trình này diễn ra trên N điểm dữ liệu trong không gian R d, với mỗi điểm có d chiều Số cụm được xác định trước tương ứng với các nhóm học sinh theo học lực (Giỏi, Khá, Trung bình, Yếu, Kém) Tâm cụm ban đầu được chọn ngẫu nhiên và được huấn luyện cho đến khi chúng hội tụ, tức là không thay đổi sau các bước phân cụm Khoảng cách Euclide được áp dụng để đánh giá độ đo giữa các điểm trong quá trình phân cụm.

Cho một tập dữ liệu có N điểm dữ liệu x 1 , x 2 ,…,x N sao cho mỗi điểm dữ7 liệu x i thuộc không gian R d Thuật toán K-means được thực hiện như sau:

Thuật toán: K-means Đầu vào: N điểm dữ liệu x 1 , x 2 ,…,x N Đầu ra: tập các cụm  = { i , i = 1 k}

Bước 1: Khởi tạo k tâm cụm ngẫu nhiên {c 1 , c 2 ,…, c k } từ tập dữ liệu

For i=1 to k do ci= random(x 1 , x 2 ,…,x N ), ci ≠cj, với 0 sigmoid(a)) then min = sigmoid(a);

Trong thuật toán SOMWinner, đầu vào là mẫu dữ liệu X mô tả điểm của học sinh và tập trọng số đã được huấn luyện W, trong khi đầu ra là một cụm chiến thắng Thuật toán sẽ duyệt qua trọng số của từng cụm, với mỗi trọng số được tính bằng tích vô hướng với mẫu dữ liệu X Cuối cùng, một giá trị tổng hợp được tính toán dựa trên hàm sigmoid(a) = 1.

Thuật toán có độ phức tạp O(k), trong đó k là số cụm được duyệt k lần, thực hiện các phép toán cơ bản Nếu k là một số cụm không đáng kể, độ phức tạp của thuật toán sẽ tương đương với một hằng số.

2.3.4 Ví dụ thực nghiệm cho việc chọn cụm chiến thắng

Giả sử sau khi huấn luyện 5 cụm, tập các véc-tơ trọng số là:

Với một mẫu dữ liệu học sinh X như sau

Thực hiện thuật toán SOMWinner, ta có bảng sau: wi1

Theo như dữ liệu bảng kết quả trên, cụm chiến thắng được chọn, đó là cụm 4

PHƯƠNG PHÁP PHÂN LỚP K-NN

2.4.1 Thuật toán phân lớp k-NN

Sau khi xác định cụm chiến thắng, các phần tử trong cụm sẽ được sử dụng để phân lớp một phần tử X đầu vào, nhằm tư vấn cho học sinh trong việc chọn môn tổ hợp thi tốt nghiệp THPT Quốc gia Quá trình phân lớp dựa vào các phần tử láng giềng và tần suất xuất hiện của các nhãn lớp trong cụm chiến thắng Thuật toán k-NN sẽ được áp dụng để phân lớp học sinh.

Thuật toán: k-NN Đầu vào: Cụm chiến thắng Winner, mẫu dữ liệu X Đầu ra: Phân lớp học sinh Bestclass

Bước 1: Sắp xếp các phần tử trong cụm chiến thắng

Bước 2: Lấy k phần tử để phân lớp

For i = 1 to k do class = class  {Li.class};

Bước 3: Chọn lớp có tần suất hiện nhiều nhất

Bestclass = Max{Frequence(classi), classi class}; return Bestclass;

Thuật toán k-NN phân lớp mẫu dữ liệu đầu vào X dựa trên cụm chiến thắng Winner bằng cách sắp xếp các mẫu trong tập Winner theo độ đo Euclide để tìm các láng giềng gần nhất Sau khi xác định k phần tử gần nhất, các phân lớp tương ứng được trích xuất Cuối cùng, lớp có tần suất xuất hiện cao nhất được chọn làm Bestclass để tư vấn cho học sinh dựa trên mẫu dữ liệu đầu vào X.

2.4.2 Ví dụ thực nghiệm cho thuật toán k-NN

Giả sử cụm chiến thắng được chọn lựa như sau:

HS Tiên tiến Được lên lớp

HS Tiên tiến Được lên lớp

HS Tiên tiến Được lên lớp

HS Tiên tiến Được lên lớp

HS Tiên tiến Được lên lớp

HS Tiên tiến Được lên lớp

Giả sử cần dự báo cho một mẫu dữ liệu X là

Thực hiện sắp xếp theo độ đo Euclide ta có bảng sau:

Giả sử chọn k láng giềng với k=3, ta có các nhãn lớp như sau:

44 Khá Tốt HS Tiên tiến Được lên lớp

27 Khá Khá HS Tiên tiến Được lên lớp

24 Khá Tốt HS Tiên tiến Được lên lớp

Thực hiện đếm tần suất trên cụm chiến thắng, ta có:

Mẫu lớp tốt nhất sẽ là:

HS Tiên tiến Được lên lớp

Dựa trên việc lựa chọn mẫu lớp phù hợp nhất, dữ liệu đầu vào X được phân loại vào nhóm học sinh có học lực Khá, hạnh kiểm Tốt, xếp loại Học sinh Tiên tiến và đủ điều kiện lên lớp Đồng thời, dữ liệu X cũng được tư vấn để chọn tổ hợp môn thi là Khoa học Xã hội.

HỆ TƯ VẤN CHO HỌC SINH THI TỐT NGHIỆP THPT

Hình 2.2 Mô hình hệ thống tư vấn học sinh

Hệ thống tư vấn học sinh được xây dựng dựa trên việc kết hợp phương pháp phân cụm dữ liệu K-means và phân loại bằng mạng SOM Mô hình này bao gồm hai pha: xử lý dữ liệu và dự báo, tư vấn Trong pha xử lý, dữ liệu học sinh được thu thập từ nhiều nguồn khác nhau và chuẩn hóa trong khoảng [0,1] để áp dụng cho thuật toán K-means Sau khi phân cụm, dữ liệu được nhóm thành k cụm, mỗi cụm chứa các phần tử tương đồng Kết quả này sau đó được sử dụng để huấn luyện mạng SOM, tạo ra mô hình dự báo dưới dạng các véc-tơ trọng số Trong pha phân lớp, một mẫu dữ liệu chưa biết sẽ được đưa vào, và dựa trên các véc-tơ trọng số đã huấn luyện, cụm chiến thắng sẽ được xác định Thuật toán k-NN sẽ mở rộng tần suất xuất hiện của nhãn lớp cho toàn bộ cụm chiến thắng, từ đó nâng cao độ chính xác trong việc phân lớp và tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia Các bước xây dựng hệ thống này được tóm tắt rõ ràng và logic.

Pha xử lý dữ liệu: tạo mô hình SOM

Bước 1: chuẩn hóa dữ liệu đầu vào cho cơ sở dữ liệu học sinh THPT Bước 2: phân cụm dữ liệu bằng thuật toán K-means

Bước 3: huấn luyện mạng SOM để tạo ra bộ trọng số

Pha dự báo, tư vấn: phân lớp và tư vấn cho học sinh

Bước 1: chuẩn hóa mẫu dữ liệu X đầu vào

Bước 2: tìm cụm chiến thắng trên mạng SOM

Bước 3: phân lớp và tư vấn cho học sinh dự trên thuật toán k-NN

2.5.2 Quá trình huấn luyện mạng SOM

Hình 2.3 trình bày lưu đồ quá trình huấn luyện mạng SOM từ tập dữ liệu đầu vào X1, X2,…, XN Thuật toán K-means được sử dụng để phân chia dữ liệu thành k cụm, từ đó, mạng SOM sẽ được áp dụng để thực hiện quá trình phân cụm và huấn luyện.

Tập dữ liệu đầu vào

Tập véc-tơ trọng số

End trọng số của cụm được huấn luyện, kết quả đầu ra của quá trình huấn luyện này là tập các trọng số W = {Wi, i = 1 k}

2.5.3 Quá trình phân lớp, tư vấn

Hình 2.4 trình bày quy trình phân lớp và dự báo cho mẫu dữ liệu X thông qua cụm chiến thắng sử dụng phương pháp phân lớp k-NN, đồng thời cung cấp tư vấn cho học sinh Quá trình bắt đầu từ mẫu dữ liệu X và tập trọng số W = {Wi, i = 1 k}, trong đó cụm chiến thắng được xác định dựa trên độ đo tối ưu của hàm sigmoid Dựa vào các láng giềng gần nhất, phân lớp cho mẫu dữ liệu X được thực hiện nhằm chọn ra mẫu lớp có tần suất xuất hiện cao nhất và độ tương đồng tốt nhất với mẫu dữ liệu X, từ đó làm nền tảng cho quá trình tư vấn học sinh.

TỔNG KẾT CHƯƠNG

Trong chương này, chúng tôi trình bày một kiến trúc hệ thống phân loại và tư vấn dành cho học sinh, được thiết kế để phù hợp với mẫu dữ liệu đầu vào là thông tin về điểm trung bình học tập của các em.

Dữ liệu X Tập trọng số W

Thực hiện phân lớp k-NN

Tính cụm chiến thằng Winner K-means Winner

Hệ tư vấn chọn lớp tốt nhất cho học sinh THPT đã được phát triển thông qua việc phân tích các thành phần và áp dụng thuật toán K-means để phân cụm dữ liệu đầu vào Quá trình huấn luyện mạng SOM được mô tả chi tiết, với kết quả là một véc-tơ trọng số giúp xác định cụm chiến thắng cho dữ liệu mới, từ đó thực hiện phân lớp và tư vấn cho học sinh Thuật toán k-NN được sử dụng để chọn lớp tốt nhất dựa trên độ tương đồng và tần suất xuất hiện Các thành phần cơ sở của hệ thống đã được xây dựng để phục vụ cho việc thực nghiệm với các bộ dữ liệu lớn Chương tiếp theo sẽ cụ thể hóa hệ tư vấn trên các ngôn ngữ lập trình, nhằm đánh giá hiệu suất của hệ thống dự báo và tư vấn cho học sinh trong việc chọn tổ hợp môn thi tốt nghiệp THPT Quốc gia.

THỰC NGHIỆM

Ngày đăng: 22/07/2021, 14:55

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Bộ Giáo dục và Đào tạo,Thông tư số 02/2016/TT-BGDĐTcủa Bộ trưởng Bộ Giáo dục và Đào tạo, về việc sửa đổi, bổ sung một số điều của quy chế thi trung học phổ thông quốc gia, ngày 10 tháng 03 năm 2016 Sách, tạp chí
Tiêu đề: về việc sửa đổi, bổ sung một số điều của quy chế thi trung học phổ thông quốc gia
[2]. Bộ Giáo dục và Đào tạo,Thông tư số 04/2017/TT-BGDĐT của Bộ trưởng Bộ Giáo dục và Đào tạo, về việc sửa đổi, bổ sung một số điều của quy chế thi trung học phổ thông quốc gia, ngày 25 tháng 01 năm 2017 Sách, tạp chí
Tiêu đề: về việc sửa đổi, bổ sung một số điều của quy chế thi trung học phổ thông quốc gia
[3]. Oyelade, O. J., Oladipupo, O. O., Obagbuwa, I. C. (2010), “Application of k Means Clustering algorithm for prediction of Students Academic Performance”, Inter. Journal of Computer Science and Information Security, 7(1), pp. 292-295 Sách, tạp chí
Tiêu đề: Application of k Means Clustering algorithm for prediction of Students Academic Performance
Tác giả: Oyelade, O. J., Oladipupo, O. O., Obagbuwa, I. C
Năm: 2010
[4]. Shaukat, K., Nawaz, I., Aslam, S., Zaheer, S. and Shaukat, U. (2016), “Student's performance in the context of data mining”, International Multi- Topic Conference (INMIC), IEEE, pp. 1-8 Sách, tạp chí
Tiêu đề: Student's performance in the context of data mining
Tác giả: Shaukat, K., Nawaz, I., Aslam, S., Zaheer, S. and Shaukat, U
Năm: 2016
[5].Zhongxiang Fan, Yan Sun, Hong Luo (2017), “Clustering of College Students Based on Improved K-means Algorithm”, Journal of Computers, 28(6), pp. 195-203 Sách, tạp chí
Tiêu đề: Clustering of College Students Based on Improved K-means Algorithm
Tác giả: Zhongxiang Fan, Yan Sun, Hong Luo
Năm: 2017
[6]. Sari, I., Maseleno, A., Satria, F., & Muslihudin, M. (2018), “Application model of k-means clustering: insights into promotion strategy of vocational high school”, Inter. Journal of Engineering & Tech., 7(2.27), pp. 182-187 Sách, tạp chí
Tiêu đề: Application model of k-means clustering: insights into promotion strategy of vocational high school
Tác giả: Sari, I., Maseleno, A., Satria, F., & Muslihudin, M
Năm: 2018
[7]. Lee, Y. (2019) “Using self-organizing map and clustering to investigate problem-solving patterns in the massive open online course: an exploratory study”, Journal of Educational Computing Research, 57(2), pp. 471-490 Sách, tạp chí
Tiêu đề: Using self-organizing map and clustering to investigate problem-solving patterns in the massive open online course: an exploratory study
[9]. Khadir, A. S. A., Amanullah, K. M., & Shankar, P. G. (2015), “Student’s academic performance analysis using SOM”, International Journal for Scientific Research and Development, 3(02), pp. 1037-1039 Sách, tạp chí
Tiêu đề: Student’s academic performance analysis using SOM
Tác giả: Khadir, A. S. A., Amanullah, K. M., & Shankar, P. G
Năm: 2015
[10]. Crivei, L. M., Czibula, G., Ciubotariu, G., & Dindelegan, M. (2020), “Unsupervised learning based mining of academic data sets for students’performance analysis”, International Symposium on Applied Computational Intelligence and Informatics (SACI), IEEE, pp. 11-16 Sách, tạp chí
Tiêu đề: Unsupervised learning based mining of academic data sets for students’ performance analysis
Tác giả: Crivei, L. M., Czibula, G., Ciubotariu, G., & Dindelegan, M
Năm: 2020
[11]. Purbasari, I. Y., Puspaningrum, E. Y., & Putra, A. B. S. (2020),“Using Self-Organizing Map (SOM) for Clustering and Visualization of New Students based on Grades”, Journal of Physics: Conference Series, 1569(2), pp. 1-6 Sách, tạp chí
Tiêu đề: Using Self-Organizing Map (SOM) for Clustering and Visualization of New Students based on Grades
Tác giả: Purbasari, I. Y., Puspaningrum, E. Y., & Putra, A. B. S
Năm: 2020
[13]. A. Şahiner, R. Akbay, N. Yilmaz (2019), “Fuzzy Logic Modeling and Optimization of Academic Achievement of Students”, Yildiz Journal of Educational Research, 4(1), pp. 85-100 Sách, tạp chí
Tiêu đề: Fuzzy Logic Modeling and Optimization of Academic Achievement of Students
Tác giả: A. Şahiner, R. Akbay, N. Yilmaz
Năm: 2019
[14]. D. LeJeune, R. G. Baraniuk, R. Heckel (2019), “Adaptive Estimation for Approximate k-Nearest-Neighbor Computations”, Proceedings of the 22nd International Conference on Artificial Intelligence and Statistics (AISTATS) 2019, Naha, Okinawa, Japan, pp.1-11 Sách, tạp chí
Tiêu đề: Adaptive Estimation for Approximate k-Nearest-Neighbor Computations
Tác giả: D. LeJeune, R. G. Baraniuk, R. Heckel
Năm: 2019

HÌNH ẢNH LIÊN QUAN

Hình 1.3. Mơ hình gom cụm K-means - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 1.3. Mơ hình gom cụm K-means (Trang 17)
Hình 1.4. Mơ hình phân lớp - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 1.4. Mơ hình phân lớp (Trang 18)
Hình 1.6. Mơ hình tổng quát hệ thống tư vấnDL học sinh  - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 1.6. Mơ hình tổng quát hệ thống tư vấnDL học sinh (Trang 21)
Hình 2.1. Mơ hình mạng SOM - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 2.1. Mơ hình mạng SOM (Trang 41)
Thực hiện thuật tốn SOMWinner, ta cĩ bảng sau: wi1  *x1 wi2 *x2 wi3 *x3 wi4 *x4 wi5 *x5 wi6 *x6 wi7 *x7 wi8 *x8 wi9 *x9 wi10 *x10  wi11 *x11  wi12  - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
h ực hiện thuật tốn SOMWinner, ta cĩ bảng sau: wi1 *x1 wi2 *x2 wi3 *x3 wi4 *x4 wi5 *x5 wi6 *x6 wi7 *x7 wi8 *x8 wi9 *x9 wi10 *x10 wi11 *x11 wi12 (Trang 46)
Thực hiện sắp xếp theo độ đo Euclide ta cĩ bảng sau: - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
h ực hiện sắp xếp theo độ đo Euclide ta cĩ bảng sau: (Trang 48)
Hình 2.2. Mơ hình hệ thống tư vấn học sinh - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 2.2. Mơ hình hệ thống tư vấn học sinh (Trang 49)
Pha xử lý dữ liệu: tạo mơ hình SOM - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
ha xử lý dữ liệu: tạo mơ hình SOM (Trang 50)
Hình 2.4. Lưu đồ dự báo và tư vấn học sinh - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 2.4. Lưu đồ dự báo và tư vấn học sinh (Trang 51)
3.2. MƠ HÌNH THỰC NGHIỆM - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
3.2. MƠ HÌNH THỰC NGHIỆM (Trang 54)
Hình 3.2. Sơ đồ lớp của hệ thống - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 3.2. Sơ đồ lớp của hệ thống (Trang 55)
Hình 3.3. Phân cụm dữ liệu học sinh (1075 mẫu) trên máy server - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 3.3. Phân cụm dữ liệu học sinh (1075 mẫu) trên máy server (Trang 60)
Hình 3.4. Một mơ tả dữ liệu cho cụm thứ nhất - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 3.4. Một mơ tả dữ liệu cho cụm thứ nhất (Trang 61)
Hình 3.6 mơ tả quá trình dự báo và khuyến nghị chọn tổ hợp mơn thi tốt nghiệp THPT Quốc gia với đầu vào là thơng tin của học sinh, kết quả là dự báo  về học lực, danh hiệu, điểm tổ hợp mơn KHTN, điểm tổ hợp mơn KHXH và từ  đĩ đưa ra kiến nghị chọn mơn tổ  - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 3.6 mơ tả quá trình dự báo và khuyến nghị chọn tổ hợp mơn thi tốt nghiệp THPT Quốc gia với đầu vào là thơng tin của học sinh, kết quả là dự báo về học lực, danh hiệu, điểm tổ hợp mơn KHTN, điểm tổ hợp mơn KHXH và từ đĩ đưa ra kiến nghị chọn mơn tổ (Trang 62)
Hình 3.6. Quá trình dự báo chọn mơn thi cho học sinh - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 3.6. Quá trình dự báo chọn mơn thi cho học sinh (Trang 62)
Hình 3.7 và hình 3.11 là đồ thị mơ tả độ chính xác trung bình của việc dự báo học lực theo từng nhĩm học sinh ứng với bộ dữ liệu cĩ 1073 mẫu - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 3.7 và hình 3.11 là đồ thị mơ tả độ chính xác trung bình của việc dự báo học lực theo từng nhĩm học sinh ứng với bộ dữ liệu cĩ 1073 mẫu (Trang 63)
Hình 3.8 Mơ tả độ chính xác về dự báo danh hiệu cho học sinh - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 3.8 Mơ tả độ chính xác về dự báo danh hiệu cho học sinh (Trang 64)
Hình 3.9 và hình 3.13 mơ tả về độ chính xác của việc chọn tổ hợp mơn thi KHTN và KHXH - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 3.9 và hình 3.13 mơ tả về độ chính xác của việc chọn tổ hợp mơn thi KHTN và KHXH (Trang 64)
Hình 3.10. Thời gian dự báo trung bình cho mỗi mẫu dữ liệu - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 3.10. Thời gian dự báo trung bình cho mỗi mẫu dữ liệu (Trang 65)
Theo như hình 3.10 và hình 3.14, thời gian dự báo cho mỗi mẫu dữ liệu là tương đối nhanh và cĩ thể áp dụng cho các bộ dữ liệu thực tế và cĩ thể triển  khai cho người dung để thực hiện quá trình tư vấn chọn lựa mơn thi tổ hợp - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
heo như hình 3.10 và hình 3.14, thời gian dự báo cho mỗi mẫu dữ liệu là tương đối nhanh và cĩ thể áp dụng cho các bộ dữ liệu thực tế và cĩ thể triển khai cho người dung để thực hiện quá trình tư vấn chọn lựa mơn thi tổ hợp (Trang 65)
Hình 3.11. Mơ tả độ chính xác về học lực của học sinh - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 3.11. Mơ tả độ chính xác về học lực của học sinh (Trang 66)
Hình 3.12 Mơ tả độ chính xác về dự báo danh hiệu cho học sinh - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 3.12 Mơ tả độ chính xác về dự báo danh hiệu cho học sinh (Trang 66)
Hình 3.14. Thời gian dự báo trung bình cho mỗi mẫu dữ liệu - Hệ tư vấn cho học sinh chọn tổ hợp môn thi tốt nghiệp trung học phổ thông quốc gia
Hình 3.14. Thời gian dự báo trung bình cho mỗi mẫu dữ liệu (Trang 67)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w