Phân tích câu hỏi - CƠ SỞ LÍ LUẬN VÀ THỰC TIỄN VỀ- 123docz.net

CHƯƠNG 1: CƠ SỞ LÍ LUẬN VÀ THỰC TIỄN VỀ XÂY DỰNG VÀ SỬ DỤNG CÂU HỎI TRẮC NGHIỆM TRONG KIỂM TRA ĐÁNH GIÁ DỤNG CÂU HỎI TRẮC NGHIỆM TRONG KIỂM TRA ĐÁNH GIÁ

1.4. Phân tích câu hỏi

1.4.1. Mục đích của việc phân tích câu hỏi

Sau khi chấm bài, ghi điểm của một bài kiểm tra TNKQ, GV cần đi đánh giá hiệu quả của từng câu hỏi. Muốn vậy, chúng ta cần phải phân tích các câu trả lời của HS cho mỗi câu hỏi TNKQ. Việc phân tích này nhằm mục đích giúp GV đánh giá năng lực của HS cũng như mức độ thành công của phương pháp dạy học để kịp thời thay đổi phương pháp dạy học cho phù hợp với tình hình thực tiễn. Đồng thời qua việc phân tích câu hỏi chúng ta có thể xem xét việc trả lời mỗi câu hỏi của HS như thế nào, từ đó loại bỏ những câu hỏi chưa tốt, sửa chữa những câu hỏi có thể sửa được để làm tăng chất lượng của các câu hỏi thi và giữ lại những câu hỏi đáp ứng được yêu cầu đặt ra từ đó có thể dùng để đo lường kết quả học tập của HS một cách hữu hiệu hơn [27].

1.4.2. Phương pháp phân tích câu hỏi

Phân tích câu hỏi có thể được thực hiện bằng một trong hai phương pháp sau đây [27]:

* Phương pháp chuyên gia: Phương pháp này được tiến hành bằng cách đề nghị một số chuyên gia cho ý kiến nhận xét về những câu hỏi cụ thể theo một số tiêu chí đề ra. Những người được hỏi có thể là các chuyên gia môn học, chuyên gia soạn thảo văn bản, thậm chí là một số thí sinh. Cách tiếp cận này đảm bảo hai nguyên tắc:

- Người được hỏi phải là người có khả năng bình phẩm, phê phán các câu hỏi.

- Các câu hỏi được viết theo một nguyên tắc đã được xác định và có các tiêu chí để bình phẩm, phê phán.

* Phương pháp định lượng: Là phương pháp phân tích thống kê kết quả làm

bài của HS, sau khi có kết quả, nhập dữ liệu để phân tích. Việc này thường được làm trong quá trình thử nghiệm các câu hỏi. Mục đích chính của thử nghiệm là thu thập dữ liệu để phân tích các câu hỏi kiểm tra, chỉ ra những câu hỏi đạt yêu cầu và những câu chưa đạt yêu cầu cần phải chỉnh sửa hoặc loại bỏ.

Một số thống kê có thể chỉ ra những thuộc tính của câu hỏi thi, qua đó chúng ta biết được câu hỏi nào tốt và chưa tốt. Các nhà nghiên cứu đã phân loại các chỉ số thường được sử dụng trong phân tích định lượng như sau:

- Những chỉ số mô tả sự phân bố trả lời của các thí sinh về một câu hỏi cụ thể (trung bình cộng và phương sai trả lời của thí sinh).

- Những chỉ số mô tả mức độ của mối quan hệ giữa sự trả lời của học sinh về một câu hỏi và những tiêu chí cụ thể đang được quan tâm.

- Những chỉ số liên quan đến phương sai của câu hỏi kiểm tra và mối liên hệ với những tiêu chí cụ thể.

Trong những bài kiểm tra TNKQ dùng ở lớp học, GV thường quan tâm đánh giá câu hỏi qua hai đại lượng là độ khó và độ phân biệt của câu trắc nghiệm. Tuy nhiên trong quá trình soạn thảo một câu hỏi hoặc một bài trắc nghiệm thì người soạn chỉ có thể ước lượng độ khó hoặc độ phân biệt của nó bằng cảm tính. Giá trị thực của các đại lượng đó chỉ có thể được tính bằng bằng phương pháp thống kê sau khi cho một mẫu thí sinh làm thử nghiệm các câu hỏi trắc nghiệm và dựa vào kết quả thu được từ các bài làm của thí sinh để phân tích.

Để xác định độ khó, độ phân biệt người ta tiến hành như sau: chia mẫu HS tham gia làm bài kiểm tra thành 3 nhóm [28]:

+ Nhóm điểm cao H: Từ 25% đến 27% số HS đạt điểm cao nhất.

+ Nhóm điểm thấp L: Từ 25% đến 27% số HS đạt điểm thấp nhất.

+ Nhóm điểm trung bình M: Từ 46% đến 50% số HS còn lại.

Tất nhiên, việc chia nhóm này chỉ là tương đối, nếu trong lớp học với số lượng HS không đông, có thể chỉ chia thành hai nhóm: Nhóm điểm thấp chiếm 50% và nhóm điểm cao là 50% còn lại. Lúc này độ khó và độ phân biệt được thống kê như sau:

Độ khó (Percent) của câu hỏi (giá trị p) bằng tỷ số phần trăm thí sinh làm đúng câu trắc nghiệm đó trên tổng số thí sinh tham gia làm làm bài kiểm tra. Độ khó của câu hỏi được tính bằng công thức:

𝒑 = 𝑵𝑯+ 𝑵𝑴 + 𝑵𝑳

𝑵 × 𝟏𝟎𝟎(%)

Trong đó:

N: tổng số HS tham gia làm bài kiểm tra.

NH: tổng số HS ở nhóm giỏi trả lời đúng câu hỏi.

NL: tổng số HS ở nhóm kém trả lời đúng câu hỏi.

NM: tổng số HS ở nhóm trung bình trả lời đúng câu hỏi.

Từ công thức chúng ta thấy, câu hỏi có độ khó p càng lớn thì càng dễ, cụ thể như sau:

+ 0 ≤ p ≤ 0,2: là câu hỏi rất khó.

+ 0,2 ≤ p ≤ 0,4: là câu hỏi khó.

+ 0,4 ≤ p ≤ 0,6: là câu hỏi trung bình.

+ 0,6 ≤ p ≤ 0,8: là câu hỏi dễ.

+ 0,8 ≤ p ≤ 1: là câu hỏi rất dễ.

Các chuyên gia biên soạn câu hỏi TNKQ thường lựa chọn các câu hỏi có hệ số p với 0,25 ≤ p ≤ 0,75 đối với bài kiểm tra trắc nghiệm dùng trong lớp học.

Khi lựa chọn các câu trắc nghiệm theo độ khó người ta thường phải loại các câu quá khó (không ai làm đúng) hoặc quá dễ (ai cũng làm đúng). Một đề trắc nghiệm tốt thường là đề có nhiều câu hỏi ở độ khó trung bình.

Độ phân biệt (Difference): Khi ra một câu hỏi hoặc một bài trắc nghiệm cho một nhóm HS nào đó, người ta thường muốn phân biệt trong nhóm ấy những người có năng lực khác nhau (giỏi, khá, trung bình,…), khả năng của câu trắc nghiệm thực hiện được sự phân biệt ấy được gọi là độ phân biệt. Độ phân biệt của một câu hỏi được tính bằng công thức:

𝑫 =𝑵𝑯− 𝑵𝑳

𝑵 (−1 ≤ 𝐷 ≤ 1) Trong đó:

N: tổng số HS tham gia làm bài kiểm tra.

NH: tổng số HS ở nhóm giỏi trả lời đúng câu hỏi.

NL: tổng số HS ở nhóm kém trả lời đúng câu hỏi.

Câu hỏi có độ phân biệt D càng cao thì càng tốt. Các chuyên gia biên soạn câu hỏi TNKQ thường lựa chọn câu hỏi có độ phân biệt D với 0,25 ≤ D ≤ 0,75, tuy nhiên vẫn có thể xem xét các câu hỏi có độ phân biệt lớn hơn 0,2.

Độ phân biệt của một câu hỏi liên quan đến độ khó. Nếu một câu trắc nghiệm dễ đến mức mọi thí sinh đều làm tốt, các điểm số đạt được chụm ở phần điểm cao, thì độ phân biệt của nó rất kém, vì mọi thí sinh đều có kết quả như nhau đối với bài trắc nghiệm đó. Cũng vậy, nếu một câu hỏi trắc nghiệm khó đến mức mọi thí sinh đều làm không được, các điểm số đạt được chụm ở phần điểm thấp, thì độ phân biệt của nó cũng rất kém. Muốn có độ phân biệt tốt thì câu hỏi trắc nghiệm phải có độ khó ở mức trung bình.

1.4.3. Lý thuyết Ứng đáp câu hỏi (IRT)

Hiện nay, người ta thường phân chia lý thuyết trắc nghiệm thành hai loại là lý

thuyết khảo thí cổ điển và lý thuyết khảo thí hiện đại.

Ngay khi vừa ra đời, lý thuyết khảo thí cổ điển đạt được nhiều thành tựu, tạo cơ sở khoa học để thiết kế các phép đo tương đối chính xác. Tuy nhiên, lý thuyết này còn một số hạn chế như sau:

Hạn chế cơ bản nhất của lý thuyết khảo thí cổ điển là không tách biệt được các đặc trưng của thí sinh độc lập với các đặc trưng của đề trắc nghiệm, đặc trưng này chỉ có thể giải thích trong mối quan hệ với đặc trưng kia.

Hạn chế tiếp theo của lý thuyết khảo thí cổ điển nằm ở định nghĩa của độ tin cậy.

Theo lý thuyết khảo thí cổ điển, độ tin cậy là “tương quan giữa các điểm của hai đề trắc nghiệm tương đương”. Trong thực tế không thể có các đề trắc nghiệm thỏa mãn tiêu chí tương đương.

Thêm một hạn chế nữa của lý thuyết khảo thí cổ điển là lý thuyết này xem xét việc ứng đáp ở mức độ đề trắc nghiệm chứ không phải ở mức độ câu hỏi trắc nghiệm.

Do đó không có cơ sở để xác định xem một thí sinh nào đó ứng đáp tốt ra sao đối với một câu hỏi đặt ra cho họ [28].

Từ những hạn chế như vậy, cho nên khi lý thuyết khảo thí hiện đại ra đời, thì nó đã dần thay thế cho lý thuyết khảo thí cổ điển. Lý thuyết khảo thí hiện đại với việc sử dụng lý thuyết Ứng đáp câu hỏi thường gọi là lý thuyết IRT (viết tắt của Item Response Theory) với mô hình Rasch là công cụ được ứng dụng nhiều nhất hiện nay. Trong khuôn khổ luận văn này, chúng tôi quan tâm đến các vấn đề về lý thuyết khảo thí hiện đại. Lý thuyết IRT được xây dựng trên khoa học về xác suất và thống kê. Các công trình quan trọng của lý thuyết IRT ra đời từ sau thập niên 70 đã đạt được nhiều thành tựu quan trọng, được công nhận và áp dụng phổ biến trong thực tiễn. Lý thuyết IRT được phát triển rất nhanh nhờ khả năng tính toán bằng máy vi tính và đạt được những thành tựu quan trọng nâng cao độ chính xác của các câu hỏi trắc nghiệm và đề trắc nghiệm. Lý thuyết IRT của ông Georg Rasch mô hình hóa mối quan hệ giữa mức độ năng lực của người làm trắc nghiệm và đáp ứng của người ấy với câu trắc nghiệm. Mỗi HS đứng trước một câu hỏi trắc nghiệm sẽ ứng đáp như thế nào, điều đó phụ thuộc vào năng lực tiềm ẩn của HS và các đặc trưng của câu hỏi. Hành vi ứng đáp này được mô tả bằng một hàm đặc trưng câu hỏi cho biết xác suất trả lời đúng câu hỏi tùy theo tương quan giữa năng lực của HS. Mỗi câu trắc nghiệm được mô tả bằng một thông số (độ khó) ký hiệu là δ và mỗi người làm trắc nghiệm được mô tả bằng một thông số (năng lực) kí hiệu là θ. Mỗi khi một người cố gắng trả lời một câu hỏi, các thông số độ khó và khả năng tác động lẫn nhau, để cho một xác suất đáp ứng của người làm trắc nghiệm ấy. Dạng toán học của mô hình này là:

P(θ) = exp⁡(θ − δ) 1 + exp⁡(θ − δ)

Trong đó, P(θ) là xác suất để thí sinh n có năng lực θ trả lời đúng câu hỏi có độ khó δ [10], [11], [20], [21], [26], [31].

Xác suất trả lời đúng một câu hỏi được biểu thị bằng một hàm số liên quan đến năng lực của thí sinh θ. Xác suất đó là hàm P(θ) – một đường cong đặc trưng của câu hỏi (Item Characteristic Curves - ICC) [26].

1.4.4. Các chức năng cơ bản trong phần mềm Quest, Conquest hỗ trợ lý thuyết IRT Áp dụng lý thuyết IRT, ứng dụng công nghệ thông tin, hiện nay có rất nhiều các phần mềm toán học có thể giúp chúng ta nhanh chóng phân tích câu hỏi TNKQ. Trong khuôn khổ đề này chúng tôi sử dụng phần mềm Quest và Conquest được soạn thảo ở Úc để phân tích câu hỏi. Phần mềm Quest và Conquest là phần mềm phân tích và đánh giá câu hỏi được xây dựng dựa trên lý thuyết IRT, nó cung cấp một phạm vi linh hoạt và toàn diện về các mô hình ứng đáp câu hỏi đến người phân tích, cho phép chúng ta khảo sát các thuộc tính về đánh giá năng lực của thí sinh làm bài kiểm tra. Phần mềm này có thể giúp chúng ta tính toán cho kết quả về độ khó, độ phân biệt của câu trắc nghiệm và khả năng của người làm trắc nghiệm, phân tích sự phù hợp của câu trắc nghiệm và của người làm trắc nghiệm, đồng thời cũng có thể chỉ ra kết quả bất thường của người làm câu trắc nghiệm nếu có.

Khi sử dụng phần mềm Quest, sau khi chương trình chạy xong các tệp tin kết quả (*.map, *.ita) sẽ được lưu vào thư mục chứa tệp tin điều khiển. Chúng ta mở tệp tin

*.map để xem kết quả chung, căn cứ vào các thông tin thu được trong tệp tin *.map để đưa ra nhận xét dữ liệu của bài kiểm tra có phù hợp với mô hình Rasch hay không. Khi dữ liệu phù hợp với mô hình Rasch thì trị số kỳ vọng của các bình phương trung bình (mean square) xấp xỉ bằng 1 và độ lệch chuẩn SD xấp xỉ bằng 0. Đồng thời từ tệp tin

*.map chúng ta thấy được năng lực trung bình của mẫu thí sinh (case estimates) tham gia bài kiểm tra so với độ khó chung của bài kiểm tra (item estimates); kiểm tra được mức độ phù hợp của các câu hỏi với mô hình Rasch trong biểu đồ Item Fit, mỗi câu trắc nghiệm biểu thị bằng dấu *, những câu trắc nghiệm nằm trong hai đường chấm thẳng đứng có giá trị trung bình bình phương độ phù hợp INFIT MNSQ nằm trong khoảng từ 0,77 đến 1,30 sẽ phù hợp với mô hình Rasch, nếu câu trắc nghiệm nào không phù hợp thì loại bỏ; và từ tệp tin *.map chúng ta thu được biểu đồ phân bố độ khó câu hỏi thi và năng lực thí sinh, biểu đồ này cho thấy sự phù hợp của đề thi đối với thí sinh dự thi. Tệp tin *.ita cho phép chúng ta phân tích được các chỉ số sau:

Categories: Câu chọn, với các lựa chọn A, B, C, D trong câu trắc nghiệm, phương án đúng được đánh dấu (*).

Disc : Độ phân biệt của câu hỏi giữa các nhóm thí sinh, độ phân biệt phải nằm trong khoảng 0,25 – 0,75 đối với các bài kiểm tra trong lớp học.

Percent : Tỉ lệ phần trăm của một phương án là tỉ lệ giữa số thí sinh chọn phương án đó so với tổng số thí sinh làm bài kiểm tra.

Pt – Biserial : Hệ số tương quan point biserial. Cần loại bỏ những câu hỏi có mối tương quan thấp hoặc dưới 0 sẽ làm tăng độ tin cậy của bài kiểm tra.

P-value: Xác suất thống kê khả năng mỗi phương án trả lời được lựa chọn, phải nhỏ hơn hoặc bằng 0,05.

Mean Ability: Thang đo logarit năng lực của thí sinh đưa ra sự lựa chọn của mình.

Phương án trả lời đúng phải có Mean Ability cao hơn các phương án trả lời sai.

Step Lables 1: Giữa giá trị 0 và 1 chỉ có 1 bước, thí sinh thực hiện được bước này khi trả lời đúng.

Thresholds: Ngưỡng để vượt qua, thực chất là độ khó của câu hỏi trắc nghiệm.

Error: Sai số trong tính toán, thông thường nhỏ hơn 0,2.

Khi sử dụng phần mềm Conquest, sau khi chương trình chạy xong các tệp tin kết quả (*.itn, *.shw) sẽ được lưu vào thư mục chứa file điều khiển và các dạng đồ thị theo mong muốn khi sử dụng câu lệnh phù hợp. Trong đó tệp tin *.shw hiển thị kết quả của quá trình phân tích, tệp tin *.itn hiển thị chi tiết phân tích từng câu hỏi, kết quả của các file này hoàn toàn tương tự như kết quả phân tích bằng chương trình Quest. Các dạng đồ thị chúng ta có thể thu được bằng phần mềm Conquest như sau: Đường cong đặc trưng câu hỏi (ICC), đường cong đặc trưng cho cả đề thi (TCC), đường cong thông tin cho từng câu hỏi (iinfo), đường cong thông tin cho cả đề thi (tinfo) [27], [34].

1.4.5. Những ưu điểm của lý thuyết Ứng đáp câu hỏi

So với lý thuyết trắc nghiệm cổ điển, lý thuyết trắc nghiệm hiện đại với IRT có những ưu việt quan trọng như sau:

Với IRT, các tham số đặc trưng của câu hỏi (liên quan đến độ khó, độ phân biệt, mức độ đoán mò) không phụ thuộc mẫu thử để định cỡ câu hỏi (sample-free) và năng lực đo được của thí sinh không phụ thuộc vào bài trắc nghiệm cụ thể (item-free) được lấy từ ngân hàng câu hỏi đã được định cỡ.

Theo IRT, mỗi câu hỏi có các thuộc tính đặc trưng cho nó và mỗi thí sinh ở một trình độ nào đó có một năng lực tiềm ẩn xác định, các thuộc tính và đặc trưng này không phụ thuộc vào phép đo, hoặc nói cách khác, chúng là bất biến (invariance).

IRT cho phép tính các hàm thông tin của từng câu hỏi, của cả đề trắc nghiệm và sai số chuẩn của phép đo theo các mức năng lực tiềm ẩn chứ không phải một sai số chuẩn trung bình chung cho cả phép đo như trắc nghiệm cổ điển. Từ đó có thể thiết kế một đề trắc nghiệm cho phép đo chính xác khoảng năng lực nào mà ta mong muốn.

Hơn nữa, IRT cho phép thiết kế các đề trắc nghiệm với mức độ tương đương rất cao để đảm bảo các đề trắc nghiệm khác nhau có thể cho cùng một kết quả như nhau khi đánh giá năng lực của một thí sinh nào đó.

Các thành tựu quan trọng đó của IRT đã nâng độ chính xác của phép đo lường trong giáo dục lên một tầm cao mới về chất so với các lý thuyết đo lường cổ điển. Từ thành tựu tổng quát đó của IRT, người ta có thể đưa ra các quy trình để xây dựng ngân hàng câu hỏi, phân tích các kết quả TNKQ để hiệu chỉnh ngân hàng câu hỏi, chủ động thiết kế các đề trắc nghiệm theo các mục đích đặt ra [28].