Ưu điểm: Tiết kiệm hơn cả về mặt thời gian & chi phí so với điều tra toàn bộ Do điều tra ít đơn vị nên có thể mở rộng nội dung điều tra đi sâu nghiên cứu chi tiết nhiều mặt của hiện
Trang 1Trần Lê Hương Linh
Lê Minh Thảo
Nguyễn Yến Dung
Hà Nội, tháng 09 năm 2023
Trang 2 Cỡ mẫu: là số lượng đơn vị được chọn để điều tra Cỡ mẫu phụ thuộc vào 5 yếu tố sau:
Khả năng vật chất, tài chính, năng lực
Yêu cầu về độ chính xác
Yêu cầu về số lượng tiêu thức điều tra
Mức độ thuần nhất của tổng thể
Số lượng đơn vị trong tổng thể điều tra
2 Ưu Nhược của điều tra chọn mẫu-
a Ưu điểm:
Tiết kiệm hơn cả về mặt thời gian & chi phí so với điều tra toàn bộ
Do điều tra ít đơn vị nên có thể mở rộng nội dung điều tra đi sâu nghiên cứu chi tiết nhiều mặt của hiện tượng
Tài liệu thu được trong điều tra chọn mẫu có độ chính xác cao hơn do giảm được sai số phi chọn mẫu:
Do phạm vi điều tra nhỏ hơn nên được chuẩn bị và kiểm tra kỹ lượng tỉ mỉ hơn cả trước, trong và sau cuộc điều tra
Do số đơn vị điều tra ít nên cần ít điều tra viên, do đó có điều kiện chọn được người có trình độ chuyên môn cao
Dựa trên cơ sở khoa học của lý thuyết xác suất thống kê và quy luật số lớn nên có thể tính được sai số và độ tin cậy của tài liệu
Tiến hành nhanh gọn, bảo đảm tính kịp thời của số liệu thống kê Mặt khác, điều tra chọn mẫu không đòi hỏi phải có tổ chức lớn, chỉ cần một cơ quan hoặc một nhóm người cũng có thể tiến hành điều tra được
Trang 33
c Các trường hợp vận dụng điều tra chọn mẫu
Sử dụng để thay thế điều tra toàn bộ trong trường hợp đối tượng nghiên cứu cho phép vừa có thể điều tra toàn bộ vừa có thể điều tra chọn mẫu hoặc với những trường hợp không cho phép điều tra toàn bộ, hoặc do quy mô điều tra toàn bộ quá lớn, cần thu thập nhiều chỉ tiêu nhưng không đủ kinh phí và nhân lực để tiến hành điều tra toàn bộ
Kết hợp với điều tra toàn bộ để mở rộng nội dung điều tra và đánh giá kết quả của điều tra toàn bộ
Sử dụng để tổng hợp nhanh tài liệu của điều tra toàn bộ phục vụ kịp thời yêu cầu thông tin cho các đối tượng sử dụng
Ví dụ: Trong tổng điều tra dân số việc tổng hợp tài liệu đòi hỏi phải có thời gian dài, vì vậy
để kịp thời phục vụ cho công tác lãnh đạo và kế hoạch hoá có thể sử dụng điều tra chọn mẫu để có được tài liệu một cách nhanh chóng
Sử dụng trong trường hợp muốn so sánh các hiện tượng với nhau hoặc muốn đưa ra một nhận định nào đó mà chưa có tài liệu cụ thể (để kiểm tra giả thiết thống kê)
Ví dụ: Sau một thời gian thử nghiệm hai phương pháp giáo dục trẻ em, có ý kiến cho rằng, phương pháp A tốt hơn phương pháp B Để kiểm tra giả thiết đó có đúng hay không, người
ta tiến hành chọn 2 đứa trẻ và sẽ cho chúng được đào tạo theo hai phương pháp khác nhau
ở trên Sau đó, sử dụng phương pháp thống kê phù hợp để kết luận xem liệu có cơ sở nào
để bác bỏ giả thiết đặt ra ở trên hay không
3 Các phương pháp chọn mẫu
a Chọn kinh nghiệm và xét đoán (chọn mẫu phi xác suất)
Lấy mẫu thuận tiện
Khái niệm: Chọn mẫu thuận tiện là lấy mẫu dựa trên sự thuận lợi hay tính dễ tiếp cận của đối tượng, ở những nơi mà nhân viên điều tra có nhiều khả năng gặp được đối tượng
Ưu điểm: Chọn phần tử dựa trên sự thuận tiện, dễ tiếp cận, dễ lấy thông tin
Nhược điểm:
Trang 44
Không xác định được sai số lấy mẫu và không thể kết luận cho tổng thể từ kết quả mẫu
Sử dụng phổ biến khi giới hạn về thời gian và chi phí
Ứng dụng: Lấy mẫu thuận tiện thường được dùng trong nghiên cứu khám phá, để xác định ý nghĩa thực tiễn của vấn đề nghiên cứu; hoặc
để kiểm tra trước bảng câu hỏi nhằm hoàn chỉnh bảng; hoặc khi muốn ước lượng sơ bộ về vấn đề đang quan tâm mà không muốn mất nhiều thời gian và chi phí
Ví dụ: Nhân viên điều tra có thể chặn bất cứ người nào mà họ gặp ở trung tâm thương mại, đường phố, cửa hàng, để xin thực hiện cuộc phỏng vấn Nếu người được phỏng vấn không đồng ý thì họ chuyển
sang đối tượng khác
Lấy mẫu tích lũy nhanh
Khái niệm: Theo phương pháp này, những đơn vị lấy mẫu (hay phần tử) ban đầu được lựa chọn bằng cách sử dụng các phương pháp xác suất, nhưng những đơn vị bổ sung tiếp đó được xác định từ thông tin được cung cấp bởi các đơn vị lấy mẫu ban đầu Dù phương pháp xác suất nào được sử dụng để lựa chọn những đơn vị lấy mẫu ban đầu, thì toàn bộ mẫu vẫn được coi là mẫu phi xác suất vì những quy nguyên theo sau được chứa đựng trong mẫu ấy
Bắt đầu từ một phần tử được chọn lọc nào đó Sau đó nhờ người này giới thiệu hoặc định danh những người khác cùng đặc tính như họ để phỏng vấn tiếp
Đặc điểm:
Ưu điểm: Giảm kích thước mẫu và thời gian hao phí
Nhược điểm: Có thể có sai lệch vì những người được giới thiệu
ra thường có một số đặc điểm tương đồng về nhân khẩu học hay tâm lý, sở thích (chọn mẫu quá nhiều ở 1 nhóm nào đó và
bỏ sót các nhóm mẫu/ quần thể khác) Tuy nhiên, kỹ thuật chọn mẫu RDS (Respondent driven sampling Dây chuyền có kiểm - soát) đã khắc phục được hạn chế của phương pháp này thông qua hình thức chi trả kép: trả tiền cho đối tượng tham gia nghiên cứu và trả tiền khi họ mời thêm được đối tượng tham gia nghiên cứu đạt chất lượng Đồng thời, đối tượng NC cũng chỉ được mời thêm đối tượng mới với số lượng hạn chế tùy theo thiết kế của NC, thường là từ 3 5 đối tượng Với phương - thức tuyển dụng này và qua vòng tuyển dụng đủ lớn (5 - 7
Trang 55
vòng) thì mẫu được chọn vào NC sẽ đạt tính đại diện cho quần thể NC mà không còn phụ thuộc vào đặc tính cá nhân của đối tượng nghiên cứu đầu tiên
Ứng dụng: Áp dụng cho các nghiên cứu khá đặc biệt, mẫu khó tìm hoặc khó tiếp cận
Ví dụ: Quần thể nghiên cứu khó tiếp cận (hard to reach population) trong lĩnh vực y tế công cộng thường được nhắc đến như: nhóm đối tượng tiêm chích ma túy, phụ nữ mại dâm, người vô gia cư, nam quan
hệ tình dục đồng tưới hoặc nhóm chuyển giới Chọn mẫu trong quần thể “khó tiếp cận” luôn gặp khó khăn do không có khung mẫu (không
có danh sách đối tượng của quần thể) đồng thời các nhóm này chiếm
tỷ lệ nhỏ trong quần thể chung và người bên ngoài khó có thể “xâm nhập” do nhiều nguyên nhân, trong đó có kỳ thị xã hội
Lấy mẫu phán đoán
Khái niệm: Là phương pháp mà phỏng vấn viên là người tự đưa ra phán đoán về đối tượng cần chọn vào mẫu, khi xác định các nhóm đối tượng quan trọng trong quần thể Từ đó, xác định tỷ lệ chọn mẫu phù hợp cho các nhóm, với điều kiện các mẫu này có tính đại diện cho tổng thể nghiên cứu
Đặc điểm:
Là phương pháp phổ biến nhất trong nghiên cứu định tính
Chọn tập hợp những người tham gia dựa theo những tiêu chí có tính đại diện liên quan tới 1 câu hỏi nghiên cứu
Cỡ mẫu có thể ấn định hoặc không ấn đinh trước khi thu thập thông tin vì cỡ mẫu phụ thuộc vào:
Nguồn cung cấp thông tin
Hạn định về thời gian
Mục tiêu nghiên cứu
Tính đại diện của mẫu phụ thuộc nhiều vào kinh nghiệm và sự hiểu biết của người tổ chức việc điều tra và cả người đi thu thập dữ liệu
Ưu điểm:
Chọn phần tử dựa trên sự thuận tiện, dễ tiếp cận, dễ lấy thông tin (giống chọn mẫu thuận tiện), nếu có khả năng hoặc kinh nghiệm phán đoán tốt sẽ cho mẫu tốt hơn chọn mẫu thuận tiện
Trang 6để chọn ra người cần phỏng vấn
Lấy mẫu tỷ lệ
Khái niệm: Chọn mẫu kiểm tra tỷ lệ là phương pháp chọn mẫu mà trong đó người nghiên cứu cố gắng bảo đảm mẫu được lựa chọn có một tỷ lệ tương ứng với tỷ lệ tổng thể theo các tham số quan trọng nào
đó (tuổi tác, giới tính, nghề nghiệp ) Các phần tử trong mẫu cũng được chọn theo chủ ý của người nghiên cứu chứ không phải dựa vào quy luật ngẫu nhiên
Đặc điểm:
Mẫu tỷ lệ được xác định dựa trên tỷ lệ của các đặc điểm quan trọng trong quần thể, đảm bảo mẫu được lấy ra một cách có tính đại diện cho quần thể
Việc lựa chọn đối tượng trong mẫu được thực hiện dựa trên tỷ lệ đã xác định, giúp đảm bảo mẫu dược lấy ra một cách ngẫu nhiên và không chọn lọc
Phương pháp mẫu tỷ lệ cho phép kiểm soát kích thước mẫu cho từng đặc điểm quan trọng, giúp đảm bảo mẫu đủ lớn để đạt được độ chính xác cần thiết cho từng đặc điểm
Mẫu tỷ lệ có thể được sử dụng để lấy mẫu cho các nhóm dân số khác nhau, giúp đảm bảo tính đại diện cho tất cả các nhóm trong quần thể Mẫu tỷ lệ cho phép kiểm soát được sự phân bố của các đặc điểm quan trọng trong mẫu, giúp đảm bảo rằng mẫu có tính đại diện và đủ độ da dạng cho mỗi đặc điểm
Ưu điểm:
Mẫu được lựa chọn được đảm bảo là có tỷ lệ tương ứng theo các tham số quan trọng như tuổi, nghề nghiệp, giới tính
Trang 77
Các phần tử cũng được lựa chọn theo chủ ý của nhà nghiên cứu, mang tính chủ quan
Nhược điểm:
Chọn theo chủ ý nên kết quả có thể bị 1 chiều
Có thể xảy ra trường hợp không chọn được/ khó chọn mẫu bởi mẫu không tương ứng với các yêu cầu chung bởi một số lý do khách quan hoặc chủ quan
Ứng dụng: Phương pháp mẫu tỷ lệ được sử dụng phổ biến trong nghiên cứu khoa học, đặc biệt là trong các nghiên cứu xã hội như điều tra dân số, khảo sát ý kiến, nghiên cứu thị trường, khảo sát đối tượng khách hàng và nghiên cứu y tế
Ví dụ: Nếu ta muốn thực hiện một cuộc khảo sát về ý kiến của người dân về một chính sách chính phủ, ta có thể lựa chọn các đối tượng để tham gia vào nghiên cứu dựa trên các đặc điểm như giới tính, độ tuổi, vùng địa lý, trình độ học vấn và thu nhập Ta có thể xác định tỷ lệ cho mỗi đặc điểm này trong quần thể, ví dụ như 50% nam, 50% nữ, 30% dưới 30 tuổi, 40% trong khoảng từ 30 đến 50 tuổi và 30% trên 50 tuổi Sau đó, ta có thể lựa chọn các đối tượng để tham gia vào nghiên cứu dựa trên tỷ lệ này
b Chọn mẫu ngẫu nhiên (chọn mẫu theo xác suất)
Chọn mẫu ngẫu nhiên đơn giản
Khái niệm: Là phương pháp chọn mẫu trong đó tất cả các cá thể trong tổng thể có cùng cơ hội (cùng xác suất) để được chọn vào mẫu Mỗi đối tượng trong tổng thể được gán một con số, sau đó các con số được lựa chọn một cách ngẫu nhiên
Đặc điểm:
Ưu điểm: Là phương pháp chọn mẫu xác suất cơ bản và có thể lồng vào tất cả các phương pháp chọn mẫu xác suất phức tạp khác, cách làm đơn giản, tính ngẫu nhiên và tính đại diện cao
Nhược điểm:
Cần có một danh sách đơn vị mẫu để phục vụ chọn mẫu Điều này thường không thể thực hiện đối với mẫu lớn hoặc mẫu dao động
Trang 88
Các cá thể được chọn vào mẫu có thể phân bố tản mạn trong tổng thể, do vậy, việc thu thập dữ liệu rất tốn kém và mất thời gian
Cách chọn này không quan tâm đến các tầng, các nhóm đối tượng nghiên cứu trong tổng thể nên xác suất chọn vào mẫu có thể không đồng đều giữa các tầng dẫn đến kết quả chung có thể
bị ảnh hưởng
Ứng dụng: Thường vận dụng khi các đơn vị của tổng thể chung không phân bố quá rộng về mặt địa lý, các đơn vị khá đồng đều nhau về đặc điểm đang nghiên cứu Thường áp dụng trong kiểm tra chất lượng sản phẩm trong các dây chuyền sản xuất hàng loạt
Ví dụ: Tiến hành chọn ra 100 cơ sở rau sạch ở Đà Lạt Trong đó theo thống kê ở đây có 2000 doanh nghiệp rau sạch Từ danh sách các doanh nghiệp cho trước đánh số thứ tự, tiến hành chọn mẫu các doanh nghiệp theo phương pháp chọn mẫu ngẫu nhiên đơn giản bằng bảng
số ngẫu nhiên (hiện nay có các phần mềm thống kê hỗ trợ cho việc lấy mẫu ngẫu nhiên khá thuận lợi, đáp ứng được yêu cầu quy mô mẫu điều tra ngày càng lớn)
Chọn mẫu ngẫu nhiên có hệ thống
Khái niệm: Toàn bộ đối tượng trong tổng thể được liệt kê theo thứ tự định trước, sau đó quyết định khoảng cách các đối tượng được lựa chọn
Trình tự được tiến hành như sau:
- Trước hết sắp xếp các đơn vị tổng thể theo trình tự nào đó, sau đó đánh số thứ tự các đơn vị trong danh sách (Ví dụ: tăng dần hoặc giảm dần của lượng biến theo tiêu thức cần nghiên cứu; hoặc theo vần A,
Trang 99
Nhược điểm: Khung mẫu được thiết lập có tính chu kỳ nên mẫu có thể bị sai lệch
Ứng dụng: Phương pháp này thường được sử dụng khi các đơn vị trong tổng thể chung không đồng đều về đặc điểm và nằm ở vị trí địa
lý khác nhau
Ví dụ:
Chẳng hạn chúng ta tiến hành chọn ra 293 doanh nghiệp trong một địa phương có 3000 doanh nghiệp, theo phương pháp chọn mẫu ngẫu nhiên hệ thống, việc đầu tiên chúng ta sẽ tính khoảng cách d d = N /
n = 3000 / 293 = 10,23
Chúng ta sẽ làm tròn xuống, khoảng cách chọn được xác định d = 10 Tiếp theo, chúng ta sắp xếp danh sách các doanh nghiệp này theo tiêu thức nào đó (chẳng hạn theo tên doanh nghiệp hay theo phương hướng, )
Trong nhóm 10 doanh nghiệp đầu tiên sẽ lấy ngẫu nhiên một doanh nghiệp nào đó, (chẳng hạn lấy được doanh nghiệp thứ 6, tiến hành chọn các doanh nghiệp tiếp theo là doanh nghiệp thứ 16, 26, 36, 46, cho đến khi lấy đủ 293 doanh nghiệp)
Chọn mẫu ngẫu nhiên phân chùm
Khái niệm: Theo phương pháp chọn mẫu này, các đơn vị của tổng thể chung được chia thành các khối (chùm) với số lượng đơn vị có thể bằng hoặc không bằng nhau Từ các khối đó, người ta chọn ngẫu nhiên một số khối để điều tra Các đơn vị mẫu lúc này không phải là từng đơn vị lẻ tẻ mà từng khối đơn vị
Đặc điểm:
Ưu điểm:
Thường được áp dụng trong các nghiên cứu điều tra có một phạm vi rộng lớn, độ phân tán cao, danh sách của tất cả các cá thể trong tổng thể không thể có được trong khi chỉ có danh sách các chùm
Sự lựa chọn thường dễ hơn, chi phí cho nghiên cứu với mẫu chùm thường rẻ hơn nhiều do các cá thể trong một chùm thường gần nhau
Nhược điểm: Tính đại diện cho quần thể hoặc tính chính xác của mẫu được chọn theo phương pháp mẫu chùm thường thấp
Trang 1010
hơn so với mẫu được chọn bằng phương pháp ngẫu nhiên đơn (nếu có cùng cỡ mẫu)
Ứng dụng: Sử dụng khi không có sẵn danh sách đầy đủ của các đơn
vị trong tổng thể cần nghiên cứu hoặc khi tổng thể chung quá lớn, ví
dụ như cả một quốc gia
Chọn mẫu phân tổ
Khái niệm: Chọn mẫu phân tổ là phương pháp mà các đơn vị mẫu được chọn khi tổng thể chung đã được phân chia thành các tổ theo tiêu thức liên quan trực tiếp đến mục đích nghiên cứu Việc chọn các đơn
vị từ các tổ được tiến hành theo phương pháp chọn ngẫu nhiên Muốn chọn mẫu phân tổ, trước tiên phân chia tổng thể thành các tổ theo 1 tiêu thức hay nhiều tiêu thức có liên quan đến mục đích nghiên cứu (như phân tổ các doanh nghiệp theo vùng, theo khu vực, theo loại hình, theo quy mô,…) Sau đó trong từng tổ, dùng cách chọn mẫu ngẫu nhiên đơn giản hay chọn mẫu hệ thống để chọn ra các đơn vị của mẫu Đối với chọn mẫu phân tầng, số đơn vị chọn ra ở mỗi tổ có thể tuân theo tỷ lệ số đơn vị tổ đó chiếm trong tổng thể, hoặc có thể không tuân theo tỷ lệ Phương pháp phân tổ này phần nào cũng dựa vào những kinh nghiệm phán đoán chủ quan nên cần phải tuân theo những nguyên tắc chung khi tiến hành phân tổ như:
- Trong mỗi tổ phải đảm bảo tính đồng chất;
- Số tổ không nên chia quá ít hoặc quá nhiều;
- Số đơn vị mẫu của từng tổ phải đủ lớn để đảm bảo độ tin cậy cho suy rộng, hay ước lượng
Đặc điểm:
Ưu điểm:
Trang 1111
Phương pháp chọn mẫu này cho phép chọn được tổng thể mẫu
có kết cấu gần giống với kết cấu của tổng thể chung (trong trường hợp chọn theo tỉ lệ) nên tính đại biểu cao, sai số chọn mẫu nhỏ Phương pháp này khoa học hơn hai phương pháp chọn mẫu ngẫu nhiên đơn giản và chọn mẫu ngẫu nhiên hệ thống nên nó được áp dụng rộng rãi hơn, nhất là đối với hiện tượng cần điều tra có số đơn vị tổng thể lớn không thể chọn theo phương pháp chọn máy móc được Song cách chọn này đòi hỏi phải có sẵn các nguồn thông tin về tổng thể và có kiến thức phân tổ
Nhược điểm:
Cần phải thông tin, danh sách đầy đủ của các đơn vị mẫu để phục vụ cho chọn mẫu Điều này thường khó/ không thể có được với một mẫu lớn hoặc một mẫu giao động
Tổng thể phải bao gồm nhiều nhóm phần tử có đặc tính riêng biệt
Ứng dụng: Được áp dụng rộng rãi hơn, nhất là đối với hiện tượng cần điều tra có số đơn vị tổng thể lớn không thể chọn theo phương pháp chọn máy móc được với điều kiện có sẵn các nguồn thông tin về tổng thể và có kiến thức phân tổ
Ví dụ: Một toà soạn báo muốn tiến hành nghiên cứu trên một mẫu
1000 doanh nghiệp trên cả nước về sự quan tâm của họ đối với tờ báo nhằm tiếp thị việc đưa thông tin quảng cáo trên báo Toà soạn có thể căn cứ vào các tiêu thức : vùng địa lý (miền Bắc, miền Trung, miền Nam) ; hình thức sở hữu (quốc doanh, ngoài quốc doanh, công ty 100% vốn nước ngoài,…) để quyết định cơ cấu của mẫu nghiên cứu
4 Sai số trong điều tra chọn mẫu
Trang 1212
Căn cứ vào tính chất của các sai số, ta có thể phân biệt hai loại: sai số do đăng ký, ghi chép và sai số do tính đại diện
Sai số do đăng ký, ghi chép
Sai số này xảy ra đối với mọi cuộc điều tra thống kê Nó phát sinh do việc đăng kí
số liệu ban đầu không chính xác Nguyên nhân gây ra loại sai số này rất đa dạng,
có thể do cân đong, đo, đếm sai, tính toán sai, ghi chép sai, do dụng cụ đo lường không chuẩn xác, Ta có thể phân chia loại sai số này thành sai số ngẫu nhiên và
sai số có hệ thống
Sai số ngẫu nhiên: là sai số phát sinh một cách tình cờ, không có chủ định, không
có bất kì một sự sắp đặt trước nào của người tham gia điều tra (cả người hỏi và người trả lời) Nó xảy ra hoàn toàn ngẫu nhiên Loại sai số này chịu sự chi phối của quy luật số lớn, tức là nếu ta điều tra càng nhiều đơn vị, các sai lệch ngẫu nhiên sẽ có khả năng bù trừ, triệt tiêu nhau làm cho sai số chung càng nhỏ
Sai số có hệ thống: là sai số có chủ đích, thường xảy ra do chủ đích của người điều tra, người trả lời hoặc sai số một cách có hệ thống do lỗi của hệ thống đo lường, hệ thống thang đo được thiết kế không chuẩn xác,
Sai số do tính đại diện
Sai số này chỉ xảy ra trong điều tra chọn mẫu Nguyên nhân là do trong các cuộc điều tra này, người ta chỉ chọn một số đơn vị để điều tra thực tế Các đơn vị này không đủ đảm bảo đại diện cho toàn bộ tổng thể nên phát sinh sai số, ngay cả trong trường hợp việc lựa chọn số đơn vị để điều tra được thực hiện một cách hoàn toàn ngẫu nhiên
5 Đạo đức trong việc chọn mẫu nghiên cứu
a Khái niệm:
Một định nghĩa về đạo đức nghiên cứu trong các nghiên cứu xã hội được John
Barnes đưa ra năm 1979 Ông cho rằng “Đạo đức trong nghiên cứu khoa học là những điều đặt ra khi chúng ta quyết định giữa việc cần thực hiện một hành động này với những điều khác không chỉ xét trên tính thích hợp hay hiệu quả mà còn bằng việc tham khảo các tiêu chuẩn đúng hay sai về mặt đạo đức” (J.A Barnes, 1979; trang 16).
Barnes đã đưa ra sự phân định và đặt cơ sở cho quan điểm các quyết định đạo đức cần dựa trên các nguyên tắc chứ không dựa vào sự thích hợp Đây là một điển ghi nhớ quan trọng Các quyết định đạo đức không chỉ được xác định trên cơ sở sự thuận tiện cho nhà nghiên cứu hay đề tài nghiên cứu mà nhà nghiên cứu đó đang tham gia Người ta cần quan tâm đến điều gì là đúng, không chỉ đối với đề tài nghiên cứu, nhà tài trợ nghiên cứu hay nhà nghiên cứu mà còn đối với những người tham gia trong nghiên cứu Các quyết định đạo đức sẽ phải dựa trên các giá trị của nhà nghiên cứu và cộng đồng nghiên cứu, nhà tài trợ, những người tham gia vào nhóm nghiên cứu và sẽ dựa trên những thương lượng giữa nhóm nghiên cứu nói trên và kể cả những người đóng vai trò kiểm soát, đánh giá các thông tin mà nhà nghiên cứu thu được Việc thực hiện các giám sát trong quá trình nghiên cứu sẽ ảnh hưởng đến chính các quyết định đạo đức của các nhà nghiên cứu khoa học
Trang 1313
a Tầm quan trọng của đạo đức trong nghiên cứu
Các chuẩn mực thúc đẩy các mục đích của nghiên cứu, chẳng hạn như kiến thức,
sự thật và tránh sai sót
Vì nghiên cứu thường bao gồm rất nhiều sự hợp tác và phối hợp giữa nhiều người khác nhau trong các lĩnh vực và tổ chức khác nhau, các tiêu chuẩn đạo đức thúc đẩy các giá trị cần thiết cho công việc hợp tác, chẳng hạn như sự tin cậy, trách nhiệm giải trình, tôn trọng lẫn nhau và công bằng
Nhiều chuẩn mực đạo đức giúp đảm bảo rằng các nhà nghiên cứu có thể chịu trách nhiệm trước công chúng
Các chuẩn mực đạo đức trong nghiên cứu cũng giúp xây dựng sự ủng hộ của công chúng đối với nghiên cứu Mọi người có nhiều khả năng tài trợ cho một dự án nghiên cứu hơn nếu họ có thể tin tưởng vào chất lượng và tính toàn vẹn của nghiên cứu
nhiều tiêu chuẩn nghiên cứu thúc đẩy một loạt các giá trị đạo đức và xã hội quan trọng khác, chẳng hạn như trách nhiệm xã hội, quyền con người, quyền lợi động vật, tuân thủ luật pháp, sức khỏe và an toàn cộng đồng Sự thiếu sót về mặt đạo đức trong nghiên cứu có thể gây hại đáng kể cho các đối tượng con người và động vật, sinh viên và công chúng
b Một số vấn đề đạo đức đáng chú ý trong các nghiên cứu truyền thông trực tuyến
Ví dụ: Nghiên cứu công chúng trên không gian ảo
Hiện nay, sự xuất hiện của các môi trường nghiên cứu mới với nhiều hứa hẹn thú vị tiếp theo sự phát triển và bùng nổ của Internet và các công nghệ trực tuyến đang tạo ra không
ít những thách thức về đạo đức đối với các nhà nghiên cứu nói chung và nghiên cứu báo chí truyền thông nói riêng Những thách thức này đến lượt nó đòi hỏi các nhà nghiên cứu cần phải xem xét và định nghĩa lại các nguyên tắc đạo đức vốn vẫn được nghiễm nhiên áp dụng trong các nghiên cứu trước đây
Về dữ liệu trên không gian ảo
Hiện nay, một số cho rằng, những dữ liệu trên không gian ảo (thảo luận và tin nhắn đăng tải trên Internet) là các tài liệu công, nhưng một số khác thì không cho là như vậy Trong số những người sử dụng Internet thì nhiều người cũng cho rằng những thông tin, câu chuyện mà họ đăng tải trên không gian mạng là của riêng họ và do vậy không hài lòng khi các nhà nghiên cứu dùng những thông tin riêng tư đó trong nghiên cứu của họ Một số người cũng gợi ý rằng nhà nghiên cứu có thể xác định ranh giới giữa cái chung và riêng về thông tin như vậy bằng cách xem xét cách thức đăng nhập và đăng ký vào diễn đàn/trang thông tin, số lượng người đăng ký và có thể truy cập, các qui định, qui ước và nhóm đối tượng đích của diễn đàn/trang
Do vậy, nếu nhà nghiên cứu quan tâm và muốn thực hiện nghiên cứu của mình, ví dụ phân tích thông điệp truyền thông hay quan niệm của một nhóm dân số nào đó về các chủ
đề nhạy cảm như khuyết tật, lạm dụng tình dục, bạo lực, v.v trong một nhóm thảo luận riêng thì cần phải chú ý và xử lý triệt để các vấn đề liên quan đến sự cho phép truy cập,
Trang 1414
sự đồng ý tham gia có thông tin của nhóm và các cá nhân trong nhóm và đặc biệt là sự cho phép sử dụng và đăng tải lại các trao đổi trên diễn đàn
Về yêu cầu bảo mật
Yêu cầu bảo mật trong các nghiên cứu trực tuyến khó được bảo toàn hơn so với các nghiên cứu ngoại tuyến Việc thu thập các thông tin trên mạng cũng có rất nhiều rủi ro
Ví dụ, để đảm bảo tính xác thực của thông tin, nhiều người còn đăng chính xác không chỉ nội dung thông tin mà còn tên nhóm, tên nhân vật và ngày tháng đăng tải của những thông tin đó… hay các thông tin trao đổi có thể bị “nghe trộm” hoặc “lan truyền” khi bị hack…
Ví dụ: Vụ rò rỉ thông tin khách hàng của hãng hàng không Vietnam Airlines Sau khi bị tấn công mạng từ hacker, hàng chục màn hình thông báo bay, máy tính làm thủ tục, màn hình tại cửa khởi hành, một số máy chủ bị xóa dữ liệu, các bộ phận không thể dùng các ứng dụng (file lịch bay) của SAGS, TOC, VIAGS, buộc các hãng hàng không phải thực hiện thủ công các thủ tục cho hành khách, làm chậm hàng chục chuyến bay
Ảnh chụp màn hình website của Vietnam Airlines bị tin tặc tấn công ngày 29/7/2016 Theo báo cáo thống kê của Cục An ninh mạng (A68), cuộc tấn công mạng ngày 29/7/2016 đã phá hủy nhiều hệ thống máy chủ và máy chủ ảo của Vietnam Airlines, thông tin của hơn 410.000 khách hàng thường xuyên của Tổng công ty Hàng không Việt
Trang 1515
Nam bị đăng tải lên mạng Internet; các hãng hàng không phải làm thủ tục thủ công, thậm chí dùng loa cầm tay, bảng trắng để phục vụ hành khách; làm trễ gần 100 chuyến bay, gây thiệt hại về uy tín của Tổng công ty Hàng không Việt Nam
Về sự an nguy của người tham gia nghiên cứu
Trong không gian nghiên cứu nào thì nhà nghiên cứu đều có trách nhiệm bảo vệ người tham gia nghiên cứu tránh khỏi những rủi ro và mối nguy hại không mong muốn Trong các nghiên cứu trên môi trường ảo, sự quan tâm của nhà nghiên cứu tới một cộng đồng nào đó trên không gian mạng có thể ảnh hưởng không nhỏ tới cộng đồng đó
Thông tin đã được chia sẻ trên mạng thì nó sẽ tồn tại mãi Đây cũng chính là một thực tế
mà các nhà nghiên cứu cần phải chú ý khi thực hiện nghiên cứu trực tuyến Nhiều người tham gia nghiên cứu có thể vẫn có suy nghĩ rằng không gian mạng không bị kiểm soát và kiểm duyệt nên dễ dàng chia sẻ những gì thầm kín nhất của mình (chẳng hạn như việc sử
Trang 1616
dụng ma tuý, hay hành vi phạm pháp trước đây của bản thân) Đặc biệt, người tham gia đôi khi còn cảm thấy thoải mái và do vậy thường là không “cảnh giác” trong những thông tin mà họ chia sẻ vì tưởng rằng họ được “an toàn” khi không phải tham gia vào những giao tiếp mặt đối mặt với nhà nghiên cứu trong nhiều trường hợp là người lạ, chỉ là gặp -
gỡ trên mạng, người chưa từng và sẽ không bao giờ gặp mặt họ trực tiếp Trong một nghiên cứu ngoại tuyến thông thường, nhà nghiên cứu có thể ngay lập tức cảnh báo người tham gia, tắt băng ghi âm hay thậm chí không gỡ những đoạn băng nhạy cảm đó Còn trong nghiên cứu trực tuyến, nhà nghiên cứu có nỗ lực nhiều như thế nào để xoá các thông tin “nhạy cảm” nhằm bảo vệ người tham gia thì không bao giờ xoá được tận gốc
Một lo ngại khác nữa đó là khả năng gian dối trong các giao tiếp trực tuyến
Sự gian dối này có thể là từ phía người đồng thuận tham gia nghiên cứu Họ có thể không nói thực về nhân dạng chính xác của mình (họ thực sự là ai?) Ngoài việc chấp nhận những gì mình nghe thấy, nhìn thấy và biết là thực, nhà nghiên cứu rất khó có thể chứng thực được người được phỏng vấn đúng là đối tượng mình cần tuyển dụng cho nghiên cứu
Về phía nhà nghiên cứu, bản thân nhà nghiên cứu nếu cần thiết cũng có thể che giấu hoặc tạo dựng những thông tin cá nhân của mình khi tham gia nghiên cứu (tuổi, giới tính, tầng lớp xuất thân, dân tộc, sức khoẻ ) Sự không thành thật này
có vẻ là cần thiết đối với một số nghiên cứu, giúp nhà nghiên cứu có quyền tiếp cận, truy cập vào một cộng đồng ảo nào đó hay gây dựng mối quan hệ với nhóm yếu thế, tuy vậy, sự không thành thực, đặc biệt khi bị phát hiện, sẽ có ảnh hưởng không nhỏ tới uy tín của nhà nghiên cứu, kết quả nghiên cứu và tâm lý của người tham gia nghiên cứu
II CÁC KỸ THUẬT, PHẦN MỀM XỬ LÝ SỐ LIỆU, DỮ LIỆU NGHIÊN CỨU CÔNG CHÚNG PHỔ BIẾN
1 Định nghĩa và phân loại
Tuy nhiên, kể từ khi khoa học máy tính ra đời vào giữa những năm 1900, dữ liệu thường
đề cập đến thông tin được truyền hoặc lưu trữ dưới dạng điện tử
Dữ liệu được chia thành 2 nhóm: dữ liệu truyền thống và dữ liệu lớn
Trang 1717
● Dữ liệu truyền thống
Theo Tổ chức đối tác toàn cầu về tài chính toàn diện (GPFI), dữ liệu truyền thống là loại
dữ liệu có cấu trúc, nghĩa là dạng dữ liệu được tổ chức và phân loại theo cấu trúc xác định Dữ liệu truyền thống được thu thập và xử lý bằng các công cụ, phần mềm truyền thống chẳng hạn như Microsoft Excel
● Dữ liệu lớn (Big Data)
Big Data được sử dụng trong định nghĩa dữ liệu để mô tả dữ liệu nằm trong phạm vi petabyte hoặc cao hơn
Big Data được mô tả bởi 5 đặc trưng sau:
Khối lượng dữ liệu (Volume)
Dữ liệu lớn khác với dữ liệu truyền thống (ví dụ, kho dữ liệu Data Warehouse) ở 4 - điểm: Dữ liệu đa dạng hơn; lưu trữ dữ liệu lớn hơn; truy vấn nhanh hơn; độ chính xác cao hơn
và luôn đặt ra câu hỏi:
- Lưu như thế nào?
- Dung lượng kho lưu trữ
bao nhiêu là đủ?
- Gắn kèm với câu hỏi đó
là chi phí đầu tư tương
ứng
Kho dữ liệu truyền thống thì lâu lâu mới được cập nhật và trong tình trạng không theo dõi thường xuyên gây ra tình trạng lỗi cấu trúc truy vấn dẫn đến không tìm kiếm được thông tin đáp ứng theo yêu cầu
Khi khai thác dữ liệu truyền thống (dữ liệu
có cấu trúc), chúng ta thường phải trả lời các câu hỏi:
- Dữ liệu lấy ra kiểu gì?
- Định dạng dữ liệu như thế nào?
liệu lớn hiện nay đã phần
nào có thể giải quyết
được vấn đề trên nhờ
những công nghệ lưu trữ
Truy vấn dữ liệu nhanh hơn: Dữ liệu lớn được cập nhật liên tục
Dữ liệu lớn khi đưa vào
sử dụng thường được
Khi khai thác, phân tích dữ liệu lớn chúng
ta không cần quan tâm đến kiểu dữ liệu
và định dạng của