CHƯƠNG 5: CÁC PHÉP BIẾN ĐỔI VÀ THAO TÁC TRÊN TẬP DỮ LIỆU
7. Hợp nhất các tập dữ liệu (Merge files)
SPSS cho phép ta hợp các dữ liệu quan sát từ trong một tập dữ liệu bên ngoài vào tập dữ liệu đang sử dụng. Hoặc hợp các biến mới trong tập dữ liệu bên ngoài vào tập dữ liệu đang hoạt động. Cả hai đều tạo ra một tập dữ liệu mới có thể chứa tất cả các quan sát được hợp lại hoặc tất cả các biến đưọc hợp tùy theo ta chọn Add Cases hay Add Variables
7.1. Thêm vào các quan sát (Add Cases)
Công cụ Add Cases cho phép ta hợp dữ liệu trong tập dữ liệu đang hoạt động với dữ liệu trong một tập dữ liệu bên ngoài, với điều kiện tập dữ liệu đó phải chứa các biến giống như biến trong tập dữ liệu đang hoạt động. Sau khi thao tác, một tập dữ liệu mới (chưa được khai báo tên, và ta phải tiến hành lưu và khai báo tên mới) sẽ được tạo ra chứa các dữ liệu trong cả hai tập dữ liệu vừa được hợp lại với nhau. Trong trường hợp hai tập dữ liệu hợp với nhau nhưng có các biến khác nhau (khác nhau về tên biến hoặc loại biến) thì sau khi hợp tập dữ liệu mới sẽ tự động loại bỏ các biến khác nhau này, ta có thể sẽ bị mất dữ liệu chứa trong các biến bị loại bỏ này.
Công cụ này rất thích hợp cho việc hợp nhất dữ liệu nghiên cứu ở các khu vực khác nhau, ví dụ như một cuộc khảo sát được tiến hành ở ba khu vực Hà Nội, Đà Nẵng, và TP.HCM, dữ liệu thu thập về sẽ được nhập, chỉnh sửa cho ba khu vực riêng biệt. Tuy nhiên sau đó ta có thể tiến hành hợp dữ liệu ở ba khu vực này vào một tập dữ liệu thống nhất để tiến hành phân tích và xữ lý.
Chú ý phải thống nhất về các tên biến, loại biến và số lượng biến trong cả ba khu vực trước khi nhập 3 file này lại với nhau.
Chọn Data/Merge Files/Adds Cases (Xem hình 5-13)
Hình 5-13
Hộp thoại Read File cho phép ta lựa chọn tập dữ liệu sẽ được hợp với tập dữ liệu đang hoạt động (working file). Nhấn Open để xác nhận việc lựa chọn này
Sau khi lựa chọn xong tập dữ sẽ được kết hợp, ta sẽ có một hộp thoại mới như hình 5-14:
Hình 5-14
Unpaired Variables: liệt kê các biến không giống nhau giữa hai tập dữ liệu đang được tiến hành hợp nhất lại, các biến không giống nhau này sẽ bị loại ra và không có trong tập dữ liệu mới được tạo ra từ việc hợp nhất hai tập dữ liệu ban đầu. Các biến này được ký hiệu khác nhau với ký hiệu (*) đại diện cho các biến trong tập dữ liệu đang hoạt động và (+) đại diện cho các biến trong tập dữ liệu được truy xuất từ bên ngoài.
Những biến được liệt kê trong hộp thoại Unpaired Variables là những biến có những đặc điểm như sau:
- Hai biến có tên biến được khai báo khác nhau - Những biến có dạng dữ liệu khác nhau
- Cả hai biến biến cùng là dạng chuổi nhưng lai không bằng nhau về số ký tự trong chuổi.
Cac biến này như đã nói sẽ bị loại bỏ ra khỏi tập dữ liệu vừa hợp nhất, điều này đồng nghĩa ta bị mất dữ liệu sau khi hợp nhất, do đó cần phải khắc phục sai sót này để bảo đảm tính đầy đủ của dữ liệu sau khi hợp nhất. Các biến này sẽ được hợp lại với nhau bằng cánh đánh dấu hai biến đó (trong hộp thoại Unpaired Variables) và nhấn thanh Pair, lúc đó dữ liệu trong hai biến này sẽ được hợp nhất và được chứa đựng trong biến lấy tên biến giống như tên biến trong tập tin đang hoạt
động. Hoặc ta có thể dùng công cụ Rename để khai báo lại tên biến hoặc kiểu biến cho giống nhau.
Hộp thoại Variables in New Working Data File liệt kê các biến sẽ có trong tập tin mới được tạo ra từ việc hợp nhất hai tập dữ liệu ban đầu.
Toàn bộ các biến trong hai tập tin ban đầu thỏa mãn các điều kiện giống nhau về tên và loại dữ liệu (số hoặc chuổi) sẽ được liệt kê vào hộp thoại này
Chúng ta cũng có thể loại bỏ những biến mà chúng ta không muốn có trong tập dữ liệu hợp nhất. Bằng cách đánh dấu các biến đó (trong ô variables in new data working file) và chuyển sang ô Unpaired Variables
1.2. Thêm vào các biến (Add Variables)
Công cụ Add Variables cho phép hợp nhất dữ liệu trong tập tin đang hoạt động với một tập tin bên ngoài với điều kiện tập tin bên ngoài này phải chứa đựng cùng các quan sát với tập tin đang sử dụng, nhưng khác nhau về biến (khai báo tên biến khác với tập tin đang được sử dụng), quá trình này sẽ tạo ra một tập dữ liệu mới chứa cùng các quan sát nhưng tập hợp tất cả các biến khác nhau trong hai tập dữ liệu ban đầu.
Công cụ này thích hợp với các cuộc nghiên cứu được chia làm nhiều giai đoạn. Ví dụ như nghiên cứu về mức độ ảnh hưởng của một chương trình quảng cáo, người ta thường nghiên cứu một số đối tượng người trả lời về sản phẩm xắp được quảng cáo trước khi tung chương trình quảng cáo đó ra thị trường, gọi là Pre-test. Sau đó sẽ tiến hành một cuộc nghiên cứu nữa trên đúng các đối tượng đó sau khi chương trình quảng cáo đã được tung ra thị trường, ta gọi là Post-test. Phân tích thống kê đòi hỏi một số so sánh (như Paired-sample t test) các ý kiến của những người tiêu dùng này trước và sau khi có chương trình quảng cáo. Để thực hiện công việc này cần chú ý những ủieồm sau:
- Các quan sát (Cases) trong cả hai tập tin cần hợp nhất biến phải được xắp xếp theo cùng một thứ tự, thông thường thứ tự này được quản lý bằng một tập tin chứa các giá trị là số bảng câu hỏi. Chú ý các bảng câu hỏi của đối tượng nghiên cứu trong lần phỏng vấn trước phải giống với số bảng câu hỏi dùng để phóng vấn chính đối tượng đó trong lần sau. Khi loại bỏ bảng câu hỏi nào của lần phỏng vấn trước hoặc sau ta phải loại bỏ luôn bảng câu hỏi đó trước khi tiến hành hợp nhất.
- Thông thường ta dùng một hay nhiều biến khóa để bảo đảm các trường hợp khớp với nhau (thường sử dụng biến ID chứa số bảng câu hỏi). Điều
phải bảo đảm trước khi tiến hành hợp nhất biến giữa hai tập dữ liệu này là ta phải xắp xếp dữ liệu trong hai biến khóa của hai tập dữ liệu theo thứ tự từ nhỏ đến lớn.
- Các biến có tên giống nhau trong tập tin đang hoạt động vào tập tin bên ngoài sẽ bị loại trừ khỏi tập tin mới được tạo.
Từ tập dữ liệu đang thao tác ta mở công cụ Data/Merge Files/Adds Variables từ menu, SPSS sẽ truy suất hộp thoại Add Variables: Read File để ta lựa chọn tập dữ liệu sẽ được hợp với tập dữ liệu đang hoạt động. Nhấn Open để xác nhận việc lựa chọn này (giống như trường hợp Adds Cases - Xem hình 5-13).
Sau khi lựa chọn được tập dữ liệu sẽ hợp biến với tập dữ liệu đang hoạt động.
SPSS sẽ truy suất cho ta hộp thoại như hình 5-15:
Hình 5-15
- Excluded Variables liệt kê các biến sẽ bị loại trừ ra khỏi biến mới hợp thành. Những biến này là những biến có tên biến giống nhau. Biến trong tập tin đang hoạt động được ký hiệu là (*), và những biến trong tập tin bên ngoài là (+). Nếu muốn các biến giống tên nhau này có trong tập dữ liệu mới ta phải tiến hành rename nó lại và chuyển nó sang hộp thoại chứa các biến sẽ có trong tập tin mới (New Working Data File)
- Key Variables. Biến khóa dựa vào đó các quan sát giống nhau được xác định. Chú ý biến khóa này phải có cùng tên ở các hai tập tin cần hợp nhất. Các trường hợp không thỏa mãn với biến khóa thì vẫn bao hàm trong tập dữ liệu mới nhưng sẽ không được hợp với các trường hợp trong tập tin khác. Những trường hợp này chỉ chứa đựng giá trị riêng biệt của tập dữ liệu mà nó bao hàm từ trước (trước khi tiến hành hợp nhất) và các
trường hợp này sẽ có giá trị khuyết trong các biến chứa đựng trong tập tin thứ hai mà ta sẽ hợp nhất.
_____o0o______