BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU ĐỀ TÀI TIỀN XỬ LÝ DỮ LIỆU DANH SÁCH CÁC KÝ TỰ VÀ CHỮ VIẾT TẮT........................................14 CHƯƠNG 1: TỔNG QUAN VÊ TIỀN XỬ LÝ DỮ LIỆU ...........................15 1.1 Giai đoạn tiền xử lý dữ liệu....................................................................15 CHƯƠNG 2: TẬP DỮ LIỆU ...........................................................................16 2.1 Các kiểu của tập dữ liệu .........................................................................16 2.2 Các kiểu giá trị thuộc tính......................................................................16 CHƯƠNG 3: CÁC NHIỆM VỤ CHÍNH TIỀN XỬ LÝ DỮ LIỆU .............18 3.1 Làm sạch dữ liệu (data cleaning)...........................................................18 3.1.1 Định nghĩa..........................................................................................18 3.1.2 Xử lý dữ liệu bị thiếu .........................................................................18 3.1.3 Dữ liệu nhiễu......................................................................................19 3.2 Tích hợp dữ liệu (data integration).......................................................21 3.2.1 Dư thừa dữ liệu ..................................................................................22 3.3 Biến đổi dữ liệu........................................................................................25 3.3.1 Làm trơn dữ liệu (smoothing)............................................................25 3.3.2 Kết hợp dữ liệu (aggregation)............................................................25 3.3.3 Tổng quát hoá (generalization) ..........................................................26 3.3.4 Chuẩn hoá ..........................................................................................26 3.4 Giảm bớt dữ liệu (data reduction).........................................................27 3.4.1 Tổng hợp khối dữ liệu (data cube aggregation).................................27 3.4.2 Thu giảm chiều (dimensionality reduction).......................................29 3.4.3 Thu giảm lượng (numerosity reduction)............................................33 3.4.4 Nén dữ liệu (data compression) .........................................................35 3.4.5 Rời rạc hoá dữ liệu...........................................
TỔNG QUAN VÊ TIỀN XỬ LÝ DỮ LIỆU
Giai đoạn tiền xử lý dữ liệu
Là quá trinh xử lý dữ liệu thô nhằm cải thiện chất lợng của dữ liệu để dễ dàng trong quá trình khai phá dữ liệu
Các kỹ thuật khai thác dữ liệu (datamining) được áp dụng trên các cơ sở dữ liệu lớn, phản ánh quá trình ghi chép liên tục thông tin về hoạt động của con người và các hiện tượng tự nhiên.
Dữ liệu lưu trữ thường ở dạng thô và chưa sẵn sàng cho việc phát hiện hay khám phá thông tin ẩn chứa Do đó, việc tiền xử lý dữ liệu là cần thiết trước khi thực hiện bất kỳ phân tích nào.
Chất lượng dữ liệu (data quality):
✓ Tính chính xác (accuracy): giá trị được ghi nhận đúng với giá trị thực
✓ Tính hiện hành (currency/timeliness): giá trị được ghi nhận không bị lỗi thời
✓ Tính toàn vẹn (completeness): tất cả các giá trị dành cho một biến/thuộc tính đều được ghi nhận
✓ Tính nhất quán (consistency): tất cả giá trị dữ liệu đều được biểu diễn như nhau trong tất cả các trường hợp
Để đảm bảo tính chính xác trong khai phá dữ liệu, thông tin phải phản ánh đúng thực tế Ví dụ, độ tuổi của một cá nhân cần phải được xác định chính xác; nếu không, kết quả khai thác sẽ bị sai lệch.
Để đảm bảo tính chính xác của dữ liệu, việc cập nhật thường xuyên là rất quan trọng nhằm tránh tình trạng dữ liệu lỗi thời Chẳng hạn, các bộ luật cũ không còn hiệu lực cần được thay thế bằng các bộ luật mới, nếu không, kết quả phân tích dữ liệu sẽ không chính xác.
Tính toàn vẹn của dữ liệu là yếu tố quan trọng, yêu cầu rằng mọi thuộc tính cần thiết phải được bao gồm Khi khai phá dữ liệu liên quan đến con người, cần đảm bảo rằng tất cả các thông tin như tên, tuổi, giới tính và nơi cư trú đều được ghi nhận đầy đủ.
✓ Tính nhất quán: số dư trên tài khoản không được giảm xuống dưới
Các lệnh DDL cho phép xác định các ràng buộc trong cơ sở dữ liệu Hệ thống cơ sở dữ liệu sẽ kiểm tra các ràng buộc này mỗi khi có cập nhật xảy ra.
TẬP DỮ LIỆU
Các kiểu của tập dữ liệu
+ Các bảng ghi trong CSDL quan hệ
+ Mạng thông tin, mạng xã hội
+ Các cấu trúc phân tử
Hình 1: Các kiểu tập dữ liệu
Các kiểu giá trị thuộc tính
- Kiểu định danh/chuỗi (norminal): không có thứ tự
+ Lấy giá trị từ một tập không có thứ tự các giá trị (định danh)
+ Vd: Các thuộc tính như: Name, Profession, …
- Kiểu nhị phân (binary): là một trường hợp đặc biệt của kiểu định danh
+ Tập các giá trị chỉ gồm có 2 giá trị (Y/N, 0/1, T/F)
- Kiểu có thứ tự (ordinal):
+ Lấy giá trị từ một tập có thứ tự các giá trị
+ Vd1: Các thuộc tính lấy giá trị số như: Age, Height,…
+ Vd2: Thuộc tính Income lấy giá trị từ tập {low, medium, high}
- Xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu hướng chính (central tendency) và sự phân tán (dispersion) của dữ liệu
+ Các độ đo về xu hướng chính: mean, median, mode, midrange + Các độ đo về sự phân tán: quartiles, interquartile range (IQR), variance
- Làm nổi bật các giá trị dữ liệu nên được xem như nhiễu (noise) hoặc phần tử biên (outliers), cung cấp cái nhìn tổng quan về dữ liệu
- Ví dụ: Median: Giả sử chúng ta có các giá trị sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52, 52, 56, 60,
63, 70, 70, 110 Tính median của các lương trên?
- Dữ liệu trên được sắp xếp tăng dần, giá trị middlemost là 52 và 56 Do vậy median= (52+56)/2= 108/2= 54
- Ví dụ: Mode, Midrange: Giả sử chúng ta có các giá trị sau về lương (tính theo đơn vị nghìn đôla) theo thứ tự tăng dần như sau: 30, 36, 47, 50, 52,
52, 56, 60, 63, 70, 70, 110 Mode, Midrange của các lương trên?
CÁC NHIỆM VỤ CHÍNH TIỀN XỬ LÝ DỮ LIỆU
Làm sạch dữ liệu (data cleaning)
Quá trình này liên quan đến việc xác định và khắc phục các vấn đề về tính không chính xác, không đầy đủ và bất hợp lý của dữ liệu, nhằm chỉnh sửa các sai sót và thiếu sót đã được phát hiện, từ đó nâng cao chất lượng dữ liệu.
+ Kiểm tra định dạng, tính đầy đủ, tính hợp lý, miền giới hạn
+ Xem xét dữ liệu để xác định ngoại lai (địa lý, thống kê, thời gian hay môi trường) hoặc các lỗi khác
+ Đánh giá dữ liệu của các chuyên gia miền chủ đề
+ Loại bỏ, lập tài liệu và kiểm tra liên tiếp và hiệu chỉnh đúng bản ghi nghi ngờ
+ Kiểm tra xác nhận có thể đƣợc tiến hành nhằm đạt tính phù hợp với các chuẩn áp dụng, các quy luật, và quy tắc
3.1.2 Xử lý dữ liệu bị thiếu
- Dữ liệu bị thiếu là dữ liệu không có sẵn khi cần được sử dụng
- Nguyên nhân gây ra việc thiếu dữ liệu là khách quan (không tồn tại lúc nhập liệu hoặc sự cố), chủ quan (tác nhân con người)
Khi xử lý dữ liệu, có hai phương pháp phổ biến để xử lý giá trị thiếu Đầu tiên, bỏ qua các bộ dữ liệu khi thông tin nhãn bị mất, tuy nhiên, phương pháp này chỉ hiệu quả khi các bộ chứa thuộc tính không quan trọng Thứ hai, điền vào các giá trị thiếu bằng tay, nhưng phương pháp này thường tốn thời gian và không khả thi cho các tập dữ liệu lớn với nhiều giá trị bị thiếu.
Để xử lý các giá trị thiếu trong dữ liệu, bạn có thể sử dụng các giá trị quy ước như nhãn "Không biết" hoặc "∞" Tuy nhiên, việc này có thể dẫn đến sự hiểu nhầm trong quá trình khai phá dữ liệu, gây ra những kết luận không chính xác.
Sử dụng các thuộc tính có nghĩa là để bổ sung cho những giá trị thiếu hụt Chẳng hạn, nếu thu nhập bình quân đầu người tại một khu vực là 800.000đ, con số này có thể được dùng để thay thế cho giá trị thu nhập còn thiếu của khách hàng trong khu vực đó.
Để xử lý các giá trị thiếu trong dữ liệu, có thể sử dụng các giá trị từ các bộ cùng thể loại Chẳng hạn, nếu khách hàng A thuộc cùng nhóm phân loại rủi ro tín dụng với khách hàng B, và khách hàng B có thông tin về thu nhập bình quân, chúng ta có thể thay thế giá trị thu nhập bình quân của khách hàng A bằng giá trị của khách hàng B.
Để điền vào các giá trị thiếu, chúng ta nên sử dụng những giá trị có tỉ lệ xuất hiện cao Phương pháp này có thể được xác định thông qua hồi quy, các công cụ suy luận dựa trên lý thuyết Bayesian, hoặc cây quyết định.
Nhiễu dữ liệu là lỗi xảy ra do sự biến động ngẫu nhiên của các biến trong quá trình thực hiện hoặc do sự ghi chép nhầm lẫn không được kiểm soát.
- Binning: Làm mịn một giá trị dữ liệu được xác định thông qua các giá trị xung quanh nó
Giá trị giá cả được phân chia thành các dải có kích thước bằng nhau, mỗi dải (hay "Bin") chứa 3 giá trị Khi thực hiện quá trình làm mịn trung vị trong mỗi bin, các giá trị sẽ được thay thế bằng giá trị trung bình của các giá trị trong bin đó.
Làm mịn biên là quá trình xác định các giá trị nhỏ nhất và lớn nhất để thiết lập danh giới cho bin Các giá trị còn lại trong bin sẽ được thay thế bằng giá trị nhỏ nhất hoặc lớn nhất, tùy thuộc vào độ lệch giữa giá trị ban đầu và các giá trị biên đã xác định.
Ví dụ, trong bin 1, các giá trị 4, 8 và 15 có giá trị trung bình là 9, do đó, khi làm mịn trung vị, các giá trị ban đầu sẽ được thay thế bằng 9 Ngược lại, khi làm mịn biên, giá trị 8 sẽ được thay thế bằng 4 vì nó gần với giá trị 4 hơn.
Hình 2: Ví dụ minh hoạ phương pháp Binning
Hồi quy là một phương pháp thống kê phổ biến, thường sử dụng hồi quy tuyến tính để xác định mối quan hệ tối ưu giữa hai thuộc tính hoặc biến Qua đó, một thuộc tính có thể được sử dụng để dự đoán thuộc tính khác một cách chính xác.
Hồi quy tuyến tính đa điểm là một phương pháp mở rộng của hồi quy tuyến tính, cho phép xem xét nhiều hơn hai thuộc tính và xử lý dữ liệu thuộc miền đa chiều.
Hình 3: Hình minh hoạ phương pháp hồi quy
Phân tích cụm (cluster analysis) là phương pháp tổ chức các giá trị tương tự thành các nhóm trực quan, hay còn gọi là “cụm” Những giá trị nằm ngoài các nhóm này sẽ được xem xét để tiến hành làm mịn, nhằm cải thiện độ chính xác và tính nhất quán của dữ liệu.
Hình 4: Hình minh hoạ cho phương pháp phân tích cụm
- Xử lý dữ liệu không nhất quán:
+ Dữ liệu được ghi nhận khác nhau cho cùng một đối tượng/thực thể
→ discrepancies from inconsistent data representations
+ Dữ liệu được ghi nhận không phản ánh đúng ngữ nghĩa cho các đối tượng/thực thể
▪ Sự không nhất quán trong các qui ước đặt tên hay mã dữ liệu
▪ Định dạng không nhất quán của các vùng nhập liệu
▪ Thiết bị ghi nhận dữ liệu, … + Giải pháp:
▪ Tận dụng siêu dữ liệu, ràng buộc dữ liệu, sự kiểm tra của nhà phân tích dữ liệu cho việc nhận diện
▪ Điều chỉnh dữ liệu không nhất quán bằng tay
▪ Các giải pháp biến đổi/chuẩn hóa dữ liệu tự động
Tích hợp dữ liệu (data integration)
Trong nhiều bài toán phân tích, nguồn dữ liệu thường không đồng nhất, gây khó khăn cho quá trình phân tích Để thực hiện phân tích hiệu quả, cần tích hợp và kết hợp các dữ liệu này thành một kho dữ liệu thống nhất.
Các nguồn dữ liệu có thể được lưu trữ dưới nhiều dạng thức khác nhau, bao gồm các cơ sở dữ liệu phổ biến, các tập tin flatfile và dữ liệu khối.
- Vấn đề đặt ra là làm thế nào có thể tích hợp chúng mà vẫn đảm bảo tính tương đương của thông tin giữa các nguồn
Để đảm bảo rằng thuộc tính ID của khách hàng trong cơ sở dữ liệu A và số hiệu cust trong flat-file là giống nhau, người phân tích dữ liệu hoặc máy tính cần xác định các đặc điểm chung giữa chúng Việc này có thể được thực hiện thông qua việc so sánh định dạng, kiểu dữ liệu và quy tắc đặt tên, từ đó xác minh tính nhất quán và chính xác của các thuộc tính này trong các hệ thống khác nhau.
Việc tích hợp dữ liệu yêu cầu thông tin mô tả tính chất của từng thuộc tính, hay còn gọi là siêu dữ liệu, bao gồm tên, ý nghĩa, kiểu dữ liệu, miền xác định và các quy tắc xử lý giá trị rỗng hoặc bằng không Siêu dữ liệu đóng vai trò quan trọng trong việc chuyển đổi dữ liệu, do đó, bước này liên quan mật thiết đến quá trình làm sạch dữ liệu.
- Là hiện tượng giá trị của một thuộc tính có thể được dẫn ra/tính từ một/nhiều thuộc tính khác, vấn đề trùng lắp dữ liệu
+ tổ chức dữ liệu kém, không nhất quán trong việc đặt tên chiều/thuộc tính
+ Một thuộc tính có nhiều tên khác nhau ở các CSDL khác nhau + Một thuộc tính: thuộc tính - nguồn gốc trong CSDL khác, chẳng hạn, doanh thu hàng năm
- Phát hiện dư thừa: phân tích tương quan (correlation analysis)
+ Dựa trên dữ liệu hiện có, kiểm tra khả năng dẫn ra một thuộc tính B từ thuộc tính A
For discrete attributes, the correlation between two variables can be assessed using the chi-square test (χ²) In contrast, for numerical attributes, the relationship between two variables is evaluated through correlation coefficients and covariance.
Trong một cuộc khảo sát với 1500 người tham gia, giới tính của họ được ghi nhận và sau đó họ được hỏi về thể loại sách yêu thích, bao gồm hai loại chính là hư cấu và viễn tưởng Điều này cho thấy hai thuộc tính quan trọng: "giới tính" và "sở thích đọc sách".
23 frequencies) của các trường hợp được cho trong bảng sau: (các số trong ngoặc là expected frequencies)
+ Vậy chúng ta tính được : e11 = 𝑐𝑜𝑢𝑛𝑡(𝑚𝑎𝑙𝑒) 𝑋 𝑥𝑜𝑢𝑛𝑡(𝑓𝑖𝑐𝑡𝑖𝑜𝑛
= 284.44 + 121.90 + 71.11 + 30.48 = 507.93 + Từ bảng dữ liệu cho thấy bậc tự do (r-1)(c-1) = (2-1)(2- 1) = 1 Với
1 bậc tự do, giá trị cần để bác bỏ giả thiết này ở mức 0.001 là 10.828
Với giá trị tính toán 507.93 > 10.828, chúng ta có thể bác bỏ giả thuyết rằng sở thích đọc là độc lập với giới tính Kết luận cho thấy hai thuộc tính này có mối quan hệ tương quan mạnh trong nhóm người được khảo sát.
- Phân tích tương quan giữa hai thuộc tính số A và B (Covariance):
+ Covariance tương tự với correlation
+ Covariance giữa A và B được định nghĩa như sau: cov(𝐴, 𝐵) = 𝐸((𝐴 − 𝐴̅)(𝐵 − 𝐵̅)) = 𝛴 𝑖=1 𝑛 (𝑎 𝑖 − 𝐴̅)(𝑏 𝑖 − 𝐵̅)
Có thể được đơn giản hoá còn : cov(𝐴, 𝐵) = 𝐸(𝐴 ∗ 𝐵) − 𝐴̅𝐵̅
+ Giả sử hai cổ phiếu A và B có giá trị như sau trong một tuần: (2, 5),
+ Nếu các cổ phiếu bị ảnh hưởng bởi xu hướng cùng ngành, giá của chúng sẽ tăng hay giảm cùng nhau
Do đó, A và B cùng tăng vì Cov (A, B)> 0
Hình 5: Hình minh hoạ cho Phương pháp tích hợp dữ liệu
- Vấn đề mâu thuẫn giá trị dữ liệu
Các giá trị thuộc tính của cùng một thực thể thực tế có thể khác nhau về cách biểu diễn, đo lường và mã hóa do chúng đến từ các nguồn dữ liệu khác nhau.
Scaling đề cập đến thuộc tính trọng lượng trong các hệ thống đo lường khác nhau với các đơn vị khác nhau, cũng như thuộc tính giá trong các hệ thống tiền tệ đa dạng với các đơn vị tiền tệ khác nhau.
+ Encoding: “ yes ” và “ no ” với “1” và “0”
Biến đổi dữ liệu
- Các dữ liệu sẽ được biến đổi sang các dạng phù hợp cho việc khai phá dữ liệu Các phương pháp thường thấy như:
+ Làm mịn: Phương pháp này loại bỏ các trường hợp nhiễu khỏi dữ liệu ví dụ như các phương pháp binning, hồi quy, nhóm cụm
Tổng hợp dữ liệu là quá trình kết hợp các hành động áp dụng lên thông tin, chẳng hạn như việc tổng hợp doanh số bán hàng hàng ngày để tính toán theo tháng và năm Bước này thường được sử dụng để tạo ra khối dữ liệu phục vụ cho phân tích.
Khái quát hóa dữ liệu là quá trình thay thế các dữ liệu thô hoặc mức thấp bằng các khái niệm ở mức cao hơn, thông qua việc áp dụng kiến trúc khái niệm.
Các thuộc tính phân loại như “Đường phố” có thể được tổng quát hóa thành “Thành phố” hoặc “Quốc gia” Tương tự, các giá trị số như tuổi có thể được phân loại thành những khái niệm cao hơn như “Trẻ”, “Trung niên” và “Có tuổi”.
Chuẩn hóa dữ liệu là quá trình điều chỉnh các thuộc tính về các khoảng giá trị nhỏ hơn, chẳng hạn như từ -1.0 đến 1.0 hoặc từ 0.0 đến 1.0 Bên cạnh đó, việc xác định và thêm các thuộc tính mới vào nguồn dữ liệu cũng rất quan trọng, giúp nâng cao hiệu quả trong quá trình khai phá dữ liệu.
3.3.1 Làm trơn dữ liệu (smoothing)
- Các phương pháp binning (bin means, bin medians, bin boundaries)
- Các kỹ thuật gom cụm (phân tích phần tử biên)
- Các phương pháp rời rạc hóa dữ liệu (các phân cấp ý niệm)
➔ Loại bỏ/giảm thiểu nhiễu khỏi dữ liệu
3.3.2 Kết hợp dữ liệu (aggregation)
- Các tác vụ kết hợp/tóm tắt dữ liệu
- Chuyển dữ liệu ở mức chi tiết này sang dữ liệu ở mức kém chi tiết hơn
- Hỗ trợ việc phân tích dữ liệu ở nhiều độ mịn thời gian khác nhau
➔ Thu giảm dữ liệu (data reduction)
- Chuyển đổi dữ liệu cấp thấp/nguyên tố/thô sang các khái niệm ở mức cao hơn thông qua các phân cấp ý niệm
➔ Thu giảm dữ liệu (data reduction)
- Một thuộc tính được chuẩn hóa bằng cách ánh xạ một cách có tỉ lệ dữ liệu về một khoảng xác định ví dụ như 0.0 đến 1.0
Chuẩn hóa là một yếu tố quan trọng trong thuật toán phân lớp của mạng nơ-ron, cũng như trong các thuật toán tính toán độ lệch dùng để phân loại hoặc nhóm các phần tử gần gũi Bài viết này sẽ khám phá ba phương pháp chuẩn hóa khác nhau.
Để thực hiện biến đổi tuyến tính trên dữ liệu ban đầu, ta cần xác định giá trị tối thiểu (minA) và tối đa (maxA) của thuộc tính A Phương pháp chuẩn hóa min-max sẽ giúp ánh xạ giá trị v của thuộc tính này vào khoảng giá trị mới, từ đó nâng cao tính chính xác và hiệu quả trong phân tích dữ liệu.
A thành v’ trong khoảng [new_minA, new_maxA] bằng cách tính toán :
Giả sử giá trị nhỏ nhất và lớn nhất cho thuộc tính "thu nhập bình quân" lần lượt là 500.000 và 4.500.000, chúng ta muốn chuẩn hóa giá trị 2.500.000 về khoảng [0.0, 1.0] bằng phương pháp min-max Giá trị sau khi chuẩn hóa sẽ được tính toán để phản ánh đúng tỷ lệ trong khoảng đã xác định.
Phương pháp này chuẩn hóa các giá trị của thuộc tính A dựa trên độ lệch tiêu chuẩn và trung bình của nó Cụ thể, một giá trị v của thuộc tính A sẽ được ánh xạ thành v’ thông qua công thức chuẩn hóa.
Giả sử thu nhập bình quân có độ lệch tiêu chuẩn là 500.000 và giá trị trung bình là 1.000.000, khi áp dụng phương pháp z-score, giá trị 2.500.000 sẽ được ánh xạ thành một chỉ số phản ánh vị trí của nó trong phân phối thu nhập.
500.000 = 3 + Chuẩn hóa thay đổi số chữ số phần thập phân (decimal scale):
▪ Phương pháp này sẽ di chuyển dấu phân cách phần thập phân của các giá trị của thuộc tính A
Số chữ số sau dấu phân cách phần thập phân được xác định dựa trên giá trị tuyệt đối lớn nhất của thuộc tính A Giá trị v sẽ được ánh xạ thành v’ thông qua phép tính cụ thể.
▪ Trong đó j là giá trị nguyên nhỏ nhất thỏa mãn Max(|v’|) < 1
Để chuẩn hóa các giá trị thuộc tính A trong khoảng -968 đến 917, chúng ta cần chia các giá trị này cho 1.000 Sau khi thực hiện phép chia, giá trị -968 sẽ trở thành -0.968 và giá trị 917 sẽ chuyển thành 0.917.
Giảm bớt dữ liệu (data reduction)
Khai phá dữ liệu diễn ra trên các kho dữ liệu lớn và phức tạp, yêu cầu nhiều thời gian và tài nguyên máy tính Do đó, cần phải thực hiện thu giảm dữ liệu trước khi áp dụng các kỹ thuật khai phá để tối ưu hóa hiệu quả.
➔ Tập dữ liệu được biến đổi đảm bảo các toàn vẹn, nhưng nhỏ/ít hơn nhiều về số lượng so với ban đầu
3.4.1 Tổng hợp khối dữ liệu (data cube aggregation)
Dữ liệu bán hàng của một đơn vị được tổ chức báo cáo theo hàng quý từ năm 2008 đến 2010, nhưng việc phân tích lại chủ yếu tập trung vào báo cáo bán hàng theo năm Do đó, cần tổng hợp dữ liệu để tạo ra báo cáo tổng quan về tình hình bán hàng hàng năm thay vì theo từng quý.
Hình 6: Dữ liệu bán hàng của 1 đơn vị
- Phân cấp khái niệm có thể tồn tại ở mỗi thuộc tính, nó cho phép phân tích dữ liệu ở nhiều mức trừu tượng
Phân cấp chi nhánh giúp nhóm các chi nhánh theo vùng địa lý dựa trên địa chỉ, tạo điều kiện thuận lợi cho việc quản lý Khối dữ liệu này cho phép truy cập nhanh chóng đến các thông tin đã được tính toán và tổng hợp, do đó rất phù hợp với các quy trình khái thác dữ liệu.
Các khối dữ liệu ở mức trừu tượng thấp được gọi là cuboid, tương ứng với các thực thể như người bán hàng và khách hàng, cung cấp thông tin hữu ích cho phân tích Trong khi đó, khối dữ liệu ở mức trừu tượng cao, hay apex cuboid, thể hiện dữ liệu bán hàng trong ba năm, bao gồm tất cả các loại mặt hàng và chi nhánh Các khối dữ liệu này được tạo ra từ nhiều mức trừu tượng khác nhau.
29 tượng thường được gọi là cuboids, do vậy khối dữ liệu thường được gọi bằng tên khác là lưới cuboids
3.4.2 Thu giảm chiều (dimensionality reduction)
1 Chọn một số thuộc tính:
Dữ liệu phân tích thường bao gồm hàng trăm thuộc tính, nhưng nhiều thuộc tính trong số đó có thể không cần thiết cho quá trình phân tích hoặc thậm chí là dư thừa.
Khi phân tích khách hàng để xác định xem họ có muốn mua một đĩa nhạc mới hay không, thuộc tính như độ tuổi và sở thích âm nhạc sẽ quan trọng hơn rất nhiều so với thuộc tính điện thoại của họ.
Việc lựa chọn thuộc tính dữ liệu quan trọng là một thách thức khó khăn và tốn thời gian, đặc biệt khi các đặc tính không rõ ràng Giữ lại những thuộc tính cần thiết và loại bỏ những thuộc tính không hữu ích có thể dẫn đến nhầm lẫn và sai lệch kết quả trong các thuật toán khai phá dữ liệu.
Phương pháp này nhằm rút gọn kích thước dữ liệu bằng cách loại bỏ các thuộc tính không cần thiết hoặc dư thừa Mục tiêu chính là xác định tập thuộc tính nhỏ nhất, đảm bảo rằng khi áp dụng các phương pháp khai thác dữ liệu, kết quả đạt được vẫn gần sát với kết quả sử dụng tất cả các thuộc tính.
Để tìm ra một tập thuộc tính con tối ưu từ tập thuộc tính ban đầu, chúng ta cần lưu ý rằng với N thuộc tính, sẽ có 2^N tập thuộc tính con Tuy nhiên, việc phát sinh và xem xét tất cả các tập này rất tốn công sức và tài nguyên, đặc biệt khi số lượng thuộc tính N và số lớp dữ liệu gia tăng.
Để tối ưu hóa quá trình tìm kiếm, cần áp dụng các phương pháp khác nhau, trong đó phương pháp tìm kiếm tham lam nổi bật Phương pháp này sẽ duyệt qua không gian thuộc tính và xác định các lựa chọn tốt nhất tại mỗi thời điểm.
- Các kỹ thuật lựa chọn thường dùng như:
Phương pháp lựa chọn thuộc tính có thể được thực hiện theo hai cách: thứ nhất, lựa chọn tăng dần, bắt đầu từ một tập rỗng và thêm các thuộc tính tốt nhất vào tập cho đến khi không còn thuộc tính nào có thể thêm; thứ hai, loại bớt, bắt đầu từ một tập đầy đủ và loại bỏ các thuộc tính kém nhất ở mỗi bước.
Phương pháp kết hợp loại bớt và lựa chọn tăng dần cho phép loại bỏ các thuộc tính kém nhất trong mỗi bước, đồng thời thêm vào các thuộc tính tốt nhất vào tập dữ liệu.
Cây quyết định được xây dựng từ nguồn dữ liệu ban đầu, trong đó các thuộc tính không xuất hiện trên cây sẽ bị coi là không hữu ích Tập hợp các thuộc tính có trên cây sẽ được gọi là tập thuộc tính rút gọn.
Việc xác định thuộc tính tốt hoặc xấu được thực hiện thông qua các phép kiểm thống kê, với giả định rằng thuộc tính đó độc lập với các thuộc tính khác Phương pháp đánh giá thuộc tính thường sử dụng độ đo thông tin, một công cụ phổ biến trong việc xây dựng cây quyết định phân lớp.
Hình 7: Hình minh hoạ chọn một số thuộc tính
2 Biến đổi wavelet (wavelet transforms)
The Discrete Wavelet Transform (DWT) is a linear signal processing technique that converts a data vector X into another vector, known as wavelet coefficients, represented as X’ Both vectors maintain the same length, ensuring consistency in data representation.
- Khi áp dụng kỹ thuật này để thu giảm dữ liệu, chúng ta giả sử rằng mỗi bộ như là 1 vector dữ liệu n chiều là X = (x1 , x2 , … , x3 )
- Dữ liệu được chuyển đổi thành dạng sóng có thể bị cắt bỏ bớt
- Phép tính xấp xỉ nén của dữ liệu: chỉ lưu một mảnh nhỏ các hệ số sóng lớn nhất của wavelet coefficients