Sự phỏt triển của phõn cụm dữ liệu khụng gian trờn cơ sở dữ liệu lớn đó cung cấp nhiều cụng cụ tiện lợi cho việc phõn tớch thụng tin địa lý, tuy nhiờn hầu hết cỏc thuật toỏn này cung cấp rất ớt cỏch thức cho ngƣời dựng để xỏc định cỏc ràng buộc trong thế giới thực cần phải thoả món trong quỏ trỡnh phõn cụm. Để phõn cụm dữ liệu khụng gian hiệu quả hơn, cỏc nghiờn cứu bổ sung cần đƣợc thực hiện để cung cấp cho ngƣời dựng khả năng kết hợp cỏc ràng buộc trong thuật toỏn phõn cụm.
Hiện nay, cỏc phƣơng phỏp phõn cụm trờn đó và đang đƣợc phỏt triển, ỏp dụng nhiều trong cỏc lĩnh vực khỏc nhau và đó cú một số nhỏnh nghiờn cứu đƣợc phỏt triển trờn cơ sở cỏc phƣơng phỏp đú nhƣ:
Phõn cụm thống kờ: Dựa trờn cỏc khỏi niệm phõn tớch hệ thống, nhỏnh nghiờn cứu này sử dụng cỏc độ đo tƣơng tự để phõn hoạch cỏc đối tƣợng nhƣng chỳng chỉ ỏp dụng cho cỏc dữ liệu cú thuộc tớnh số.
Phõn cụm khỏi niệm: Cỏc kỹ thuật phõn cụm đƣợc phỏt triển ỏp dụng cho dữ liệu hạng mục, chỳng phõn cụm cỏc đối tƣợng theo cỏc khỏi niệm mà chỳng xử lý.
Phõn cụm mờ: Sử dụng kỹ thuật mờ để phõn cụm dữ liệu, trong đú một đối tƣợng dữ liệu cú thể thuộc vào nhiều cụm dữ liệu khỏc nhau. Cỏc thuật toỏn thuộc loại này chỉ ra lƣợc đồ phõn cụm thớch hợp với tất cả cỏc hoạt động đời sống hàng ngày, chỳng xử lý cỏc dữ liệu khụng chắc chắn. Thuật toỏn mờ quan trọng nhất là FCM (Fuzzy c-means).
Phõn cụm Kohonen: Loại phõn cụm này dựa trờn khỏi niệm của cỏc mạng nơron. Mạng Kohonen cú cỏc tầng nơron vào và cỏc tầng nơron ra. Mỗi nơron của tầng vào tƣơng ứng với mỗi thuộc tớnh của bản ghi, mỗi một nơron
vào kết nối với tất cả cỏc nơron của tầng ra. Mỗi liờn kết đƣợc gắn liền với một trọng số nhằm xỏc định vị trớ của nơron tầng ra tƣơng ứng [7][13].
Túm lại, cỏc kỹ thuật phõn cụm dữ liệu trỡnh bày ở trờn đó đƣợc sử dụng rộng rói trong thực tế, thế nhƣng hầu hết chỳng chỉ ỏp dụng cho tập dữ liệu với cựng một kiểu thuộc tớnh. Vỡ vậy, việc phõn cụm dữ liệu cú kiểu hỗn hợp là một vấn đề đặt ra trong khai phỏ dữ liệu.
CHƢƠNG 3. MỘT SỐ THUẬT TOÁN PHÂN CỤM DỮ LIỆU
Phõn cụm dữ liệu là một lĩnh vực nghiờn cứu đƣợc phỏt triển dựa trờn nhiều lĩnh vực, do vậy cú rất nhiều thuật toỏn phõn cụm đƣợc đề xuất và phỏt triển. Sự khỏc nhau giữa cỏc thuật toỏn này chớnh là việc phõn nhúm cựng một tập hợp dữ liệu bằng nhiều phƣơng phỏp khỏc nhau thỡ cho kết quả hoặc là giống nhau hoặc là khỏc nhau. Việc lựa chọn một phƣơng phỏp phự hợp cho từng trƣờng hợp cụ thể phụ thuộc vào nhiều thành phần nhƣ: miền tri thức, cỏch thực hiện phƣơng phỏp, khả năng của phần cứng và phần mềm cũng nhƣ là kớch cỡ của tập dữ liệu.
Do phõn cụm dữ liệu đang là một vấn đề thời sự trong lĩnh vực cụng nghệ thụng tin thế giới nờn cú rất nhiều nhà khoa học và tổ chức tập trung nghiờn cứu cỏc kỹ thuật phõn cụm. Dựa trờn những phƣơng phỏp truyền thống đó đƣợc biết đến, nhiều phƣơng phỏp mới ra đời phự hợp với mục đớch sử dụng và nõng cao hiệu quả phõn cụm.
Nhỡn chung, cỏc thuật toỏn phõn cụm dữ liệu đƣợc chia theo cỏc kỹ thuật tiếp cận tƣơng ứng. Hiện nay, cỏc thuật toỏn phõn cụm đƣợc phõn chia thành một số nhúm chớnh nhƣ sau: [3], [10], [16]
o Cỏc thuật toỏn phõn cụm phõn hoạch (Partitioning Methods): K- means, PAM, CLARA, CLARANS,…
o Cỏc thuật toỏn phõn cụm phõn cấp (Herarchical Methods): Birch, Cure, Agnes, Diana, Rock, Chameleon,…
o Cỏc thuật toỏn phõn cụm dựa trờn mật độ (Density-based Methods): Dbscan, Optics, Denclue,…
o Cỏc thuật toỏn phõn cụm dựa trờn lưới (Grid-based Methods): Sting, Clique, WaveCluster,…
o Cỏc thuật toỏn phõn cụm dựa trờn mụ hỡnh (Model-based Methods): Em, Cobweb,…