Bản đồ tự tổ chức
Bản đồ tự tổ chức đƣợc sử dụng rộng dãi trong nhiều lĩnh vực, đặc biệt là trong lĩnh vực khai phá dữ liệu. SOM có thể đƣợc dùng để xử lý dữ liệu, khởi tạo và huấn luyện SOM trên một loạt các trạng thái hình học. SOM thể hiện trực quan bằng nhiều cách khác nhau để phân tích các thuộc tính của SOM, dữ liệu đầu vào.
Cấu trúc của chương trình:
Công cụ SOM đƣợc viết bằng Matlab. Sử dụng công cụ này để phân tích quá trình sản xuất và kinh doanh đƣợc thực hiện qua các bƣớc:
Đọc dữ liệu.
Xử lý tập dữ liệu trƣớc khi huấn luyện.
Khởi tạo mẫu và huấn luyện theo thuật toán SOM.
Mô phỏng kết quả.
Phân tích kết quả.
Huấn luyện Mạng
Trƣớc khi khởi tạo bản đồ, các giá trị riêng và vector đặc trƣng tƣơng ứng của dữ liệu đƣợc tính toán xác định kích thƣớc của bản đồ, số lƣợng các nút hoặc các đơn vị của bản đồ. Dữ liệu sử dụng trong luận văn có kích thƣớc trên bản đồ là mạng tinh thể hình lục giác. Khởi tạo tuyến tính đƣợc sử dụng để tăng tốc độ huấn luyện.
SOM bao gồm các nơron đƣợc tổ chức trên một lƣới có số chiều thấp. Số lƣợng các nơron có thể thay đổi từ vài chục đến vài nghìn. Mỗi nơron đƣợc đại diện bởi một vector trọng số d chiều (trong đó d bằng kích thƣớc của các vector đầu vào). Các nơron kết nối với các nơron liền kề bằng mối quan hệ lân cận của bản đồ. Huấn luyện SOM sử dụng hai thuật toán huấn luyện chính là thuật toán huấn luyện tuần tự và thuật toán huấn luyện theo khối.
Thuật toán huấn luyện tuần tự
SOM đƣợc huấn luyện lặp đi lặp lại, trong từng bƣớc huấn luyện mỗi mẫu vector x từ tập dữ liệu đầu vào đƣợc chọn ngẫu nhiên, khoảng cách giữa nó và tất cả các vector trọng số của SOM đƣợc tính toán bằng biện pháp đo khoảng cách Euclide. Nơron có trọng số vector gần nhất với vector đầu vào x đƣợc gọi là đơn vị phù hợp nhất (BMU), kí hiệu là c.
c i i
x m min x m (3.1)
Khoảng các đƣợc tính tƣơng đối phức tạp vì 2 lý do:
1) Giá trị thiếu: Các giá trị này đƣợc thay thế bằng một giá trị không đƣợc xác định trong vector hoặc ma trận dữ liệu. Các thành phần thiếu đƣợc loại
bỏ bằng cách tính khoảng cách. Các giá trị giống nhau bị loại bỏ sau mỗi lần tính khoảng cách.
2) Mặt nạ (mask): Mỗi biến có một phần tử trọng số liên quan. Các biến đƣợc sử dụng dƣới dạng nhị phân, chỉ lấy các biến có giá trị bằng 1 và loại bỏ các biến có giá trị bằng 0 từ quá trình xử lý tìm kiếm BMU. Mặt nạ có thể nhận đƣợc một vài giá trị nếu nó có thể đƣợc dùng một vài giá trị đi kèm theo mức độ quan trọng của chúng. Với mỗi lần thay đổi, phƣơng pháp đo khoảng cách đƣợc tính:
2 2
k k k
k K
x m w (x m ) (3.2)
Với k là tập các biến đã biết của tập vector mẫu x; xk, mk là thành phần thứ k của mẫu và vector trọng số; wk là giá trị mặt nạ thứ k.
Sau khi tìm đƣợc BMU vector trọng số của SOM đƣợc cập nhật, các BMU đƣợc di chuyển gần hơn với các vector đầu vào trong không gian đầu vào. Những lân cận của BMU đƣợc xử lý tƣơng tự. Công thức cập nhật vector trọng số của đơn vị i đƣợc tính:
i i ci i
m (t 1) m (t) α(t)h (t)[x(t)-m (t)] (3.3)
Thuật toán huấn luyện khối
Thuật toán huấn luyện khối là thuật toán lặp nhƣng thay vì sử dụng một vector dữ liệu duy nhất tại một thời điểm thì toàn bộ tập dữ liệu đƣợc thể hiện trên ma trận trƣớc khi có bất kì điều chỉnh nào. Trong từng bƣớc huấn luyện, tập hợp dữ liệu đƣợc phân chia theo các vùng. Sau đó vector trọng số đƣợc tính:
n ci j j 1 n i ci j 1 h (t)x m (t 1) h (t) (3.4)
Vector trọng số mới là một giá trị trọng số trung bình của các mẫu, trọng số của mỗi mẫu là giá trị hàm lân cận hci(t) tại BMU của nó. Các giá trị thiếu đƣợc bỏ qua trong quá trình tính trung bình trọng số.
Trực quan mạng
Dựa trên các thuật toán bản đồ tự tổ chức, năm kỹ thuật trực quan hóa chính đã đƣợc khám phá: U-matrix, trực quan lƣới, trực quan hóa bản đồ thành phần, bề mặt đồ thị 2D và 3D của ma trận khoảng cách.
Để tìm ra những cách thức tự tổ chức bản đồ SOM, sử dụng ma trận thống nhất khoảng cách (U-matrix - The Unified distance matrix) là một đại diện của bản đồ tự tổ chức xác định khoảng cách giữa các nơron hoặc các đơn vị. Phƣơng pháp U-matrix này có thể đƣợc sử dụng để khám phá các mối quan hệ không đƣợc nhìn thấy trong không gian dữ liệu. Nó cũng có thể phân loại các tập hợp dữ liệu thành các cụm theo các giá trị tƣơng tự. Đơn giản, U-matrix là để tính toán khoảng cách giữa các nơron lân cận và lƣu trữ chúng trong ma trận.
Cách dịch U-matrix nhƣ sau: Giá trị khoảng cách giữa các nơron lớn biểu thị cho những giá trị khác biệt đáng kể (không cùng cụm), ngƣợc lại giá trị bé biểu thị cho những dữ liệu giống nhau. Khoảng cách giữa các giá trị sau khi đƣợc tính cũng đƣợc hiển thị với những màu sắc khác nhau. Trên bản đồ, tôi xác định các cụm bằng cách nhìn vào sắc thái màu sắc biên giới giữa các hình lục giác. Các màu tối giữa các nơron biểu thị cho khoảng cách lớn trong khi màu sắc tƣơi sáng biểu thị cho sự tƣơng đồng giữa các nơron. Và do đó, vùng màu đậm biểu thị dữ liệu cùng thuộc một cụm và vùng màu nhạt chính là ranh giới phân cách giữa các cụm. Việc hiển thị này giúp ta có đƣợc một cái nhìn trực quan, đầy đủ, rõ ràng, chính xác về dữ liệu. Bằng cách xem đặc điểm những mặt phẳng riêng biệt ta có thể tìm ra cột giá trị của một vector duy nhất.