ẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Một phần của tài liệu Đánh giá các thuật toán khai thác tập mục lợi ích cao (Trang 78 - 82)

Phần này đề cập lại mục tiêu nghiên cứu của luận văn, mô tả những kết quả làm đƣợc và làm chƣa đƣợc trong quá trình nghiên cứu. Những kết quả này chỉ là một phần rất nhỏ trong mục tiêu nghiên cứu và tổng kết lại những hướng nghiên cứu trong tương lai.

Hình 4.1: Hệ thống phân tích hành vi khách hàng

Với vấn đề nghiên cứu đƣợc đặt ra trong phần mở đầu, luận văn quan tâm đến xây dựng Hệ thống phân tích hành vi khách hàng để hỗ trợ cho các nhà buôn bán lẻ tận dụng khai thác khối lƣợng dữ liệu giao dịch khổng lồ từ chính của hàng của họ.

Hệ thống gồm ba mô đun chính và nhiều giai đoạn để thực hiện nhƣ trong hình 4.1.

- Đầu tiên là mô đun thu thập dữ liệu, mô đun này thu thập dữ liệu từ nhiều nguồn và thực hiện luôn việc tiền xử lý dữ liệu, để dữ liệu cuối cùng có định dạng giống nhƣ định dạng dữ liệu nghiên cứu.

- Mô đun thứ hai là mô đun phân tích thống kê, mô đun này chứa tất cả các thuật toán có trong SPMF, và tất nhiên các thuật toán này đã đƣợc kiểm tra tính đúng đắn trong thực tế.

- Mô đun cuối cùng là phần trực quan hóa, biểu diển các két quả đã khai thác đƣợc ra thành những báo cáo và hình ảnh trực quan.tất cả các mô đun và các giai đoạn thực hiện đều khó và phức tạp.

Nhƣng cốt lõi hơn hết là việc xử lý dữ liệu lớn hiệu quả. Vì vậy, tác giả ƣu tiên tập trung nghiên cứu các thuật toán tìm tập các mặt hàng mang lại lợi ích nhất cho cửa hàng đó. Giai đoạn này là giai đoạn chuẩn bị cho việc xây dựng mô đun thứ hai.

4.1. ết luận

Việc nghiên cứu là lâu dài và khó khăn, trong khuôn khổ thời gian thực hiện luận văn, bao gồm quá trình tìm hiểu và đọc tài liệu, chạy các thực nghiệm cũng nhƣ kiểm tra tính đúng đắn của các thuật toán đã đƣợc cài đặt trong công cụ SPMF.

Khu vực nghiên cứu của luận văn chỉ mới nằm trong các giới hạn sau:

- Tác giả tìm hiểu các thuật toán khai thác tập có ích cao trên dữ liệu tĩnh (dữ liệu không có biến động). Trong thực tế dữ liệu tĩnh chỉ phù hợp trong phân tích, rút kinh nghiệm trong một quãng thời gian nào đó và không có tính tương tác kịp thời. Dữ liệu động phù hợp trong các bài toán cần có tính tương tác cao. Với mỗi loại dữ liệu có tập các thuật toán phù hợp để khai thác.

- Dữ liệu nghiên cứu đƣợc lấy từ nguồn dữ liệu nghiên cứu chuẩn (chƣa thử nghiệm trên dữ liệu thực). Những dữ liệu trong luận văn chỉ là dữ liệu giả lập, việc này dễ hơn rất nhiều so với thao tác trên dữ liệu thực tế vì dữ liệu thực tế còn phải qua bước tiền xử lý dữ liệu.

- Việc đánh giá chỉ mới đánh giá dựa trên tốc độ xử lý dữ liệu của các thuật toán (chƣa đánh giá tính có ích thực sự so với ý kiến thực của khách hàng).

Trong thực tế cần đánh giá độ trùng khớp kết quả thu đƣợc với tri thức của khách hàng, nếu độ trùng khớp cao thì kết quả của hệ thống mới có giá trị sử dụng, và các thông tin bất thường mới thực sự thú vị với mong muốn khai thác dữ lệu.

- Việc xử lý dữ liệu theo hướng tập trung (chưa nghiên cứu hướng phân tán).

Trong thực tế, dữ liệu đƣợc lấy từ nhiều nguồn – nhiều chi nhánh khác nhau, và cũng được lưu trữ ở nhiều nơi khác nhau.

Quá trình nghiên cứu có những kết quả bước đầu cực kỳ quan trọng trong mục tiêu xây dựng hệ thống thực tế, những kết quả bước đầu này được xem như là đóng góp chính của luận văn:

- Xác định mã nguồn và cấu trúc dữ liệu của từng thuật toán đã cài đặt trên SPMF có nhƣ mô tả trong bài báo đã công bố để xác định độ tin cậy của công cụ SPMF. Tác giả đã đọc mã nguồn và so sánh với mã giả trong các bài báo liên quan trong từng thuật toán và nhận thấy việc cài đặt trong công cụ SPMF là hoàn toàn chuẩn mực và đáng tin cậy.

- Xác định đƣợc thuật toán Two-Phase trong SPMF cài đặt không đúng với bài báo ban đầu (thuật toán Two-Phase trong SPMF cài đặt theo thuật toán cài tiến TWU-Mining [])

- Cài đặt bổ sung thuật toán Diffset-Two-Phase (mở rộng của TWU-Mining có dùng thêm tính chất Diffset của Zaki), thuật toán Diffset-Two-Phase là thuật toán tốt nhất trong họ Two-Phase, kết quả đã đƣợc thể hiện qua thực nghiệm.

Cần có đề nghị bổ sung thuật toán này vào bộ SPMF thay cho thật toán Two- Phase hiện hành.

- Hiện thực lại tất cả các thực nghiệm đã đƣợc thực hiện trong các công trình công bố để xác định tính đúng đắn của thuật toán. Các kết quả thực nghiệm của các tác giả công bố hoàn toàn khớp với kết quả thực nghiệm.

4.2. Hướng phát triển

Liên quan đến lĩnh vực nghiên cứu của luận văn. Để hiện thực hóa Hệ thống phân tích hành vi khách hàng cần phải nghiên cứu thêm các vấn đề sau:

- Tập các thuật toán khai thác tập có ích cao trên dữ liệu động;

- Làm thực nghiệm toàn bộ các thuật toán trên dữ liệu thực tế;

- Nghiên cứu đánh giá độ tương quan của kết quả đạt được so với ý kiến của những người bán hàng lâu năm;

- Nghiên cứu các thuật toán khai thác tập có ích cao trên nền cơ sở dữ liệu phân tán.

Hình 4.2: Minh họa các thành phần SSAS – SSIS – SSRS trong BIDS

Trong thực tế, vấn đề luận văn quan tâm chính là lĩnh vực BI (Business Intelligence) rất phổ biến, và hiện nay hãng Microsoft đã hỗ trợ framework để làm việc trong lĩnh vực BI đó là BIDS (Business Intelligence Development Studio) gồm có 3 thành phần SSAS, SSIS, SSRS ứng với 3 mô đun trong hình 4.1. Việc nghiên cứu trong luận văn để nhằm hiểu đƣợc các vấn đề cốt lõi trong framework BIDS để từ đó có thể tự điều chỉnh chính xác phương thức đã được xây dựng sẵn và kế thừa hiệu quả những công nghệ có sẵn.

Một phần của tài liệu Đánh giá các thuật toán khai thác tập mục lợi ích cao (Trang 78 - 82)

Tải bản đầy đủ (PDF)

(83 trang)