1. Phân tích bài toán, nêu rõ yêu cầu và kết quả cần đạt được 1.1. Phân tích bài toán
Những năm gần đây, cùng với sự phát triển của Công nghệ thông tin, con người tạo ra nhiều dữ liệu nghiệp vụ, các tập dữ liệu được tích lũy có kích thước ngày càng lớn, và có thể chứa nhiều thông tin ẩn dạng những quy luật chưa được khám phá. Chính vì vậy, một nhu cầu đặt ra là cần tìm cách trích rút từ tập dữ liệu đó các luật để phân lớp dữ liệu hay dự đoán những xu hướng dữ liệu tương lai. Có rất nhiều thuật toán khai phá tri thức bằng cách phân lớp và rời rạc dữ liệu như: sử dụng cây quyết định, phương pháp thống kê, các mạng nơron, thuật toán di truyền,... Gần đây, lý thuyết tập thô được nhiều nhóm nghiên cứu trong lĩnh vực khai phá tri thức và triển khai ứng dụng trong thực tế. Lý thuyết tập thô được xây dựng trên nền tảng toán học vững chắc giúp cung cấp những công cụ hữu ích để giải quyết những bài toán phân lớp dữ liệu và đặc biệt hữu ích trong các bài toán phải xử lý các dữ liệu mơ hồ, không chắc chắn. Các tập dữ liệu là mơ hồ, không chắc chắn được biểu diễn thông qua tập xấp xỉ trên và xấp xỉ dưới của nó. Nhờ vào những điều này mà dữ liệu có thể phân tích và xử lý bằng những công cụ toán học...
Cụ thể trong lý thuyết tập thô dữ liệu được biểu diễn thông qua hệ thông tin hay bảng quyết định. Trong thực tế, với những bảng dữ liệu lớn với dữ liệu không hoàn hảo, dư thừa, liên tục hoặc biểu diễn dưới dạng các ký hiệu, lý thuyết tập thô cho phép khai phá tri thức trong những cơ sở dữ liệu như thế nhằm phát hiện những tri thức tiềm ẩn từ những khối dữ liệu “thô” này. Sau khi tìm được những quy luật chung nhất để biểu diễn dữ liệu, người ta có thể tính toán độ mạnh và độ phụ thuộc giữa các thuộc tính trong hệ thông tin. Xuất phát từ những vấn đề trên, nhóm đã tìm hiểu: “Tiếp cận “bộ thô” để phát triển nguồn nhân lực của các tập đoàn công nghệ thông tin”.
Trong ngành công nghệ thông tin để tìm kiếm lời giải tối ưu cho các bài toán là vấn đề được các nhà nghiên cứu đặc biệt quan tâm. Mục đích chính của các thuật toán là tìm kiếm thuật giải chất lượng cao và sử dụng kỹ thuật trí tuệ nhân tạo đặc biệt rất cần thiết khi giải quyết các bài toán có không gian tìm kiếm lớn. Và điều cần thiết cho các Tập đoàn công nghệ thông tin để cải thiện lợi thế cạnh tranh và tăng cường tổ chức hiệu suất. Nhân viên là yếu tố then chốt cho sự thành công của công ty. Điều quan trọng là tìm hoặc tạo ra một mô hình hoàn toàn mới trong việc xử lý nguồn nhân lực và quản lý quan hệ khách hàng, cũng như để nhận ra đặc điểm của nhân viên nào có ảnh hưởng trong việc xây dựng mối quan hệ với khách hàng. Để phát triển nguồn nhân lực nhóm đã tiếp cận mô hình bộ thô để giải quyết sự mập mờ, mơ hồ và không chắc chắn trong phân tích nguồn nhân lực và quản lý quan hệ con người, và có thể thay đổi một vấn đề định tính thành định lượng
1.2. Yêu cầu và kết quả cần đạt được
Mục tiêu của nghiên cứu này là tìm ra giải pháp phù hợp để hài lòng cả nhân viên và khách hàng. Tìm ra các kiểu đặc tính và hành vi của nhân viên giúp tạo nên mối quan hệ tốt với khách hàng.
Kết quả của nghiên cứu này sẽ giúp hướng dẫn tổ chức xây dựng nên những chiến lược trong quản trị nhân sự và quản trị quan hệ khách hàng.
2. Nêu thuật toán tác giả đã lựa chọn
Trong bài báo này, các tác giả đã lựa chọn lý thuyết tập thô để phân tích vấn đề nguồn nhân lực. Mô hình hóa Hệ thống thông tin gồm IS=(U,A,V,f) U là tập hữu hạn các đối tượng, A là tập các thuộc tính, Va là tập giá trị của thuộc tính a, f là một ánh xạ. Ứng với mỗi thuộc tính a, fa ánh xạ từ U -> Va. Cụ thể dựa trên việc xác định xấp xỉ trên và dưới của tập các thuộc tính trong quá trình phân tích dựa trên lý thuyết tập thô, từ đó giúp cho người ra quyết định có các lựa chọn phù hợp trong vấn đề về quản lý nguồn nhân lực.
3. Xây dựng cấu trúc dữ liệu thích hợp cho INPUT và OUTPUT
Thuật toán thu gọn không gian thuộc tính điều kiện Input: Hàm khả phân fs=fs1 fs2 … fsn
Output: Các tập thuộc tính thu gọn của hệ thông tin S
1. Với mỗi phần hội, áp dụng luật hút để loại bỏ những phần hội là tập cha của nó
2. Thay tất cả các thuộc tính tương đương mạnh bởi các thuộc tính đại diện 3. Với mỗi phần hội fsi, áp dụng luật mở rộng nếu được để tách thành hai hàm khả phân fsi = fsi1 fsi2.
4. Quay lại 1 cho đến khi không thể thực hiện được (3), ta được các fsi ở dạng đơn giản
5. Thay thế các thuộc tính đại diện bởi các thuộc tính ban đầu 6. Phân rã fsi theo luật phân phối ta được Red(fsi)
7. Các phần giao nhỏ nhất của các Red(fsi) là các tập thuộc tính thu gọn của hệ thông tin S.
4. Phân tích ưu nhược điểm của thuật toán áp dụng giải bài toán đã chọn 4.1. Ưu điểm
Ý tưởng chính của lý thuyết tập thô lần đầu tiên được nhà toán học Ba Lan Z.Pawlak đề xuất. Tiếp theo sau đó, các nhà khoa học khắp nơi trên thế giới đóng góp nhiều thành tựu quan trọng nhằm phát triển lý thuyết tập thô và ứng dụng. Một số bài toán trong lĩnh vực như ngân hàng, tài chính, y học,… đã được giải quyết thành công nhờ công cụ tập thô. Cách tiếp cận tập thô để phân tích dữ liệu có rất nhiều điểm lợi quan trọng như sau:
- Nó cung cấp các thuật toán hiệu quả cho việc tìm kiếm các mẫu dữ liệu bị ẩn trong dữ liệu, tìm bộ dữ liệu tối thiểu (dữ liệu giảm), đánh giá sự quan trọng của dữ liệu và tạo ra bộ quy tắc quyết định tối thiểu từ dữ liệu. Điều này là dễ hiểu và đưa ra cách giải thích đơn giản về kết quả [Pawlak, Z., 1996]
- Cho phép xử lý hiệu quả bảng dữ liệu lớn, loại bỏ dữ liệu dư thừa, dữ liệu không hoàn hảo, dữ liệu liên tục.
- Hiệu quả trong việc tìm kiếm những mẫu tiềm ẩn trong cơ sở dữ liệu.
- Sử dụng được tri thức kinh nghiệm.
- Nhận ra được những mối quan hệ mà khi sử dụng các phương pháp thống kê khác không phát hiện được.
- Sử dụng quan hệ thứ lỗi trong quá trình phát hiện mẫu.
- Làm việc hiệu quả trên tập rút gọn.
- Cách giải thích rõ ràng và dễ hiểu.
Kiến thức cơ sở của lý thuyết tập thô cổ điển là các phép toán xấp xỉ trên, xấp xỉ dưới dựa trên phân hoạch được tạo bởi một quan hệ tương đương.
4.2. nhược điểm
- Hiệu quả chương trình chạy vẫn còn chưa nhanh
- Trích chọn dữ liệu kể cả dữ liệu đầu vào vẫn còn hạn chế.
- Tạo ra chương trình trích chọn dữ liệu vẫn còn ít.
5. Nêu các lớp bài toán tương tự có thể áp dụng thuật toán trong bài báo để giải quyết
Lý thuyết tập thô có tầm quan trọng cơ bản trong trí tuệ nhân tạo(AI) và khoa học nhận thức, đặc biệt là trong lĩnh vực máy học, thu thập kiến thức và phân tích quyết định, lập luận quy nạp khám phá kiến thức và nhận dạng mẫu trong CSDL, hệ thống chuyên gia, hệ thống hỗ trợ ra quyết định.
Lý thuyết tập thô được phát triển bởi [Pawlak, 1982;Pawlak, 1984]. Nó đã được áp dụng để phân tích về nhiều vấn đề, bao gồm chuẩn đoán y tế, độ tin cậy kỹ thuật,hệ thống chuyên gia, nghiên cứu thực nghiệm về dữ liệu vật liệu [Jackson et al., 1996], chuẩn đoán máy [Zhai etal., 2002,], phân tích nhu cầu du lịch, khai phá dữ liệu [Goh and Law,2003], nghiên cứu đề xuất một cách tiếp cận chung cho sự xây dựng phát triển không ngừng của sự phân chia dựa trên vai trò để giải quyết các phương trình tuyến tính [Azibi and Vanderpooten, 2002]. Dựa trên lý thuyết tập thô của Shyng et al.2007, đã giải quyết được ảnh hưởng của các thuộc tính/ các
điểm đặc trưng trên các giá trị kết hợp của các quyết định mà các công ty bảo hiểm làm hài lòng các nhu cầu của khách hàng [Shyng etal., 2007]. Lý thuyết tập thô có thể hợp nhất với lý thuyết mờ [Lech P., 2003] và được chuyển đổi từ một sắc nét sang một mờ, được gọi là lý thuyết tập thô Alpha [Quafafou, 2000].
Ví dụ: Tập thuộc tính B= {Color, Size} trong Bảng 2 phân hoạch tập 8 đối tượng thành tập các lớp tương đương như sau:
Bảng 2. Bảng quyết định
Nhận xét: Ta thấy, các đối tượng u1và u6 cùng một lớp tương đương nên chúng không thể phân biệt với nhau trên tập thuộc tính {Color, Size }.
Các tập xấp xỉ
Các tập xấp xỉ là cơ sở để rút ra các kết luận (tri thức) từ cơ sở dữ liệu. Cho hệ thống thông tin . Với các tri thức được cho bởi tập thuộc tính B, vấn đề đặt ra là liệu chúng ta có thể biểu diễn tập các đối tượng V bằng các tri thức có sẵn hay không? Hay nói cách khác, với tập thuộc tính B cho trước, chúng ta có các lớp tương đương của quan hệ IND(B), thế thì tập các đối tượng V có thể được diễn đạt thông qua các lớp tương đương này như thế nào?
Trong lý thuyết tập thô, để biểu diễn tập đối tượng V bằng tri thức có sẵn B người ta xấp xỉ chúng bởi hợp của một số hữu hạn các lớp tương tương của IND(B). Có 2