GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU
Sơ lược về khai phá dữ liệu
Khai phá dữ liệu (Data Mining) là quá trình khám phá thông tin ẩn trong các cơ sở dữ liệu, ra đời vào cuối thập kỷ 1980, và được coi là một bước trong quy trình khám phá tri thức Quá trình này sử dụng nhiều kỹ thuật để phát hiện thông tin có giá trị từ các tập dữ liệu lớn, tương tự như việc "Đãi cát tìm vàng" Ngoài thuật ngữ KPDL, còn có nhiều khái niệm liên quan như Khai phá tri thức (Knowledge Mining), chắt lọc tri thức (knowledge extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology), và nạo vét dữ liệu (data dredging).
Khai phá dữ liệu (Data mining - DM) là quá trình khám phá tri thức từ dữ liệu, nhằm phát hiện các mẫu hoặc mô hình tiềm ẩn trong cơ sở dữ liệu lớn.
Khám phá tri thức là quá trình nhận diện các mẫu và mô hình từ dữ liệu, với các tiêu chí như tính chính xác, tính mới mẻ, tính hữu ích và khả năng hiểu được Khai phá dữ liệu đóng vai trò quan trọng trong quy trình này, sử dụng các thuật toán phù hợp để phát hiện các mẫu và mô hình trong tập dữ liệu.
1.1.2 Mục đích của khai phá dữ liệu:
Khai phá dữ liệu là quá trình trích xuất thông tin hữu ích từ kho dữ liệu lớn, với đầu vào là dữ liệu (tập hợp các sự vật, hiện tượng) và đầu ra thường là các dự báo về sự vật, hiện tượng mới Trong bối cảnh vay tín chấp tiêu dùng tại ngân hàng Kỹ thương Việt Nam (Techcombank), quy trình khai phá dữ liệu đóng vai trò quan trọng trong việc phân tích và dự đoán nhu cầu của khách hàng, từ đó tối ưu hóa các sản phẩm và dịch vụ.
Hình 1 Các giai đoạn trong quá trình khai phá dữ liệu
Giai đoạn đầu tiên trong quá trình phân tích dữ liệu là gom dữ liệu, nơi chúng ta tập hợp các thông tin từ nhiều nguồn khác nhau, bao gồm cơ sở dữ liệu, kho dữ liệu và các ứng dụng Web.
Giai đoạn 2: Trích lọc dữ liệu (Selection) là quá trình lựa chọn hoặc phân chia dữ liệu dựa trên các tiêu chí nhất định, chẳng hạn như chọn những người trong độ tuổi từ 25 đến 35 và có trình độ đại học.
Giai đoạn 3: Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing, Pre- processing and Preparation)
Giai đoạn thứ ba trong quá trình khai phá dữ liệu thường bị sao lãng, nhưng thực sự lại rất quan trọng Nhiều lỗi thường gặp trong việc gom dữ liệu là do tính không đủ chặt chẽ và logic, dẫn đến việc dữ liệu chứa các giá trị vô nghĩa và không thể kết nối Giai đoạn này tập trung vào việc xử lý những dữ liệu không chặt chẽ, được coi là thông tin dư thừa và không có giá trị Do đó, việc "làm sạch - tiền xử lý - chuẩn bị trước" dữ liệu là cần thiết để tránh những kết quả sai lệch nghiêm trọng.
Giai đoạn 4: Chuyển đổi dữ liệu (Transformation)
Dữ liệu sẽ được chuyển đổi phù hợp với mục đích khai thác.
Giai đoạn 5 của quá trình phân tích dữ liệu là Phát hiện và trích mẫu dữ liệu, trong đó nhiều thuật toán khác nhau được áp dụng để trích xuất các mẫu từ dữ liệu Các thuật toán phổ biến bao gồm nguyên tắc phân loại, nguyên tắc kết hợp và các mô hình dữ liệu tuần tự, giúp tối ưu hóa việc phát hiện thông tin quan trọng.
Giai đoạn 6: Đánh giá kết quả mẫu là bước cuối cùng trong quy trình khai phá dữ liệu Tại đây, các mẫu dữ liệu được trích xuất bởi phần mềm khai phá, tuy nhiên không phải tất cả đều hữu ích và có thể bị sai lệch Do đó, việc ưu tiên các tiêu chuẩn đánh giá là cần thiết để xác định và chiết xuất những tri thức quan trọng.
1.1.4 Ứng dụng của khai phá dữ liệu
Trong thời đại thông tin hiện nay, hàng ngàn thông tin được cập nhật mỗi ngày, nhưng không phải tất cả đều cần thiết Việc nắm bắt thông tin kịp thời và chính xác mang lại lợi thế cho con người, đặc biệt trong sản xuất kinh doanh Kỹ thuật khai phá dữ liệu giúp khai thác thông tin ẩn trong kho dữ liệu khổng lồ, được ứng dụng rộng rãi trong thực tế.
Khai phá dữ liệu là quá trình khám phá tri thức quan trọng, được áp dụng rộng rãi trong nhiều lĩnh vực như khoa học và kinh doanh Điều này đặc biệt hữu ích trong các ngành có cơ sở dữ liệu lớn và phức tạp, nơi chứa đựng nhiều thông tin giá trị.
Bảo hiểm, tài chính và thị trường chứng khoán đóng vai trò quan trọng trong việc phân tích tình hình tài chính và dự báo giá cũng như chỉ số cổ phiếu Khai phá dữ liệu giúp theo dõi danh mục vốn, giá cả, lãi suất và dữ liệu thẻ tín dụng, đồng thời phát hiện các giao dịch gian lận một cách hiệu quả.
Phân tích dữ liệu và thống kê giúp hỗ trợ ra quyết định hiệu quả bằng cách sử dụng thông tin sẵn có, từ đó đưa ra những quyết định kịp thời và tối ưu nhất.
Điều trị y học và chăm sóc y tế đóng vai trò quan trọng trong việc chuẩn đoán bệnh lưu trữ trong các hệ thống quản lý bệnh viện Việc phân tích mối liên hệ giữa triệu chứng bệnh, chuẩn đoán chính xác và phương pháp điều trị hợp lý là cần thiết để nâng cao hiệu quả chăm sóc sức khỏe.
Text Mining và Web Mining là những kỹ thuật quan trọng trong việc phân lớp văn bản và các trang web, cho phép tóm tắt nội dung một cách hiệu quả Qua đó, chúng ta có thể nhóm các văn bản và trang web theo chủ đề cụ thể, đồng thời lọc bỏ những trang web độc hại, nâng cao trải nghiệm người dùng và bảo vệ thông tin.
Một số phương pháp khai phá dữ liệu hiện đại
40 Combi Low nhân vay tín chấp tiêu dùng tại ngân hàng kỹ thương việt nam( techcombank )
Luận văn này sẽ giới thiệu 3 phương pháp thông dụng nhất là: phân lớp dữ liệu, phân cụm dữ liệu và luật kết hợp.
Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình này thường trải qua hai bước chính: đầu tiên là xây dựng mô hình, sau đó là áp dụng mô hình để phân lớp dữ liệu.
Bước 1: Xây dựng mô hình
Trong bước này, chúng ta sẽ xây dựng một mô hình dựa trên việc phân tích các mẫu dữ liệu có sẵn Đầu vào là một tập dữ liệu có cấu trúc, được mô tả bằng các thuộc tính và tạo ra từ các bộ giá trị của những thuộc tính này, với mỗi bộ giá trị được gọi là một mẫu Mỗi mẫu trong tập dữ liệu được giả định thuộc về một lớp đã định trước, với lớp là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn lớp Đầu ra của quá trình này thường là các quy tắc phân lớp, bao gồm luật if-then, cây quyết định, công thức logic hoặc mạng nơron Quá trình này được minh họa trong hình 2.
Classifier (model) ifage < 31 or Car Type =Sports then Risk = High
Hình 2 Quá trình phân lớp dữ liệu - Bước xây dựng mô hình Bước 2: Sử dụng mô hình đã xây dựng để phân lớp dữ liệu
Trong bước này, việc đầu tiên là tính toán độ chính xác của mô hình phân lớp Nếu độ chính xác đạt yêu cầu, mô hình sẽ được sử dụng để dự đoán nhãn lớp cho các mẫu dữ liệu trong tương lai Độ chính xác này được ước lượng dựa trên tỷ lệ phần trăm các mẫu trong tập dữ liệu kiểm tra mà mô hình phân lớp phân loại đúng so với thực tế Điều này rất quan trọng, đặc biệt trong lĩnh vực cho vay tín chấp tiêu dùng tại ngân hàng Kỹ thương Việt Nam (Techcombank).
Hình 3 Quá trình phân lớp dữ liệu - Ước lượng độ chính xác mô hình
Hình 4 Quá trình phân lớp dữ liệu -Phân lớp dữ liệu mới
Trong kỹ thuật phân lớp chúng ta có thể sử dụng các phương pháp như:
• Cây quyết định (Decision Tree)
• K-Láng giềng gần nhất (k-Nearest Neighbor)
• Giải thuật di truyền (Genetic algorithms)
• Tập mờ và tập thô (Rough and Fuzzy Sets).
Mục tiêu chính của phân cụm dữ liệu là tổ chức các đối tượng tương tự trong tập dữ liệu thành các nhóm, sao cho những đối tượng trong cùng một cụm có đặc điểm tương đồng, trong khi các đối tượng thuộc các cụm khác nhau lại không có sự tương đồng.
Phân cụm dữ liệu là một phương pháp học không giám sát, trong đó kết quả của các cụm không thể được dự đoán trước khi bắt đầu quá trình.
Vì vậy, cần có một chuyên gia về lĩnh vực đó để đánh giá các cụm thu được.
Phân cụm dữ liệu đóng vai trò quan trọng trong nhiều ứng dụng như phân loại thị trường, phân loại khách hàng, nhận dạng mẫu và phân loại trang web Bên cạnh đó, nó cũng được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác, giúp nâng cao hiệu quả phân tích và thu thập thông tin.
Phương pháp này nhằm phát hiện mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu (CSDL) Kết quả đầu ra của thuật toán khai phá dữ liệu là tập luật kết hợp Ví dụ, trong phân tích CSDL bán hàng, có thể nhận thấy rằng khách hàng mua máy tính thường có xu hướng mua phần mềm quản lý tài chính trong cùng một lần giao dịch, được thể hiện qua luật kết hợp.
“Máy tính => Phần mềm quản lý tài chính”
Độ hỗ trợ và độ tin cậy là hai chỉ số quan trọng trong khai thác luật, phản ánh mức độ hữu ích và độ chắc chắn của các mối quan hệ giữa các sản phẩm Độ hỗ trợ 2% cho thấy chỉ 2% trong số tất cả các tác vụ phân tích cho thấy máy tính và phần mềm quản lý tài chính được mua cùng nhau Trong khi đó, độ tin cậy 60% cho biết 60% khách hàng mua máy tính cũng chọn mua phần mềm Quá trình khai thác luật kết hợp thường được thực hiện qua hai bước.
Bước đầu tiên trong quy trình phân tích dữ liệu là xác định tất cả các tập mục phổ biến, được đánh giá dựa trên mức độ hỗ trợ và yêu cầu thỏa mãn mức hỗ trợ tối thiểu.
- Bước 2: sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu.
1.2 Hoạt động tín dụng của NHTM
Ngân hàng thương mại là tổ chức kinh tế hoạt động trong lĩnh vực tiền tệ, với hoạt động cho vay khách hàng (tín dụng) là nguồn lợi nhuận chủ yếu Qui mô và chất lượng tín dụng không chỉ ảnh hưởng đến lợi nhuận mà còn quyết định sự tồn tại và phát triển bền vững của ngân hàng.
Tín dụng ngân hàng là mối quan hệ kinh tế giữa bên cho vay (ngân hàng và các định chế tài chính) và bên đi vay, trong đó bên cho vay chuyển giao một lượng giá trị, thường là tiền, cho bên đi vay trong một khoảng thời gian nhất định theo các điều kiện đã thỏa thuận như thời gian và phương thức thanh toán lãi-gốc Đặc điểm nổi bật của tín dụng là dựa trên lòng tin, khi người cho vay tin tưởng rằng bên đi vay sẽ sử dụng vốn vay một cách hiệu quả và có khả năng trả nợ sau thời gian đã định.
Ngân hàng luôn thực hiện thẩm định và định giá khách hàng một cách khách quan và chính xác trước khi quyết định cho vay Quá trình này giúp ngân hàng xây dựng niềm tin vào khách hàng, từ đó giảm thiểu rủi ro trong hoạt động cho vay.
1.3.1 Quy trình tín dụng cơ bản
Một quy trình tín dụng căn bản bao gồm các bước sau: a) Lập hồ sơ
Lập hồ sơ tín dụng là bước thiết yếu trong quy trình cho vay, vì nó giúp thu thập thông tin cần thiết để thực hiện các bước tiếp theo, đặc biệt là trong việc phân tích và đưa ra quyết định cho vay.
Nhìn chung một bộ hồ sơ vay vốn cần phải thu thập các thông tin như:
- Năng lực pháp lý, năng lực hành vi dân sự của khách hàng.
- Khả năng sử dụng vốn
- Khả năng hoàn trợ nợ vay (vốn vay+lãi) b) Phân tích tín dụng
Phân tích tín dụng là xác định khả năng hiện tại và tương lai của khách hàng trong việc sử dụng vốn vay + hoàn trả nợ.
Mục tiêu của việc phân tích tín dụng:
Ngân hàng cần xác định các tình huống có thể gây ra rủi ro, đồng thời dự đoán khả năng khắc phục những rủi ro này Việc đề xuất các biện pháp giảm thiểu rủi ro là cần thiết để hạn chế tổn thất cho ngân hàng Hơn nữa, việc lập kế hoạch ứng phó hiệu quả sẽ giúp ngân hàng duy trì hoạt động ổn định và bảo vệ tài sản của mình.
Phân tích tính chân thực của thông tin thu thập từ khách hàng là bước quan trọng để đánh giá thái độ và thiện chí của họ, từ đó làm cơ sở cho quyết định cho vay Sau khi hoàn tất phân tích, việc đưa ra quyết định và ký hợp đồng tín dụng sẽ diễn ra, đảm bảo sự minh bạch và tin cậy trong quá trình cho vay.
Giới thiệu về Ngân hàng thương mại cổ phần kỹ thương Việt Nam
Ngân hàng thương mại cổ phần Kỹ Thương Việt Nam (Techcombank) là một trong những ngân hàng lớn tại Việt Nam, được thành lập vào năm 1993 với vốn khởi đầu 20 tỷ Đồng Sau 22 năm phát triển, Techcombank đã gặt hái nhiều thành công và hiện có vốn lên đến 6.932 tỷ Đồng, khẳng định vị thế của mình trong ngành ngân hàng Việt Nam.
Tầm nhìn: trở thành Ngân hàng tốt nhất và doanh nghiệp hàng đầu Việt Nam
Trở thành đối tác tài chính tin cậy và được khách hàng lựa chọn, chúng tôi cam kết cung cấp đầy đủ các sản phẩm và dịch vụ tài chính đa dạng, luôn đặt khách hàng làm trung tâm trong mọi hoạt động.
Xây dựng một môi trường làm việc tối ưu cho cán bộ nhân viên, nơi họ có nhiều cơ hội phát triển năng lực, đóng góp giá trị và xây dựng sự nghiệp thành công.
Cung cấp lợi ích hấp dẫn và bền vững cho cổ đông bằng cách thực hiện chiến lược phát triển kinh doanh mạnh mẽ, đồng thời áp dụng các tiêu chuẩn quản trị doanh nghiệp và quản lý rủi ro quốc tế một cách chặt chẽ.
Khách hàng là ưu tiên hàng đầu, thể hiện sự trân trọng đối với từng khách hàng và cam kết cung cấp sản phẩm, dịch vụ tốt nhất để đáp ứng nhu cầu của họ.
- Liên tục cải tiến có nghĩa là chúng ta đã tốt nhưng luôn có thể tốt hơn, vì vậy chúng ta sẽ không ngừng học hỏi và cải thiện.
- Tinh thần phối hợp có nghĩa là chúng ta tin tưởng vào đồng nghiệp của mình và hợp tác để cùng mang lại điều tốt nhất cho ngân hàng.
Phát triển nhân lực là quá trình tạo điều kiện cho cán bộ nhân viên phát huy tối đa năng lực cá nhân và khen thưởng xứng đáng cho những thành tích đạt được.
- Cam kết hành động có nghĩa là chúng ta luôn đảm bảo rằng công việc đã được cam kết sẽ phải được hoàn thành.
Hệ thống xếp hạng tín dụng cá nhân vay tín chấp tiêu dùng tại
Xếp hạng khách hàng tín chấp tiêu dùng là quá trình đánh giá cá nhân sử dụng sản phẩm vay tín chấp thông qua điểm số dựa trên thông tin cá nhân Hạng tín dụng của khách hàng được xác định bởi điểm số tín dụng mà họ đạt được, trong đó điểm xếp hạng phụ thuộc vào các tiêu chí đánh giá, đặc biệt là nhóm chỉ tiêu ảnh hưởng đến tình hình tài chính và thu nhập của khách hàng.
• Chênh lệch TN và chi tiêu hàng tháng
• Loại hình cơ quan đang làm việc
• Vị trí công tác b) Nhóm ảnh hưởng đến khả năng thu hồi nợ của KH
• Hình thức thanh toán lương
• Thu nhập của những người khác trong gia đình
• Tổng tài sản sở hữu
• Thời gian công tác tại cơ quan hiện tại c) Nhóm tác động chi tiêu của KH
• Loại hợp đồng lao động
• Trình độ học vấn d) Nhóm thông tin bổ sung
• Số người khác có thu nhập
Chênh lệch TN và chi tiêu hàng tháng 5 - 25
Loại hình cơ quan đang làm việc 5 - 25
Hình thức thanh toán lương 5 - 20
Thu nhập của những người khác trong gia đình
Tổng tài sản sở hữu 5 - 20
Loại hợp đồng lao động 5 - 15
Số người khác có thu nhập 5 - 10
Uy tín giao dịch -20 - 10 nhân vay tín chấp tiêu dùng tại ngân hàng kỹ thương việt nam( techcombank )
Thang điểm cho từng tiêu chí:
1 >)0 AAA Năng lực trả nợ rất tốt, rủi ro mất vốn thấp
2 Từ 260 đến 290 AA Năng lực trả nợ tốt
3 Từ 230 đến 260 A Năng lực tín dụng khá
4 Từ 205 đến 230 BBB Năng lực tín dụng trung bình khá
5 Từ 175 đến 205 BB Năng lực tín dụng trung bình, khả năng trả nợ bị ảnh hưởng bởi yếu tố bên ngoài
6 Từ 145 đến 175 B Năng lực tín dụng trung bình
7 Từ 120 đến 145 CCC Năng lực tín dụng yếu, khả năng mất vốn cao 8
Từ 90 đến 120 CC Năng lực tín dụng kém, khả năng mất vốn rất cao
9 max IG) then Begin maxIG := tg; kq := c; end end return kq;
//hàm trả về thuộc tính có lượng thông tin thu thêm IG là lớn nhất.
Ví dụ về thuật toán ID3
Xét bảng quyết định sau đây:
DT = (U, CU {d )Ỵ) nhân vay tín chấp tiêu dùng tại ngân hàng kỹ thương việt nam( techcombank )
Thuật toán xây dựng cây quyết định với dữ liệu bảng trên như sau:
- Trước tiên các nút lá được khởi tạo gồm các mẫu từ 1 đến 12
Tính Entropy cho toàn bộ tập huấn luyện U gồm 7 bộ {1,2,5,7,8,9,11} có giá trị thuộc tính nhãn là “CÓ” và 5 bộ {3,4,6,10,12} có giá trị thuộc tính nhãn là
Tính IG cho từng thuộc tính:
Thuộc tính “Tuổi” Thuộc tính này có 3 giá trị “36-55”, “26-55”, “56-60”
Căn cứ vào bảng dữ liệu ta thấy:
+ Với giá trị của “36-55” có 2 bộ {1,2} có giá trị thuộc tính nhãn là
“CÓ” và có 2 bộ {3,4} có giá trị thuộc tính nhãn là “KHÔNG”.
+ Với giá trị của “26-35” có 4 bộ {5,7,8,9} có giá trị thuộc tính nhãn là
“CÓ” và có 1 bộ {6} có giá trị thuộc tính nhãn là “KHÔNG”.
+ Với giá trị của “56-60” có 1 bộ {11} có giá trị thuộc tính nhãn là
“CÓ” và có 2 bộ {10,12} có giá trị thuộc tính nhãn là “KHÔNG”.
Ta có độ lợi thông tin thu thêm được của thuộc tính “Tuổi” xét trên U là:
IG ( Ư, giá, giá cả ) = Entropy ( ư) - ∑vny) - ∑vny iιι ^ Entropyty j
121 - 4 log 2 4 - 4 log 2 4) 'ty (- 5 log 2 5 - 5 log 2 5 )
= 0.9799 - 0.8637 = 0.1162 Theo cách tính tương tự ta tính được :
IG ( , tình ư, tr ngạng c trú)ư,
IG (U, c c u gia đĩnh)ơ cấu gia đĩnh) ấu gia đĩnh)
Thuộc tính “tình trạng cư trú” có chỉ số IG lớn nhất, do đó được chọn làm thuộc tính phân chia cho nút gốc Từ đó, ba nhánh được hình thành: “thuê”, “với gia đình” và “CSH” Nhánh “với gia đình” gồm các mẫu {3,4,6} thuộc lớp “KHÔNG”, tạo ra nút lá với nhãn “KHÔNG” Nhánh “CSH” chứa các mẫu {1,2,5,8,11} thuộc lớp “CÓ”, tạo ra nút lá với nhãn “CÓ” Kết quả phân chia này hình thành nên cây quyết định.
Hình 1: Cây sau khi chọn thuộc tính Tình trạng cư trú(ID3).
- Bước tiếp theo gọi thuật toán đệ quy
ID3 (u1, C - {tình tr ng c trú}, {d})ạng cư trú}, {d}) ư, Để tìm điểm chia tốt nhất tại thuật toán này, phải tính toán chỉ số IG của các thuộc tính
Trong quá trình phân tích dữ liệu, chúng ta sẽ tính toán Entropy cho tập huấn luyện U1, bao gồm hai nhóm: nhóm {7,9} mang thuộc tính nhãn “CÓ” và nhóm {10,12} với thuộc tính nhãn “KHÔNG” Việc này giúp hiểu rõ hơn về cấu trúc và phân bố của dữ liệu dựa trên các yếu tố như "Tuổi", "Học vấn" và "Cơ cấu gia đình".
4 4 4 4 nhân vay tín chấp tiêu dùng tại ngân hàng kỹ thương việt nam( techcombank )
Tiếp theo tính IG cho thuộc tính “Tuổi” Thuộc tính này có 3 giá trị “36-55”, “26-35”,
Căn cứ vào bảng dữ liệu ta thấy:
+ Với giá trị của “36-55” không có bộ nào thuộc U 1
+ Với giá trị của “26-35” chỉ có 2 bộ {7,9} có giá trị thuộc tính nhãn là “CÓ”.
+ Với giá trị của “56-60” chỉ có 2 bộ {10,12} có giá trị thuộc tính nhãn là
Do đó độ đo lượng thông tin thu thêm của thuộc tính “Tuổi” xét trên U1là:
Theo cách tính tương tự ta cũng có
IG (U 1 , h c v n)ọc vần) ấu gia đĩnh)
IG(U 1 , c c u gia đình.)ơ cấu gia đĩnh) ấu gia đĩnh) = 1 - 3 (-2 l°g 2 2 - -1 l°g 2 1 ∖ + 1 (- 7log2 7)l = 1 -
Thuộc tính "Tuổi" có chỉ số IG lớn nhất, vì vậy nó được chọn làm thuộc tính phân chia Do đó, "Tuổi" sẽ là nhãn cho nút bên trái kết nối với nhánh "thuê".
Thuộc tính này có 2 giá trị thuộc U1nên ta tiếp tục chia thành hai nhánh mới là “26- 35”, “56-60”.
+ Với nhánh “26-35” gồm 2 bộ {7,9} có cùng giá trị quyết định là “CÓ” nên tạo nút lá là “CÓ”.
+ Với nhánh “56-60” gồm 2 bộ {10,12} có cùng giá trị quyết định là “KHÔNG” nên tạo nút lá là “KHÔNG”.
Cuối cùng ta thu được cây như sau:
Hình 2: Cây kết quả (ID3)
Thuật toán C4.5 là phiên bản cải tiến của ID3, cho phép xử lý dữ liệu có thuộc tính số và làm việc hiệu quả với tập dữ liệu bị nhiễu và thiếu C4.5 phân lớp dữ liệu theo chiến lược ưu tiên có chiều sâu, trở thành một trong những thuật toán phân lớp dựa trên cây quyết định phổ biến trong khai thác cơ sở dữ liệu nhỏ Thuật toán này sử dụng cơ chế lưu trữ dữ liệu trong bộ nhớ, khiến nó phù hợp hơn với các cơ sở dữ liệu có kích thước nhỏ Ngoài ra, C4.5 còn có khả năng sắp xếp lại dữ liệu tại mỗi node trong quá trình phát triển cây quyết định và cho phép biểu diễn cây quyết định dưới dạng danh sách các luật if-then, giúp dễ dàng hiểu và áp dụng.
Kỹ thuật này giúp giảm kích thước tập luật và đơn giản hóa các luật, đồng thời duy trì độ chính xác tương đương với các nhánh trong cây quyết định Điều này đặc biệt hữu ích trong việc phân tích nhân vay tín chấp tiêu dùng tại Ngân hàng Kỹ Thương Việt Nam (Techcombank).
Chương 2 đã tiến hành tìm hiểu về cây quyết định, về các hướng tiếp cận, các tính chất và quy trình thuật toán ID3, từ đó có thể ứng dụng luật kết hợp vào bài toán thực tế để giải quyết vấn đề chấm điểm tín dụng khách hàng cá nhân, qua đó thấy được ưu nhược điểm của phương pháp này, từ đó có thể áp dụng một cách linh động.