Tuy nhiên, đa số các ngân hàng vẫn giới hạn dịch vụ này cho phân khúc khách hàng có thu nhập khá trở lên với lịch sử tín dụng tốt và phải xem xét thật kĩ thông tim dữ liệu của khách hàng
Trang 1UNG DUNG KHAI THAC DU LIEU TRONG PHÊ DUYỆT THẺ TÍN DỤNG
Mén: KHAI THAC DU LIEU
Thành viên nhóm
Huynh Lam Nhu Ha : 31191026439 Võ Đàm Xuân Trà : 31191026352
Trang 2LOI CAM GN
Lời dau tién, nhém ching em muon giti dén giang vién b6 mén Phân tích định lượng trong kinh doanh - cô Nguyễn Thảo Nguyên lời cảm ơn sâu sắc và chân thành nhất vì trong suốt quá trình học tập đã nhận được sự quan tâm giúp đỡ hướng dân tận tình của
Trong quá trình thực hiện dự án, chúng em đã cỗ gắng vận dụng hết! tất cả những kiến thức mà chúng em tiếp thu và tích luỹ được Chúng em đã dành hết khả năng cũng như kiến thức mà chúng em có được vào dự án lần này Thế nên chúng em mong nhận được lời góp ý từ Cô đề hoàn thành bài báo cáo một cách hoàn hảo nhất
Lời cuối cùng, chúng em chúc cô luôn thật nhiều sức khỏe, luôn vui vẻ, hạnh phúc va thành công trên con đường sự nghiệp giảng dạy
Xin chan thanh cam on! Tran trong
Trang 3MUC LUC
CHƯƠNG I Tóm tắt để tải 222 1 22211121122211110221021111 21 10.21 ne 5
LoL Lido hom d€ tatccccccccccccccccccccccsescscsvesesceesesvsvesssessessseseesesesessesesesesesesesesssvsvevsrvavevesess 5 1.2 Muse ti€u nghién 0 5 1.3 Phương pháp nghiên cứu của đề tải 5-55: St E1 11211 1111 1 2E rkrreeh 6
1.5 Dong gop ctta dé tai cece ceccceccescescessessesssessessesvesssssssesesssevssessnssesssssevsressesseeseesseess 6
1.6 Hướng phát triỂn -:- 52+ 2 1 E1 112112115211 11t 1E HH 21g tre, 6 CHƯƠNG 2 Cơ sở lí thuyẾt -á- c5 2E T2 11 11 11111 g1 11121 re tre 7
2.2 Cây quyết định s S11 111211211111 11 1101111121 1 1 HH1 ngay 7 2.3 Mạng thần kinh - - 2s s2 1212 xEE1EE1121121111 1112110110121 H1 111 1y § CHƯƠNG 3 Phương pháp nghiên cứu 5-5: 222 1S 31 1211511121 122111111121 0101111 ce 10 3.1 Nguồn dữ liệu 5c s11 E1 111111211 11 T1 1 HH1 HH 1t tre 10
KVP.(3i0:ìì3.114 10 E0 an H
CHƯƠNG 4 Kết quả PHÂN TÍCH 2-5252 SE 1E2EE2112212212121211 1E errxe 13 4.1 Mô hình hồi quy Logistic 2s x2 1E 1121812221111 eg 13 4.2 Mô hình mạng thần kinh - ¿2 5s E2 2E12E1E11211217112212 1.1.1.1 EEtrrrrerriei 16
VAN 300/9 17 4.2.2 Phương pháp ÏDynam1C - - 2c 2212212211 1212 115522151212 12211128 1H re 18 VN oi l0 134Ả 19
4.2.6 Phương pháp Exhautive Prune 2 2c 221 1221122112111 51211112 tre 22
4.3 Cây quyết ổịnh -s 111111 112112211 11211111 1 H11 HH nga 24
4.3.1 Phương pháp C&R Tree Q20 21212112122 1521511122211 81 Họ 24
Trang 44.3.2 Phương pháp Quest - L0 2222212222212 2212221122122 re 27 CN goi loi 29
Nhược điểm -Ặ TT n2 T1 ng E1 ExnH TH HH HH HH HH Hee 36
5.2 Kết luận và giải pháp s5 ch HT HH1 11211 tre rrey 36
5.2.1 KẾt luận : 22222211 222111112212 1111222 10.12011021 He 36
5.2.2 Hạn chế và giải pháp: - 5s 2s 11211211 112711 H111 1 crg rgryk 36
Tài liệu tham khảo - - - n2 H212 1H10 1H gu ng ng ng CT0 yy 38 Phụ lục 2c LH HT ng ng ng ng KT g9 KT T90 5k k T0 c5 39 Danh mục hìỉnÌh: - - c2 6 E2205110 6539 191511119551 11195501111 011kg ngu ng n4 39 P100 seesaesscsseceseseeeeessecesesesesessecisesiseiessessseseseses 39
Trang 5CHUONG 1.TOM TAT DE TAI
1.1 Lí do chọn đề tài
Hiện nay nhu cầu sử dụng thẻ tín dụng cho chỉ tiêu, mua sắm ngày cảng trở nên phô biến và cần thiết tại Việt Nam Hãy cùng chúng tôi tìm hiểu vì sao bạn nên sở hữu ít nhất một thẻ tín dụng Credit Card là một loại thẻ ngân hàng mà người sở hữu được phép thanh toán hàng hóa mà không cần tiền trong thẻ Hình thức thanh toán này dựa trên sự uy tín của người tiêu dùng Có thể hiểu là thẻ Credit cho phép bạn “mượn” tiền của ngân hàng trong một hạn mức nhất định đề thanh toán và sẽ hoàn tra lại số tiền ấy cho ngân hàng vào cuối mỗi kỳ Chỉ với một chiếc thẻ nhỏ và gọn, bạn có thê dễ đàng thanh toán các giao dịch mọi lúc mọi nơi trên toàn cầu mà không cân phải dùng đến tiền mặt Chức năng thanh toán quốc tế của thẻ tín dụng cũng rất hữu ích khi bạn đi công tác hay du lịch xa Nếu như bạn yêu thích hoặc đang cần sở hữu một món hàng, nhưng không có sẵn tiền mặt hay không đủ tiền trong tài khoản để mua, với thẻ tín dụng trong tay, bạn có thê đem món hàng về tức thì và thanh toán sau 30-45 ngày (tùy ngân hàng/tô chức phát hành thẻ) hoặc chuyên đôi giao dịch thành giao dịch trả góp mà không bị tính tiền lãi Bạn cũng có thé rút tiền mặt bằng thẻ tín dụng và xem đây như một khoản vay tức thì trong các tỉnh huống khẩn cấp như trả viện phí, đóng tiền học
Với những lợi ích trên, hình thức thanh toán bằng thẻ và đặc biệt là thẻ tín dụng ngày cảng trở nên phô biến tại Việt Nam Rất nhiều hệ thống ngân hàng trong nước đã cung cấp thẻ tín dụng cho khách hàng Tuy nhiên, đa số các ngân hàng vẫn giới hạn dịch vụ này cho phân khúc khách hàng có thu nhập khá trở lên với lịch sử tín dụng tốt và phải xem xét thật kĩ thông tim dữ liệu của khách hàng trước khi phê duyệt
1.2 Mục tiêu nghiên cứu Phê duyệt thẻ tín dụng là một phương pháp kiểm soát rủi ro phố biến trong ngành tài chính Nó sử dụng thông tin cá nhân và dữ liệu do người đăng ký thẻ tín dụng gửi để dự đoán khả năng xảy ra các vụ vỡ nợ trong tương lai và các khoản vay bằng thẻ tín dụng Ngân hàng có thê quyết định xem có cấp thẻ tín dụng cho người nộp đơn hay không Phê duyệt thẻ tín dụng có thê định lượng một cách khách quan mức độ rủi ro
Làm thế nào để các ngân hàng biết có chấp thuận cho bạn một thẻ tín dụng hay không chỉ dựa trên một số thông tin về bạn? Nhờ Khai thác dữ liêu, nhiều ngân hàng đã có thể tạo ra mô hình dự đoán mức độ đáng tin cậy của người nộp đơn để giảm thiêu rủi ro khách hàng không đủ khả năng trả lại số tiền đã tiêu Đối với dự án này, nhóm 6 sẽ áp dụng các phương pháp khác nhau trong Clementine trong khai phá dữ liệu và chọn ra mô hình nào hoạt động tốt nhất (độ chính xác cao nhất)
Trang 61.3 Phương pháp nghiên cứu của đề tài Nhóm sử dụng phần mém Clementine 12.0 dé chay cac phương pháp như sau: Hồi quy Logistic và Cây quyết định để tông hợp các kết quả của từng mô hình và đưa ra đánh giá,
nhận xét mô hình phù hợp nhất
1.4 Nội dung nghiên cứu
Nội dung đề tài là sử dụng khai thác dữ liệu để nghiên cứu những yếu tố ánh hưởng đến
quyết định phê duyệt thẻ tín dụng của các ngân hàng Từ đó, dựa vào các mô hình và phương pháp nghiên cứu để đưa ra các kết luận những yếu tố nào ánh hưởng đến quá trình ra quyết định Phạm vi nghiên cứu được tiến hành dựa trên bộ dữ liệu gồm thông tin về các khách hàng mà đã được ngân hàng phê duyệt thẻ tín dụng và các yếu tô chính ảnh
hưởng đến việc quyết định phê duy
1.5 Đóng góp của đề tài Đề tài nghiên cứu của nhóm đã tìm ra được những yếu tố ảnh hưởng đến quyết định phê duyệt thẻ tín dụng của các ngân hàng Đây là một trong những đề tài mang tính thiết thực đối với các ngân hàng trong việc dự báo được những trường hợp khách hàng gian lận tín dụng
1.6 Hướng phát triển Đề có cái nhìn tổng quan và lâu dải thì trong hướng phát triển của đề tài nhóm xem xét mô hình được chọn còn có thê bô sung thêm những yếu tô khác để đánh giá mỗi quan hệ của các biến độc lập và phát triển áp dụng nghiên cứu
Trang 7CHUONG 2.CO SO Li THUYET
2.1 Hồi quy Logistic
Phân tích hồi quy Logistic là một kỹ thuật thống kê để xem xét môi liên hệ giữa biến độc
lập (biến số hoặc biến phân loại) với biến phụ thuộc là biến nhị phân Vì phân tích hồi
quy yêu cầu đữ liệu dạng số nên chúng ta phải mã hóa dữ liệu trước khi chạy Khi dữ liệu
là dạng nhị phân ta phải mã hóa chúng bằng giá trị 0 và 1
Mục đích của phân tích hồi quy là phân chia các trường hợp vào các nhóm có khả năng nhất Hồi quy Logistic cho ta một tập các tham số B của hệ số chặn (hoặc hệ số chặn trong trường hợp của dữ liệu thứ bậc với hơn 2 phân loại) và biến độc lập, mà có thể áp dung ham Logistic để ước lượng xác suất thuộc về một nhóm kết cục cụ thẻ Công thức cho xác suất đề cập nhận một trường hợp 1 nào đó thuộc về một nhóm j nao đó là:
1
"1— Ty eho SD
* Trong đó hệ số B duoc hinh thanh tir phuong trinh héi quy Logistic Cac phuong phap được ứng dụng trong kinh doanh rất phong phú, hầu hết các phần mềm khai thác dữ liệu bao gồm cả hôi quy (tuyến tính và logistic) và mạng thần kinh (thường với các lựa chọn của các biến thể khác nhau) như những công cụ cơ bản cho lựa chọn, thông thường tất cả các dạng mô hình có san cé thé áp dụng cho một tập dữ liệu cu thể và đạng mô hình có vẻ phủ hợp nhất sẽ được chọn để áp dụng
2.2 Cây quyết định
Cây quyết định: Thuật toán xác định một cách tự động những biến quan trọng nhất, từ đó căn cứ trên khả năng của nó sắp xếp dữ liệu vào phân nhóm kết quả đúng Phương pháp entropy kinh nghiệm được sử dụng để chọn ra những thuộc tính có khả năng phân biệt
cao nhất như biến đầu tiên để tách dữ liệu
Có 4 loại mô hình cây quyết định được cung cấp trong phần mềm Clementine: - - C-RT: phương pháp này sử dụng phân vùng đệ quy đề chia các bản ghi huấn luyện thành các phân đoạn có giá trị trường đầu ra tương tự C&R Tree bắt đầu bằng cách kiểm tra các trường đầu vào để tìm ra cách phân tách tốt nhất, được đo bằng sự giảm chỉ số tạp
chất là kết quả của quá trình phân tách Sự phân tách xác định hai nhóm con, mỗi nhóm
sau đó được tách thành hai nhóm con hơn, v.v., cho đến khi một trong các tiêu chí dừng được kích hoạt
- _ Quest: phương pháp phân loại nhị phân đề xây dựng cây quyết định, một ưu điểm
Trang 8tốt hơn C-RT là giảm thời gian xử lý cần thiết, trong khi cũng làm giảm xu hướng tìm
thay trong các phương pháp phân loại cây để ưu tiên cho những dự báo cho phép chiatách
nhiều hơn
- _ Chaid: phương pháp được phát triển bởi J A Hartigan, gọi là Phát hiện tương tác tự động Chi bình phương vì nó sử dụng kiểm tra Chi bình phương cho chiến lược tách cây Thuật toán CHAID hỗ trợ các biến có giá trị liên tục và rời rạc làm đầu vào như C- RT và có thê thực hiện các nhiệm vụ hồi quy và phân loại trên biến kết quả Hơn nữa, nó không phục vụ công đoạn cắt tỉa cây CHAID sử dụng chiến lược phân tách đa chiều, do đó nó tạo ra nhiều mô hình dễ hiểu hơn CART cho những người ra quyết định
- _ C5,0: Mô hình C5.0 hoạt động bằng cách chia nhỏ mẫu dựa trên trường cung cấp mức tăng thông tin tôi đa Mỗi mẫu con được xác định bởi lần tách đầu tiên sau đó được tách lại, thường dựa trên một trường khác và quá trình lặp lại cho đến khi các mẫu con không thể được chia nhỏ hơn nữa Cuối cùng, các phần phân tách ở mức thấp nhất được khảo sát lại và những phần không đóng góp đáng kê vào giá trị của mô hình sẽ bị loại bỏ hoặc cắt bớt
2.3 Mạng thần kinh Mạng nơ-ron về cơ bán là một mô hình đơn giản hóa cách bộ não con người xử lý thông tin Nó hoạt động bằng cách mô phỏng một số lượng lớn các đơn vị xử lý đơn giản được kết nối với nhau giống các phiên bản trừu tượng của tế bào thần kinh Các đơn vị xử lý được sắp xếp thành từng lớp Thông thường có ba phần trong mạng nơ-ron: một lớp đầu vào với các đơn vị đại diện cho các trường đầu vào, một hoặc nhiều lớp ấn và một lớp đầu ra với một đơn vị hoặc các đơn vị đại diện cho (các) trường đầu ra Mạng học bằng cách kiểm tra các bản ghi riêng lẻ, tạo dự đoán cho từng bản ghi và thực hiện điều chỉnh trọng số bất cứ khi nào nó tạo ra dự đoán sai Quá trình này được lặp lại nhiều lần và mạng tiếp tục cải thiện các dự đoán của nó cho đến khi một hoặc nhiều tiêu chí dừng được đáp ứng Phần mềm Clementine 12 cung cấp sáu phương pháp để xây dựng mô
hình mạng thần kinh:
- - Quick: Phương pháp này sử dụng các quy tắc ngón tay cái và các đặc điểm của dữ
liệu dé chọn một hình dạng thích hợp (cấu trúc liên kết) cho mạng
- Dynamic: Phương pháp này tạo một cấu trúc liên kết ban đầu, nhưng sửa đổi cấu trúc liên kết bằng cách thêm và / hoặc loại bỏ các đơn vị ấn khi quá trình dao tạo diễn ra
Multiple: Phương pháp này tạo ra một số mạng có cầu trúc liên kết khác nhau (số lượng chính xác phụ thuộc vào đữ liệu đảo tạo) Các mạng này sau đó được đào tạo theo kiểu song song giả Vào cuối quá trình đào tạo, mô hình có sai số RMS thấp nhất được trình bày như là mô hình cuối cùng
Trang 9Prune: Phuong pháp này bắt đầu với một mạng lớn và loại bỏ (lược bớt) các đơn vị yếu nhất trong các lớp ân và lớp đầu vào khi quá trình đảo tạo diễn ra Phương pháp này thường chậm, nhưng nó thường mang lại kết quá tốt hơn các phương pháp khác
RBFN: Phuong pháp sử dụng một kỹ thuật tương tự như phân cụm k-mean dé phân vùng dữ liệu dựa trên các giá tri của trường đích (biến mục tiêu)
Exhaustive prune: Phương pháp này có liên quan đến phương pháp Prune Nó bắt đầu với một mạng lớn và cắt bỏ các đơn vị yếu nhất trong các lớp ấn và lớp đầu vào khi quá trình đào tạo diễn ra Voi Exhaustive Prune, cac tham số huấn luyện mạng được chọn để đảm bảo tìm kiếm rất kỹ lưỡng không gian của các mô hình có thê để tìm ra mô hình tốt nhất Phương pháp này thường chậm nhất, nhưng nó thường mang lại kết quả tốt nhất Lưu ý rằng phương pháp này có thể mất nhiều thời gian dé dao tao, đặc biệt là với các tập dữ liệu lớn
' Om
{ 1 j ` ys ‘s 7
Trang 10CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU 3.1 Nguồn dữ liệu
Bộ dữ liệu được nhóm thu thập trên trang Kaggle - một địa chỉ đáng tin cậy với nguồn dữ liệu cực kì đa dạng và phong phủ
https://www.kagele.com/datasets/samuelcortinhas/credit-card-approval-clean- data? resource =download&fbclid=IwAR3XEIBu0-W-
GOsxD1nz0N57r8gedHK queS 5paqs8teK Mp Wemi8sHDNAxcJk
Tép nay liên quan đến các ứng dụng thẻ tín dụng Dữ liệu cung cấp thông tin của 690 số lượng thẻ tín dụng và I5 thuộc tính với tập dữ liệu da biến Tất cả các tên và giá trị thuộc
tính đã được thay đôi thành các ký hiệu vô nghĩa để báo vệ tính bí mật của dữ liệu Tập
đữ liệu này rất thú vị vì có sự kết hợp tốt giữa các thuộc tính - liên tục, danh nghĩa với 36 lượng giá trị nhỏ và danh nghĩa với số lượng giá trị lớn hơn
3.2 Xứ lí dữ liệu Dữ liệu khá cân bằng với:
e 0.0: 55.51% hồ sơ không được thông qua về việc phê duyệt thẻ tín dụng e 1.0: 41.49% hồ sơ được thông qua về việc phê duyệt thẻ tín dụng
Trang 11Đề bộ dữ liệu trở nên khách quan khi tiến hành các phương pháp phân tích, nhóm thực
hién thém lénh Partition & phần mềm Clementine 12.0 để chia dữ liệu làm hai phan, str
dụng 70% dữ liệu xây dựng mô hình và 30% dữ liệu dùng để kiểm tra mô hình
e_ 70%% thực hiện mô hình = 487
e©_ 30% kiểm tra mô hình = 203
Dung Set random seed: theo số thứ tự nhóm 6 Partition field Partition
Partitions *) Train and test Train, test and validation
Testing partition size 30 | $1 Label:| Testing Value = '"2_Testing"
Value =
Total size 100% Values Use system-defined values ("1", "2" and "3)
*) Append labels to system-defined values Use labels as values
Set random seed Seed Jo Generate
Hình 3.2 Xw li dit liéu 3.3 Mô ta dữ liệu
Đề thuận tiện hơn trong việc quan sát đữ liệu cũng như người đọc có thê dễ dàng tiếp cận
kết quả phân tích, nhóm đã giải thích cụ thê qua bảng dưới đây:
Bang 3.1 Mô ta các biến
Age Tuôi Nhận giả trị từ 13.75 đến
80.25
Married Tình trạng hôn nhân I=đã kết hôn, 0=độc thân/ly
hôn/
11
Trang 12
TKNH
Industry CV hiện tại hoặc gan day
nhat
Ethnicity Dan toc
sai ky tra no
CreditScore Điểm tín dụng (Giá trị min | Nhận giá trị từ 0 dén 1
và max lần lượt là 0 và 67)
GPLX
ZipCode Mã ZIP 5 chữ số Nhận giá trị từ 0 đến 2000
100000
12
Trang 13CHUONG 4 KET QUA PHAN TICH
4.1 Mô hình hồi quy Logistic Sử dụng Logistic Node trên phần mềm Clementine 12.0 để tiến hành chạy hồi quy Logistic Phương pháp này có thê nhận được biến ở dạng số và dạng phân loại, trả về kết quả dạng xác suất và có kết quả khá chính xác
Model Fitting Information
Model Fitting Criteria =
Trang 14Dat gia thuyét: H0: Mô hình không phù hợp Ha: Mô hình phù hợp
Sig xấp xi 0 < 0,05
=> Bác bỏ Ho => Mô hình là phù hợp - _ Hệ số Log Likelihood cang lớn càng tốt và hệ số -2 Log Likelihood càng bé càng
tốt Trong trường hợp này giá trị bằng 670,961 khi chưa tính các biến độc lập và
287,893 khi đã tính các biến độc lập
- Xét bang Pseudo R-Square R2 = 0,545
=> Các biến độc lập giải thích được 54,5% sự biến đôi của biến phụ thuộc
Bang 4.2 Kết qua tóc lượng tham số trong hồi quy Logistic
Parameter Estiraates
‘95% Confidence Interval for
B | Std Error | Wald |af Sig | Exp(s) bụ@)
Aprevvdfa) Lower Bound | Upper Bound
Intereopt 4150| — 139|14178| I| 000 Income 001 000| 7646| 1|.006| L001 1.000 1001
‘Age 014 017| 481|1|40| 1014 981 1.047 Debt 034 02| 447| 1| 421 967 Bội 1058 'YearsEngbyed 015 (55 072|1|7M| Lois 912 L139 (CreditSeare 081 0| ivø|t|3a[ 108 sự In ‘DipCode 002 o0i | 3.876] 1|.049 998 996 1.000 [PriorDefault=.900} 3.596 398 Í31 524 | 1 |.000 037 013 060 IPrlerDefault-1.000] 0®) 0
(Bank‹Customuer=.090] 0) 0 (Bank Customer-1.000) 0) 0 [Industry-CommunicationServices} | -2 675 1086] 6.072) 1] 014 069 008 78 (Industry-ConsumerDiseretionary) | 3502] — 1.102|10.102] 1 |.001 030 003 261
Di hap t + 203 1022| 6184| 1|.013 or ou sa
[Industry~ Education) 2783[ 1377] 421|1|039 064 00 568 [Imlustry=Energy] 2118 958| 4847| 1| 027 110 oe 87
[Indestry= Financials | 3240 1111| 85001 1| 004 ow 004 M6
[Industry-Healtheare] -5 055 3553| 2025] 1] 155, 006 6 04E-006 6740 [Industry~ Indus trials] 214| 3013| 4567| 1033 us ore 336 [Indtwstry=InformationTechnslogy] | -1290| 113| 1161| 1| 28! 3 034 1672 [Indwetry=Matarials] -1983| 1028| 3716| 1| 0% 118 018 103 [Industry-Real Estate] 2942| 1157| 6746| L| t0 052 00 480 Undustzy-Research] 2810] - 1977] 2019| 1|155 060 001 2903 [Industry- Transport] 18.809 000 1 6.78E-009 6.78E-009 ó.78E-099
[Industry~ Utilities} 0) 9
[Ethnicity Asian} 028 su] 002|1|965J 1038 19 3562 [Ethnicity Black] 751 436] 331[1].s65] 1235 547 3017 [Plhnicity-L.adro] 2| 331 007|1|932| 133 002 926.46 [Ethnicity-Other] ĐIỈ 1078] 777|1).s78] 2588 313 21.420 [Ethnicity-White} 0) 0
[Employed= 900] 668 448] 22m.[ 1].136 512 213] 12 [Employed=1.000) 0t) 0 Ỉ [DriversLicense-.000] 06 1| 0/8|1|85| 1067 560 2031 [DriversLicense=1.000] tt) 0 | fa The reference category is: Khong chap stan
'b This parameter is set to Zero because it ts redundant
14
Trang 15Taye x amare yO 150+0,001*Income+0,014*Age*0,034*Debt+0,015* YearsEmployed+0,0 81* CreditScore-0,002*ZipCode-3.596* [PriorDefault=.000]-2.566* [Citizen=By Birth]- 2.064*[Citizen=ByOtherMeans]+ 0.093*[Gender=.000] -0.674*[Married=.000] -
2,.543*[Industry=ConsumerStaples]| -2.742*[Industry=Education] -2.118* [Industry=Energy] -3.240*[Industry=Financials] -5.055* [Industry=Healthcare] - 2.164*[Industry=Industrials] -1.200* [Industry=InformationTechnology] - 1.983*[Industry=Materials] -2.962* [Industry=Real Estate] -2.810* [Industry=Research] - 18.809*[Industry=Transport]+0,028* [Ethnicity=Asian]+ 0.25 1*[Ethnicity=Black]+ 0.284*[Ethnicity=Latino]+ 0.951*[Ethnicity=Other] -0.668*[Employed=.000] +0.064*[DriversLicense=.000]
Xác suât đề hồ sơ được thông qua
th éVo HAM OH HME Ch 7b aya k HM a HM ph
Bang 4.3 Ma trận trùng của hồi quy Logistic khi chưa bỏ biến ='- Results for output field Approved
=} Comparing $L-Approved with Approved
Correct 429 88.09% 172 84.73% Wrong 58 11.91% 31 15.27% Total 487 203
-} Coincidence Matrix for $L-Approved (rows show actuals)
‘Partition’= 1_Training 0.000000 1.000000 0.000000 228 38 1.000000 20 201 'Partition'= 2_Testing 0.000000 1.000000 0.000000 98 19 1.000000 12 74
Độ chính xác của mô hình khi kiểm tra là 84,73%
Trên bộ dữ liệu kiểm tra có 3l trường hợp bị phân loại sai với tỷ lệ là 15,27% Có 12 trường hợp được dự đoán là không thông qua nhưng thực tế dự đoán là thông qua và có 19 trường hợp được dự đoán là thông qua nhưng thực tế không thông qua
Độ nhạy đạt được từ bộ dữ liệu kiểm tra là 86,04%
Độ đặc hiệu đạt được từ bộ dữ liệu kiểm tra là 83,76%
15
Trang 16Bang 4.4 Ma trận trùng của hồi quy Logistic đã bỏ biến -}-Results for output field Approved
=} Comparing $L-Approved with Approved
Khi chưa bỏ biến và đã bỏ biến có độ chính xác của mô hình là giống nhau 84,73%
Nhưng mô hình hồi qui logistic khi chưa bỏ biến thì dy báo được nhiều hồ sơ không được thông qua nhưng lại thông qua hơn so với mô hình đã bỏ biến Vì vậy nhóm sẽ lựa chọn mô hình hồi quy logistic để so sánh với các mô hình khác
4.2 Mô hình mạng thần kinh Sử dụng các phương pháp Dynamic, Quick, Multiple, Prune, RBFN, Exhaustive Prune trên bộ dữ liệu “Phê đuyệt thẻ tín dụng” với mục đích tìm ra phương pháp xây dựng mô
hình mạng thần kinh đem lại kết quả tốt nhất Độ chính xác được yêu cầu là 100%
16
Trang 17nhất trong việc dự đoán phê duyệt thẻ tín dụng với các chỉ số lần lượt là 45% và 10,2%
Bang 4.5 Ma trận trùng, mạng thần kinh, Quick
17
Trang 18=}-Results for output field Approved -}-Comparing $N-Approved with Approved
Độ chính xác của mô hình khi kiểm tra là 87,68%
Trên bộ dữ liệu kiểm tra có 25 trường hợp bị phân loại sai với tỷ lệ là 12,32% Có 6 trường hợp được dự đoán là không thông qua nhưng thực tế dự đoán là thông qua và có 19 trường hợp được dự đoán là thông qua nhưng thực tế không thông qua
4.2.2 Phuong phap Dynamic Kết quả theo phương pháp Dynamic:
Theo mô hình mạng thần kinh Quick, Biến PriorDefault và Industry có tác động nhiều
nhất trong việc dự đoán phê duyệt thẻ tín dụng với các chỉ số lần lượt là 32,5% và 21,8%
18
Trang 19Bang 4.6 Ma trén trang, mang than kinh, Dynamic =}-Results for output field Approved
=}-Comparing $N-Approved with Approved
Độ chính xác của mô hình khi kiểm tra là 91,63%
Trên bộ dữ liệu kiểm tra có L7 trường hợp bị phân loại sai với tỷ lệ là 8,37% Có 6 trường hợp được dự đoán là không thông qua nhưng thực tế dự đoán là thông qua và có II trường hợp được dự đoán là thông qua nhưng thực tế không thông qua
4.2.3 Phương phap Multiple Kết quả theo phương phap Multiple:
Trang 20Bang 4.7 Ma trén trang, mang than kinh, Multiple
=}-Results for output field Approved
=}-Comparing $N-Approved with Approved
Độ chính xác của mô hình khi kiểm tra 1a 89,16%
Trên bộ dữ liệu kiểm tra có 22 trường hợp bị phân loại sai với tý lệ là 10,84% Có 7 trường hợp được dự đoán là không thông qua nhưng thực tế dự đoán là thông qua và có 15 trường hợp được dự đoán là thông qua nhưng thực tế không thông qua
4.2.4 Phương pháp Prune Kết quả theo phương pháp Prune:
Variable Importance
Hình 4.6 Độ quan trọng của biến ở phương pháp Prune
Theo mô hình mạng thần kinh Prune, Biến PriorDefault và Citizen có tác động nhiều
nhất trong việc dự đoán phê duyệt thẻ tín dụng với các chỉ số lần lượt là 55,96% và 44,04%
20