1. Trang chủ
  2. » Thể loại khác

Một số vấn đề về khai phá dữ liệu

109 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 109
Dung lượng 38,55 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI K H O A C Ồ N G N G H Ệ NGUYỀN HUY ĐỨC MỘT SỐ VẤN ĐỀ VỀ KHAI PHÁ DỮ LIỆU * ■ CHUYÊN NGÀNH; CÔNG NGHỆ THÔNG TIN MA SỐ: 01.01.10 LUẬN VĂN THẠC s ĩ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS» TS VŨ ĐỨC THI HÀ NỘI - Năm 2003 MỤC LỤC Lời in d ầ u C h n g 1: T ổ n g q u a n sở d ữ liệu k h a i p h d ữ liệu / / T ổ chức khai thác sở d ữ liệu truyền ỉhống 1.2 Bước phát triển việc tổ chức khai thác CSDL 1.3 Quá trình p h t tri thức 11 1.3.1 Pháỉ tri thức 1 1.3.2 Các giai đoạn trình phát tri thức 12 1.4 Khai phá d ữ li ệ u 14 1.4.1 K iến trúc hệ thống khai phá l i ệ u 15 1.4.2 Quá trình khai phá iiệu 16 1.4.3 Nhiệm vụ khai phá l i ệ u í 1.4.4 Các thành phẩn giải thuật khai phá l i ệ u 19 1.4.5 Mội số phương pháp khai thác liệu phổ b i ế n 20 1.4.6 Lựa chọn phương p h p 24 1.4.7 Có phải tất cấc mẫu lìm đáng quan t â m ? 25 C h n g 2: K h a i p h lu ậ t kết hợp Iro n g sở tia iiộu l n .27 2,1, ¡Mật kết h ợ p 27 2.1.1 Phân tích bán hàng siêu thị - ví dụ dộng thúc dẩy khai phá luật kết h ọ p 27 2.1.2 Các khái niệm s 28 2.1.3 Một s ố lính chất tập m ục phổ biến luật kếl h ợ p 32 2.2 Khai p h luật kết hợp boolean dơn chiều ỉừ C S D L tác vụ .35 2.2.1 Thuật toán Apriori: tìm tập mục phổ biến sử dụng sinh ứng cừ 35 2.2.2 Nồng cao hiệu Thuật toán Apriori 42 2.2.3 Sinh luật kồì hợp từ ỉập mục phổ biên .46 3:K hư i phá lập m ục p h ổ biến không sinh ứng cử 49 2.4 C sở iỷ ỉhuyâì luật kết hợp .59 2.5 Khai phá luật kết hợp ảịnh lượng .63 2.6 Khai phá ỉnậi kết hợp da mức 66 2.6.1: Luật kết hợp đa mức 66 2.6.2: Các cách tiếp cận khai phá luật kết hợp đa mức 68 Chưong 3: Khai phá luật kết hợp đ ó n g 73 3.1: Tập mục phổ biến dóng 73 3.2: Sình lu ậ t 79 3.3: Thuật toán CHARM .80 Chương 4ĩ Thử nghiệm khai phấ luật kết h ợ p 86 4.1: Mô tảđữỉiệu 86 4,2: Xây dựng chương trình 87 4.3: Kết q u ả th nghiệm .90 Kết kuân luân v ả o 93 > > Tài iiệu tham k h ả o 94 LỜ I M Ở ĐẨ U Sự phát triển mạnh mẽ công nghệ phần cứng tạo nên máy tính có xử lý tốc độ cao, nhớ dung ỉưọmg lớ» với điều phát triển khơng ngừng hệ thống viễn thông Các hệ thống Ihông tin phục vụ việc ụr (lộng hoá lĩnh vực kinh doanh quản !ỷ triển khai với lốc độ íãng trưởng virợi bậc Diều dó dã tạo dòng liệu khổng lồ, trớ Iliành tượng “bùng lỉố thông tin” Nhiều hệ quàn trị sở iiệu mạnh với cõng cụ phong phú thuận úện giúp người khai thác có hiệu nguồn lài nguyên Apriori; /* A p r io r i, Java /* package đm ar.đm ar; im port j a v a u t i l *; im port ja v a io IO E x cep ticn ; Ị ** Lop tr.huc h ien th uaỉi toan A p r io r i tim c a c tap muc b ien */ p iib ljc c la s s A p rio ri e x ten d s P req u en tltem setsM irter { p r iv a te / / s t a t i c Cac ta p fin a l muc in t INITIAL_CAPACXTY p r iv a te A rrayL ist c a n d id a te s; p r iv a te A rrayliíst k _ fr e q u e n t; / ì cac c a y bam cua ca c ung cu va p r iv a tô H ashTree h t_ ca n d id a tes,- p r iv a te HaehTree ht //s o la n p r iv a te / / tap b ìe n k 01UC k_E req uer,t; pass_num ; Chong tin can th ie t p r iv a te ), ĩ i g n \w _row s; p r iv a te lo n g m in Ị ** 10000,- du yet lint cac = (ite m se ts) ca c r.ap w eigh t; * Tim * tópararn dbReader muc * ®param cach eW riter đ oi * aparam m in Support m inim um * © return tra b ie n d oi ve so tron g tuorig lan CSDL duoc tuong dung đuoc de dung doc de CSDL v iô t vao support duyet qua CSDL */ p u b lic in t í in d F r e q u e n tlte m s e ts (DBReader D B C acheV ỉriter d ou b le dbReađer, ca ch eW rltei, m in Sup port) í * db _read «i- dbReader; ca ch e_ w r ite r num row s m in w eigh t ì! kh oi ~ = cach eW riter; đ b R e a đ e r getNuirsRovỉs o =■ ( l o n g ) (num rows * ; m in Support} ; ta o c a n d id a te s « new A rrayL ist{IN IT IA L _C A P A C IT Y ); k ,fr e q u e n t = new A rrayL istU N IT IA L _C A P A C IT Y ); III / / freq u en t khoi ht_k ta o = new cac freq u en t = ht c a n d id a te s = II lu c dau Item set for cac A rrayL ist(IN IT IA L _C A P A C IT Y ); cay bam new H a sh T ree(k _ freq u en t}; new ung H a sh T re e (c a n d id a te s); cu la ta t ca cac tap muc (in t i ~ X; i = d b _ r e a d e r getM um C olum ns0 } break; ch eck A b o rt(); II sin h ung cu moi tu tap muc cu b ien g e n e r a te C a n d id a te s (); / / th o a t khong co ung i f { c a n d i d a t e s s i z e (5 neu == 0) break; ) retu rn passjnum ; } / / thu tu c p r iv a te v o id qu et CSDL va tin h ho tr o cho w e i g h C a n d i d a t e s () { h t_ ca n d id a tes.p re p a r e F o r D esc en t

Ngày đăng: 23/09/2020, 21:18

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Vũ Đức Thi, Lê Hải Khôi ( 1999) , "M ột s ố nguyên lý hoạt dộng của kho dừ liệu ", Tạp chí Tin học và Điểu khiển, Tr 27,29-32 Sách, tạp chí
Tiêu đề: M ột s ố nguyên lý hoạt dộng của kho dừ liệu
Tác giả: Vũ Đức Thi, Lê Hải Khôi
Nhà XB: Tạp chí Tin học và Điểu khiển
Năm: 1999
2. Vft Đức Thi , C ơ sở dữ liệu - Kiến thức và íhực hành , Nhà xuất bản thống kè nảm 1997 Sách, tạp chí
Tiêu đề: C ơ sở dữ liệu - Kiến thức và íhực hành
Tác giả: Vft Đức Thi
Nhà XB: Nhà xuất bản thống kè
Năm: 1997
3. Nguyễn Thanh Thuỷ, Khai phá dữ liệu ~ K ĩ thuật và ứng dụng. Bài g iản g trường thu Hệ mờ và ứng dụng, Hà N ộ i , tháng 8-2001.T iế n g A n h Sách, tạp chí
Tiêu đề: Khai phá dữ liệu ~ K ĩ thuật và ứng dụng
Tác giả: Nguyễn Thanh Thuỷ
Nhà XB: Bài giảng trường thu Hệ mờ và ứng dụng
Năm: 2001
5. Ashoka Savasere, Bdward Omiecinski, and Shamkanợ B. Navathe: "An Efficient Algorithm fo r Mining Association Rules in Large Databases", VLDB 1995: 432- 444 Sách, tạp chí
Tiêu đề: An Efficient Algorithm fo r Mining Association Rules in Large Databases
Tác giả: Ashoka Savasere, Bdward Omiecinski, Shamkanợ B. Navathe
Nhà XB: VLDB
Năm: 1995
6. Andreas Mueller. Fast Sequential and Parallel Algorithms fo r Association Rule Mining: A Comparison. Department of Computer Science University of Maryland - College Park College P a rk , MD 20742 Sách, tạp chí
Tiêu đề: Fast Sequential and Parallel Algorithms fo r Association Rule Mining: A Comparison
7. c. J. Matheus a n d p. K, Chan and G. Piatetsky-Shapiro, Systems fo r knowledge discovery in databases , Ieee Trans, On Knowledge And Data Engineering, vol 5, pp 903-913, Ì993 url=hnt?://citcscer.ni.nec.coin/L77052>html Sách, tạp chí
Tiêu đề: Systems for knowledge discovery in databases
Tác giả: C. J. Matheus, P. K. Chan, G. Piatetsky-Shapiro
Nhà XB: IEEE Transactions on Knowledge and Data Engineering
Năm: 1993
8. Christian Borgelt and Rudolf Kruse, Department of Knowledge Processing and Language Engineering School of Computer Science, induction o f Association Rules:Apriori Implementation. Oito-von-Guericke-University of Magdeburg Universitâatsplatz 2, D-39106 Magdeburg, Germany Sách, tạp chí
Tiêu đề: induction o f Association Rules: Apriori Implementation
4. Agrawal, A.,Marmila, H., Srỉkant, R., Toivonen, H., and Verkamo, A. <J996) Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w