Nghiên cứu các phương pháp nén chỉ số trong các hệ thống tìm kiếm: Luận văn ThS. Công nghệ thông tin: 60 48 01 04

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	77
Dung lượng	1,17 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THỊ HOÀI THU NGHIÊN CỨU CÁC PHƯƠNG PHÁP NÉN CHỈ SỐ TRONG CÁC HỆ THỐNG TÌM KIẾM Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC CHỦ TỊCH HỘI ĐỒNG PGS.TS HÀ QUANG THỤY GS.TS VŨ ĐỨC THI Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ LÊ THỊ HỒI THU NGHIÊN CỨU CÁC PHƯƠNG PHÁP NÉN CHỈ SỐ TRONG CÁC HỆ THỐNG TÌM KIẾM LUẬN VĂN THẠC SĨ NGÀNH CƠNG NGHỆ THƠNG TIN Hà Nội - 2015 LỜI CẢM ƠN Trước hết, vô biết ơn PGS.TS Hà Quang Thụy, người thầy trực tiếp dành nhiều thời gian tận tình hướng dẫn, cung cấp thông tin tài liệu quý báu, giúp đỡ tơi hồn thành luận văn Tơi xin cảm ơn thầy cô Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội cung cấp cho kiến thức quý báu thời gian học tập Nhà trường Sau cùng, tơi xin bày tỏ lịng biết ơn đến người thân, bạn bè, đồng nghiệp, quan tạo điều kiện động viên cho tơi hồn thành luận văn tốt nghiệp Hà Nội, ngày … tháng … năm 2015 HỌC VIÊN Lê Thị Hoài Thu LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân, không chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu, hướng dẫn tận tình thầy giáo PGS.TS Hà Quang Thụy Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 01 tháng 09 năm 2015 Học viên Lê Thị Hoài Thu MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VIẾT TẮT DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ DANH MỤC BẢNG PHẦN MỞ ĐẦU CHƯƠNG KIẾN TRÚC CHUNG CỦA MÁY TÌM KIẾM 10 THÀNH PHẦN CHỈ SỐ TRONG MÁY TÌM KIẾM 10 1.1 Khái niệm cơng cụ tìm kiếm thông tin 10 1.1.1 Tổng quan hệ thống tìm kiếm 10 1.1.2 Quy trình tìm kiếm thơng tin 11 1.1.3 Một số vấn đề tìm kiếm thơng tin 12 1.1.4 Cấu trúc điển hình máy tìm kiếm 13 1.2 Tập số máy tìm kiếm 14 1.2.1 Các bước để xây dựng hệ thống tìm kiếm thơng tin 15 1.2.2 Cấu trúc bảng số ngược 16 1.2.3 Chia bảng số 19 1.3 Tổng quan phương pháp lập số 19 1.3.1 Xác định mục từ quan trọng cần lập số 20 1.3.2 Một số hàm tính trọng số mục từ 21 1.3.3 Lập mục tài liệu 22 KẾT LUẬN CHƯƠNG I 25 CHƯƠNG II MỘT SỐ PHƯƠNG PHÁP NÉN CHỈ SỐ, NÉN CHỈ SỐ NGƯỢC TRONG MÁY TÌM KIẾM 27 2.1 Chỉ số ngược 27 2.2 Phương pháp nén số 29 2.2.1 Lưu trữ theo khối 30 2.2.2 Nén từ điển từ vựng chuỗi 32 2.2.3 Nén tập tin posting 33 2.3 Các phương pháp nén số cập nhật 36 2.3.1 Mã Glomb 37 2.3.2 Simple9 Coding 37 2.3.3 Binary Code 39 2.3.4 PforDelta 41 2.3.5 Interpolative Coding 42 2.4 Cải tiến thuật toán PFD 44 KẾT LUẬN CHƯƠNG 45 CHƯƠNG III TÌM HIỂU VỀ LUCENE 46 3.1 Tìm hiểu lucene 46 3.1.1 Giới thiệu chung Lucene 46 3.1.2 Tìm hiểu lớp đối tượng lập mục 46 3.1.2 Tìm hiểu lớp đối tượng tìm kiếm 48 3.2 Lập số Lucene 49 3.2.1 Các tiến trình lập số 49 3.2.2 Các toán tử lập số với Lucene 50 3.2.3 Khuếch đại tài liệu trường 51 3.2.4 Điều khiển tiến trình lập số 51 3.2.5 Tối ưu hóa việc lập số 52 3.3 Tìm kiếm tập số 53 3.3.1 Tìm kiếm thuật ngữ cụ thể 53 3.3.2 Bộ chuyển đổi câu truy vấn người dùng: QueryParser 53 3.3.3 Sử dụng lớp IndexSearcher 54 3.4 Tiến trình phân tích Lucene 54 3.5 Định dạng số lucene 55 3.5.1 Cấu trúc số 55 3.5.2 Chỉ số ngược 57 TỔNG KẾT CHƯƠNG 58 CHƯƠNG - CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ THỰC HIỆN 59 4.1 Giới thiệu chương trình thử nghiệm 59 4.2 Kết thử nghiệm 62 KẾT LUẬN CHƯƠNG 64 KẾT LUẬN 65 TÀI LIỆU THAM KHẢO 66 PHỤ LỤC 68 DANH MỤC CÁC KÝ HIỆU VIẾT TẮT IR: Hệ thống tìm kiếm thơng tin (Information Retrieval) IF: Tập tin ngược (Inverted File) IL: danh sách ngược (inverled list) URL: Uniform Resource Locator CSDL: Cơ sở liệu VB: Variable byte PFD: PforDelta IPC: Interpolative Coding TF: Tần suất xuất (Term frequency) DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 – Quy trình tìm kiếm thơng tin 11 Hình 1.2 - Ví dụ số ngược_tìm theo từ 17 Hình 1.3 - Tổng quan trình lập mục 20 Hình 2.1- Xây dựng số cách phân loại nhóm từ vựng 28 Hình 2.2 - Lưu trữ theo khối 31 Hình 2.3 - Tìm kiếm từ trường hợp khơng nén tập từ điển (hình a) nén theo khối có kích thước k=4 (hình b) 32 Hình 2.4 - Lưu trữ từ điển mảng có độ rộng cố định 32 Hình 2.5 - Lưu trữ tập từ điển kho từ vựng chuỗi 33 Hình 2.6 - Sơ đồ mục tiêu cho Opt-PFD 44 Hình 3.1 Các thao tác tiến trình lập mục 50 Hình 3.2 Bộ nhớ đệm giúp cải thiện hiệu suất lập mục Lucene 51 Hình 3.3 - Các thành phần định dạng tập mục ngược 57 Hình 4.1- Kết trả sau lập mục 63 Hình 4.2 - Cấu trúc tập mục compound index 63 Hình 4.3 - Cấu trúc số multifile index 63 59 CHƯƠNG - CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ THỰC HIỆN 4.1 Giới thiệu chương trình thử nghiệm Trong phạm vi luận văn này, tơi áp dụng thuật tốn nén mục VB code thuật toán cải tiến OPT-PFD vào chương trình thực nghiệm Để thực nghiệm kết nén số VB code OPT-PFD, thể thuật tốn ngơn ngữ lập trình Java Console Chức chương trình gồm: - Lập mục: Dựa ý tưởng lập mục sử dụng Lucnene, chương trình xây dựng chức cho phép chương trình thực quy trình tạo tập số cho tập liệu cho sẵn Các tập liệu bổ sung, sửa chữa để nâng cao hiệu việc lập mục Trên sở nghiên cứu kế thừa mã nguồn mở Lucene phiên apache_lucene để xây dựng quy trình lập mục cho tập tài liệu có sẵn Trong chức dựa lớp có sẵn phiên apache_lucene để thực hiện: • Directory: cho phép định nghĩa vùng nhớ, xác định nơi lưu trữ nhớ nhớ RAM q trình tạo mục • Document Field: định nghĩa tài liệu trường thông tin tài liệu sử dụng cho lập mục, sử dụng cho việc lấy kết trả cho thành phần Tìm kiếm • Analyzer: thực chức xử lý tách văn để lấy nội dung, chuẩn hóa, loại bỏ mục từ khơng cần thiết,… để chuẩn bị cho việc lập mục • IndexWriter: phần thành phần Tạo mục, thực việc tạo mở mục, sau thực thêm cập nhật nội dung mục • TermFerqVector: thực chức đếm tần số xuất từ từ điển tập liệu - Nén mục: Chức cho phép thực nén tập số lập Với ý tưởng sử dụng phương pháp nén để đối sánh đưa kết đánh gía hiệu suất, tỷ lệ thời gian thực ứng dụng chúng vào hệ thống tìm kiếm Chương trình xây dựng 60 chức nén mục để thực cho thuật toán khoảng cách byte (VB code) thuật toán cải tiến OPT-PFD • Thuật tốn nén khoảng cách byte (VB code) VBENDCODENUMBER(n) bytes 2.While true PREPEND (bytes, n mod 128) if n

Ngày đăng: 23/09/2020, 23:12

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1]. Roi Blanco González (2008). Index Compression for Information Retrieval Systems, PhD. Thesis, University of Acoruủa

Sách, tạp chí

Tiêu đề:	Index Compression for Information Retrieval Systems
Tác giả:	Roi Blanco González
Nhà XB:	University of Acoruủa
Năm:	2008

[2]. Daniel K. Blandford, Guy E. Blelloch (2002). Index Compression through Document Reordering, DCC 2002: 342-351

Sách, tạp chí

Tiêu đề:	DCC 2002
Tác giả:	Daniel K. Blandford, Guy E. Blelloch
Năm:	2002

[3]. P. Boldi and S. Vigna (2005). Compressed Perfect Embedded Skip Lists for Quick Inverted-Index Lookups, SPIRE 2005: 25-28

Sách, tạp chí

Tiêu đề:	Compressed Perfect Embedded Skip Lists for Quick Inverted-Index Lookups
Tác giả:	P. Boldi, S. Vigna
Nhà XB:	SPIRE 2005
Năm:	2005

[4]. Sergey Brin and Lawrence Page (1998). The Anatomy of a Large-Scale Hypertextual Web search Engine, Technical report, Stanford University

Sách, tạp chí

Tiêu đề:	Technical report
Tác giả:	Sergey Brin and Lawrence Page
Năm:	1998

[5]. Andrei Z. Broder, Nadav Eiron, Marcus Fontoura, Michael Herscovici, Ronny Lempel, John McPherson, Runping Qi, Eugene J. Shekita (2006).Indexing Shared Content in Information Retrieval Systems, EDBT 2006:313-330

Sách, tạp chí

Tiêu đề:	Indexing Shared Content in Information Retrieval Systems
Tác giả:	Andrei Z. Broder, Nadav Eiron, Marcus Fontoura, Michael Herscovici, Ronny Lempel, John McPherson, Runping Qi, Eugene J. Shekita
Nhà XB:	EDBT
Năm:	2006

[6]. Nils Grimsmo (2010). Bottom Up and Top Down: Twig Pattern Matching on Indexed Trees, PhD. Thesis, Norwegian University of Science and Technology

Sách, tạp chí

Tiêu đề:	PhD. Thesis
Tác giả:	Nils Grimsmo
Năm:	2010

[7]. Jinru He, Junyuan Zeng, Torsten Suel (2010). Improved index compression techniques for versioned document collections, CIKM 2010: 1239-1248

Sách, tạp chí

Tiêu đề:	Improved index compression techniques for versioned document collections
Tác giả:	Jinru He, Junyuan Zeng, Torsten Suel
Nhà XB:	CIKM
Năm:	2010

[8]. Jinru He, Hao Yan, Torsten Suel (2009). Compact full-text indexing of versioned document collections, CIKM 2009: 415-424

Sách, tạp chí

Tiêu đề:	Compact full-text indexing of versioned document collections
Tác giả:	Jinru He, Hao Yan, Torsten Suel
Nhà XB:	CIKM
Năm:	2009

[9]. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze (2009). An Introduction to Information Retrieval (Chapter 4. Index construction, Chapter 5. Index compression), Cambridge University Press (Online edition@ 2009 Cambridge UP)

Sách, tạp chí

Tiêu đề:	An Introduction to Information Retrieval
Tác giả:	Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze
Nhà XB:	Cambridge University Press
Năm:	2009

[10]. Hao Yan, Shuai Ding, Torsten Suel (2009). Compressing term positions in web indexes, SIGIR 2009: 147-154

Sách, tạp chí

Tiêu đề:	Compressing term positions in web indexes
Tác giả:	Hao Yan, Shuai Ding, Torsten Suel
Nhà XB:	SIGIR
Năm:	2009

[11]. Hao Yan, Shuai Ding, Torsten Suel (2009). Inverted index compression and query processing with optimized document ordering, WWW 2009: 401-410

Sách, tạp chí

Tiêu đề:	WWW 2009
Tác giả:	Hao Yan, Shuai Ding, Torsten Suel
Năm:	2009

[12]. Hao Yan (2010). Index Compression and Redundancy Elimination in Large Textual Collections, PhD. Thesis, Polytechnic Institute of NYU

Sách, tạp chí

Tiêu đề:	Index Compression and Redundancy Elimination in Large Textual Collections
Tác giả:	Hao Yan
Nhà XB:	Polytechnic Institute of NYU
Năm:	2010

[13]. Hao Yan, Shuming Shi, Fan Zhang, Torsten Suel, Ji-Rong Wen (2010). Efficient term proximity search with term-pair indexes, CIKM 2010: 1229- 1238

Sách, tạp chí

Tiêu đề:	Efficient term proximity search with term-pair indexes
Tác giả:	Hao Yan, Shuming Shi, Fan Zhang, Torsten Suel, Ji-Rong Wen
Nhà XB:	CIKM
Năm:	2010

[14]. Fan Zhang, Shuming Shi, Hao Yan, Ji-Rong Wen (2010). Revisiting globally sorted indexes for efficient document retrieval, WSDM 2010: 371- 380

Sách, tạp chí

Tiêu đề:	Revisiting globally sorted indexes for efficient document retrieval
Tác giả:	Fan Zhang, Shuming Shi, Hao Yan, Ji-Rong Wen
Nhà XB:	WSDM 2010
Năm:	2010

[15]. I. H. Witten, A. Moffat, and T. C. Bell. Managing Gigabytes: Compressing and Indexing Documents and Images. MorganKaufmann, second edition, 1999

Sách, tạp chí

Tiêu đề:	Managing Gigabytes: Compressing and Indexing Documents and Images

[16]. Erik Hatcher, Otis Gospodnetic, Michael McCandless. Lucene in Action (2nd edition). Manning Publications, 2010

Sách, tạp chí

Tiêu đề:	Lucene in Action (2nd edition)
Tác giả:	Erik Hatcher, Otis Gospodnetic, Michael McCandless
Nhà XB:	Manning Publications
Năm:	2010

[17]. Vo Ngoc Anh, Alistair Moffat. Index Compression Using Fixed Binary Codewords. ADC 2004: 61-67

Sách, tạp chí

Tiêu đề:	Index Compression Using Fixed Binary Codewords
Tác giả:	Vo Ngoc Anh, Alistair Moffat
Nhà XB:	ADC
Năm:	2004