Tim hieu SEARCH ENGINE

Phương pháp này không tách từ chính xác hoàn toàn nhưng có thể chấp nhận trong hệ thống tìm kiếm thông tin vì trong quá trình lập chỉ mục chỉ cần xác định đúng các từ có trọng lượng cao,[r]

TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE

Các bộ phận cấu thành hệ thống search engine

1.1 Bộ thu thập thông tin – Robot

Robot là chương trình tự động quét qua các cấu trúc siêu liên kết để thu thập tài liệu, đồng thời một cách đệ quy, nó thu hồi tất cả tài liệu liên quan đến tài liệu ban đầu.

Robot, hay còn gọi là spider, web wanderer hoặc web worm, thường gây nhầm lẫn với các thuật ngữ này Những cái tên như 'spider' và 'wanderer' có thể khiến người ta nghĩ rằng robot tự di chuyển, trong khi 'worm' lại gợi nhắc đến virus Thực tế, robot chỉ là một chương trình thu thập thông tin từ các trang web theo giao thức web mà không có tính chủ động Các trình duyệt thông thường không được coi là robot vì chúng chỉ hoạt động khi có sự can thiệp của con người.

1.2 Bộ lập chỉ mục – Index

Hệ thống lập chỉ mục, hay còn gọi là hệ thống phân tích và xử lý dữ liệu, thực hiện việc phân tích và trích chọn thông tin cần thiết từ dữ liệu mà robot thu thập Nó tổ chức các từ đơn, từ ghép và cụm từ quan trọng thành cơ sở dữ liệu riêng, giúp tìm kiếm nhanh chóng và hiệu quả Hệ thống chỉ mục là danh sách từ khoá, chỉ rõ từ khoá nào xuất hiện trên trang nào và địa chỉ nào.

1.3 Bộ tìm kiếm thông tin – Search Engine

Cụm từ "search engine" chỉ toàn bộ hệ thống bao gồm bộ thu thập thông tin, bộ lập chỉ mục và bộ tìm kiếm thông tin Các bộ phận này hoạt động liên tục từ khi khởi động, chúng phụ thuộc lẫn nhau về dữ liệu nhưng hoạt động độc lập.

Search engine tương tác với user thông qua giao diện web, có nhiệm vụ tiếp nhận & trả về những tài liệu thoả yêu cầu của user.

Tìm kiếm từ là quá trình xác định các trang có chứa nhiều từ trong câu truy vấn, loại trừ các stopword như a, an, the Số lượng từ xuất hiện trên trang càng cao, khả năng trang đó được chọn để trả về cho người dùng càng lớn Một trang chứa tất cả các từ trong câu truy vấn sẽ được ưu tiên hơn so với trang thiếu một hoặc một số từ Hiện nay, hầu hết các công cụ tìm kiếm đều cung cấp chức năng tìm kiếm cơ bản và nâng cao, cho phép tìm từ đơn, từ ghép, cụm từ, danh từ riêng, và có thể giới hạn phạm vi tìm kiếm theo tiêu đề, đề mục, hoặc đoạn văn bản giới thiệu về trang web.

Ngoài việc tìm kiếm theo từ khóa, các công cụ tìm kiếm còn nỗ lực "hiểu" ý nghĩa thực sự của câu hỏi từ người dùng Chức năng sửa lỗi chính tả và nhận diện các biến thể từ vựng như speaker, speaking, spoke khi người dùng nhập từ speak là minh chứng cho điều này.

Nguyên lý hoạt động

Các công cụ tìm kiếm sử dụng robot để thu thập thông tin trên internet thông qua các siêu liên kết Khi phát hiện một trang web mới, robot sẽ gửi tài liệu về máy chủ chính để xây dựng cơ sở dữ liệu chỉ mục, phục vụ cho việc tìm kiếm thông tin.

Thông tin trên mạng luôn thay đổi, vì vậy các robot tìm kiếm phải liên tục cập nhật các trang web cũ Tần suất cập nhật này phụ thuộc vào từng hệ thống công cụ tìm kiếm Khi nhận được truy vấn từ người dùng, công cụ tìm kiếm sẽ phân tích và tìm kiếm trong cơ sở dữ liệu chỉ mục để trả về những tài liệu phù hợp với yêu cầu.

BỘ THU THẬP THÔNG TIN – ROBOT

Ứng dụng của Robot

Robot thường được sử dụng cho những mục đích sau :

1.1 Phân tích, thống kê – Statistical Analysis

Robot đầu tiên được phát triển để đếm số lượng máy chủ web, xác định số tài liệu trung bình trên mỗi máy chủ, phân tích tỷ lệ các loại tệp khác nhau, đo kích thước trung bình của một trang web và đánh giá độ kết dính của nội dung.

1.2 Duy trì siêu liên kế - Maintenance

Một trong những thách thức lớn trong việc duy trì siêu liên kết là sự xuất hiện của các liên kết hỏng khi trang web bị thay đổi hoặc xóa Hiện tại, chưa có cơ chế nào để cảnh báo các quản trị viên về những thay đổi này Thực tế cho thấy, khi các tác giả phát hiện tài liệu của mình có liên kết hỏng, họ thường thông báo cho nhau, hoặc đôi khi độc giả sẽ gửi email để thông báo.

Robot như MOMspider hỗ trợ tác giả trong việc phát hiện liên kết hỏng và duy trì cấu trúc siêu liên kết cũng như nội dung của trang web Chức năng này tự động lặp lại mỗi khi tài liệu được cập nhật, giúp nhanh chóng giải quyết mọi vấn đề phát sinh.

1.3 Ánh xạ địa chỉ web - Mirroring

Mirroring là một kỹ thuật quan trọng trong việc duy trì kho dữ liệu của FPT, cho phép sao chép toàn bộ cấu trúc cây thư mục và cập nhật thường xuyên các file thay đổi Kỹ thuật này giúp nhiều người truy cập cùng một nguồn dữ liệu, giảm thiểu liên kết thất bại, đồng thời tăng tốc độ truy cập và tiết kiệm chi phí so với việc truy cập trực tiếp vào site chứa dữ liệu gốc.

1.4 Phát hiện tài nguyên – Resource Discovery

Robot đóng vai trò quan trọng trong việc phát hiện tài nguyên, giúp con người quản lý khối lượng thông tin khổng lồ trên mạng Chúng thu thập tài liệu, xây dựng và duy trì cơ sở dữ liệu, đồng thời phát hiện và loại bỏ các liên kết hỏng Kết hợp với công cụ tìm kiếm, robot cung cấp thông tin cần thiết cho người dùng một cách hiệu quả.

1.5 Kết hợp các công dụng trên- Combined uses

Robot có khả năng thực hiện nhiều chức năng khác nhau, chẳng hạn như RBSE Spider, có thể vừa thống kê số lượng tài liệu thu thập được vừa tạo ra cơ sở dữ liệu Tuy nhiên, hiện nay, các ứng dụng như vậy vẫn còn rất hạn chế.

Robot chỉ mục – Robot Indexing

Trong quá trình thu thập thông tin phục vụ cho bộ lập chỉ mục, ta cần giải quyết những vấn đề sau :

Trong môi trường mạng, các robot thu thập thông tin từ các trang web, và điểm khởi đầu của chúng phụ thuộc vào từng loại robot Mỗi robot có những chiến lược riêng, nhưng thường chúng sẽ ghé thăm các trang web phổ biến hoặc những trang có nhiều liên kết dẫn đến chúng.

Hai là : Ai sẽ cung cấp địa chỉ của các site này cho robot ?

Robot nhận các URL ban đầu từ user

Robot phân tích các trang web để thu thập các URL mới, và những URL này trở thành đầu vào cho robot Quá trình này diễn ra liên tục, tạo ra một chu trình lặp lại không ngừng.

Ba là : Chọn dữ liệu nào trong tài liệu để lập chỉ mục ?

Quyết định lựa chọn dữ liệu trong tài liệu hoàn toàn phụ thuộc vào robot, và thường thì các từ được liệt kê sau đây được coi là quan trọng.

 Ở góc cao của tài liệu.

 Trong tiêu đề (quan trọng)

 Trong phần miêu tả trang web (description)

 Trong các thẻ dành cho hình ảnh (ALT graphisc).

 Trong các thẻ chứa từ khóa.

 Trong các text liên kết.

Một số robot lập chỉ mục dựa trên tiêu đề, các đoạn văn bản đầu tiên hoặc toàn bộ nội dung tài liệu Ngoài ra, có những robot lập chỉ mục dựa vào các thẻ META và thẻ ẩn, cho phép tác giả xác định từ khóa cho tài liệu Tuy nhiên, việc lạm dụng chức năng này đã làm giảm giá trị của các thẻ META.

Các chiến thuật thu thập dữ liệu [II.1]

Trước khi được đánh chỉ mục, các trang web cần được robot thu thập dữ liệu Để thực hiện điều này, robot cần có chiến lược hiệu quả Bắt đầu từ một số trang web có sẵn, robot sẽ lọc ra danh sách các liên kết và từ đó tiếp tục tìm kiếm các trang khác.

Có 3 chiến thuật tìm kiếm Heuristic sau : tìm kiếm theo chiều sâu, tìm kiếm theo chiều rộng và tìm kiếm ngẫu nhiên

3.1 Chiến thuật tìm kiếm theo chiều sâu

Từ một danh sách chứa các liên kết cần duyệt, thực hiện các bước sau :

(1) Cho danh sách = {trang đầu tiên}

(2) Lấy trang đầu tiên trong danh sách.

Nếu có qua (3) Nếu không qua (5)

(3) Trang này đã xét tới chưa ?

Nếu rồi, quay lại (2) Nếu chưa, qua (4)

(4) Đánh dấu đã tới rồi Phân tích và tìm xem liên kết có trong trang đó không?

(4a) Nếu có, thêm liên kết này vào đầu danh sách Quay lại (4) (4b) Nếu không, quay lại (2).

3.2 Chiến thuật tìm kiếm theo chiều rộng

(2) Lấy trang đầu tiên trong danh sách.

(4a) Nếu có, thêm liên kết này vào cuối danh sách Quay lại (4) (4b) Nếu không, quay lại (2).

3.3 Chiến thuật tìm kiếm theo ngẫu nhiên

(2) Lấy ngẫu nhiên một trang trong danh sách.

(4a) Nếu có, thêm liên kết này vào cuối danh sách Quay lại (4) (4b) Nếu không, quay lại (2).

Những vấn đề cần lưu ý của web robot

4.1 Chi phí và hiểm hoạ

Việc sử dụng robot, đặc biệt là khi điều khiển từ xa qua internet, có thể tốn kém nhiều chi phí Bài viết này sẽ khám phá những nguy cơ và hiểm hoạ mà robot có thể gây ra.

4.1.1 Qúa tải mạng và server – Network resource and server load

Sau một thời gian dài hoạt động, robot sẽ bắt đầu hoạt động liên tục, thường là sau một tháng Để tăng tốc độ, nhiều robot được phóng ra đồng thời, yêu cầu băng thông lớn và dẫn đến việc khai thác tài nguyên mạng quá mức Khi robot yêu cầu một lượng lớn thông tin trong thời gian ngắn, băng thông cho các ứng dụng khác bị thiếu hụt Server phải phục vụ cả yêu cầu của robot lẫn người dùng, do đó, khi yêu cầu của robot tăng lên, chất lượng dịch vụ cho người dùng giảm xuống Một thử nghiệm cho thấy khi thực hiện 20 lượt truy cập đồng thời vào server, robot đã làm chậm hệ thống Chỉ sau 170 lượt truy xuất liên tục, thử nghiệm thất bại do server bị quá tải.

Rapid fire đang trở thành một thảm họa, khi hiệu quả truyền tải thông tin qua giao thức web hay HTTP giảm sút rõ rệt Hiện tại, các giao thức mới đang được nghiên cứu để khắc phục tình trạng này.

4.1.2 Sự cập nhật quá mức- Updating overhead

Cơ sở dữ liệu do web robot tạo ra có khả năng tự động cập nhật, tuy nhiên, hiện tại vẫn thiếu cơ chế hiệu quả để kiểm soát sự thay đổi trên web Việc cập nhật thông tin là rất quan trọng, nhưng việc thực hiện quá thường xuyên lại không cần thiết.

Kỹ thuật 'if-Modified-Since' trong HTTP cho phép các user-agent xác định thời điểm tài liệu được cập nhật Tuy nhiên, để robot phát hiện sự thay đổi này, nó cần lưu trữ thông tin cũ, điều này có thể tiêu tốn nhiều bộ nhớ và yêu cầu dữ liệu phức tạp.

Một trong những đặc điểm nổi bật của robot là khả năng nhận diện các từ khóa trong khi vẫn tiến hành thu thập dữ liệu Tuy nhiên, có một số ý kiến cho rằng đặc điểm này không được hoan nghênh vì hai lý do.

 Đầu tiên, các tác vụ tìm kiếm của người sử dụng cuối (end - user) góp phần đẩy server vào chỗ quá tải.

Không có cơ sở đảm bảo mối quan hệ giữa các từ tìm kiếm, điều này có thể ảnh hưởng đến độ chính xác của kết quả Ví dụ, nếu bộ tìm kiếm không hỗ trợ toán tử boolean, người dùng tìm kiếm thông tin về xe máy có thể không nhận được kết quả mong muốn nếu họ nhập cụm từ 'Ford and garage' thay vì từ 'car' Điều này cho thấy nhiều người dùng không nhận thức được tầm quan trọng của việc sử dụng từ khóa chính xác trong tìm kiếm.

Một nguy cơ tiềm ẩn từ sự định hướng sai lầm của người dùng là việc sử dụng công cụ không đồng đều Một số người có khả năng khai thác tối đa công cụ, như dự đoán khối lượng tài liệu lớn và xác định chính xác nguồn dữ liệu cần tìm, cũng như biết cách giới hạn thời gian sử dụng robot Ngược lại, một số người khác lại có xu hướng lạm dụng khả năng của robot, dù vô tình hay cố ý.

Các tác giả viết robot khuyên rằng chỉ nên phân phối sản phẩm cho những người dùng cuối có khả năng hiểu về web robot và nhận thức được những thách thức trong môi trường mạng.

4.1.3 Những tình huống không mong đợi – Bad implementations

Nhiều tác giả đã chọn cách viết robot và thử nghiệm trực tiếp trên các server thực tế thay vì kiểm tra trên máy cục bộ trước, điều này đã gây ra không ít khó khăn cho các nhà quản trị web.

Truy xuất trùng lặp xảy ra khi robot không ghi lại những địa điểm đã đi qua hoặc không phân biệt được các URL khác nhau nhưng dẫn đến cùng một địa chỉ, như DSN và IP Điều này có thể dẫn đến việc robot lãng phí thời gian và tài nguyên để thu thập tài liệu không cần thiết, ví dụ như khi hệ thống chỉ cần file văn bản nhưng robot lại tải về cả file hình ảnh, file thực thi, và các loại file khác.

Trong môi trường mạng, tồn tại những vùng gần như vô tận, ví dụ như khi phân tích một trang, robot có thể nhận về cùng một URL nhưng ở các cấp độ khác nhau, như ‘/cgi-bin/pit/’, ‘/cgi-bin/pit/a/’, và tiếp tục với ‘/cgi-bin/pit/a/a’,… Hiện tượng lặp lại không có điểm dừng này được gọi là các lỗ đen (black holes).

4.2 Tiêu chuẩn loại trừ robot

Trong quá trình xử lý, robot không thể tự quyết định tài liệu nào cần lập chỉ mục và tài liệu nào không, do đó nó thu thập tất cả các thông tin có thể Ngay cả khi xác định được tài liệu không hữu ích, robot vẫn tốn chi phí đáng kể cho việc thu thập Để khắc phục vấn đề này, tiêu chuẩn loại trừ robot đã ra đời, không chỉ chỉ ra các URL cần tránh mà còn cảnh báo robot về những khu vực không nên truy cập.

Robot.txt là một file cấu trúc được đặt tại thư mục gốc của server, gồm 2 trường User-agent và Disallow.

 User-agent : cho biết robot nào sẽ bị kiểm soát.

 Disallow : cho biết robot có được phép kết nối vào URL này hay không.

 Xét các ví dụ sau :

# / robots.txt file for http://webcrawler.com/

Ký tự # bắt đầu một chú thích

Robot có tên là webcrawler có thể đi đến bất cứ trang nào của site

Robot có tên là lycra bị cấm trên tất cả các trang của site

Mọi robot đều không được truy xuất vào 2 thư mục tmp và logs

Bảng 2.1 :Ví dụ về chuẩn loại trừ robot dùng file robot.txt

4.2.2 Thẻ META dành cho robot – Robot META tag

META tag là sự mở rộng của chuẩn loại trừ robot, hỗ trợ cho tác giả của những trang web không có quyền admin.

Vị trí Nằm trong phần HEAD của file HTML

Cú pháp

Meta Thẻ báo hiệu bắt đầu

Name Tên robot sẽ bị kiểm soát

Content Cờ định hướng cho robot, các cờ này có thể kết hợp với nhau & được phân cách bằng dấu phẩy

Bảng 2.2 : Bảng thông tin về META tag trong chuẩn loại trừ robot

Các cờ của thuộc tính Content Ý nghĩa

[NO]INDEX Robot không nên lập chỉ mục cho trang này.

[NO]FOLLOW Robot không nên lấy các liên kết ở trang này

Bảng 2.3 : Bảng giá trị các cờ của thuộc tính Content trong META tag 4.2.3 Nhược điểm của file robot.txt

Việc liệt kê các trang hoặc thư mục trong file robot.txt có thể thu hút sự chú ý từ các 'vị khách không mời', nhưng thực tế, chuẩn loại trừ robot chỉ mang tính chất cảnh báo và không phải là biện pháp cấm hoàn toàn Sự tuân thủ của các robot là vấn đề tự nguyện, tuy nhiên, vẫn có những cách khắc phục để bảo vệ nội dung của bạn.

 Tạo một thư mục chứa tất cả các file quan trọng.

 Trường Disallow chỉ liệt kê tên thư mục vừa tạo.

Để cấu hình server hiệu quả, cần đảm bảo rằng các trang web không chứa đường dẫn đến thư mục nhạy cảm Tuy nhiên, thực tế cho thấy phương pháp này thường không mang lại kết quả như mong đợi, do một số nguyên nhân nhất định.

 Các server có robot không bị cấm có thể dẫn đường các robot bị cấm khác đến những file này.

 Các file quan trọng có thể nằm trong log file (file được tự do truy xuất)

 Khi cấu hình lại server, admin có thể ‘quên‘ các thư mục này phải cấm robot!

BỘ LẬP CHỈ MỤC – INDEX

Khái quát về hệ thống lập chỉ mục

Sau khi thu thập, các trang web sẽ được phân tích và trích xuất thông tin quan trọng, bao gồm từ đơn, từ ghép và cụm từ cần thiết, để lưu trữ trong cơ sở dữ liệu phục vụ cho nhu cầu tìm kiếm sau này.

Mô hình xử lý tổng quát của một hệ thống được trình bày như sau:

Hình 3.1 Lưu đồ xử lý cho hệ thống lập chỉ mục

Lọc các thông tin thừa, chuyển tài liệu về dạng văn bản

Tách văn bản thành các từ

Tính trọng số và loại bỏ nhữngtừ có trọng số thấp

Lập chỉ mục Danh sách cáctrang Web cầnlập chỉ mục

Danh sách cáctừ stop-word TỪĐIỂN

CSDL chỉ mục thông tin Loại bỏ hậu tốDanh sách các hậu tố

Lập chỉ mục là quá trình phân tích và xác định các từ, cụm từ cốt lõi đại diện cho nội dung tài liệu Việc này yêu cầu rút trích thông tin chính vừa đủ để đáp ứng nhu cầu tìm kiếm mà không gây lãng phí chi phí lưu trữ và tìm kiếm Trước đây, quá trình này thường do chuyên viên thực hiện thủ công với độ chính xác cao, nhưng trong bối cảnh hiện đại với lượng thông tin khổng lồ, phương pháp lập chỉ mục tự động đã trở thành giải pháp hiệu quả hơn.

Một thủ tục lập chỉ mục tự động cơ bản cho các tài liệu tiếng Anh có thể được xử lý như sau: [III.1]

1 Step of tokenization: Tách văn bản ra thành các chuỗi nhờ vào khoảng trắng, mỗi chuỗi xem như là một từ.

2 Step of removal of stop words: bỏ những từ thường xuyên xuất hiện trong hầu hết các tài liệu nhưng lại không quan trọng trong các tài liệu như tính từ, đại từ.

3 Step of stemming: loại bỏ các hậu tố (suffixes) để đưa về các từ gốc

Các từ thu được sẽ được lập chỉ mục, với hai bước đầu tiên quan trọng cho quá trình lập chỉ mục tài liệu tiếng Việt Bước thứ ba không cần thiết, vì tiếng Việt thuộc dòng ngôn ngữ đơn thể.

Tổng quan về phương pháp lập chỉ mục ([I.1], [I.2], [II.1])

Phương pháp lập chỉ mục gồm 2 phần chính yếu sau :

Để bắt đầu, cần xác định các mục từ và khái niệm có khả năng đại diện cho văn bản cần lưu trữ, bao gồm việc tách từ, loại bỏ stop-word và xử lý hậu tố.

 thứ hai là xác định trọng số cho từng mục từ , trọng số này là giá trị phản ánh tầm quan trọng của mục từ đó trong văn bản

2.1 Xác định mục từ quan trọng cần lập chỉ mục ([I.1])

Mục từ, hay còn gọi là mục từ chỉ mục, là đơn vị cơ sở trong quá trình lập chỉ mục Nó có thể là từ đơn, từ phức, hoặc tổ hợp từ có nghĩa trong ngữ cảnh cụ thể Để xác định mục từ của một văn bản, ta dựa vào nội dung, tiêu đề, hoặc tóm tắt của văn bản đó.

Việc lập chỉ mục tự động bắt đầu bằng việc khảo sát tần số xuất hiện của từng loại từ trong văn bản Khi tất cả các từ xuất hiện với tần số bằng nhau, việc phân biệt các mục từ theo tiêu chuẩn định lượng trở nên khó khăn Tuy nhiên, trong văn bản ngôn ngữ tự nhiên, tần số xuất hiện của từ thường có sự biến động, cho phép phân biệt các mục từ dựa trên tần số của chúng Đặc trưng xuất hiện của từ vựng có thể được xác định qua hằng số "thứ hạng - tần số" (Rank_Frequency) theo luật của Zipf.

Tân số xuất hiên * thứ hạng = Hằng số.

Biểu thức luật Zipf giúp xác định hệ số ý nghĩa của từ bằng cách phân tích tần suất xuất hiện của các mục từ trong văn bản.

Một đề xuất dựa theo sự xem xét chung sau:

1 Cho một tập hợp n tài liệu, trong mỗi tài liệu tính toán tần số xuất hiện của các mục từ trong tài liệu đó

Fik (Frequency): tần số xuất hiện của mục từ k trong tài liệu i

2 Xác định tổng số tập tấn số xuất hiện TFk (Total Frequency) cho mỗi từ bằng cách cộng những tần số của mỗi mục từ duy nhất trên tất cả n tài liệu. n

3 Sắp xếp những thứ tự giảm theo tập tần số xuất hiện của chúng Quyết định giá trị ngữơng cao và loại bỏ tất cả những từ có tập tần số xuất hiện cao trên ngững nay Những từ bị loại bỏ là những từ xuất hiện phổ biến ở hầu hết các tài liệu Đó chính là các stop-word.

4 Tương tư, loại trừ những từ được xem là có tần số xuất hiện thấp Việc xoá những mục từ như vậy hiếm khi xảy ra trong tập hợp mà sự mặt của chúng không làm ảnh hưởng lớn đến việc thực hiện truy vấn.

5 Những từ xuất hiện trung bình còn lại bây giờ được dùng cho việc ấn định tới những tài liệu như những mục từ chỉ mục.

Chú ý rằng một khái niệm được coi là chính nếu nó xuất hiện ít nhất hai lần trong cùng một đoạn Ngoài ra, nếu khái niệm đó xuất hiện trong hai đoạn văn liên tiếp, nó cũng được xem là chính, ngay cả khi chỉ xuất hiện một lần trong đoạn hiện tại Tất cả các chú giải về những khái niệm chính sẽ được liệt kê theo một tiêu chuẩn nhất định.

Việc loại bỏ hoàn toàn các từ có tần suất xuất hiện cao có thể làm giảm giá trị recall, dẫn đến hiệu quả kém trong việc trả về số lượng lớn mục tin phù hợp Ngược lại, loại bỏ các từ có tần suất thấp có thể ảnh hưởng tiêu cực đến độ chính xác Do đó, cần thiết phải xác định các ngưỡng thích hợp để phân biệt các từ hữu ích có tần suất xuất hiện trung bình trong tập dữ liệu.

2.2 Một số hàm tính trọng số mục từ ([I.1])

Trọng số của mục từ: là sự tần xuất xuất hiện của mục từ trong toàn bộ tài liệu.

Phương pháp đánh giá trọng số từ thường dựa vào thống kê, với nguyên tắc rằng những từ xuất hiện thường xuyên trong nhiều tài liệu thường "ít có ý nghĩa hơn" so với những từ chỉ xuất hiện trong một số tài liệu nhất định.

Ta xét các khái niệm sau:

 Gọi T={t1,t2, ,tn} là không gian chỉ mục, với ti là các mục từ.

 Một tài liệu D được lập chỉ mục dựa trên tập T sẽ được biểu diễn dưới dạng:

Tập hợp T(D) bao gồm các trọng số w1, w2, , wn, trong đó wi đại diện cho trọng số của từ ti trong tài liệu D Nếu giá trị của wi bằng 0, điều đó có nghĩa là từ ti không xuất hiện trong tài liệu D hoặc có mức độ quan trọng thấp, do đó chúng ta không cần chú ý đến nó.

Vector chỉ mục T(D) của tài liệu D thể hiện nội dung của D và được lưu trữ trong cơ sở dữ liệu của hệ thống tìm kiếm thông tin nhằm đáp ứng nhu cầu tìm kiếm.

Mặc dù T(D) thể hiện nội dung của tài liệu D, nhưng không phải tất cả từ ngữ trong D đều có mặt trong T(D) Chỉ những từ có trọng số, tức là những từ mang ý nghĩa quan trọng trong tài liệu D, mới được lập chỉ mục cho D.

Sau đây ta xét một số hàm tính trọng số của mục từ

2.2.1 Nghịch đảo trọng số tần số tài liệu ( The Inverse Document

Frequency Weight (wk) refers to the weight of term k, while nDock denotes the total number of documents in which term k appears The variable nki indicates the number of times term k occurs in document i, and nk represents the total occurrences of term k across the entire document collection nDoc is the total number of documents, and idfk stands for the Inverse Document Frequency, which measures the importance of term k within the document set.

Wk= idf k = log 2 nDoc nDoc k +1

Trọng số của mục từ k sẽ tăng khi tần số xuất hiện của nó trong tài liệu i tăng, nhưng sẽ giảm khi tần số xuất hiện của mục từ k trong toàn bộ tập tài liệu (nDock) tăng lên.

Biểu thức tổng hợp : wk = nik* [log2 (n)-log2(nDOCk)+ 1]

Lập chỉ mục cho tài liệu tiếng Việt ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11], [IV.12])

3.1 Khó khăn cho việc lập chỉ mục tiếng Việt

Các điểm khó khăn khi thực hiện quá trình lập chỉ mục cho tài liệu tiếng Việt so với tài liệu tiếng Anh mà chúng ta phải giải quyết :

Trong tiếng Anh, việc xác định ranh giới giữa các từ trong câu rất dễ dàng nhờ vào khoảng trắng, trong khi đó, tiếng Việt lại không sử dụng khoảng trắng để phân biệt các từ mà chỉ để phân định các tiếng.

 Chính tả tiếng Việt còn một số điểm chưa thống nhất như sử dụng "y" hay

Việc hiệu chỉnh chính tả cho văn bản cần lập chỉ mục và cho từ điển chỉ mục bao gồm các yếu tố như cách viết đúng của các từ như "quý" hay "quí", cách bỏ dấu như "lựơng" hay "lượng", và quy tắc viết hoa tên riêng như "Khoa học Tự nhiên" hay "Khoa Học Tự Nhiên".

Nhiều bảng mã tiếng Việt yêu cầu khả năng xử lý tài liệu với các bảng mã khác nhau Giải pháp hiệu quả là chuyển tất cả về bảng mã chuẩn của hệ thống.

Từ đa nghĩa mang đến sự phong phú trong ngôn ngữ, với mỗi nghĩa khác nhau tùy thuộc vào ngữ cảnh sử dụng Do đó, việc tìm kiếm ý nghĩa chính xác của một từ có thể gặp khó khăn và không đạt được kết quả cao.

Từ đồng nghĩa và từ gần nghĩa là những từ khác nhau nhưng mang cùng một ý nghĩa Việc tìm kiếm theo từ khóa thường không phát hiện được các trang web chứa từ đồng nghĩa hoặc gần nghĩa với từ cần tìm, dẫn đến kết quả tìm kiếm không đầy đủ.

Trong quá trình viết, có nhiều từ xuất hiện với mật độ cao nhưng không mang ý nghĩa cụ thể, chủ yếu là từ nối, từ đệm hoặc từ láy thể hiện sắc thái biểu cảm Những từ này cần được xác định và loại bỏ khỏi danh sách từ vựng, tương tự như stop-word trong tiếng Anh.

Các văn bản nghiên cứu khoa học thường tập trung vào một vấn đề cụ thể, nhưng trọng số của các từ chuyên môn có thể thấp so với tổng thể tài liệu Điều này dẫn đến việc một số thuật toán tính trọng số không nhận diện được các từ chuyên môn quan trọng, khiến chúng không được lập chỉ mục.

Xác định ranh giới từ trong câu là vấn đề quan trọng nhất, ảnh hưởng lớn đến hiệu quả lập chỉ mục Nếu quá trình tách từ sai, nội dung câu sẽ bị phân tích không chính xác Đây cũng là thách thức khó khăn nhất, trong khi các vấn đề khác chủ yếu mang tính kỹ thuật và có thể giải quyết dễ dàng hơn.

3.2 Đặc điểm về từ trong tiếng Việt và việc tách từ

3.2.1 Đặc điểm về từ trong tiếng Việt:

Tiếng Việt là một ngôn ngữ đơn lập, điều này thể hiện rõ trong ngữ âm, ngữ nghĩa và ngữ pháp Khác với các ngôn ngữ Ấn-Âu, từ trong tiếng Việt không được xác định chỉ bằng các ký tự cách nhau bởi khoảng trắng, mà khoảng trắng không phải là yếu tố quyết định để nhận diện từ.

Trong tiếng Việt trước hết cần chú ý đến đơn vị xưa nay vẫn quan gọi là tiếng.

Về mặt ngữ nghĩa, ngữ âm, ngữ pháp, đều có giá trị quan trọng.

 Sử dụng tiếng để tạo từ có hai trường hợp:

Trường hợp một tiếng là khi một tiếng được sử dụng như một từ đơn Tuy nhiên, không phải tất cả các tiếng đều có thể tạo thành một từ.

Trường hợp từ ghép hay từ phức xuất hiện khi hai hoặc nhiều tiếng kết hợp chặt chẽ với nhau, tạo thành một đơn vị có tư cách ngữ pháp Sự kết hợp này không chỉ mang lại ý nghĩa mới mà còn thể hiện sự liên kết tương đối bền vững giữa các thành phần.

Trong tiếng Việt, có nhiều quan niệm khác nhau về từ, nhưng điểm chung là từ được coi là đơn vị nhỏ nhất có thể tạo thành câu và mang nội dung hoàn chỉnh.

Người ta sử dụng "từ" để kết hợp thành câu, không phải "tiếng" Vì vậy, quá trình lập chỉ mục hiệu quả hơn khi tách câu thành các "từ" thay vì tách bằng "tiếng".

Việc xác định từ trong tiếng Việt gặp nhiều khó khăn và tốn kém, vì vậy việc sử dụng từ điển đã được biên soạn sẵn là giải pháp đơn giản nhất Quá trình này bao gồm việc tách tài liệu thành các từ, loại bỏ từ láy, từ nối, từ đệm và những từ không quan trọng Một câu có thể được cấu thành từ nhiều từ ghép lại, và trong mỗi câu có thể tồn tại nhiều cách phân tích từ khác nhau.

Ví dụ : xét câu "Tốc độ truyền thông tin sẽ tăng cao" có thể phân tích từ theo các cách sau:

Tốc độ / truyền/ thông tin / sẽ / tăng cao.

Tốc độ / truyền thông / tin / sẽ / tăng cao.

Hiện nay, có nhiều giải pháp hiệu quả cho vấn đề này, nhưng thời gian và chi phí tính toán vẫn còn lớn, không phù hợp cho việc lập chỉ mục trong hệ thống tìm kiếm thông tin do khối lượng tài liệu cần xử lý rất lớn.

BỘ TÌM KIẾM THÔNG TIN – SEARCH ENGINE

Vì sao ta cần một công cụ tìm kiếm (SE) ?

Trong một thư viện lớn, việc tìm kiếm sách trở nên khó khăn nếu không có danh mục Tương tự, với hàng triệu trang web trên Internet, việc duyệt qua tất cả là không khả thi, dù có công cụ tìm kiếm tốt đến đâu Tuy nhiên, nhờ sự hỗ trợ của công cụ tìm kiếm (SE), chúng ta có thể nhanh chóng xác định vị trí các từ khóa cần tìm trên các trang web toàn cầu.

Các phương thức tìm kiếm

2.1 Tìm theo từ khoá – Keyword searching Đây là phương pháp được áp dụng với hầu hết các search engine Trừ khi tác giả của trang web xác định từ khóa cho tài liệu của mình, ngược lại điều này phụ thuộc vào search engine Như vậy các search engine sẽ tự mình chọn và đánh chỉ mục cho những từ mà chúng cho quan trọng có thể giúp phân biệt các tài liệu khác nhau Các từ được đề cập trong phần II chương II hoặc các từ lặp lại nhiều lần đều được chú ý Một số site lập chỉ mục cho tất cả các từ có trong một trang web, một số khác chỉ chọn một số đoạn văn bản.

Hệ thống đánh chỉ mục toàn văn bản (full-text indexing systems) thống kê tần suất xuất hiện của từng từ trong tài liệu, loại trừ các từ stopword Một số công cụ tìm kiếm cũng phân biệt giữa chữ hoa và chữ thường.

2.2 Những khó khăn khi tìm theo từ khoá

Các công cụ tìm kiếm thường gặp khó khăn với từ đồng âm khác nghĩa như "hard cider", "hard stone", "a hard exam" và "hard drive", cũng như các từ có biến thể nhờ tiền tố và hậu tố như "big", "bigger", "student", "students" Hơn nữa, chúng cũng không thể cung cấp tài liệu chứa từ đồng nghĩa với các từ trong câu truy vấn.

2.3 Tìm theo ngữ nghĩa – Concept-based searching

Excite từng nổi tiếng với chiến thuật tìm kiếm theo ngữ nghĩa, nhưng hiện tại phương pháp này đã không còn được áp dụng Khác với các hệ thống tìm kiếm dựa trên từ khóa, tìm kiếm theo ngữ nghĩa "đoán" ý định của người dùng thông qua ngữ cảnh câu chữ Phương pháp này hoạt động bằng cách gom nhóm tài liệu, sử dụng ngôn ngữ học và lý thuyết trí tuệ nhân tạo Excite áp dụng cách tính toán dựa trên tần suất xuất hiện của các từ quan trọng; khi nhiều từ hoặc cụm từ có nghĩa gần nhau trong tài liệu, Excite sẽ cho rằng chúng liên quan đến một chủ đề nhất định.

Khi từ "heart" xuất hiện gần các từ như "attack" (cơn đau tim), "blood" (sự sống), và "stroke" (sự say nắng), các công cụ tìm kiếm sẽ phân loại các trang chứa những từ này vào lĩnh vực y học và sức khoẻ Ngược lại, nếu "heart" đứng gần các từ như "flowers" (hoa) và "candy" (kẹo), nó sẽ được hiểu theo hướng khác, không liên quan đến sức khoẻ.

… thì search engine sẽ xếp những trang chứa các từ này vào chủ đề trữ tình.

Các chiến lược tìm kiếm

Web là nguồn thông tin phong phú về mọi chủ đề, nhưng người dùng thường lãng phí thời gian cho những URL không hữu ích Vì vậy, cần thiết phải áp dụng các chiến lược tìm kiếm hiệu quả.

Khi bắt đầu tìm kiếm thông tin trên một chủ đề rộng, chúng ta cần xác định rõ ràng những gì mình cần tìm, có thể là một địa chỉ cụ thể hoặc thông tin về một người nào đó Việc hình dung rõ ràng mục tiêu tìm kiếm sẽ giúp quá trình này trở nên hiệu quả hơn.

Nếu phạm vi tìm kiếm của bạn quá rộng, hãy xem xét sử dụng các thư mục web Sau khi thu hẹp lĩnh vực cần tìm, bạn nên lựa chọn một công cụ tìm kiếm phù hợp.

3.1 Tìm thông tin với các thư mục chủ đề

Khi tìm kiếm sách trong thư viện, chúng ta thường cân nhắc giữa các tiêu chí như tác giả, tiêu đề và chủ đề Trong đó, việc chọn tìm theo chủ đề giúp ta tiếp cận một vùng thông tin rộng lớn hơn.

Nếu bạn muốn tạo một trang chủ nhưng chưa biết cách viết file HTML, chưa từng tạo file ảnh và cũng không biết cách đưa trang lên mạng, bạn cần tìm hiểu về xuất bản trang web Đây là một chủ đề rộng lớn, bao gồm nhiều thông tin quan trọng mà bạn cần nắm vững để bắt đầu.

Khi bạn đã xác định rõ nhu cầu tìm kiếm, hãy bắt đầu từ các thư mục web như Yahoo hoặc Google Những thư mục này tập trung vào các chủ đề đang được quan tâm, mang lại thông tin hữu ích hơn so với các công cụ tìm kiếm thông thường.

Gần đây các web site thường kết hợp thư mục web và các công cụ tìm với nhau.

Khi sử dụng Google để tìm kiếm thông tin, nếu một trong những kết quả nằm trong thư mục web của Google, hệ thống sẽ cung cấp cho người dùng một liên kết dẫn vào thư mục đó.

3.2 Tìm thông tin với các công cụ tìm kiếm

Một số công cụ tìm kiếm gặp khó khăn với dữ liệu đầu vào của người dùng, đặc biệt là khi xử lý các từ có ký tự đặc biệt như C++ hoặc các stopword như "to be or not to be" Ví dụ, khi tìm kiếm thông tin về các tác giả tiểu thuyết trinh thám bằng cách nhập từ "mystery" và "writer", người dùng có thể nhận được hàng trăm hoặc hàng ngàn liên kết không liên quan Tuy nhiên, việc sử dụng cụm từ cụ thể sẽ mang lại kết quả tìm kiếm chính xác và hiệu quả hơn.

3.3 Tối ưu câu truy vấn

Many search engines utilize Boolean operators and proximity locators to optimize query results These keywords play a crucial role in enhancing search efficiency.

1 AND / phép toán + Mọi từ trong câu truy vấn phải có trong tài liệu

2 OR Tài liệu chứa ít nhất một từ cần tìm

3 NOT / phép toán - Tài liệu không chứa [các] từ sau từ khoá

4 NEAR Các từ cần tìm cách nhau bao nhiêu ký tự trong tài liệu

Các từ cần tìm phải đứng cạnh nhau trong tài liệu

Bảng 4.4 : Các từ khóa giúp tối ưu câu truy vấn

3.4 Truy vấn bằng ví dụ

Một ưu điểm đáng chú ý của công cụ tìm kiếm là khả năng truy vấn bằng ví dụ Sau khi cung cấp danh sách tài liệu phù hợp với yêu cầu của người dùng, công cụ này còn gợi ý một số trang web liên quan đến chủ đề mà người dùng quan tâm Hãy khám phá các liên kết này, có thể bạn sẽ tìm thấy những thông tin hữu ích!

MỘT SỐ SEARCH ENGINE THÔNG DỤNG TRÊN THẾ GIỚI VÀ VIỆT NAM

THIẾT KẾ DỮ LIỆU

THU THẬP THÔNG TIN

LẬP CHỈ MỤC

TÌM KIẾM THÔNG TIN

KẾT QUẢ, ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN

Tiêu đề	Tìm Hiểu Search Engine
Tác giả	Lê Thuý Ngọc, Đỗ Mỹ Nhung
Người hướng dẫn	Cô Nguyễn Thị Diễm Tiên
Trường học	Đại học Khoa học Tự nhiên
Thể loại	luận văn
Năm xuất bản	2004
Thành phố	Hồ Chí Minh

Định dạng
Số trang	146
Dung lượng	7,44 MB