1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xây dựng máy tìm kiếm ảnh dựa trên công nghệ search engines

46 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Máy Tìm Kiếm Ảnh Dựa Trên Công Nghệ Search Engines
Tác giả Lê Trường Giang
Người hướng dẫn ThS. Lương Xuân Phú
Trường học Đại Học Vinh
Chuyên ngành Công Nghệ Thông Tin
Thể loại Đồ Án Tốt Nghiệp
Năm xuất bản 2010
Thành phố Vinh
Định dạng
Số trang 46
Dung lượng 1,26 MB

Cấu trúc

  • Phần 1. TỔNG QUAN VỀ ĐỀ TÀI (5)
    • 1.1. Lý do chọn đề tài (5)
    • 1.2. Phương pháp thực hiện đề tài (5)
    • 1.3. Công cụ cài đặt (6)
  • Phần 2. TỔNG QUAN VỀ SEARCH ENGINES (8)
    • 2.1. Thành phần của một cỗ máy tìm kiếm tự động (9)
      • 2.1.1. Bộ thu thập thông tin (Robot) (9)
      • 2.1.2. Bộ lập chỉ mục (Index) (9)
      • 2.1.3. Bộ tìm kiếm thông tin (Search Engine) (9)
    • 2.2. Nguyên lý hoạt động của Search Engine (10)
    • 2.3. Ứng dụng của Robot (11)
      • 2.3.1. Phân tích, thống kê (Statistical Analysis) (11)
      • 2.3.2. Duy trì siêu liên kế (Maintenance) (11)
      • 2.3.3. Ánh xạ địa chỉ web (Mirroring) (12)
      • 2.3.4. Phát hiện tài nguyên (Resource Discovery) (12)
      • 2.3.5. Kết hợp các công dụng trên (Combined uses) (12)
    • 2.4. Robot chỉ mục (Robot Indexing) (12)
    • 2.5. Các chiến lược thu thập dữ liệu (13)
      • 2.5.1. Chiến lược tìm kiếm theo chiều sâu (14)
      • 2.5.2. Chiến lược tìm kiếm theo ngẫu nhiên (15)
    • 2.6. Những vấn đề cần lưu ý của web robot (15)
      • 2.6.1. Chi phí và hiểm hoạ (15)
      • 2.6.2. Quá tải mạng và server (Network resource and server load) (15)
      • 2.6.3. Sự cập nhật quá mức (Updating overhead) (16)
      • 2.6.4. Những tình huống không mong đợi (Bad implementations) (17)
      • 2.6.5. Tiêu chuẩn loại trừ robot (17)
  • Phần 3. MÁY TRUY TÌM DỮ LIỆU (21)
    • 3.1. Các thuật ngữ liên quan (22)
    • 3.2. Hoạt động phân hạng các trang Web (22)
      • 3.2.1. Những tiêu chí quan trọng dùng trong phân hạng (23)
      • 3.2.2. Kỹ thuật nâng cao thứ hạng cho một trang Web (24)
    • 3.3. Phân loại máy truy tìm (26)
  • Phần 4. MÁY TÌM KIẾM CRAWPHOTO (29)
    • 4.1. Đặc tả máy tìm kiếm (29)
    • 4.2. Cấu trúc craw photo (30)
      • 4.2.1. Thuật toán khởi tạo link (31)
      • 4.2.2. Thuật toán Tìm link (33)
      • 4.2.3. Thuật toán download (35)
    • 4.3. Các bảng dữ liệu (37)
      • 4.3.1. Bảng link khởi tạo cho việc tìm link ảnh (Craw_UrlStart) (37)
      • 4.3.2. Bảng quản lý các chuyên mục ảnh (Category) (37)
      • 4.3.3. Bảng link ảnh sau khi tìm (UrlPhoto) (38)
      • 4.3.4. Bảng quản lý album ảnh (Album) (39)
      • 4.3.5. Bảng quản lý ảnh (Photo) (39)
    • 4.4. Lược đồ quan hệ (40)
  • Phần 5. MỘT SỐ GIAO DIỆN (41)
    • 5.1. Giao diện thông tin về chương trình (41)
    • 5.2. Giao diện khởi tạo link và hổ trợ người dùng (42)
    • 5.3. Giao diện Crawler link ảnh (42)
    • 5.4. Giao diện download ảnh (43)
  • TÀI LIỆU THAM KHẢO (46)

Nội dung

TỔNG QUAN VỀ ĐỀ TÀI

Lý do chọn đề tài

Trong bối cảnh bùng nổ thông tin hiện nay, nhu cầu tìm kiếm thông tin ngày càng gia tăng Internet cung cấp đa dạng dịch vụ và công cụ hỗ trợ người dùng, trong đó công cụ tìm kiếm là giải pháp hiệu quả nhất, đáp ứng hầu hết các yêu cầu về thông tin và nhiều lĩnh vực khác nhau.

Mục tiêu của bài viết này là nghiên cứu công nghệ tìm kiếm và các phương pháp tìm kiếm ảnh cho các trang web lớn, với khả năng chủ động về nguồn mà không cần phụ thuộc vào internet Do đó, tôi đã chọn đề tài "Xây dựng máy tìm kiếm ảnh dựa trên " để phát triển một giải pháp hiệu quả trong việc quản lý và truy xuất hình ảnh.

Công nghệ máy tìm kiếm ảnh, hay còn gọi là công nghệ tìm kiếm hình ảnh, giúp người dùng tìm kiếm thông tin từ các máy tìm kiếm lớn như Google, Bing, Ask và Yahoo Ngoài việc phục vụ cho việc tìm kiếm hình ảnh, công nghệ này còn được sử dụng để tạo nguồn dữ liệu cho các máy chủ khác.

Trong quá trình phát triển phần giải trí nhằm đáp ứng nhu cầu hình ảnh đa dạng cho người dùng, việc tìm kiếm nguồn ảnh phong phú là rất quan trọng để thu hút khách hàng và cộng đồng internet Việc tìm kiếm ảnh thủ công qua các công cụ tìm kiếm như Google hay Bing tốn nhiều thời gian, do đó, xây dựng một chương trình tìm kiếm ảnh tự động là cần thiết Sau khi có nguồn ảnh, người quản trị chỉ cần biên tập và đăng tải lên website của mình.

Phương pháp thực hiện đề tài

Do bài toán có tính đặc thù riêng nên việc tiếp cận phân tích theo tiến trình xây dựng bài toán

Tìm hiểu về công nghệ Search engines

Tìm hiểu về cách thức hoạt động của máy tìm kiếm

Tìm hiểu về cấu trúc máy tìm kiếm

Tìm hiểu cách thức xây dựng máy tìm kiếm

Tìm hiểu các công cụ hỗ trợ để xây dựng máy tìm kiếm

Tìm hiểu đặc trưng riêng của máy tìm kiếm ảnh về cấu trúc và việc xây dựng

Xây dựng một máy tìm kiếm hiệu quả đòi hỏi kiến thức cơ bản cùng với việc sử dụng các công cụ phần mềm đã biết và bổ sung thêm những công cụ mới Quá trình này cần có thời gian đầu tư để đạt được kết quả tốt nhất.

Bài toán được phát triển bằng ngôn ngữ lập trình C# trên nền tảng NET và sử dụng hệ quản trị cơ sở dữ liệu SQL Server 2005 Một phần quan trọng của chương trình là biểu thức chính quy (Regular Expression), giúp phân tách các chuỗi liên kết để trích xuất link ảnh Nhờ đó, máy tìm kiếm có khả năng tải ảnh về và thực hiện các tác vụ tự động.

Công cụ cài đặt

Công cụ lập trình Crawler Photo giúp lập trình viên tạo ra máy tìm kiếm ảnh hiệu quả hơn Với các đề án riêng biệt và hỗ trợ nhiều phương thức thao tác vào ra cơ sở dữ liệu, công cụ này giúp giảm thiểu thời gian lập trình và đơn giản hóa các thao tác can thiệp vào hệ thống.

- Hệ quản trị cơ sở dữ liệu SQL2005

Hệ quản trị cơ sở dữ liệu 2005 đã nhanh chóng thay thế các hệ quản trị khác nhờ vào tính tiện dụng, khả năng truy xuất nhanh và ít lỗi Hệ thống này có tính bảo mật cao hơn, cho phép tạo ra các thủ tục thao tác với cơ sở dữ liệu, từ đó tăng cường tính minh bạch cho người dùng Việc này giúp tinh gọn nhiều thao tác trong quá trình tương tác với cơ sở dữ liệu và dễ dàng viết các thủ tục truy xuất dữ liệu.

- Biểu thức chính quy (Rexgulre Experssion.)

Việc xây dựng máy tìm kiếm không thể thiếu biểu thức chính quy, giúp lọc các liên kết trong các trang mà máy tìm kiếm duyệt qua Từ những liên kết này, máy tìm kiếm tiếp tục tìm kiếm các liên kết liên quan và hình ảnh, tạo cơ sở cho quá trình tải ảnh về server hoặc máy chạy dịch vụ.

TỔNG QUAN VỀ SEARCH ENGINES

Thành phần của một cỗ máy tìm kiếm tự động

2.1.1 Bộ thu thập thông tin (Robot)

Robot là chương trình tự động quét các cấu trúc siêu liên kết để thu thập tài liệu, đồng thời theo cách đệ quy, nó sẽ nhận về tất cả tài liệu liên kết với tài liệu gốc.

Robot được biết đến dưới nhiều tên gọi khác nhau: spider, web wanderer hoặc web worm,… Những tên gọi này đôi khi gây nhầm lẫn, như từ „spider‟,

Robot "wanderer" gợi nhớ đến khả năng tự di chuyển, trong khi từ "worm" lại liên quan đến virus Thực chất, robot chỉ là một chương trình thu thập thông tin từ các trang web theo giao thức web Các trình duyệt thông thường không được xem là robot vì chúng thiếu tính chủ động, chỉ hoạt động khi có sự can thiệp của con người.

2.1.2 Bộ lập chỉ mục (Index)

Hệ thống lập chỉ mục, hay còn gọi là hệ thống phân tích và xử lý dữ liệu, có nhiệm vụ phân tích và trích xuất thông tin cần thiết từ dữ liệu mà robot thu thập Nó tổ chức các thông tin này thành cơ sở dữ liệu riêng, giúp tìm kiếm một cách nhanh chóng và hiệu quả Hệ thống chỉ mục bao gồm danh sách các từ khoá, chỉ rõ từ khoá nào xuất hiện trên trang nào và địa chỉ tương ứng.

2.1.3 Bộ tìm kiếm thông tin (Search Engine)

Cụm từ "search engine" chỉ toàn bộ hệ thống bao gồm bộ thu thập thông tin, bộ lập chỉ mục và bộ tìm kiếm thông tin Các bộ phận này hoạt động liên tục từ khi hệ thống khởi động, chúng phụ thuộc vào nhau về dữ liệu nhưng hoạt động độc lập.

Search engine tương tác với user thông qua giao diện web, có nhiệm vụ tiếp nhận & trả về những tài liệu thoả yêu cầu của user

Tìm kiếm từ là quá trình xác định các trang web có chứa nhiều từ trong câu truy vấn, loại trừ các stopword như a, an, the Số lượng từ xuất hiện trên một trang càng cao thì khả năng trang đó được chọn để trả về cho người dùng càng lớn Một trang chứa đầy đủ các từ trong câu truy vấn sẽ được ưu tiên hơn so với trang thiếu một hoặc một số từ Hiện nay, hầu hết các công cụ tìm kiếm đều cung cấp chức năng tìm kiếm cơ bản và nâng cao, cho phép tìm kiếm từ đơn, từ ghép, cụm từ, danh từ riêng và giới hạn phạm vi tìm kiếm theo tiêu đề, đề mục hoặc đoạn văn bản mô tả trang web.

Ngoài việc tìm kiếm chính xác theo từ khóa, các công cụ tìm kiếm còn nỗ lực "hiểu" ý nghĩa thực sự của câu hỏi từ những từ ngữ mà người dùng cung cấp Điều này thể hiện qua khả năng sửa lỗi chính tả và tìm kiếm các biến thể khác nhau của từ Chẳng hạn, khi người dùng nhập từ "speak", công cụ tìm kiếm sẽ tự động tìm kiếm các từ như "speaker", "speaking", và "spoke".

Nguyên lý hoạt động của Search Engine

Các công cụ tìm kiếm sử dụng robot để thu thập thông tin trên internet thông qua các siêu liên kết Khi phát hiện một trang web mới, robot sẽ gửi tài liệu về máy chủ chính để tạo ra cơ sở dữ liệu chỉ mục phục vụ cho việc tìm kiếm thông tin.

Thông tin trên mạng luôn thay đổi, do đó, các robot của công cụ tìm kiếm phải liên tục cập nhật các trang web cũ Mật độ cập nhật này khác nhau tùy thuộc vào từng hệ thống tìm kiếm Khi nhận được truy vấn từ người dùng, công cụ tìm kiếm sẽ phân tích và tìm kiếm trong cơ sở dữ liệu chỉ mục để trả về những tài liệu phù hợp với yêu cầu.

Ứng dụng của Robot

2.3.1 Phân tích, thống kê (Statistical Analysis)

Robot đầu tiên được sử dụng để đếm số lượng máy chủ web, xác định số lượng tài liệu trung bình trên mỗi máy chủ, phân tích tỷ lệ các loại tệp khác nhau, đo kích thước trung bình của một trang web và đánh giá độ kết dính của nội dung.

2.3.2 Duy trì siêu liên kế (Maintenance)

Một trong những thách thức lớn khi duy trì siêu liên kết là sự xuất hiện của các liên kết hỏng khi các trang web bị thay đổi hoặc xóa Hiện tại, chưa có cơ chế nào để cảnh báo các quản trị viên về những thay đổi này Thông thường, khi các tác giả phát hiện tài liệu của mình có liên kết hỏng, họ sẽ thông báo cho nhau, hoặc đôi khi, độc giả sẽ gửi email để thông báo.

Robot như MOM spider hỗ trợ tác giả trong việc phát hiện các liên kết hỏng và duy trì cấu trúc siêu liên kết cùng nội dung của trang web Chức năng này được thực hiện liên tục mỗi khi tài liệu được cập nhật, giúp nhanh chóng giải quyết mọi vấn đề phát sinh.

2.3.3 Ánh xạ địa chỉ web (Mirroring)

Mirroring là kỹ thuật quan trọng trong việc duy trì kho dữ liệu của FPT, cho phép sao chép toàn bộ cấu trúc cây thư mục và cập nhật thường xuyên các file thay đổi Kỹ thuật này giúp nhiều người cùng truy cập vào một nguồn dữ liệu, giảm thiểu liên kết thất bại và mang lại tốc độ truy cập nhanh hơn với chi phí thấp hơn so với việc truy cập trực tiếp vào site chứa dữ liệu.

2.3.4 Phát hiện tài nguyên (Resource Discovery)

Ứng dụng nổi bật của robot là phát hiện tài nguyên, giúp con người quản lý khối lượng thông tin khổng lồ trong môi trường mạng Robot có khả năng thu thập dữ liệu, xây dựng và duy trì cơ sở dữ liệu, phát hiện và loại bỏ các liên kết hỏng, đồng thời kết hợp với công cụ tìm kiếm để cung cấp thông tin cần thiết cho con người.

2.3.5 Kết hợp các công dụng trên (Combined uses)

Robot có khả năng thực hiện nhiều chức năng khác nhau, chẳng hạn như RBSE Spider, có thể vừa thống kê số lượng tài liệu thu được vừa tạo ra cơ sở dữ liệu Tuy nhiên, hiện tại, những ứng dụng như vậy vẫn còn khá hạn chế.

Robot chỉ mục (Robot Indexing)

Trong quá trình thu thập thông tin phục vụ cho bộ lập chỉ mục, ta cần giải quyết những vấn đề sau:

Trong môi trường mạng, robot thu thập thông tin từ các trang web, và điểm khởi đầu của chúng phụ thuộc vào từng loại robot Mỗi robot có chiến lược riêng, thường ưu tiên truy cập vào các trang web phổ biến hoặc những trang có nhiều liên kết dẫn đến chúng.

- Hai là: Ai sẽ cung cấp địa chỉ của các site này cho robot ?

+ Robot nhận các URL ban đầu từ user

Robot phân tích các trang web để thu thập các URL mới, sau đó các URL này trở thành đầu vào cho robot Quá trình này được thực hiện liên tục và lặp lại.

- Ba là: Chọn dữ liệu nào trong tài liệu để lập chỉ mục ?

Quyết định lựa chọn dữ liệu trong tài liệu phụ thuộc vào robot, và những từ được liệt kê dưới đây thường được coi là quan trọng.

+ Ở góc cao của tài liệu

+ Trong tiêu đề (quan trọng)

+ Trong phần miêu tả trang web (description)

+ Trong các thẻ dành cho hình ảnh (ALT graphisc)

+ Trong các thẻ chứa từ khóa

+ Trong các text liên kết

Một số robot lập chỉ mục dựa trên tiêu đề, đoạn văn bản đầu tiên hoặc toàn bộ tài liệu, trong khi một số khác sử dụng các thẻ META để xác định từ khoá cho tài liệu Tuy nhiên, việc lạm dụng chức năng này đã làm giảm giá trị ban đầu của các thẻ META.

Các chiến lược thu thập dữ liệu

Trước khi các trang web được đánh chỉ mục, robot cần tải về tất cả các trang web bằng cách sử dụng chiến thuật phù hợp Bắt đầu từ một số trang web có sẵn, robot sẽ lọc ra danh sách các liên kết và từ đó tìm kiếm các trang khác.

Có 3 chiến thuật tìm kiếm Heuristic sau: tìm kiếm theo chiều sâu, tìm kiếm theo chiều rộng và tìm kiếm ngẫu nhiên

2.5.1 Chiến lược tìm kiếm theo chiều sâu

Từ một danh sách chứa các liên kết cần duyệt, thực hiện các bước sau:

(1) Cho danh sách = {trang đầu tiên}

1 (2) Lấy trang đầu tiên trong danh sách o Nếu có qua (3) o Nếu không qua (5)

2 (3) Trang này đã xét tới chưa ? o Nếu rồi, quay lại (2) o Nếu chưa, qua (4)

3 (4) Đánh dấu đã tới rồi Phân tích và tìm xem liên kết có trong trang đó không?

(4a) Nếu có, thêm liên kết này vào đầu danh sách Quay lại (4)

1.1.1 Chiến lược tìm kiếm theo chiều rộng

Từ một danh sách chứa các liên kết cần duyệt, thực hiện các bước sau:

1 (1) Cho danh sách = {trang đầu tiên}

2 (2) Lấy trang đầu tiên trong danh sách o Nếu có qua (3) o Nếu không qua (5)

3 (3) Trang này đã xét tới chưa ? o Nếu rồi, quay lại (2) o Nếu chưa, qua (4)

Đánh dấu đã đến trang và phân tích xem có liên kết nào trong trang đó không Nếu có, hãy thêm liên kết vào cuối danh sách Nếu không có, quay lại bước trước để tiếp tục tìm kiếm.

2.5.2 Chiến lược tìm kiếm theo ngẫu nhiên

Từ một danh sách chứa các liên kết cần duyệt, thực hiện các bước sau:

1 (1) Cho danh sách = {trang đầu tiên}

2 (2) Lấy ngẫu nhiên một trang trong danh sách o Nếu có qua (3) o Nếu không qua (5)

3 (3) Trang này đã xét tới chưa ? o Nếu rồi, quay lại (2) o Nếu chưa, qua (4)

Đánh dấu đã tới trang và phân tích xem có liên kết nào xuất hiện không Nếu có, hãy thêm liên kết đó vào cuối danh sách Nếu không có, quay lại bước trước để tiếp tục kiểm tra.

Những vấn đề cần lưu ý của web robot

2.6.1 Chi phí và hiểm hoạ

Việc sử dụng robot, đặc biệt là khi điều khiển từ xa qua internet, có thể tốn kém đáng kể Trong phần này, chúng ta sẽ thảo luận về những nguy hiểm tiềm ẩn mà robot có thể gây ra.

2.6.2 Quá tải mạng và server (Network resource and server load)

Sau một thời gian dài hoạt động, thường khoảng một tháng, robot sẽ bắt đầu hoạt động liên tục, yêu cầu băng thông lớn để tăng tốc độ Việc phóng ra nhiều robot cùng lúc dẫn đến tình trạng khai thác quá mức tài nguyên mạng, khi chúng yêu cầu một lượng thông tin lớn trong thời gian ngắn Hệ quả là băng thông bị thiếu cho các ứng dụng khác, trong khi server phải đồng thời phục vụ yêu cầu của robot và cung cấp dịch vụ cho người dùng, dẫn đến việc dịch vụ cho người dùng giảm khi yêu cầu của robot tăng lên.

Một tác giả đã thử nghiệm một con robot bằng cách cho nó thực hiện 20 lượt truy cập đồng thời vào server của mình Khi robot thu thập thông tin, server bắt đầu chậm lại Trong vòng một tuần, robot đã truy cập vào trang web này với tần suất cao Tuy nhiên, chỉ sau 170 lượt truy xuất liên tục, thử nghiệm đã thất bại do server bị quá tải.

Rapid fire đang trở thành một thảm họa, làm giảm hiệu quả truyền tải thông tin qua giao thức web hay HTTP Hiện tại, các giao thức mới đang được nghiên cứu để khắc phục tình trạng này.

2.6.3 Sự cập nhật quá mức (Updating overhead)

Cơ sở dữ liệu do web robot tạo ra có khả năng cập nhật tự động, tuy nhiên hiện tại vẫn thiếu cơ chế hiệu quả để kiểm soát sự thay đổi trên web Việc cập nhật thông tin là rất quan trọng, nhưng tần suất quá cao lại không cần thiết.

Kỹ thuật "if-Modified-Since" trong HTTP giúp các user-agent xác định thời điểm tài liệu được cập nhật Tuy nhiên, việc lưu trữ thông tin cũ để robot phát hiện sự thay đổi sẽ tiêu tốn nhiều bộ nhớ và yêu cầu dữ liệu phức tạp.

Một trong những đặc điểm nổi bật của robot là khả năng nhận diện các từ khóa trong khi thu thập dữ liệu Tuy nhiên, một số ý kiến cho rằng đặc điểm này không được ưa chuộng vì hai lý do: Thứ nhất, các tác vụ tìm kiếm của người dùng cuối có thể khiến server bị quá tải.

Thứ hai, việc không có cơ sở đảm bảo mối quan hệ giữa các từ tìm kiếm có thể dẫn đến kết quả không chính xác Ví dụ, nếu bộ tìm kiếm không hỗ trợ các toán tử boolean, người dùng cần thông tin về xe máy sẽ phải nhập từ "car" thay vì cụm từ "Ford and garage", mà không nhận thức được điều này.

Một nguy cơ tiềm ẩn khác đến từ sự định hướng sai lầm của người dùng cuối Một số người sử dụng công cụ rất hiệu quả, như dự đoán lượng tài liệu lớn nhất có thể, xác định chính xác nơi tìm kiếm dữ liệu và giới hạn thời gian sử dụng robot Tuy nhiên, một số người khác lại lạm dụng khả năng của robot, có thể là vô tình hoặc cố ý Do đó, các tác giả của robot khuyến nghị chỉ nên cung cấp sản phẩm cho những người dùng cuối hiểu biết về web robot và những thách thức trong môi trường mạng.

2.6.4 Những tình huống không mong đợi (Bad implementations)

Một số tác giả đã chọn cách viết robot và thử nghiệm trực tiếp trên các server thực tế thay vì kiểm tra trên máy cục bộ trước, điều này đã gây ra không ít khó khăn cho các nhà quản trị web.

Truy xuất trùng lặp xảy ra khi robot không ghi nhớ các địa điểm đã đi qua hoặc không phân biệt được các URL khác nhau nhưng dẫn đến cùng một địa chỉ, như DSN và IP Điều này dẫn đến việc robot lãng phí thời gian và tài nguyên để thu thập tài liệu không cần thiết, ví dụ như khi hệ thống chỉ yêu cầu file văn bản nhưng robot lại tải về cả file hình ảnh và file thực thi.

Trong môi trường mạng, tồn tại những khu vực gần như vô tận, ví dụ như khi phân tích một trang, robot có thể nhận về cùng một URL nhưng ở các cấp độ khác nhau như „/cgi-bin/pit/‟, „/cgi-bin/pit/a/‟, và tiếp tục với „/cgi-bin/pit/a/a‟ Hiện tượng lặp lại không có điểm dừng này được gọi là các lỗ đen (black holes).

2.6.5 Tiêu chuẩn loại trừ robot

Trong quá trình xử lý, robot không thể tự quyết định tài liệu nào nên được lập chỉ mục, dẫn đến việc thu thập tất cả tài liệu có thể, ngay cả khi có những tài liệu vô ích Điều này gây ra chi phí đáng kể cho hoạt động thu thập Để giải quyết vấn đề này, tiêu chuẩn loại trừ robot đã ra đời, không chỉ chỉ rõ các URL cần tránh mà còn cảnh báo robot về những "lỗ đen" trong dữ liệu.

Robot.txt là một file cấu trúc được đặt tại thư mục gốc của server, gồm 2 trường User-agent và Disallow

User-agent: cho biết robot nào sẽ bị kiểm soát

Disallow: cho biết robot có được phép kết nối vào URL này hay không Xét các ví dụ sau:

Bảng 1: Ví dụ về chuẩn loại trừ robot dùng file robot.txt

# / robots.txt file for http://webcrawler.com/ Ký tự # bắt đầu một chú thích

Robot có tên là webcrawler có thể đi đến bất cứ trang nào của site

Robot có tên là lycra bị cấm trên tất cả các trang của site

Mọi robot đều không được truy xuất vào 2 thư mục tmp và logs

2.6.5.2 Thẻ META dành cho robot (Robot META tag)

META tag là sự mở rộng của chuẩn loại trừ robot, hỗ trợ cho tác giả của những trang web không có quyền admin

Bảng 2: Thông tin về META tag trong chuẩn loại trừ robot

Vị trí Nằm trong phần HEAD của file

Meta Thẻ báo hiệu bắt đầu

Name Tên robot sẽ bị kiểm soát

Cờ định hướng cho robot, các cờ này có thể kết hợp với nhau & được phân cách bằng dấu phẩy

Sau đây là bảng các giá trị Meta Tags thường được các Webmaster sử dụng:

Bảng 3: Giá trị các cờ của thuộc tính Content trong META tag

Các cờ của thuộc tính Content Ý nghĩa

[NO]INDEX Robot không nên lập chỉ mục cho trang này

[NO]FOLLOW Robot không nên lấy các liên kết ở trang này

ALL = INDEX, FOLLOW Robots lập chỉ mục và lấy các liên kết từ trang này

NONE= NOINDEX, NOFOLLOW Robots không lập chỉ mục và không lấy chỉ số từ trang này

2.6.5.3 Nhược điểm của file robot.txt

Nhiều người cho rằng việc liệt kê các trang hoặc thư mục trong file robots.txt có thể thu hút sự chú ý từ các "vị khách không mời" Tuy nhiên, chuẩn loại trừ robots chỉ mang tính chất cảnh báo và không phải là biện pháp cấm tuyệt đối đối với các robot Việc tuân thủ hay không hoàn toàn phụ thuộc vào sự tự nguyện Dù vậy, vẫn có những cách khắc phục hiệu quả cho vấn đề này.

Tạo một thư mục chứa tất cả các file quan trọng

Trường Disallow chỉ liệt kê tên thư mục vừa tạo

Cấu hình server để ngăn chặn việc truy cập vào các trang không chứa đường dẫn đến thư mục này là cần thiết Tuy nhiên, trong thực tế, phương pháp này thường không mang lại kết quả như mong đợi do một số nguyên nhân nhất định.

+ Các server có robot không bị cấm có thể dẫn đường các robot bị cấm khác đến những file này

+ Các file quan trọng có thể nằm trong log file (file được tự do truy xuất)

MÁY TRUY TÌM DỮ LIỆU

Các thuật ngữ liên quan

Sự phân hạng (ranking) là quá trình mà máy truy tìm sử dụng các thuật toán và kỹ thuật để xếp hạng và đánh giá tầm quan trọng của một trang web dựa trên một từ khóa cụ thể.

Kỹ thuật tối ưu hóa cho máy tìm kiếm (SEO) bao gồm việc thay đổi mã nguồn HTML của trang web và áp dụng các phương pháp khác để nâng cao thứ hạng của trang web trên các công cụ tìm kiếm cho những từ khóa cụ thể.

Hoạt động phân hạng các trang Web

Các máy truy tìm dữ liệu không chỉ phải xử lý số lượng trang tìm thấy theo yêu cầu của từ khoá trong kho dữ liệu cập nhật, mà còn cần tìm cách loại bỏ những trang không chứa nội dung phù hợp, mặc dù chúng vẫn có thể xuất hiện trong danh sách kết quả.

Nguyên nhân của các nhiễu loạn trong tìm kiếm là do các trang web quảng cáo và tiếp thị luôn tìm cách đứng đầu trong danh sách kết quả của máy tìm kiếm, nhằm giới thiệu sản phẩm đến người dùng Tuy nhiên, phần lớn người dùng không muốn thấy các quảng cáo này mà chỉ muốn tìm kiếm thông tin theo từ khóa đã nhập.

Do sự phức tạp của các đặc điểm trên, việc phân hạng các trang web theo bộ từ khóa được xác định trước sẽ phụ thuộc vào việc áp dụng các thuật toán và biện pháp xử lý đặc biệt.

3.2.1 Những tiêu chí quan trọng dùng trong phân hạng

Dưới đây là các tiêu chí chủ yếu mà các thuật toán của các máy tìm kiếm Web sử dụng để phân hạng các trang Web:

Tần số phát sinh là tổng số lần xuất hiện của một từ hoặc cụm từ khóa trong nội dung của một trang web Các chuyên gia cho rằng, tần số phát sinh cao cho thấy nội dung trang web liên quan nhiều đến từ khóa đó Vì vậy, mật độ từ khóa đóng vai trò quan trọng trong việc xác định thứ hạng của trang web trên các công cụ tìm kiếm.

Thẻ meta và câu lệnh title:

Theo ngôn ngữ HTML, thì thẻ meta là các câu lệnh nằm ở phần đầu

(header) của mã của một trang Web Thẻ meta có dạng:

Trong nhiều máy truy tìm, việc xuất hiện sớm các chi tiết hoặc toàn bộ nội dung của từ khoá trong mã HTML được coi là dấu hiệu cho thấy trang web có chủ đề liên quan nhiều hơn đến từ khoá đó Hệ quả là, trang web có thể được phân hạng cao hơn nếu từ khoá xuất hiện sớm trong mã HTML Do đó, các thẻ meta sẽ được máy truy tìm đọc và sử dụng để xác định các yếu tố phân hạng, trong đó những thẻ meta có ảnh hưởng lớn nhất đến việc phân hạng bao gồm:

Với lý do tương tự, nếu câu lệnh

(tựa đề của trang Web) không bị bỏ trống thì thứ hạng của nó có thể được nâng cao hơn

Ngôn ngữ là yếu tố quan trọng trong việc tối ưu hóa trải nghiệm người dùng trên Internet Khi một người dùng truy cập vào các trang web bằng máy tính sử dụng tiếng Pháp, việc hiển thị nội dung bằng tiếng Pháp sẽ mang lại hiệu quả cao hơn Do đó, yếu tố ngôn ngữ của trang web cần được xem xét kỹ lưỡng trong quá trình phân hạng.

Số lượng liên kết ngoài là yếu tố quan trọng trong đánh giá giá trị của một trang web Các chuyên gia phát triển máy tìm kiếm cho rằng, những trang web nhận được nhiều liên kết từ các nguồn khác sẽ có giá trị cao hơn so với những trang web tương tự nhưng ít hoặc không có liên kết Do đó, các trang web có nhiều liên kết từ các trang khác thường có chất lượng tốt hơn và được phân hạng cao hơn trong kết quả tìm kiếm.

3.2.2 Kỹ thuật nâng cao thứ hạng cho một trang Web

Minh họa các thành phần trong giao diện của máy truy tìm Altavista

Việc nâng cao thứ hạng của một trang Web cho các máy truy tìm là do các nguyên nhân sau đây:

Các cơ sở thương mại và cơ quan muốn gia nhập thị trường toàn cầu cần có trang web hiệu quả Để thu hút người dùng Internet, ngoài việc quảng cáo trên các trang phổ biến, việc đảm bảo địa chỉ trang web của họ xuất hiện trên trang kết quả tìm kiếm đầu tiên là rất quan trọng, ảnh hưởng lớn đến chiến lược tiếp thị của họ.

Các trang web truyền bá thông tin hoặc tuyên truyền các đề tài cụ thể đều mong muốn phổ biến nội dung của mình đến người dùng trên toàn cầu, vì vậy họ cũng rất quan tâm đến việc nâng cao thứ hạng của trang web.

Do tầm quan trọng của việc xếp thứ bậc cho một trang Web nên đã nảy sinh các hậu quả:

Sự xuất hiện của các công ty tư vấn SEO đã giúp nâng cao thứ hạng cho trang web, cung cấp dịch vụ tối ưu hóa để đưa các trang này lên vị trí hàng đầu trong kết quả tìm kiếm của các công cụ trực tuyến.

Các trang web giả dụng (page cloaking) là những trang được thiết kế nhằm cung cấp nội dung có khả năng xếp hạng cao trên các công cụ tìm kiếm, trong khi nội dung thực tế mà người dùng thấy khi truy cập lại hoàn toàn khác Hành động này thường xuất phát từ mong muốn tăng cường khả năng tiếp thị của một số trang web.

Kỹ thuật đánh lừa máy truy tìm không quá phức tạp, ví dụ như thêm nhiều từ khóa vào thẻ meta và tiêu đề để tăng thứ hạng mà không liên quan đến nội dung hiển thị thực tế Máy truy tìm sẽ không nhận ra sự không phù hợp giữa nội dung trong thẻ meta và phần hiển thị Tuy nhiên, chiêu trò này chỉ hiệu quả trong thời gian ngắn, vì khi nhận phản hồi từ người dùng, máy truy cập sẽ điều chỉnh và các trang giả mạo sẽ bị phạt bằng cách xóa chỉ số của chúng.

SEO là một quá trình tạm thời, vì phương pháp phân hạng của các máy tìm kiếm thường xuyên thay đổi theo sự phát triển của Internet và nội dung trang web Do đó, một trang web chỉ có thể duy trì thứ hạng cao trong một khoảng thời gian nhất định Để giữ vững vị trí này, nội dung của trang web, đặc biệt là các thẻ meta, cần được cập nhật thường xuyên, hoặc trang đó phải tăng cường liên kết từ các nguồn khác.

Web khác tới và đây cũng là chổ cho các nhà chuyên nghiệp về SEO phục vụ

Bảo trợ quảng cáo cho máy truy tìm là một phương pháp hiệu quả để nâng cao hiệu quả tiếp thị Các máy truy tìm có thể hoạt động như các cơ quan phục vụ quảng cáo, vì vậy tham gia vào các dịch vụ quảng cáo trực tiếp trên những nền tảng này sẽ giúp doanh nghiệp tiếp cận được nhiều khách hàng tiềm năng hơn.

Phá hoại máy truy tìm là một vấn đề nghiêm trọng, thường xảy ra do nhiều nguyên nhân phức tạp Các tay tin tặc có thể tổ chức tấn công vào những máy truy tìm phổ biến Một ví dụ điển hình là vào ngày 26 tháng 7 năm 2004, hệ thống máy truy tìm lớn nhất hiện nay, Google, đã bị tấn công bởi virus máy tính myDoom, khiến hệ thống này ngưng hoạt động trong khoảng 4 tiếng.

Phân loại máy truy tìm

Ngày nay, thì các máy truy tìm đã phát triển rất xa so với dạng nguyên thuỷ Có hai cách chính phân loại máy truy tìm

3.3.1 Theo phương thức hoạt động

Kiểu máy nhện (spider): Cơ sở dữ liệu của các máy truy tìm được cập nhật hoá bởi các phần mềm đặc biệt thường gọi là "robot", "spider" hay

Webcrawler là phần mềm tự động tìm kiếm và phân tích các trang web trong cơ sở dữ liệu để xác định các liên kết và bổ sung thông tin sau khi phân tích Nó cũng báo cáo về các liên kết không còn hoạt động Từ khóa được nhập vào giúp máy tìm kiếm trong bảng chỉ số, và kết quả tốt nhất sẽ được xếp hạng cao nhất Một trong những trang web phổ biến nhất áp dụng nguyên tắc này là http://www.google.com.

Giao diện của máy metacrawler

Máy truy tìm ảo (meta-search engine) là một loại công cụ tìm kiếm mới được thiết kế dựa trên việc khai thác các máy truy tìm sẵn có Nguyên tắc hoạt động của máy truy tìm ảo là không có cơ sở dữ liệu riêng, mà thay vào đó, nó gửi từ khóa đến nhiều máy truy tìm khác đồng thời và nhận về tất cả kết quả tìm kiếm Nhiệm vụ tiếp theo của nó là phân tích và xếp hạng lại các tài liệu cho người dùng Ưu điểm nổi bật của máy truy tìm ảo là khả năng tận dụng cơ sở dữ liệu của các máy truy tìm khác, giúp tìm ra nhiều kết quả hơn và nhanh chóng hơn Tuy nhiên, loại máy này chỉ hoạt động được khi có sự tồn tại của các máy truy tìm nguyên thủy, do đó được gọi là meta.

"siêu hình" hay "ảo") Điển hình loại này là MetaCrawler

Kiểu thư mục đối tượng, hay còn gọi là máy truy tìm theo phân lớp, là một công cụ phân loại các đối tượng vào các thư mục, cho phép người dùng tìm kiếm theo kiểu rẽ nhánh Mặc dù phương pháp này dễ sử dụng cho người truy cập, nhưng nó có nhược điểm là không thể bao quát hết mọi chủ đề mà người dùng mong muốn Hơn nữa, sự phân loại đôi khi không đầy đủ và chính xác Một ví dụ tiêu biểu cho kiểu thư mục này là http://www.yahoo.com.

Kiểu cơ sở dữ liệu đặc biệt hay còn gọi là bất khả kiến Web (invisible

Dữ liệu trên Web không được truy xuất từ một địa chỉ trang web cụ thể mà tồn tại trong các cơ sở dữ liệu của máy tính hoặc mạng trên Internet, cho phép các trang web sử dụng Những trang web nghiên cứu của các đại học và học viện như http://lii.org, http://www.academicinfo.net và http://infomine.ucr.edu là ví dụ điển hình cho loại dữ liệu này.

Ngày nay, nhiều công cụ tìm kiếm hỗ trợ người dùng qua nhiều phương thức khác nhau, làm mờ ranh giới giữa các loại máy tìm kiếm Ví dụ, Yahoo không chỉ đơn thuần là một công cụ tìm kiếm theo kiểu thư mục mà còn cung cấp cả chức năng tìm kiếm theo kiểu máy nhện, mang đến cho người dùng trải nghiệm tìm kiếm đa dạng hơn.

Theo cách phân loại này thì tùy theo đối tượng tìm kiếm mà có:

Kiếm địa chỉ trang Web

Kiếm địa chỉ thư điện tử

Kiếm thông tin riêng về một người

Kiếm thông tin về một tổ chức

MÁY TÌM KIẾM CRAWPHOTO

Đặc tả máy tìm kiếm

Dựa trên nguyên tắc của Search engines việc xây dựng máy tìm kiếm Crawphoto thực hiện thu thập dữ liệu hình ảnh

Cấu trúc của robort Crawler photo được chia làm 3 phần chính

Người sử dụng cung cấp địa chỉ website cho bộ phận khởi tạo link, giúp máy nhận diện và đọc trang HTML tương ứng, từ đó bắt đầu quá trình lấy link.

Phần thứ hai của quá trình khởi động bộ phận tìm kiếm bắt đầu khi máy tìm kiếm sử dụng các liên kết ban đầu để quét các trang web Từ đó, nó tiếp tục truy tìm các thư mục con bên trong trang web mà người sử dụng đã cung cấp.

Phần thứ ba của quy trình bắt đầu với việc khởi động bộ phận tải xuống, nơi thực hiện việc tải ảnh từ bộ phận tìm kiếm Bộ phận này không chỉ mã hóa đường dẫn của ảnh mà còn tạo ra một hình thu nhỏ (thumbnails) cho từng ảnh đã tải về.

Trong quá trình duyệt link và quản lý dữ liệu, hệ thống luôn kiểm tra và đánh dấu các bước thực hiện để ngăn chặn tình trạng trùng lặp và quá tải Ba bộ phận của máy tìm kiếm có khả năng hoạt động độc lập mà không phụ thuộc lẫn nhau.

Máy tìm kiếm sử dụng biểu thức chính quy để truy tìm các liên kết, giúp xác định link của ảnh Trong quá trình khảo sát, các liên kết kết nối có sự đa dạng đáng kể, mặc dù thẻ kết nối chủ yếu vẫn là thẻ nhưng cấu trúc của chúng đã thay đổi nhiều Một số website lớn còn mã hóa đường link để bảo vệ dữ liệu, tạo ra nhiều kiểu liên kết khác nhau.

+ Liên kết đầy đủ: Mỗi link có đầy đủ thành phần domain\path\image + Liên kết không đầy đủ: Mỗi link thiếu thành phần domain

+ Liên kết chứa hàm gọi: Trong liên kết có hàm javascrip();

Liên kết mã hóa là đường dẫn được mã hóa bằng một phương thức nhất định Khi người dùng gửi yêu cầu lên server, liên kết này sẽ được giải mã trước khi trả về trang HTML cho trình duyệt hiển thị.

Máy tìm kiếm ảnh chỉ có thể thực hiện tìm kiếm trên các trang web có cấu trúc link chuẩn dạng liên kết đầy đủ và không đầy đủ.

Cấu trúc craw photo

Address Website Crawler Photo Images

Máy Crawler photo được cấu thành bởi 3 modul nhỏ

+ Khởi tạo link + Tìm link + Download file

4.2.1 Thuật toán khởi tạo link

Bước 3: Nhập địa chỉ website để tìm kiếm dữ liệu hình ảnh Kết quả đầu ra sẽ bao gồm danh sách liên kết ảnh và danh sách các liên kết đường dẫn con của website đã nhập.

Bước 1: Đọc các trang html

Lấy mẫu link dựa vào biểu thức chính quy

Nếu chưa kết thúc đến bước 2

Lấy mẫu link dựa vào biểu thức chính quy phân loại link ảnh dựa và phần đuôi mở rộng file ảnh jpg

Nếu link ảnh đưa vào bảng dữ liệu (Craw UrlPhoto)

Lấy mẫu link thư mục ảnh

Nếu là link thư mục ảnh đưa vào dữ liệu (Craw UrlStart)

Kết thúc quá trình khởi tạo

Bước 4 Đầu vào: List link địa chỉ website chưa được duyệt Đầu ra: Link ảnh và Link path của website đưa vào

Kiểm tra danh sách link duyệt

Nếu chưa kết thúc thực hiện bước 2

Nếu kết thúc chuyển bước 4

Bước 2: Đọc các trang html

Lấy mẫu link dựa vào biểu thức chính quy

Nếu chưa kết thúc đến bước 3

Lấy mẫu link dựa vào biểu thức chính quy phân loại link ảnh dựa và phần đuôi mở rộng file ảnh jpg

Nếu link ảnh đưa vào bảng dữ liệu tbl_Craw_UrlPhoto

Lấy mẫu link thư mục ảnh

Nếu là link thư mục ảnh đưa vào dữ liệu tbl_Craw_UrlStart

Kết thúc khi tất cả các link đã duyệt

Bước 3 Đầu vào: List link thư mục chưa được duyệt Đầu ra: Link ảnh và Link path của website đưa vào

Danh sách link ảnh chưa duyệt trong cơ sở dữ liệu Nếu chưa kết thúc chuyển sang bước 2

Nêu kết thúc chuyển sang bước 3

Download file ảnh theo link đưa vào server Xác nhận download thành công hay thất bại Chuyển qua bước 1

Các bảng dữ liệu

4.3.1 Bảng link khởi tạo cho việc tìm link ảnh (Craw_UrlStart)

STT Tên trường Kiểu dữ liệu Ghi chú

1 UrlStart_ID bigint Id link khởi tạo

2 UrlStart nvarchar(300) Link khởi tạo

3 Status char(1) Xác nhận trạng thái xử lý

4 DateProcess datetime Thời gian xử lý

5 Server_ID tinyint Id của server xử lý

6 ProcessCount int Số lần đã xửa lý

7 PageName nvarchar(30) Trang web chủ của link

4.3.2 Bảng quản lý các chuyên mục ảnh (Category)

STT Tên trường Kiểu dữ liệu Ghi chú

1 Category_ID tinyint ID chuyên mục ảnh

2 CategoryName nvarchar(50) Tên chuyên mục

3 Description nvarchar(150) Mô tả về chuyên mục

4.3.3 Bảng link ảnh sau khi tìm (UrlPhoto)

STT Tên trường Kiểu dữ liệu Ghi chú

1 UrlPhoto_ID bigint ID link ảnh

2 UrlParent nvarchar(300) ID link start

4 UrlThumbnails nvarchar(300) Link ảnh thu nhỏ

5 Category nvarchar(MAX) Tên chuyên mục ảnh

6 Extension nvarchar(5) Đuôi mở rộng ảnh

7 DateProcess datetime Thời gian xử lý link

8 Status char(1) Trạng thái xử lý

9 ProcessCount int Số lần xử lý

10 PageName nvarchar(30) Website lấy link

11 DomainAddress nvarchar(50) Địa chỉ máy lưu trữ ảnh

12 Server_ID tinyint Id máy chủ xử lý

13 MD5Url nvarchar(32) Đường dẫn đã mã hóa

14 Width int Chiều rộng ảnh

15 Height int Chiều cao ảnh

16 HorizontalResolution float Độ phân giải ngang

17 VerticalResolution float Độ phân giải dọc

18 BitDepth smallint Số bít lưu trữ mộtđiểm ảnh

19 FrameCount smallint Số khung của ảnh

20 Subject nvarchar(MAX) Tiêu đề ảnh

21 KeyWord nvarchar(MAX) Từ khóa ảnh

22 Comments nvarchar(MAX) Nhận xét về ảnh

23 Author nvarchar(50) Tác giả ảnh

4.3.4 Bảng quản lý album ảnh (Album)

STT Tên trường Kiểu dữ liệu Ghi chú

1 Album_ID bigint Id album ảnh

2 Category_ID tinyint Id quản lý chuyện mục

3 AlbumName nvarchar(50) Tên Album ảnh

4 UrlThumbnails nvarchar(300) Link ảnh đại diện cho Album

5 DomainAddress nvarchar(50) Địa chỉ server lưu trữ

6 ViewCount int Số lần được xem

7 Status char(1) Trạng thái ẩn Album

8 Rank nvarchar(50) Đánh gia Album

9 DateCreate datetime Thời gian tạo album

4.3.5 Bảng quản lý ảnh (Photo)

STT Tên trường Kiểu dữ liệu Ghi chú

1 Photo_ID bigint ID link ảnh

2 Album_ID bigint ID Album

4 UrlThumbnails nvarchar(300) Link ảnh thu nhỏ

5 DomainAddress nvarchar(50) Địa chỉ server lưu ảnh

6 Extension nvarchar(5) Đuôi mở rộng ảnh

7 DateCreate datetime Thời gian tạo link

8 Status char(1) Trạng thái xử lý

9 Server_ID tinyint Link thực đến server lưu

10 UrlPhoto nvarchar(300) Đường dẫn máy lưu trữ ảnh

11 PageName nvarchar(30) Id máy chủ xử lý

12 ViewsCount int Số lần ảnh được xem

13 Comments nvarchar(MAX) Nhận xét về ảnh

14 Width int Chiều rộng ảnh

15 Height int Chiều cao ảnh

16 HorizontalResolution float Độ phân giải dọc

17 VerticalResolution float Số bít lưu trữ mộtđiểm ảnh

18 BitDepth smallint Độ phân giải ngang

19 FrameCount smallint Số khung của ảnh

20 Subject nvarchar(MAX) Từ khóa ảnh

21 KeyWord nvarchar(MAX) Từ khóa ảnh

22 Author nvarchar(50) Tác giả ảnh

Lược đồ quan hệ

MỘT SỐ GIAO DIỆN

Giao diện download ảnh

KẾT LUẬN VÀ KIẾN NGHỊ

1 Kết luận Để có thể xây dựng được một hệ thống tìm kiếm chuyên nghiệp phải đầu tư rất nhiều thời gian kinh phí công nghệ và con người Với nhu cầu ham học hỏi việc tìm hiểu công nghệ tìm kiếm và xây dựng một phần của một máy tìm kiểm loại nhỏ chuyên về một kiểu dữa liệu hình ảnh

Tôi hiểu cách thức hoạt động của các máy chủ tìm kiếm lớn và nhận thấy rằng việc nắm bắt công nghệ là rất quan trọng trong lĩnh vực công nghệ thông tin Trong quá trình nghiên cứu, tôi đã cố gắng xây dựng một robot tìm kiếm, nhưng vẫn gặp phải một số sai sót và thiếu sót trong các tác vụ, khiến nó chưa hoạt động đúng như mong đợi.

- Tìm hiểu biểu thức chính quy Rexguler Expression

- Thiết kế hoàn chỉnh các modul:

+ Khởi tạo link ban đầu + Tìm kiếm link

Trong quá trình phân tích công nghệ của các công cụ tìm kiếm để xây dựng máy tìm kiếm, có nhiều thách thức như sự đa dạng của thẻ kết nối và cấu trúc phức tạp Ngoài ra, một số trang web còn thiết lập cơ chế mã hóa cho các liên kết, gây khó khăn cho việc thu thập dữ liệu Do khối lượng công việc lớn, một số mô-đun trong chương trình đã được thiết kế nhưng vẫn chưa hoàn thiện.

- Một số modul vẫn chưa được xây dựng xong

+ Đánh chỉ mục Index cho dữ liệu

+ Xây dựng hệ thống đáp ứng tìm kiếm

Do kiến thức và kinh nghiệm đang còn nhiều hạn chế nên việc phân tích bài toán vẫn còn nhiều thiếu sót

Do hạn chế về thời gian và một số vấn đề khác, hệ thống mã code hiện tại chưa hoàn chỉnh Tôi sẽ nỗ lực khắc phục những nhược điểm và bổ sung các chức năng còn thiếu cho máy tìm kiếm trong tương lai.

Ngày đăng: 14/10/2021, 23:55

HÌNH ẢNH LIÊN QUAN

Bảng 1: Vớdụ về chuẩn loại trừ robot dựng filerobot.txt - Xây dựng máy tìm kiếm ảnh dựa trên công nghệ search engines
Bảng 1 Vớdụ về chuẩn loại trừ robot dựng filerobot.txt (Trang 18)
Bảng 2: Thụng tin về META tag trong chuẩn loại trừ robot - Xây dựng máy tìm kiếm ảnh dựa trên công nghệ search engines
Bảng 2 Thụng tin về META tag trong chuẩn loại trừ robot (Trang 18)
Sau đõy là bảng cỏc giỏ trị Meta Tags thường được cỏc Webmaster sử dụng: Bảng 3: Giỏ trị cỏc cờ của thuộc tớnh Content trong META tag  - Xây dựng máy tìm kiếm ảnh dựa trên công nghệ search engines
au đõy là bảng cỏc giỏ trị Meta Tags thường được cỏc Webmaster sử dụng: Bảng 3: Giỏ trị cỏc cờ của thuộc tớnh Content trong META tag (Trang 19)
4.3.3. Bảng link ảnh sau khi tỡm (UrlPhoto) - Xây dựng máy tìm kiếm ảnh dựa trên công nghệ search engines
4.3.3. Bảng link ảnh sau khi tỡm (UrlPhoto) (Trang 38)
4.3.5. Bảng quản lý ảnh (Photo) - Xây dựng máy tìm kiếm ảnh dựa trên công nghệ search engines
4.3.5. Bảng quản lý ảnh (Photo) (Trang 39)
4.3.4. Bảng quản lý album ảnh (Album) - Xây dựng máy tìm kiếm ảnh dựa trên công nghệ search engines
4.3.4. Bảng quản lý album ảnh (Album) (Trang 39)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w