Nghiên cứu, tìm hiểu về một số kỹ thuật tấn công và khai thác thông tin bậc cao thông qua hệ thống tìm kiếm Google.

TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM GOOGLE

Giới thiệu về Google và hệ thống tìm kiếm Google

Công ty Google, được thành lập vào năm 1998, đã đạt được nhiều thành tựu quan trọng trong thời gian hoạt động ngắn ngủi Ban đầu, vào năm 1996, Google là một dự án nghiên cứu của Larry Page và Sergey Brin, hai nghiên cứu sinh tại Đại học Stanford, với giả thuyết rằng một công cụ tìm kiếm dựa trên phân tích các liên kết giữa các website sẽ mang lại kết quả tốt hơn so với các phương pháp hiện tại Hệ thống này ban đầu được gọi là BackRub, do nó sử dụng các liên kết để ước tính tầm quan trọng của các trang web.

Page và Brin tin rằng các trang có nhiều liên kết từ các trang thích hợp khác sẽ có độ liên quan cao hơn Họ đã thử nghiệm giả thuyết này trong nghiên cứu của mình, từ đó tạo ra nền tảng cho công cụ tìm kiếm Google hiện đại Tên miền www.google.com được đăng ký vào ngày 15 tháng 9.

9 năm 1997 Họ chính thức thành lập công ty Google, Inc ngày 7 tháng

Vào tháng 9 năm 1998, Google được thành lập trong một ga ra của Esther Wojcicki, nhân viên thứ 16 của công ty và hiện là Phó Chủ tịch cấp cao phụ trách quảng cáo Đến tháng 2 năm 1999, trụ sở chính của Google đã chuyển đến Palo Alto, nơi tập trung nhiều công ty công nghệ lớn Do sự phát triển nhanh chóng, công ty đã phải di chuyển thêm hai lần nữa để đáp ứng nhu cầu mở rộng.

8 trụ sở nay được đặt tại Mountain View, California tại địa chỉ 1600 Amphitheater Parkway vào năm 2003

Google là công cụ tìm kiếm được ưa chuộng nhờ giao diện gọn gàng và đơn giản, cung cấp kết quả chính xác và nâng cao Kể từ năm 2000, Google đã triển khai quảng cáo từ khóa nhằm cải thiện độ phù hợp cho người dùng Các quảng cáo này chỉ sử dụng văn bản, giúp duy trì sự tối giản của trang, giảm thiểu sự lộn xộn và tăng tốc độ hiển thị.

Hình 1.1: Trụ sở Google tại Mountain View, California, USA

Sự phát triển của Google

Khi Google mở rộng thị trường từ web sang các lĩnh vực khác như phát thanh và xuất bản, vào ngày 17-1-2006, công ty đã công bố việc mua lại dMarc, một công ty quảng cáo phát thanh dMarc sử dụng hệ thống tự động, giúp các doanh nghiệp dễ dàng quảng bá sản phẩm của mình.

Google đang kết hợp hai kênh quảng cáo truyền thông là Internet và Radio, tận dụng khả năng nhắm mục tiêu tâm lý khách hàng Ngoài ra, họ cũng thử nghiệm bán quảng cáo trên các kênh offline như báo và tạp chí, bắt đầu với Chicago-Sun Times, nơi đã lấp đầy một vị trí quảng cáo không được sử dụng, thường dành cho quảng cáo nhà.

Google được đưa vào danh sách 500 S&P index ngày 30 tháng 3 năm 2006, chiếm vị trí của Burlington Resources, một nhà sản xuất dầu chính ở Houston

Google nổi tiếng với dịch vụ Tìm kiếm, là yếu tố chính dẫn đến thành công của công ty Đến tháng 12 năm 2006, Google chiếm 50,8% thị phần công cụ tìm kiếm, vượt xa Yahoo (23,6%) và Windows Live Search (8,4%) Với khả năng liên kết hàng tỷ trang web, người dùng có thể dễ dàng tìm kiếm thông tin qua từ khóa và các toán tử Ngoài ra, Google còn ứng dụng công nghệ tìm kiếm của mình vào nhiều dịch vụ khác như Tìm kiếm Ảnh, Google News, Froogle, Google Groups, Google Maps, và nhiều dịch vụ khác nữa.

Năm 2004, Google giới thiệu Gmail, dịch vụ email trên nền web với công nghệ lọc thư rác và khả năng tìm kiếm thư hiệu quả Gmail tạo ra doanh thu từ quảng cáo AdWords liên quan đến nội dung email Đến đầu năm 2006, Google ra mắt Google Video, cho phép người dùng tìm kiếm và xem video miễn phí, cũng như phát hành nội dung của riêng họ, bao gồm các chương trình truyền hình và video ca nhạc Tuy nhiên, vào tháng 8 năm 2007, Google đã quyết định đóng cửa dịch vụ này do sự cạnh tranh từ YouTube, một nền tảng video cũng thuộc sở hữu của công ty.

Google đã phát triển nhiều ứng dụng nhỏ gọn, trong đó nổi bật là Google Earth, một chương trình tương tác cho phép người dùng khám phá thế giới qua ảnh vệ tinh.

10 triển nhiều gói phần mềm văn phòng trên ứng dụng web tên là Google Docs nhằm cạnh tranh thị phần với Microsoft Office

Google Labs cung cấp nhiều ứng dụng khác nhau, là bộ sưu tập các phần mềm chưa hoàn chỉnh đang trong quá trình thử nghiệm Những ứng dụng này được phát triển nhằm phục vụ cộng đồng trong tương lai.

Google đã tích cực quảng bá sản phẩm của mình qua nhiều kênh khác nhau Tại sân bay Heathrow ở London, Google Space đã được thiết lập để giới thiệu các sản phẩm mới như Gmail, Google Earth và Picasa Bên cạnh đó, một trang web mang tên College Life, Powered by Google cũng được ra mắt dành riêng cho sinh viên Mỹ.

Vào ngày 2 tháng 9 năm 2008, Google chính thức ra mắt Google Chrome, một trình duyệt mã nguồn mở Sự xuất hiện của Chrome được các chuyên gia đánh giá là một đối thủ đáng gờm cho thị phần của Internet Explorer và Firefox.

Ngày 5 tháng 1 năm 2010, Google cho ra mắt điện thoại Nexus One, sản phẩm cộng tác với hãng điện thoại HTC Nexus One chạy trên nền hệ điều hành Android 2.1 (cũng do hãng phát triển), được cho là đối thủ cạnh tranh ngang hàng với iPhone của Apple

Here are some important links to Google's services: - The main page of Google can be found at [www.Google.com](http://www.Google.com), which also links to other Google sites - For image searches, visit [www.Google.com/imghp](http://www.Google.com/imghp) for Google Images - To search for videos, check out [www.Google.com/videohp](http://www.Google.com/videohp) for Google Videos - For news updates, go to [https://news.google.com/](https://news.google.com/) for Google News - Access your emails through [https://mail.google.com/](https://mail.google.com/) for Gmail - For mapping services, visit [https://maps.google.com/](https://maps.google.com/) for Google Maps - Finally, for file storage, use [https://drive.google.com/](https://drive.google.com/) for Google Drive.

Google offers a variety of services that enhance user experience and connectivity YouTube (www.youtube.com) serves as a popular video-sharing platform, while Google Calendar (www.google.com/calendar/) helps users manage their schedules and reminders effectively For mobile users, Google provides a dedicated portal (http://www.google.com/mobile/) to access its services seamlessly Google Wallet (https://wallet.google.com/) facilitates online payments, and Google+ (https://plus.google.com/) acts as an online social network Additionally, Blogger (https://www.blogger.com/) allows users to create and share blogs, while Google Groups (https://groups.google.com/) enables community interactions Lastly, Google Translate (http://translate.google.com/) offers automatic translation services, making communication easier across languages.

1.1.2 Giao diện các trang web của Google

Giao diện Web của Google (Google.com.vn)

Hình 1.2: Giao diện chính của Google (www.google.com.vn)

Tầm quan trọng của hệ thống tìm kiếm Google

Google đã trở thành công cụ tìm kiếm quan trọng nhất đối với người dùng Internet, nhờ vào khả năng hiểu và đáp ứng nhu cầu của họ thông qua thuật toán tối ưu Người dùng thường tìm kiếm thông tin trên Google để giải đáp các thắc mắc, từ chỉ đường đến mua sắm, và phần lớn các câu hỏi đều có câu trả lời Google không chỉ là một công cụ tìm kiếm mà còn là nơi kết nối tri thức nhân loại Đối với doanh nghiệp, Google là một công cụ thiết yếu để quảng bá sản phẩm và dịch vụ thông qua các trang web của họ Chiến lược SEO giúp các trang web nổi bật trong kết quả tìm kiếm, tương đương với quảng cáo truyền hình nhưng với nhiều chức năng hơn như bán hàng trực tuyến và so sánh giá cả Vì lý do này, nhiều công ty và tổ chức sẵn sàng đầu tư lớn vào lĩnh vực SEO.

Phương pháp khai thác thông tin qua hệ thống tìm kiếm Google

Google hoạt động trên một mạng lưới phân phối với hàng ngàn máy tính giá rẻ, cho phép thực hiện xử lý song song nhanh chóng Xử lý song song là phương pháp tính toán cho phép thực hiện nhiều phép toán đồng thời, giúp tăng tốc độ xử lý dữ liệu Hệ thống của Google được chia thành ba phần riêng biệt.

 Googlebot, một trình thu thập web, bộ phận tìm và lấy các trang web

Indexer là công cụ phân loại từng từ trên mỗi trang web và lưu trữ các chỉ số kết quả của những từ này trong một cơ sở dữ liệu khổng lồ.

Bộ vi xử lý truy vấn thực hiện việc so sánh truy vấn tìm kiếm của người dùng với các chỉ số có sẵn, từ đó cung cấp những tài liệu phù hợp nhất với yêu cầu tìm kiếm.

1.3.1 Googlebot , máy thu thập trang web của Google

Googlebot là robot thu thập dữ liệu của Google, có nhiệm vụ tìm kiếm và lấy thông tin từ các trang web để đưa vào chỉ mục của Google Nó hoạt động giống như một trình duyệt web, gửi yêu cầu đến máy chủ để truy cập và tải xuống toàn bộ nội dung của trang web Sau khi hoàn thành, Googlebot sẽ chuyển giao trang web đó cho bộ phận Indexer của Google để xử lý và lưu trữ.

Googlebot là một hệ thống gồm nhiều máy tính, cho phép nó yêu cầu và thu thập thông tin từ các trang web nhanh chóng hơn so với người dùng thông thường Trên thực tế, Googlebot có khả năng yêu cầu hàng ngàn trang cùng lúc Để tránh gây quá tải cho các máy chủ và giảm thiểu số lượng yêu cầu đồng thời từ người sử dụng, Googlebot điều chỉnh tốc độ yêu cầu từ mỗi máy chủ web cá nhân chậm hơn mức tối đa mà nó có thể đạt được.

Googlebot tìm kiếm các trang web qua hai phương thức: sử dụng biểu mẫu thêm URL tại www.google.com/addurl.html và thông qua việc thu thập các liên kết từ các trang web khác.

Kẻ gửi thư rác đã phát triển các bot tự động để phá hoại form thêm URL, dẫn đến hàng triệu URL không mong muốn trỏ đến các đường truyền thương mại Google từ chối các URL mà nó nghi ngờ có ý định lừa đảo người dùng thông qua các chiến thuật như văn bản ẩn, nhồi nhét từ khóa, và kỹ thuật che đậy Để ngăn chặn tình trạng này, form thêm URL hiện được kiểm tra thường xuyên với các ký tự nguệch ngoạc, yêu cầu người dùng nhập đúng các ký tự đó, tương tự như một bài kiểm tra mắt, nhằm ngăn chặn spam bots.

Khi Googlebot truy cập một trang, nó sẽ phân tích tất cả các liên kết trên trang đó và đưa chúng vào hàng đợi để thu thập sau Googlebot thường gặp ít thư rác vì hầu hết các nhà thiết kế web chỉ liên kết với những trang web chất lượng cao Bằng cách thu thập các liên kết từ mỗi trang mà nó gặp, Googlebot có khả năng nhanh chóng xây dựng một danh sách các trang web đáng tin cậy.

Kỹ thuật thu thập chiều sâu cho phép Googlebot thăm dò sâu vào các trang web cá nhân thông qua 25 liên kết, giúp tiếp cận hầu hết các trang trong một trang web lớn Tuy nhiên, do quy mô lớn của các trang web, quá trình thu thập thông tin có thể mất thời gian, dẫn đến việc một số trang chỉ được thu thập mỗi tháng một lần.

Mặc dù chức năng của Googlebot rất đơn giản, nhưng nó phải đối mặt với nhiều thách thức trong việc xử lý hàng ngàn yêu cầu đồng thời cho các trang web Googlebot liên tục kiểm tra và so sánh hàng đợi URL với các URL đã có trong chỉ mục để loại bỏ bản sao, nhằm tránh việc lập chỉ mục lại các trang đã tồn tại Việc này giúp tiết kiệm tài nguyên, vì Googlebot chỉ cập nhật chỉ số khi có sự thay đổi trên trang Hệ thống thu thập thông tin của Google, gọi là fresh crawl, giúp duy trì chỉ số hiện tại bằng cách tải xuống các trang mới hàng ngày, như trang báo chí và trang giá cổ phiếu Sự kết hợp giữa fresh crawl và thu thập dữ liệu sâu cho phép Google tối ưu hóa nguồn lực và duy trì chỉ số một cách hiệu quả.

Googlebot thu thập và lưu trữ dữ liệu từ các trang web vào cơ sở dữ liệu chỉ mục của Google Chỉ mục này được sắp xếp theo bảng chữ cái của các thuật ngữ tìm kiếm, với mỗi chỉ mục chứa danh sách tài liệu mà các thuật ngữ xuất hiện, cùng với vị trí của chúng trong văn bản Cấu trúc dữ liệu này giúp truy cập nhanh chóng đến các tài liệu liên quan đến thuật ngữ truy vấn.

Để cải thiện hiệu suất tìm kiếm, Google loại bỏ các từ thông thường (stop words) như "the", "is", "on", và một số chữ cái, số Những từ này xuất hiện nhiều nhưng không ảnh hưởng đến kết quả tìm kiếm, do đó có thể bị loại bỏ Ngoài ra, Google cũng bỏ qua một số dấu câu, khoảng trắng và chuyển đổi tất cả chữ cái thành chữ thường để tối ưu hóa hiệu suất làm việc.

1.3.3.Bộ xử lý truy vấn của Google

Bộ xử lý truy vấn bao gồm nhiều thành phần, trong đó có giao diện người dùng (hộp tìm kiếm), cơ chế đánh giá truy vấn và so sánh với các tài liệu liên quan, cùng với việc định dạng kết quả.

PageRank là hệ thống xếp hạng các trang web của Google, trong đó các trang có PageRank cao hơn được đánh giá là quan trọng hơn Điều này làm tăng khả năng xuất hiện của chúng ở vị trí cao hơn trong kết quả tìm kiếm so với các trang có PageRank thấp hơn.

Google đánh giá hơn một trăm yếu tố để tính toán PageRank và xác định tài liệu phù hợp nhất với truy vấn Các yếu tố này bao gồm độ phổ biến của trang web, vị trí và kích thước của từ khóa trên trang, cũng như sự liên quan của từ khóa với các trang khác.

MỘT SỐ KỸ THUẬT KHAI THÁC THÔNG TIN BẬC CAO QUA HỆ THỐNG TÌM KIẾM GOOGLE VÀ CÁC PHƯƠNG PHÁP BẢO VỆ THÔNG TIN 27 2.1 Các cú pháp tìm kiếm nâng cao trong Google

Intitle and Allintitle

Theo quan điểm của các nhà kỹ thuật, tiêu đề của trang web được định nghĩa là một đoạn văn bản dạng HTML, hiển thị ở đầu mỗi trình duyệt Google sử dụng từ khóa "intitle" để tìm kiếm các thuật ngữ có trong tiêu đề của từng thông điệp được đề cập.

Hình 2.1: Tiêu đề của trang web

Cú pháp "intitle:" cho phép Google tìm kiếm các trang web có từ khóa cụ thể trong tiêu đề Chẳng hạn, khi sử dụng truy vấn intitle:"index of" "backup files", người dùng sẽ nhận được kết quả chính xác liên quan đến nội dung mong muốn.

Google sẽ trả cho ta kết quả là những trang có chứa index of trong tiêu đề và backup files ở đâu đó trong trang

Để tìm kiếm nhiều từ trong tiêu đề của trang, bạn có thể sử dụng cú pháp “allintitle:” thay vì “intitle” Cú pháp này sẽ trả về các trang có chứa tất cả các từ mà bạn truy vấn trong tiêu đề Ví dụ: sử dụng truy vấn allintitle:”indexof”.

“”backup files” cũng giống như việc ta sử dụng truy vấn intitle:”indexof” intitle:” backupfiles ” Hình 2.3 cho ta thấy sự khác biết khi sử dụng Alintitle

Hình 2.3: So sánh kết quả allintitle

Inurl và Allinurl

Cú pháp “inurl:” giới hạn kết quả t́m kiếm về những địa chỉ URL có chứa từ khóa t́ìm kiếm Xét truy vấn inurl: admin index trong hình 2.4

Hình 2.4: Tìm kiếm với inurl

Google sẽ hiển thị các trang có chứa từ "admin" trong URL và từ "index" xuất hiện ở bất kỳ vị trí nào trên trang Để truy vấn nhiều từ trong URL, bạn có thể sử dụng cú pháp "allinurl:" thay vì chỉ tìm một từ.

“inurl” để được kết quả là những URL chứa tất cả những từ khóa t́ìm kiếm Ví dụ: xét truy vấn allinurl:admin index trong hình 2.5

Hình 2.5: So sánh kết quả với allinurl

Trong ví dụ này thì google sẽ trả ta kết quả là những trang có từ admin index trong URL.

Filetype

Cú pháp “filetype:” giúp người dùng Google chỉ tìm kiếm các tệp tin có phần mở rộng cụ thể như doc, pdf, ppt, v.v Phần mở rộng này là một phần của URL Có nhiều loại tệp tin khác nhau, và bảng 1 cung cấp thông tin về các tệp chính mà hệ thống tìm kiếm Google hỗ trợ, có thể tham khảo tại link www.google.com/help/faq_filetypes.html#what.

Hình 2.6: Một số loại tập tin phổ biến và phần mở rộng trong hệ thống tìm kiếm Google

Hình 2.6 không thể liệt kê hết tất cả các loại file, trong khi theo trang filext.com, có hơn một ngàn loại file mở rộng Hình 2.7 sẽ cung cấp danh sách 25 file phổ biến nhất trên web, được sắp xếp theo số lượng lượt truy cập của từng loại file.

Hình 2.7: 25 loại tập tin phổ biến nhất

Allintext

Cú pháp “intext:” t́ìm kiếm các từ trong một website riêng biệt Nó phớt lờ các liên kết hoặc URL và tiêu đề của trang

Sử dụng cú pháp tìm kiếm "intext:exploits" (không có ngoặc kép) sẽ giúp bạn tìm ra các trang web có chứa từ khóa "exploits" trong nội dung của chúng.

Site

Cú pháp "site:" giúp giới hạn kết quả tìm kiếm của Google chỉ trong một trang web hoặc tên miền cụ thể Ví dụ, khi sử dụng truy vấn "site:blackhat.com", bạn sẽ thấy kết quả chỉ từ trang web đó, giúp bạn hiểu rõ hơn về chức năng của cú pháp này.

Chú ý đến hai kết quả đầu tiên là www.blackhat.com và www.blackhat.com/latestintel, cả hai đều có đuôi blackhat.com, xác nhận tính hợp lệ cho truy vấn của chúng ta.

Giống như các truy vấn nâng cao khác, lệnh "site" có thể được áp dụng trong nhiều tình huống thú vị, như được minh họa trong truy vấn site:f ở hình 2.9.

Hình 2.9: Cú pháp nâng cao với Site

Kết quả của truy vấn site:f cho thấy một URL kỳ quặc, vì không có miền nào tồn tại với tên gọi "f" Điều này cho thấy rằng truy vấn này không bao giờ mang lại kết quả hợp lệ.

2.1.6 Link: Tìm kiếm các liên kết tới một trang

Cú pháp “link:” sẽ liệt kê những trang web mà có các liên kết đến đến những trang

35 web chỉ định Ví dụ : xét truy vấn link:www.defcon.org trong hình 2.10:

Cú pháp "link: www.defcon.org" sẽ hiển thị danh sách các trang web có liên kết đến trang chủ của DEF CON Lưu ý rằng không được có khoảng trống giữa "link:" và URL của trang web.

Cache

Truy vấn “cache:” giúp bạn xem phiên bản lưu trữ của một trang web mà Google đã ghi lại Ví dụ, khi bạn tìm kiếm “cache:www.hackingspirits.com”, bạn sẽ nhận được hình ảnh của trang web đó tại một thời điểm cụ thể Lưu ý rằng không được có khoảng trống giữa “cache:” và địa chỉ trang web.

"cache:" và URL của trang web

Nếu bao gồm những từ khác trong truy vấn, Google sẽ điểm sáng những từ này trong văn bản(nếu có) đă được lưu lại

Ví dụ: “cache:www.hackingspirits.com guest” sẽ cho ra văn bản đă được lưu lại có từ "guest" được điểm sáng.

Info

Cú pháp [info:] không chỉ mang đến thông tin tổng quát về hệ thống tìm kiếm của Google, mà còn cung cấp các liên kết hữu ích đến các nguồn thông tin trong hệ thống tìm kiếm này.

Google cung cấp thông số hợp lệ cho URL và miền tên, cho phép người dùng kết hợp với cú pháp info để nhận được các hàm tương tự, bao gồm tên miền hoặc URL tương ứng với truy vấn của họ.

Cú pháp “related:” cho phép người dùng tìm kiếm các trang web tương tự với trang web đã chỉ định Ví dụ, khi sử dụng truy vấn related:actvn.edu.vn, bạn có thể dễ dàng nhận diện các trang web có nội dung liên quan.

Hệ thống trong ví dụ trên cho thấy rằng nó cung cấp các kết quả là những liên kết tương tự với URL hoặc hostname, mặc dù không hoàn toàn giống với trang đã chỉ định.

Define

Truy vấn define trả lại cho ta kết quả là định nghĩa của một từ Xét truy vấn define:số nguyên tố trong hình 2.13

Chú ý rằng truy vấn define không được sử dụng với một cụm từ hay một tổ hợp thuật ngữ.

Phonebook

Truy vấn phonebook tìm kiếm danh bạ điện thoại của doanh nhân và dân cư

Có 3 truy vân có thể sử dụng cho tìm kiếm phonebook đó là : rphonebook, bphonebook và phonebook, các truy vấn này lần lượt giúp ta tìm kiến danh bạ của doanh nhân, của dân cư và cả 2

Xét truy vấn phonebook:john darling ny kết quả được hiển thị trong hình 2.14

Hệ thống cung cấp danh sách các doanh nhân và người dân mang tên John Daling ở New York Để truy cập danh sách này, bạn có thể sử dụng truy vấn bphonebook Mặc dù truy vấn này không phải lúc nào cũng hoạt động như mong đợi, nhưng với một số truy vấn cụ thể như bphonebook:Món ngon Hà Nội, hệ thống lại hoạt động hiệu quả, giúp người dùng tiếp cận danh sách địa chỉ và số điện thoại tương ứng với tên và địa chỉ đã nhập.

Daterange

Cú pháp daterange là một công cụ hữu ích giúp xác định các trang web được Google chỉ định trong một khoảng thời gian cụ thể Nó cho phép người dùng hạn chế tìm kiếm trong một ngày hoặc trong nhiều ngày mà trang web đã được đưa vào danh mục Điều quan trọng cần lưu ý là tìm kiếm không bị giới hạn theo ngày tạo ra trang web, mà theo thời điểm trang đó được Google lập chỉ mục Ví dụ, một trang web có thể được tạo ra vào ngày 2 tháng 2 nhưng chỉ được đưa vào danh mục bởi Google vào một ngày sau đó.

Cú pháp daterange: cho phép tìm kiếm ngày 11 tháng 4, tuy nhiên cần lưu ý rằng Google phân loại lại các trang web vào các thời điểm khác nhau mà không thay đổi nội dung Ví dụ, một trang web có thể được đưa vào danh mục vào ngày 1 tháng 6 và sau đó được phân loại lại vào ngày 13 tháng 8, nhưng ngày sử dụng cho tìm kiếm vẫn là 1 tháng 6 Ngoài ra, daterange: hoạt động dựa trên lịch Julian, không phải lịch Gregory mà chúng ta thường sử dụng hàng ngày Có thể tìm thấy bộ chuyển đổi lịch Gregory/Julian trực tuyến để hỗ trợ.

11 tháng 9 năm 2001 thì sẽ được chuyển sang lịch Julian với thuật ngữ là 2452164

41 nên để tìm kiếm trang được google đăng lên google vào ngày 11 tháng 9 năm 2001 cùng với từ osama bin laden thì ta phải thực hiện truy vấn daterange:2452164-

Inanchor

Cú pháp inanchor và cú pháp link là hai yếu tố quan trọng trong tối ưu hóa tìm kiếm, giúp xác định các mẩu neo liên kết và từ khóa có trong liên kết Việc sử dụng đúng cú pháp này sẽ cải thiện khả năng hiển thị của trang web trên các công cụ tìm kiếm.

Numrange

Cú pháp numrange yêu cầu hai biến số, một số nhỏ và một số lớn, được phân cách bởi dấu gạch ngang, giúp tìm kiếm các con số trong một phạm vi cụ thể Ví dụ, truy vấn numrange:12344-12346 sẽ xác định ô 12345 một cách hiệu quả Tuy nhiên, cú pháp này có thể bị lợi dụng bởi hacker với mục đích xấu Khi tìm kiếm số điện thoại, Google sẽ bỏ qua các ký tự như dấu tiền tệ và dấu phẩy, làm cho việc tìm kiếm trở nên dễ dàng hơn Để tối ưu hóa, có thể sử dụng phiên bản rút gọn của cú pháp với hai số ngăn cách bởi hai dấu chấm, như truy vấn 12344 12346, giúp đơn giản hóa quá trình tìm kiếm mà không làm mất đi tính chính xác.

Truy vấn này có thể được sử dụng với các truy vấn khác cùng với các điều kiện tìm kiếm.

Author

Cú pháp "author" cho phép người dùng tìm kiếm thông tin và tài liệu theo tên tác giả Khi thực hiện truy vấn với tên "Quách Tuấn Ngọc", hệ thống tìm kiếm sẽ hiển thị tất cả các bài viết của bất kỳ tác giả nào có chứa từ "Quách Tuấn Ngọc" trong tên, bao gồm cả tên đầu, tên giữa và tên cuối.

Kết quả đưa ra có thể là Lý Minh Tuấn, Kim Ngọc Tuấn, hay Nguyễn Minh

Tiến Điều này làm cho ta cân nhăc liệu những cái tên đó có phải là tên thật không?

Trong hầu hết các trường hợp thì không có tên thật sự

Cú pháp author thường gây khó khăn cho người dùng vì không giải thích rõ ràng các thông số như những cú pháp khác Mặc dù một số tìm kiếm đơn giản như author:Quách Tuấn Ngọc hoặc author:quachtuanngoc@gmail.com có thể chấp nhận được, nhưng khi tìm kiếm với tên dưới dạng cụm từ, mọi thứ trở nên phức tạp Ví dụ, truy vấn author:"Tống Đình" có thể dẫn đến kết quả không mong muốn.

Hình 2.17: Cú pháp author: “Tống Đình Quỳ”

Nhưng nếu sử dụng truy vấn author:Tống Đình Quỳ thì ta lại nhận được kết quả như mong đợi, hình 2.18

Hình 2.18: Cú pháp author:Tống Đình Quỳ

Cú pháp author có thể sử dụng với các nhóm cú pháp hợp lệ hay với các thuật ngữ tìm kiếm

Group

Cú pháp tìm kiếm trong Google Groups cho phép người dùng tìm tiêu đề bài viết thông qua các thuật ngữ tìm kiếm, nhưng chỉ hoạt động trong phạm vi Google Groups Đây là cú pháp hữu ích khi làm việc với các ký tự, ví dụ như truy vấn group:*forsale giúp tìm các nhóm kết thúc bằng "forsale" một cách hiệu quả Tuy nhiên, trong một số trường hợp, Google có thể trả về kết quả không chứa từ khóa trong tên nhóm mà chỉ xuất hiện trong mô tả Chẳng hạn, truy vấn group:at7a không nhất thiết phải trả về tất cả các nhóm có từ "at7a" trong tên, nhưng tất cả đều liên quan đến chủ đề này.

Khi sử dụng cú pháp group kết hợp với các cú pháp khác, bạn có thể không nhận được kết quả như mong đợi Nếu gặp phải kết quả kỳ quặc khi sử dụng cú pháp group, hãy thử kết hợp với cú pháp intitle để cải thiện kết quả tìm kiếm.

Insubject

Cú pháp insubject hoạt động tương tự như cú pháp intitle, cho ra kết quả tương đương Chẳng hạn, khi sử dụng intitle:dragon và insubject:dragon, số lượng kết quả thu được là giống nhau.

45 trả lại là hoàn toàn giống nhau.Sở dĩ chúng giống nhau như vậy là do chủ đề của mỗi group chính là tiêu đề của bài được đăng

Cũng giống như các cú pháp khác, insubject có thể được sử dụng kết hợp với các cú pháp khác và với các thuật ngữ tìm kiếm.

Msgid

Cú pháp `msgid` trong Google Groups cho phép hiển thị thông báo cụ thể với một đối số duy nhất là nhóm các tin nhắn định dạng Mỗi tin nhắn định dạng (message ID) là một chuỗi duy nhất để nhận dạng thông tin, có cấu trúc tương tự như xxx@yyy.com Khi in ra, định dạng này sẽ thay đổi, dẫn đến việc `msgid` bị phá vỡ và được thay thế bằng các tham số URL như `as_msgid` Người dùng có thể truy cập thông tin này thông qua trang tìm kiếm nâng cao tại [Google Groups](http://groups.google.com/advanced_search) Để xem các message ID, cần tham khảo định dạng gốc của các bài đã đăng Để xem nội dung một bài viết, chỉ cần nhấp vào "Show Option" và chọn "Show original link" để được đưa đến trang liệt kê toàn bộ nội dung bài viết trong nhóm.

Hình 2.20: Một dạng điển hình của Group Message

Hình 2.21: Message ID của một cổng

ID thông báo (IUpug.102004$wl.92198@text.news.blueyonder.co.uk) có thể sử dụng trong tìm kiếm nâng cao thông qua tham số as_msgid hoặc truy vấn msgid để tìm kiếm hiệu quả hơn.

Khi hoạt động thì cú pháp msgid không kết hợp với các cú pháp và thuật ngữ tìm kiếm.

Stocks

Cú pháp stocks giúp người dùng tìm kiếm thông tin về thị trường chứng khoán của một công ty cụ thể Để sử dụng cú pháp này, cần biết các từ viết tắt hợp lệ của cổ phiếu Khi cung cấp mã biểu tượng cổ phiếu hợp lệ, người dùng sẽ nhận được một màn hình cho phép tiếp tục tìm kiếm thông tin liên quan đến mã biểu tượng đó.

Cú pháp stocks không thể sử dụng khi kết hợp với các cú pháp và thuật ngữ tìm kiếm.

Khai thác thông tin qua hệ thống tìm kiếm Google

2.2.1 Liệt kê thư mục (Directory Listings)

Directory Listings là một loại website đặc biệt hiển thị danh sách các file và thư mục trên server mà không cần lập trình hay thiết kế phức tạp Website này thường được sử dụng để chia sẻ tài nguyên, tương tự như FTP, cho phép người dùng quản lý quyền truy cập vào các file và thư mục.

Hình 2.23: Kết quả của Directory Listings website http://forum.hocvienact.edu.vn/

Khi truy cập vào một ứng dụng webserver mà không có trang mặc định như index.php hoặc default.html, người dùng sẽ thấy danh sách thư mục Điều này có thể gây rủi ro nếu thư mục đó chứa các tập tin quan trọng như config.php, vì thông tin nhạy cảm có thể bị lộ.

Nếu bạn là nhà phát triển website, hãy chú ý đến việc ngăn chặn liệt kê thư mục trong trình duyệt Một cách đơn giản là thêm một file trang mặc định vào thư mục, giúp người dùng chỉ thấy một trang nội dung trắng khi truy cập Ngoài ra, bạn cũng có thể sử dụng file cấu hình htaccess để thực hiện điều này.

49 Để tìm kiếm những trang web như thế chúng ta có thể sử dụng từ khóa index of /

Tại sao như vậy Hãy xem hình trên, bạn thấy các trang web hiển thị thư mục đểu có phần nội dung là index of

Tìm kiếm thư mục và tập tin đặc biệt Đó là những thư mục như adminitrator, configuration, hay những file *.log, *.sys,

Nếu muốn tìm những thưc mục đặc biệt như thế có thể kết hợp thêm từ khóa intitle:

Using the syntax "intitle: index of admin" or "intitle: index of inurl: admin" will yield results that link to web pages associated with the administrative sections of websites.

Cú pháp intile: index of ws_ftp.log sẽ giúp chúng ta tìm kiếm file ws_ftp.log

Hình 2.24: Kết quả tìm kiếm thư mục đặc biệt

2.2.1.1 Hiển thị cây thư mục (Directory Traversal)

"Travel" có nghĩa là du lịch, trong khi Directory Traversal có thể hiểu là "đi dạo qua các thư mục" Để hiểu rõ hơn về vấn đề này, chúng ta hãy xem xét kết quả của Directory Listing như hình dưới đây.

Hình 2.25: Kết quả hiển thị danh sách thư mục cho đường dẫn…/bpa/acadunits/admin/envr/bowman

Khi quan sát, chúng ta nhận thấy thư mục "admin" nằm ở trên thư mục hiện hành hai cấp và có một liên kết "Parent Directory" ở đầu trang Điều này cho phép chúng ta truy cập vào thư mục "admin" và duyệt qua các thư mục khác Như vậy, có thể hiểu rằng Traversal là một kỹ thuật giúp mở rộng kết quả tìm kiếm từ một mục tiêu nhỏ.

Sử dụng công cụ tìm kiếm của Google, chúng ta dễ dàng tìm thấy các thư mục đặc biệt bằng cách áp dụng cấu trúc tìm kiếm như: site:cl.uh.edu inurl:bpa/acadunits/admin ws_ftp.log Thao tác này cho phép truy cập vào nhiều file và thông tin hữu ích Để khám phá toàn bộ cây thư mục, chúng ta có thể thay đổi một số từ trong URL, chẳng hạn như thay từ "admin" thành "student", "public" hoặc "teacher" để tìm kiếm thông tin liên quan.

2.2.1.2 Khai thác thông tin của server

Việc tìm kiếm thông tin phiên bản của ứng dụng phía server là rất quan trọng, vì nó giúp hacker lập kế hoạch tấn công hiệu quả hơn Có nhiều phương pháp để xác định thông tin server, bao gồm việc kiểm tra HTTP Header để phát hiện số phiên bản ứng dụng Ngoài ra, một số công cụ dò tìm cũng hỗ trợ trong việc này Thêm vào đó, chức năng Directory Listings có thể hiển thị thông tin server, trong đó có dòng thông tin phiên bản của ứng dụng.

Máy chủ Apache phiên bản 2.0.52 đang hoạt động trên hệ điều hành Unix tại địa chỉ xml.apache.com Để tra cứu thông tin về phiên bản ứng dụng, bạn có thể sử dụng cú pháp "Server at", ví dụ như intitle: index of / “server at”.

2.2.2 Kỹ thuật thay thế gia tăng (Incremental Substitution) Đây cũng là một kỹ thuật dùng để duyệt file và thư mục Cũng bằng cách suy luận, và thay đổi những ký tự cần thiết trong đường dẫn URL, chúng ta có thể tìm thấy những file hoặc thư mục cần thiết

Nếu chúng ta đã xác định được file với đường dẫn là …/docs/bulletin/2.xls, thì việc thay đổi đường dẫn thành …/docs/bulletin/3.xls sẽ cho phép chúng ta tìm thấy file 3.xls.

Một ví dụ khác, chúng ta tìm thấy đường dẫn

Thử thay đổi thành …/DigLib_thumbnail/spmg/hel/0002/H/… Biết đầu sẽ tìm thấy những điều bất ngờ

Bằng cú pháp tìm kiếm ﬁletype:xls inurl:1.xls or intitle:index.of inurl:0001 có thể tìm thấy những file khác tương tự như vậy

Một số công cụ tải xuống như IDM (Internet Download Manager) giúp người dùng tìm kiếm và tải nhiều tệp tin với chỉ một phần đường dẫn thay đổi.

52 chúng ta có tìm tải tất cả các file có đường dẫn là

… tuoitre.vn/save/media/radio/radio-*.mp3 Trong đó dấu * đại diện cho ký tự từ

Chúng ta đã thử nghiệm cú pháp filetype của Google, giúp tìm kiếm các tập tin với phần mở rộng cụ thể Ví dụ, cú pháp filetype: HTML sẽ tìm kiếm tất cả các file có đuôi mở rộng là HTML.

Để tìm kiếm các định dạng file quan trọng như bak, sql, và conf, chúng ta có thể sử dụng cú pháp tìm kiếm intitle:index.of index.php.bak Phương pháp này có thể giúp chúng ta phát hiện những thông tin thú vị và bí ẩn.

2.2.4 Ẩn danh khi truy cập site với bộ nhớ Caches (Anonymity with Caches)

Chức năng Cache của Google là một tính năng tuyệt vời, cho phép lưu trữ nhiều website mà người dùng truy cập Người dùng có thể xem lại các trang web đã được lưu trong bộ nhớ cache của Google, ngay cả khi chúng đã bị xóa khỏi máy chủ Google Cache lưu giữ mọi thông tin, giúp người dùng dễ dàng truy cập lại nội dung đã mất.

Hình 2.26: Tất cả đều được lưu trong Google cache

Các giải pháp bảo vệ thông tin

2.3.1 Xây dựng chính sách bảo mật

Cấu hình phần cứng và phần mềm tối ưu sẽ không đủ để bảo vệ tài nguyên của bạn nếu không có chính sách bảo mật hiệu quả Trước khi triển khai bất kỳ phần mềm nào, hãy xem xét kỹ lưỡng chính sách bảo mật hiện tại Một chính sách bảo mật tốt không chỉ xác định tài sản cần bảo vệ mà còn phải có cơ chế bảo vệ cụ thể, mức độ chấp nhận rủi ro và quy trình ứng phó khi xảy ra sự cố Thiếu sự chắc chắn và chính xác trong chính sách bảo mật đồng nghĩa với việc bạn đang tham gia vào một cuộc chiến mà khả năng thua cuộc đã được xác định.

2.3.2.Những biện pháp bảo vệ máy chủ web

Để bảo vệ thông tin nhạy cảm khỏi sự chú ý của trình thu thập web, cần lưu ý rằng máy chủ web thường được sử dụng chung và có thể xảy ra rò rỉ thông tin Nếu bạn quan tâm đến việc bảo mật dữ liệu, hãy chuyển nó sang mạng nội bộ hoặc máy chủ chuyên dụng với chính sách bảo mật nghiêm ngặt Tránh việc chia máy chủ thành các vai trò riêng biệt theo mức độ truy cập, vì điều này có thể khiến các biện pháp bảo vệ trở nên vô hiệu Hơn nữa, cần xem xét tác động của việc thỏa hiệp trên máy chủ web công khai, vì điều này có thể dẫn đến rủi ro cho thông tin công khai Việc hạn chế truy cập sẽ giúp ngăn chặn kẻ tấn công từ xa, làm cho việc xâm nhập vào thông tin nhạy cảm trở nên khó khăn hơn Nếu thông tin nhạy cảm và công khai được lưu trữ cùng nhau trên máy chủ công khai, sự thỏa hiệp của máy chủ đó có thể gây hại cho cả hai loại thông tin.

Để bảo vệ máy chủ web từ bên trong, chúng ta nên thực hiện một số biện pháp đơn giản nhưng hiệu quả Những nguyên tắc này không phải là giải pháp hoàn chỉnh, mà chỉ nhằm nhấn mạnh các khu vực quan trọng trong việc phòng thủ Bài viết sẽ không tập trung vào loại máy chủ cụ thể nào, mà sẽ đưa ra ý kiến áp dụng chung cho mọi máy chủ web Chúng ta sẽ không đi sâu vào cách bảo vệ ứng dụng web mà sẽ xem xét các phương thức đã được chứng minh hiệu quả trong việc chống lại trình thu thập web Một trong những biện pháp quan trọng là vô hiệu hóa liệt kê thư mục (directory listing).

Hình 2.27: Directory listing tiết lộ vị trí tập tin htaccess

Hình 2.27 minh họa một ví dụ về việc danh sách thư mục tiết lộ vị trí của tập tin htaccess, thường được sử dụng để bảo vệ nội dung thư mục khỏi truy cập trái phép Tuy nhiên, do cấu hình sai trên máy chủ, tập tin này đã cho phép hiển thị danh sách thư mục và thậm chí cho phép đọc nội dung bên trong.

Việc vô hiệu hóa danh sách thư mục là cần thiết trừ khi bạn muốn người dùng thông thường có thể truy cập các tập tin qua chế độ FTP Nếu file index như index.html hoặc index.htm bị thiếu, danh sách thư mục sẽ tự động hiển thị trên một số máy chủ.

Trong mỗi thư mục, tệp 57 default.asp nên xuất hiện và được trình bày cho người dùng Để vô hiệu hóa directory listing trên máy chủ web Apache, bạn cần thêm dấu gạch ngang trước từ Indexes trong file httpd.conf Khi directory listing bị vô hiệu hóa, nó sẽ hiển thị như sau:

2.3.2.2 Xây dựng file robots.txt

File robots.txt là một tài liệu văn bản cung cấp hướng dẫn cho các trình thu thập web (bots) về việc truy cập vào các tập tin và thư mục trên máy chủ Được tiêu chuẩn hóa tại www.robotstxt.org, file này cần được đặt trong thư mục gốc của máy chủ với quyền truy cập phù hợp Dòng đầu tiên của file chứa ký tự # được coi là chú thích và sẽ bị bỏ qua Các dòng tiếp theo bắt đầu bằng User-agent hoặc lệnh disallow, theo sau là dấu hai chấm và các tùy chọn nhằm hạn chế truy cập của các trình thu thập vào những khu vực nhất định Mỗi trình thu thập web nên gửi trường user-agent, với Googlebot là giá trị cho Google Để chỉ dẫn cho bots của Google, cần ghi: User-agent: Googlebot Để áp dụng cho tất cả các bots của các hệ thống tìm kiếm, có thể sử dụng hướng dẫn chung.

User-agent: * Để ngăn chặn Googlebot thu thập tất cả các tài liệu PDF của ta, có thể sự dụng lệnh sau trong file robots.txt

Ký tự $ được sử dụng để chỉ ra kết thúc của một tên Để ngăn Googlebot truy cập vào một file hoặc thư mục cụ thể, bạn chỉ cần thay thế dòng disallow với tên file hoặc thư mục mà bạn muốn bảo vệ, chẳng hạn như không cho phép truy cập vào thư mục admin hoặc cgi-bin.

After installing the robots.txt file, you can verify its validity by visiting www.sxw.org.uk/computing/robots/check.html.

File robots.txt mang lại nhiều lợi ích cho website, nhưng cũng tồn tại nhược điểm lớn: kẻ tấn công có thể truy cập và xem nội dung của file này, từ đó nắm bắt được các file và thư mục được ánh xạ trên máy chủ.

Hình 2.28: Cú pháp tìm kiếm tập tin robots.txt

Hình 2.29: Nội dung của một tập tin roots.txt

Thẻ NOARCHIVE trong file robots.txt giúp ngăn Google tìm kiếm trên website của bạn Tuy nhiên, nếu bạn muốn Google thu thập trang mà không lưu trữ hoặc sao chép lên cache, bạn có thể sử dụng thẻ META Để chặn tất cả các trình thu thập lưu trữ tài liệu lên cache, hãy đặt thẻ META phù hợp trong phần đầu của trang.

Nếu ta muốn chỉ có Google thì sử dụng thẻ META trong phần HEAD của tài liệu:

Bất kỳ trình thu thập thông tin nào cũng có thể được xử lý bằng cách chèn tên của nó vào thẻ META NAME Quy định này chỉ áp dụng cho trình thu thập, trong khi các truy cập khác hoặc kẻ tấn công vẫn có khả năng tiếp cận các trang này.

NOSNIPPET là một thẻ META giúp ngăn chặn Google hiển thị nội dung snippet dưới tiêu đề tài liệu trên trang kết quả tìm kiếm Snippet thường hiển thị các từ khóa tìm kiếm của người dùng và rất hữu ích khi có nhiều kết quả Tuy nhiên, trong trường hợp các trang web cung cấp dịch vụ tin tức muốn bảo vệ nội dung của mình khỏi người dùng không trả phí, họ có thể sử dụng thẻ META NOSNIPPET kết hợp với bộ lọc IP Để cho phép Google hiển thị các snippet, cần sử dụng đoạn mã thích hợp.

Một chức năng khá thú vị của thẻ NOSNIPPet là Google sẽ không lưu các tài liệu vào cache NOSNIPPET loại bỏ cả snippet và các trang cache

2.3.2.3 Cơ chế bảo vệ bằng mật khẩu

Google không lưu trữ các hình thức xác thực người dùng mà chỉ ghi lại URL của trang trong cơ sở dữ liệu Khi gặp trang bảo vệ bằng mật khẩu, Google có thể lưu lại hình ảnh của trang đó nếu nó thu thập trước khi bảo vệ mật khẩu được kích hoạt Khi nhấn vào trang gốc, người dùng sẽ thấy hộp thoại yêu cầu mật khẩu, nhưng các trang lưu trữ không hiển thị hình ảnh mà Google đã bỏ qua Đôi khi, thông tin từ trang web đã đăng ký sẽ xuất hiện trong kết quả tìm kiếm của Google, nhưng khi nhấn vào liên kết, người dùng lại phải nhập thông tin đăng nhập Để bảo vệ dữ liệu cá nhân khỏi trình thu thập thông tin như Google, việc áp dụng cơ chế xác thực mật khẩu, chẳng hạn như htaccess cho Apache, là một giải pháp hiệu quả File htaccess kết hợp với file htpassword giúp bảo vệ nội dung của trang web.

Để xác định danh sách kết hợp tên người dùng và mật khẩu cho các thư mục cụ thể, bạn có thể tham khảo hướng dẫn về htaccess cho Apache Hãy tìm kiếm thông tin chi tiết về cách sử dụng htaccess để bảo vệ các thư mục trên máy chủ của bạn.

ÁP DỤNG MỘT SỐ KỸ THUẬT TẤN CÔNG VÀ KHAI THÁC THÔNG TIN BẬC CAO QUA HỆ THỐNG TÌM KIẾM GOOGLE

Định dạng
Số trang	70
Dung lượng	2,85 MB