Công cụ Bulk Extractor trong Kali Linux

GIỚI THIỆU CÔNG CỤ BULK_EXTRACTOR

Tổng quan về Bulk_extractor

Bulk_extractor là một phần mềm chuyên dụng để trích xuất thông tin quan trọng từ các phương tiện kỹ thuật số, như ổ cứng của tội phạm hoặc thiết bị của hacker Chương trình này có khả năng tìm kiếm và thu thập các dữ liệu như địa chỉ email, số thẻ tín dụng, URL và nhiều loại thông tin khác, hỗ trợ trong công tác điều tra và phân tích số liệu.

Nó là một công cụ điều tra pháp y quan trọng, hỗ trợ trong nhiều nhiệm vụ như phân tích phần mềm độc hại, điều tra danh tính, điều tra mạng, phân tích hình ảnh và bẻ khóa mật khẩu Chương trình này cung cấp nhiều tính năng đặc biệt, giúp tối ưu hóa quá trình điều tra.

● Nó tìm địa chỉ email, URL và số thẻ tín dụng mà các công cụ khác bỏ sót

Nó có khả năng xử lý dữ liệu nén như tệp ZIP, PDF và GZIP, cũng như khôi phục dữ liệu bị hỏng một phần hoặc toàn bộ Công cụ này có thể khắc phục ảnh JPEG, tài liệu văn phòng và nhiều loại tệp khác từ các phân đoạn dữ liệu nén, đồng thời phát hiện và khôi phục các tệp RAR được mã hóa.

Nó tạo ra danh sách từ dựa trên tất cả các từ được phát hiện trong dữ liệu, bao gồm cả những từ trong tệp nén nằm trong không gian chưa được phân bổ, và những danh sách này có thể hữu ích cho việc bẻ khóa mật khẩu.

Bulk_extractor là một công cụ đa luồng, cho phép máy tính sử dụng gấp đôi số lượng lõi so với bình thường, giúp hoàn thành một lần chạy chỉ trong nửa thời gian.

● Nó tạo biểu đồ hiển thị các địa chỉ email, URL, miền, cụm từ tìm kiếm và các loại thông tin khác trên ổ đĩa

Bulk_extractor hoạt động trên image disk, tệp hoặc thư mục mà không cần phân tích cấu trúc hệ thống tệp Nó chia đầu vào thành các trang và xử lý chúng bằng nhiều máy quét Kết quả được lưu trữ trong tệp tính năng, dễ dàng kiểm tra và xử lý bằng các công cụ tự động khác.

Bulk_extractor tạo ra biểu đồ các tính năng mà nó phát hiện, giúp người dùng nhận diện những yếu tố quan trọng như địa chỉ email và cụm từ tìm kiếm trên internet, vốn có xu hướng phổ biến hơn.

Ngoài các khả năng được mô tả ở trên, Bulk_extractor cũng bao gồm:

Giao diện người dùng đồ họa của Bulk Extractor Viewer cho phép người dùng dễ dàng duyệt các tính năng được lưu trữ trong các tệp tính năng, đồng thời hỗ trợ khởi chạy quét ký tự Bulk một cách hiệu quả.

Hình 1.1 Giao diện người dùng của Bulk_extrator

● Một số lượng nhỏ các chương trình python để thực hiện phân tích bổ sung về tính năng các tập tin

Bulk_extractor 1.5 là công cụ hiệu quả trong việc phát hiện và giải nén dữ liệu từ các tập tin ZIP, GZIP, RAR và tệp Hibernation của Microsoft Nó đã chứng minh tính hữu ích trong việc khôi phục địa chỉ email từ các đoạn tệp nén trong không gian chưa được phân bổ.

Bulk_extractor có cơ chế đơn giản nhưng hiệu quả để bảo vệ chống lại decompression bomb Nó được thiết kế đặc biệt cho Windows và phân tích phần mềm độc hại, bao gồm bộ giải mã cho các định dạng như Windows PE, Linux ELF, VCARD, Base16, Base64 và các định dạng thư mục của Windows.

Bulk_extractor đạt được tốc độ nhanh chóng nhờ vào việc sử dụng các biểu thức tìm kiếm đã được biên dịch và công nghệ đa phân luồng Các biểu thức tìm kiếm này được viết dưới dạng biểu thức chính quy đã được biên dịch trước, cho phép bulk_extractor thực hiện tìm kiếm song song nhiều cụm từ khác nhau một cách hiệu quả.

Phân luồng được thực hiện bằng cách sử dụng một nhóm phân tích, trong đó bulk_extractor xây dựng biểu đồ địa chỉ email, cụm từ tìm kiếm của Google và các tính năng khác sau khi trích xuất thuộc tính Danh sách dừng có thể giúp loại bỏ các tính năng không liên quan đến trường hợp cụ thể.

Bulk_extractor nổi bật so với các công cụ pháp y khác nhờ tốc độ và tính kỹ lưỡng của nó Bằng cách bỏ qua cấu trúc hệ thống tệp, Bulk_extractor có khả năng xử lý các phần khác nhau của đĩa song song, giúp máy 8 lõi hoạt động nhanh hơn gần 8 lần so với máy 1 nhân Ngoài ra, Bulk_extractor tự động phát hiện, giải nén và xử lý dữ liệu nén một cách hiệu quả với nhiều thuật toán khác nhau Thử nghiệm cho thấy công cụ này phát hiện được lượng lớn dữ liệu bị ép trong các vùng chưa được phân bổ mà nhiều công cụ pháp y phổ biến hiện nay thường bỏ sót Một lợi thế khác là Bulk_extractor có thể xử lý bất kỳ loại phương tiện kỹ thuật số nào, bao gồm ổ cứng, SSD, phương tiện quang học, thẻ máy ảnh, điện thoại di động, mạng kết xuất gói và nhiều loại thông tin kỹ thuật số khác.

Lịch sử

Từ năm 2005 đến 2008, nhóm Bulk_extractor đã tiến hành phỏng vấn các cơ quan thực thi pháp luật về nhu cầu sử dụng công cụ pháp y Các nhân viên thực thi pháp luật mong muốn có một công cụ tự động hóa cao để tìm kiếm địa chỉ email, số thẻ tín dụng (bao gồm thông tin theo dõi 2), số điện thoại, tọa độ GPS, thông tin EXIF từ JPEG, cụm từ tìm kiếm (trích xuất từ URL) và tất cả các từ trên đĩa nhằm bẻ khóa mật khẩu Công cụ này cần hoạt động trên các hệ điều hành Windows, Linux và Mac OS X mà không yêu cầu sự tương tác của người dùng.

Bulk_extractor cần hoạt động hiệu quả trên hình ảnh đĩa thô, phân vùng thô và tệp E01, với công cụ tối ưu hóa để đạt tốc độ I/O tối đa của ổ đĩa vật lý mà không gặp sự cố Qua các cuộc phỏng vấn, các yêu cầu ban đầu cho Bulk_extractor đã được phát triển rõ ràng.

Hình 1.2 Một câu chuyện thành công ban đầu của Bulk_extrator đến từ cảnh sát Thành phố San Luis Obispo

Vào mùa xuân năm 2010, tại San Luis Obispo, luật sư quận đã khởi tố hai cá nhân vì tội gian lận thẻ tín dụng và sở hữu tài liệu liên quan đến hành vi này.

Các bị cáo đã bị bắt thông qua việc truy tìm địa chỉ máy tính Luật sư bào chữa cho rằng các bị cáo thiếu tinh vi và kiến thức để thực hiện hành vi phạm tội Giám khảo nhận được một ổ đĩa 250 GB một ngày trước phiên điều trần sơ bộ, trong khi quá trình điều tra pháp y về lượng dữ liệu lớn này thường mất vài ngày.

Bulk_extractor đã tìm thấy bằng chứng có thể hành động chỉ trong hai giờ rưỡi bao gồm thông tin sau:

● Có hơn 10.000 số thẻ tín dụng trong ổ cứng (tài liệu bất hợp pháp).Hơn 1000 số thẻ tín dụng là được tạo mới

● Địa chỉ email phổ biến nhất thuộc về bị đơn chính (bằng chứng về chiếm hữu)

Các truy vấn phổ biến trên công cụ tìm kiếm liên quan đến thẻ tín dụng gian lận và số nhận dạng ngân hàng cho thấy sự quan tâm ngày càng tăng của người dùng về vấn đề bảo mật tài chính Những tìm kiếm này phản ánh ý định tìm kiếm thông tin và biện pháp phòng tránh gian lận trong giao dịch ngân hàng Việc nắm bắt các xu hướng này không chỉ giúp người tiêu dùng bảo vệ tài sản của mình mà còn tạo cơ hội cho các doanh nghiệp cải thiện dịch vụ bảo mật.

Bulk_extractor đã được triển khai trong nhiều ứng dụng và đã phát triển để đáp ứng các yêu cầu bổ sung Sổ tay này trình bày các trường hợp sử dụng của hệ thống ký tự Bulk và hướng dẫn người dùng cách tận dụng tối đa các tính năng của nó.

Kiến trúc hoạt động và tính năng

Bulk_extractor là công cụ hiệu quả trong việc tìm kiếm địa chỉ email, URL và CCN mà các phần mềm khác có thể bỏ sót Điều này xảy ra nhờ vào khả năng giải nén và phân tích lại toàn bộ dữ liệu, bao gồm các định dạng như phân đoạn zip và bộ nhớ cache của trình duyệt gzip Quá trình giải nén của bulk_extractor có thể hoạt động trên dữ liệu không đầy đủ hoặc bị hỏng, cho đến khi không còn khả năng giải nén thành công.

Hình 2.1 Ba giai đoạn của hoạt động với Bulk_extrator

Bulk_extractor hoạt động qua ba giai đoạn: trích xuất tính năng, tạo histogram và xử lý hậu kỳ Các tệp tính năng đầu ra chứa dữ liệu trích xuất được thiết kế để dễ dàng xử lý bởi các chương trình bên thứ ba hoặc sử dụng trong các công cụ bảng tính Hệ thống này tự động tóm tắt các tính năng một cách hiệu quả.

Các tệp tính năng được ghi lại thông qua hệ thống ghi đặc điểm, nơi các tính năng được phát hiện và lưu trữ trong tệp tương ứng Nhiều lần quét tại cùng một điểm có thể ghi vào cùng một tệp tính năng Chẳng hạn, máy quét exif tìm kiếm định dạng tệp từ máy ảnh kỹ thuật số và tọa độ GPS trong hình ảnh, sau đó ghi vào tệp gps.txt Một máy quét khác là máy quét gps, chuyên tìm dữ liệu Garmin Trackpoint và tọa độ GPS, cũng ghi vào gps.txt Đáng chú ý, một số máy quét có khả năng phát hiện nhiều loại tính năng và ghi vào nhiều tệp khác nhau, như trình quét email có thể tìm địa chỉ email, miền, URL và tiêu đề RFC822, ghi vào các tệp email.txt, domain.txt, url.txt, rfc822.txt và ether.txt tương ứng.

Tệp tính năng bao gồm các hàng tính năng, mỗi hàng thường chứa một phần bù và một tính năng trong ngữ cảnh bằng chứng Mặc dù máy quét có thể lưu trữ miễn phí thông tin mà họ muốn, nhưng một số dòng trong tệp tính năng email có thể giống nhau.

Hình 2.2 Các tính năng tệp email.txt

Các tệp tính năng chứa các loại tính năng khác nhau tùy thuộc vào loại tính năng được lưu trữ Mặc dù vậy, tất cả các tệp này đều sử dụng cùng một định dạng, trong đó mỗi hàng phản ánh một phiên bản của một đối tượng địa lý, với ba cột mô tả dữ liệu: offset, feature và feature trong ngữ cảnh bằng chứng.

Biểu đồ là công cụ hữu ích giúp phân tích và hiểu rõ các loại bằng chứng khác nhau Đặc biệt, biểu đồ email cho phép xác định nhanh chóng người dùng chính của ổ đĩa, các thư từ quan trọng trong tổ chức tội phạm và các địa chỉ email liên quan.

Tính năng tự động tạo biểu đồ sẽ cập nhật ngay khi dữ liệu được xử lý Khi máy quét ghi thông tin vào hệ thống, các biểu đồ liên quan sẽ được tự động cập nhật để phản ánh dữ liệu mới nhất.

Nhìn chung, một tệp biểu đồ sẽ trông giống như phần trích dẫn tệp sau:

Hình 2.3 Cấu trúc file histogram.txt

Mỗi dòng trong tệp hiển thị một đối tượng địa lý cùng số lần đối tượng đó được phát hiện bởi Bulk_extractor, với dữ liệu được mã hóa theo định dạng UTF-16 Các tính năng được lưu trữ theo thứ tự xuất hiện, thường thì các tính năng phổ biến sẽ xuất hiện ở đầu tệp, trong khi những tính năng ít phổ biến hơn sẽ nằm ở dưới cùng Bulk_extractor sử dụng nhiều trình quét để trích xuất các tính năng này.

Mỗi máy quét hoạt động theo một thứ tự ngẫu nhiên và có khả năng bật hoặc tắt, điều này hữu ích cho việc gỡ lỗi và tối ưu hóa tốc độ Một số máy quét đệ quy mở rộng dữ liệu đang khám phá, tạo ra nhiều dữ liệu hơn cho công cụ ký kết Bulk phân tích Các khối dữ liệu này được gọi là sbufs, với chữ "s" viết tắt cho từ "safe" Tất cả quyền truy cập vào dữ liệu trong sbuf đều được kiểm tra giới hạn, giúp ngăn chặn sự cố tràn bộ đệm Cấu trúc dữ liệu sbuf là lý do chính cho việc tối ưu hóa tài nguyên và khả năng chống va chạm Đệ quy cũng được sử dụng cho các tác vụ như giải nén ZLIB.

Windows HIBERFILE, trích xuất văn bản từ các tệp PDF và xử lý dữ liệu bộ nhớ cache của trình duyệt nén

Quá trình đệ quy cần một phương pháp mới để mô tả các hiệu số, và Bulk_extractor đã giới thiệu khái niệm "con đường pháp y" Đây là một mô tả về nguồn gốc của dữ liệu, có thể đến từ tệp phẳng, luồng dữ liệu hoặc giải nén dữ liệu Chẳng hạn, trong một luồng HTTP chứa Email nén GZIP, các máy quét sẽ xác định các vùng được nén ZLIB trong luồng đó.

Bulk_extractor có khả năng giải nén và tìm kiếm các địa chỉ email, tên và số điện thoại trong các tệp tin nén Phương pháp này cho phép phát hiện các địa chỉ email nằm trong dữ liệu nén, như GZIP, được truyền qua luồng HTTP Đường dẫn pháp y cho các địa chỉ email cho thấy nguồn gốc của chúng từ các email đã được nén.

Hình 2.4 Các tính năng địa chỉ email

Hình 2.5 Forensic path của tính năng email dẫn ngược về luồng HTTP

Bulk_extractor cung cấp đầy đủ chức năng thông qua dòng lệnh và công cụ GUI mang tên Bulk Extractor Viewer, hoạt động trên cả ba hệ điều hành Linux, Mac và Windows.

2.3.2 Xử lý dữ liệu b Scanners

Để xem danh sách chi tiết các máy quét đã được triển khai với phiên bản Bulk_extractor của bạn, hãy sử dụng lệnh sau.

Lệnh này hiển thị tất cả các máy quét đã cài đặt, kèm theo thông tin chi tiết về từng máy quét, bao gồm mô tả, danh sách các tính năng và các cờ liên quan Dưới đây là một mẫu đầu ra:

Hình 2.6 Danh sách mẫu output của lệnh a Các định dạng dữ liệu đầu vào

Hệ thống ký kết Bulk hỗ trợ nhiều định dạng dữ liệu như E01, raws, split-raws và các tệp đơn lẻ, cùng với khả năng xử lý thiết bị hoặc tệp thô một cách hiệu quả.

12 có thể hoạt động trên memory và bắt gói, mặc dù việc bắt gói sẽ được trích xuất hiệu quả hơn nếu bạn xử lý trước chúng bằng tcpflow

KỊCH BẢN VÀ MÔ HÌNH THỰC NGHIỆM CÔNG CỤ BULK_

Phân tích dữ liệu thu thập được từ việc quét ổ đĩa bằng Bulk_extractor 23

Trong bước này chúng ta sẽ tiếng hình quét thư mục ổ đĩa để tiến hành thu thập thông tin Khởi động terminal và gõ lệnh như sau:

$ bulk_extractor -o output -R /home/bulk_extractor/tests

Hình 3 1 Kết quả sau khi quét ổ đĩa

Sau khi quét ổ cứng và kiểm tra các số thẻ tín dụng trong file cnn.txt, chúng ta có thể phân tích ngân hàng mà người dùng đang sử dụng, xác định khu vực hoạt động của họ và phát hiện những điều bất thường liên quan đến việc sử dụng thẻ tín dụng.

Hình 3 2 Số thẻ credit card quét được

Tiếp theo, chúng ta sẽ phân tích file domain.txt, nơi lưu trữ tên miền mà người dùng đã từng truy cập Phân tích file này giúp nghiên cứu hành vi sử dụng Internet của người dùng và xác định các nội dung mà họ quan tâm.

Sau khi thực hiện quét, chúng ta sẽ nhận được hai tệp tin: domain.txt và domain_histogram.txt Tệp domain.txt chứa toàn bộ thông tin về các miền đã quét, trong khi tệp domain_histogram.txt cung cấp các thông tin cụ thể đã được trích xuất từ quá trình quét.

Hình 3 3 Domain đã được trích xuất

Hình 3 4 Domain dữ liệu thô

Chúng ta sẽ tiếp tục phân tích file email.txt và email_histogram.txt, giống như đã làm với domain File email.txt chứa toàn bộ thông tin đã quét về email, trong khi file email_histogram.txt chứa thông tin đã được trích xuất.

Hình 3 5 Dữ liệu email quét được dưới dạng thô

Hình 3 6 Dữ liệu email đã được trích xuất

Bulk_extractor cho phép quét và trích xuất tất cả số điện thoại lưu trữ trên ổ cứng, bao gồm cả những số đã bị xóa hoặc ổ đĩa đã được format Người dùng có thể kiểm tra các số điện thoại đã quét trong file telephone.txt và telephone histogram.txt, tương tự như các thuộc tính đã được đề cập trước đó.

Hình 3 7 Các số điện thoại đã quét được

Ngoài ra còn rất nhiều thông tin hữu ích cho việc phân tích như :

Địa chỉ MAC Ethernet có thể được xác định thông qua việc phân tích gói IP trong tệp hoán đổi, tệp ngủ đông hệ thống nén và các đoạn tệp liên quan.

● exif.txt - EXIF từ JPEG và phân đoạn video Tệp tính năng này chứa tất cả các trường EXIF, được mở rộng dưới dạng bản ghi XML

● find.txt - Kết quả của các yêu cầu tìm kiếm biểu thức chính quy cụ thể

● ip.txt - Địa chỉ IP được tìm thấy thông qua việc khắc gói IP

● phone.txt - Số điện thoại Hoa Kỳ và quốc tế

● url.txt - URL, thường được tìm thấy trong bộ nhớ cache của trình duyệt, thư email và được biên dịch trước thành tệp thực thi

Biểu đồ các thuật ngữ tìm kiếm trên Internet từ các dịch vụ như Google, Bing, Yahoo và nhiều nền tảng khác được trình bày trong tài liệu url_searches.txt.

● wordlist.txt -: Danh sách tất cả các “từ” được trích xuất từ đĩa, hữu ích cho việc bẻ khóa mật khẩu

● wordlist _ * txt - Danh sách từ bị xóa trùng lặp, được định dạng ở dạng có thể dễ dàng nhập vào một chương trình bẻ khóa mật khẩu phổ biến

Tệp zip.txt chứa thông tin chi tiết về tất cả các thành phần trong tệp ZIP được phát hiện trên phương tiện lưu trữ Điều này rất hữu ích vì tệp ZIP không chỉ lưu trữ dữ liệu mà còn bao gồm cấu trúc bên trong, và định dạng ZIP ngày càng trở nên phổ biến, đặc biệt trong các sản phẩm như Microsoft Office.

Phân tích dữ liệu từ các bằng chứng cho phép chúng ta thu thập thông tin quan trọng, giúp xác định chứng cứ phạm tội của tin tặc và phát hiện các mối liên kết, đầu mối thiết yếu cho quá trình điều tra.

Kết luận

Pháp y kỹ thuật số là một khái niệm mới tại Việt Nam, với một số trung tâm cung cấp dịch vụ nhưng chưa chuyên sâu Trong bối cảnh phát triển nhanh chóng của thời đại 4.0, các cuộc tấn công mạng ngày càng tinh vi, đòi hỏi sự phát triển và am hiểu về pháp y kỹ thuật số để điều tra tội phạm mạng và thu thập bằng chứng Nhu cầu truy vết tội phạm mạng đang trở thành một thách thức cần giải quyết cho các cơ quan, tổ chức và doanh nghiệp, mở ra cơ hội nghề nghiệp lớn cho sinh viên ngành CNTT chưa định hướng tương lai.

Tiêu đề	Tìm Hiểu Công Cụ Bulk-Extractor
Tác giả	Vũ Ngọc Ánh
Người hướng dẫn	TS. Đặng Minh Tuấn
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Công nghệ thông tin
Thể loại	Báo cáo
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	35
Dung lượng	1,3 MB