Cây phân loài và ứng dụng bài toán phân tích đa dạng loài vi sinh vật

Một phần của tài liệu Thuật toán xác định cha chung gần nhất của hai nút trong cây ứng dụng phân tích đa dạng loại vi sinh vật (Trang 63 - 67)

CHƯƠNG III: KẾT QUẢ CÀI ĐẶT VÀ ĐÁNH GIÁ

3.1 Cây phân loài và ứng dụng bài toán phân tích đa dạng loài vi sinh vật

Kết quả chương trình được áp dụng trên tập dữ liệu thực tế thu được từ dự án phân tích đa dạng loài của hệ vi sinh vật trong ruột mối. Bộ dữ liệu trình tự hệ gen hệ vi sinh vật có kích thước là 3.2 tỷ basepair (tương đương 32 tỷ ký tự) thu đƣợc từ thiết bị đọc trình tự thế hệ mới. Toàn bộ dữ liệu trình tự này đƣợc xử lý với quy trình phân tích nhƣ sau:

1. Đánh giá và tinh sạch dữ liệu trình tự thu đƣợc từ thiết bị đọc trình tự.

2. Lắp ráp trình tự để đƣợc các đoạn trình tự dài hơn gọi là contigs 3. Dự đoán cấu trúc gen từ các contigs thu đƣợc

4. Phân tích đa dạng loài vi sinh vật dựa trên thuật toán LCA đã đƣợc trình bày ở trên

Quy trình phân tích và xử lý dữ liệu đƣợc thể hiện qua sơ đồ sau:

Hình 3.1 Quy trình phân tích và xử lý dữ liệu 3.2 Cài đặt phần mềm

Tất cả các phần mềm đều đƣợc cài đặt và ứng dụng trên hệ điều hành Ubuntu phiên bản 14.04 64 bit. Tất cả phần mềm đều đƣợc cài đặt trên máy chủ tính toán hiệu năng cao (Chip Xeon 24 lõi, 198GB RAM, 4TB HDD) do đặc thù dữ liệu lớn (dữ liệu khi phân tích thực tế có thể lên tới hàng TeraByte).

Đánh giá chất lƣợng dữ liệu với FasQC

FastQC là phần mềm tốt nhất hiện nay dành cho việc đánh giá chất lƣợng của dữ liệu từ các thiết bị đọc trình tự thế hệ mới. FastQC đánh giá chất lƣợng dựa trên 11 tiêu chí khác nhau nhƣ là: Chất lƣợng theo từng base, chất lƣợng theo trình tự, phân bố độ dài trình tự, tỉ lệ % của A, T, G, C, tần suất xuất hiện K-mer….

FastQC yêu cầu môi trường Java. Vì vậy để sử dụng được phần mềm người dùng cần cài đặt JRE hoặc JDK cho hệ điều hành trước khi sử dụng công cụ này. Có thể tải FastQC về từ địa chỉ:

liệuDữ

• Đánh giá chất lƣợng dữ liệu

• Phần mềm: FastQC Lắp

ráp

• Lắp ráp trình tự

• Phần mềm: SOAPdenovo đoánDự

• Dự đoán các đoạn ORF có trong data

• Phần mềm: MetageneAnotator

Blast

• So sánh với dữ liệu trên NCBI

• Phần mềm: Blast ++

Phân tích

• Đánh giá đa dạng loài

• Phần mềm: LCA và Megan 5

http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.10.1_

source.zip

Sau khi giải nén và cấp quyền chmod cho file thực thi fasqc bằng lệnh:

chmod 755 fastqc

FastQC cung cấp giao diện đồ họa với các tiêu chí đánh giá chất lƣợng dữ liệu khác nhau. Để chạy giao diện, tại thƣ mục chứa file thực thi, sử dụng lệnh

./fasqc

Ngoài ra, người dùng có thể chạy bằng lệnh (command line)như sau:

./fastqc input_file [option]

Với input_file là tập dữ liệu *.fastq đầu vào

Option là các tùy chọn nâng cao của chương trình.

a. Lắp ráp trình tự với SOAPdenovo

SOAPdenovo là phần mềm lắp ráp trình tự do Viện nghiên cứu hệ gen Bắc Kinh phát triển có ƣu điểm là thời gian lắp ráp ngắn, độ chính xác cao, tuy nhiên nhu cầu sử dụng RAM lại rất lớn, thường thì dung lượng RAM gấp 5 đến 10 lần dung lƣợng dữ liệu cần xử lý tùy vào độ phức tạp của dữ liệu.

Tải mã nguồn của công cụ về từ trang chủ:

http://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/

Sau khi giải nén cần biên dịch mã nguồn của chương trình thành file thực thi. Tại thƣ mục SOAPdenovo, sử dụng lệnh make.

b. Dự đoán gene với MGA

MGA là một trong hai công cụ dự đoán prokaryote gen tốt nhất hiện nay. MGA sử dụng các thuật toán ab initio để dự đoán. Không nhƣ các gen của tế bào nhân thực có cấu trúc phức tạp các gen thuộc loài nhân sơ có cấu trúc đơn giản hơn rất nhiều, chỉ có các START/STOP codon và trình tự mã

hóa protein. Do đó, các phần mềm dự đoán gen theo phương pháp ab initio thường cho kết quả với độ chính xác cao.

Tải công cụ về từ trang chủ:

http://metagene.cb.k.u-tokyo.ac.jp/metagene/download_mga.html ./mga input_file [option<-m/-s>]

Trong đó: input_file: dữ liệu đầu vào định dang fasta Option -m: nhiều loài, -s: đơn loài

Trong thí nghiệm này vì là phân tích đa dang loài nên chúng tôi sử dụng phần mềm mga với lựa chọn là -m

c. BLAST – Đối sánh với ngân hàng gen thế giới

BLAST là bộ công cụ phổ biến và đƣợc dùng nhiều nhất trong lĩnh vực Tin sinh học, công cụ này đƣợc các nhà sinh học sử dụng để truy vấn dữ liệu từ ngân hàng gen thế giới và có mặt trong hầu hết các quy trình xử lý tin sinh học. BLAST đƣợc Trung tâm Công nghệ sinh học Hoa kỳ NCBI phát triển cùng với Ngân hàng gen GenBank. Do nhu cầu sử dụng GenBank và BLAST là rất lớn, máy chủ của NCBI thường xuyên quá tải nên NCBI đã thiết kế sao cho bất kỳ ai cũng có thể download và cài đặt một phiên bản để sử dụng và việc cập nhật dữ liệu khá dễ dàng.

BLAST sử dụng thuật toán gióng cột để tìm ra các đoạn tương đồng giữa trình tự đầu vào (query sequence) với hàng tỷ tỷ trình tự có trong GenBank, đánh giá mức độ tương đồng và độ tin cậy.

Tải công cụ về từ địa chỉ:

ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

Tham số cụ thể nhƣ sau:

blastx -db database -query input.fasta -gapopen 11 -gapextend 11 -evalue 10.e-10 -max_target_seqs 50 -outfmt 5 -out blast-ncbi-output.xml

Trong đó:

Blastx: Với lựa chọn này khi đưa vào một DNA truy vấn, chương trình sẽ trả về các protein gần giống nhất từ cơ sở dữ liệu.

Database: cơ sở dữ liệu sử dụng trong phép so sánh. Cụ thể trong nghiên cứu này chúng tôi sử dụng cở sở dữ liệu là NR

Input.fasta : chuỗi trình tự truy vấn (dữ liệu đầu vào định dang fasta) Max_target_seqs : số lƣợng kết quả tối đa với mỗi trình tự truy vấn, trong thí nghiệm chúng tôi sử dụng là 50.

Outfmt : định dạng file kết quả, trong thí nghiệm này chúng tôi sử dụng dịnh dang dữ liệu đầu ra là *.xml (outfmt=5)

Tải cơ sở dữ liệu từ trang chủ:

ftp://ftp.ncbi.nlm.nih.gov/blast/db/

d. MEGAN

Tải chương trình từ địa chỉ http://ab.inf.uni-

Một phần của tài liệu Thuật toán xác định cha chung gần nhất của hai nút trong cây ứng dụng phân tích đa dạng loại vi sinh vật (Trang 63 - 67)

Tải bản đầy đủ (PDF)

(77 trang)