Nghiên cứu tự động phát hiện điểm mốc trên ảnh cánh côn trùng

GIỚI THIỆU

Lý do chọn đề tài

Trong hình thái học, việc nghiên cứu hình dạng và cấu trúc của sinh vật tập trung vào các điểm mốc có ý nghĩa sinh học, giúp xác định mối quan hệ giữa các cá thể trong quần thể Phát hiện điểm mốc đóng vai trò quan trọng trong lĩnh vực này, với nhiều nghiên cứu ứng dụng như nhận dạng khuôn mặt và biểu cảm, xác định bệnh qua hình ảnh y tế, nhận dạng vân tay, và phân tích điểm mốc trên cánh côn trùng.

Điểm mốc cánh côn trùng thường được đánh dấu bằng tay để nghiên cứu mối quan hệ giữa hình dạng, cấu trúc cánh và các yếu tố môi trường, bệnh lý Những điểm mốc này là giao điểm của các đường gân và mép cánh, đóng vai trò quan trọng trong việc phân loại và thể hiện đặc tính, trạng thái của sinh vật.

Khi số lượng điểm mốc và ảnh tăng lên, việc đánh dấu trở nên tốn nhiều công sức và dễ xảy ra sai sót Do đó, việc tự động hóa quy trình đánh dấu điểm mốc là rất cần thiết.

Nghiên cứu và phân tích hình dạng của vật thể đóng vai trò quan trọng trong ngành sinh học, giúp phân biệt các cá thể trong cùng loài thông qua hình dáng riêng biệt Đối với các nhà sinh vật học và các nhà khoa học, phân tích hình dạng là một phương pháp phổ biến để hiểu rõ hơn về sự đa dạng loài và biến đổi hình thái học.

Nhận diện điểm mốc là một phần quan trọng trong bài toán đoán hình dạng, nơi hệ thống phân tích ảnh đầu vào để xác định các điểm quan trọng trong vùng quan tâm (ROI) Ứng dụng phổ biến của công nghệ này bao gồm xác thực dấu vân tay, nhận diện cảm xúc trên khuôn mặt, và so sánh hai bức ảnh để xác định xem chúng có phải của cùng một người hay không.

Có nhiều cách tiếp cận để giải quyết bài toán phát hiện điểm mốc, từ

Xử lý hình ảnh là một lĩnh vực quan trọng trong học máy, bao gồm cả các phương pháp cổ điển và hiện đại như học sâu Hai phép biến đổi hình thái cơ bản được sử dụng trong xử lý hình ảnh là giãn nở (Dilation) và co (Erosion), giúp cải thiện chất lượng và độ chính xác của các hình ảnh.

Erosion được sử dụng để phân tích và xử lý kết cấu hình học cũng như cấu trúc tôpô, giúp nhận diện sự tương quan giữa các hình dạng vật thể như tính liên thông và tính liên tục Trong Xử lý ảnh, việc tìm đường viền chủ động và thuật toán Khớp mẫu được áp dụng để nhận diện điểm mốc và đo khoảng cách giữa chúng Học máy cổ điển sử dụng các mô hình toán học xác suất như Bayesian, SVM và RF SVM là một thuật toán học máy có giám sát, hiệu quả trong phân loại và hồi quy, có khả năng xử lý nhiều biến liên tục và biến phân lớp RF, hay rừng ngẫu nhiên, là tập hợp các cây quyết định, mỗi cây đóng vai trò là một bộ phân loại, dựa trên các quy tắc phát triển cây và phương pháp tự kiểm tra Các phương pháp Học sâu cung cấp hiệu năng tính toán cao và độ chính xác vượt trội nhờ vào các mô hình mạng nơ-ron sâu được huấn luyện kỹ lưỡng.

Trong lĩnh vực Sinh học, việc ứng dụng Học máy và Học sâu trong nghiên cứu đang ngày càng trở nên quan trọng và cần được khai thác Nhận thức được tầm quan trọng của phân tích hình thái dựa trên điểm mốc, chúng tôi đã tiến hành nghiên cứu nhằm phát hiện điểm mốc hình thái cánh của côn trùng một cách tự động, sử dụng Học sâu, đặc biệt là trên tập dữ liệu hình ảnh cánh của loài ruồi giấm (Drosophila).

Các nghiên cứu liên quan

Several studies have explored the automation of biological shape analysis, including "Landmark detection in 2D bioimages for geometric morphometric: a multi-resolution tree-based approach" by Rémy Vandaele et al., "Automatic identification of landmarks in digital images" by Sasirekha Palaniswamy et al., and "Semi-automated quantitative Drosophila wings measurements" by Sheng Yang and Michael Loh et al Additionally, the work by Sonnenschein et al (2015) presents an image database of Drosophila melanogaster wings for phenomic and biometric analysis, contributing valuable resources to the field.

Trong bài báo đầu tiên, tác giả đã sử dụng tập dữ liệu gồm 100 ảnh hộp sọ, 138 cánh của Drosophila và 113 ảnh cá ngựa Phương pháp của Rémy và cộng sự bao gồm việc lấy mẫu ngẫu nhiên từ 1 đến 15 điểm mốc, với tâm của các điểm này được chọn theo giá trị thực tế, sau đó huấn luyện mô hình phân lớp (SVM hoặc RF) cho từng điểm mốc Để đánh giá khả năng phân lớp, nhóm tác giả đặt ra ngưỡng R; nếu khoảng cách dự đoán của mô hình với một điểm mốc nhỏ hơn R thì được coi là đúng Từ một ROI, tác giả chọn n điểm mốc dựa trên thống kê từ bộ dữ liệu và thực hiện phân lớp, thu được m điểm đúng, với giá trị tọa độ trung bình của các điểm này là điểm dự đoán cuối cùng.

Công trình nghiên cứu của Sasirekha và cộng sự được thực hiện trên

Nghiên cứu này dựa trên 856 bức ảnh cánh Drosophila được thu thập tự nhiên Phương pháp chính được sử dụng là trích xuất các gân cánh, sau đó xấp xỉ các gân này bằng các đoạn và phân tích mối quan hệ giữa chúng thông qua PGH Tiếp theo, PHT được áp dụng để ước tính vị trí và hướng của cánh, cũng như xác định vùng của từng điểm mốc Cuối cùng, các điểm mốc này được so sánh với mẫu để xác định vị trí chính xác.

Nhóm nghiên cứu do Sheng Yang Michael Loh dẫn dắt đã phát triển một hệ thống nhận diện bán tự động các điểm mốc trên 959 cá thể ruồi thuộc 16 loài Drosophila, được thu thập tại kí túc xá Minami-osawa, Tokyo, Nhật Bản Tập dữ liệu hình ảnh mà họ sử dụng rất phong phú và đa dạng.

Hệ thống sử dụng 600 ảnh đen trắng đã được đánh dấu các điểm mốc quan trọng, ký hiệu từ D1 đến D600 Người dùng cần chọn ba điểm mốc cụ thể trên một ảnh cánh ruồi mới chưa đánh dấu Sau khi xác định ba điểm này, thuật toán Khớp mẫu kết hợp với mô hình đường viền chủ động sẽ dò theo các vân trên cánh, tính toán độ dài dây cung và so sánh với tập ảnh 600 để tìm ra các điểm mốc còn lại trên ảnh mới.

Trong bài báo thứ 4 [9], nhóm tác giả đã phân tích 2270 ảnh đen trắng của cánh drosophilia, bao gồm 1135 ảnh cánh trái và 1135 ảnh cánh phải, với các điểm mốc được gán nhãn theo một quy luật cụ thể.

Các nghiên cứu đã cho thấy kết quả khả quan, nhưng độ chính xác vẫn chưa đạt 90% Hiện nay, các mô hình Học sâu đã phát triển mạnh mẽ và mang lại kết quả cao trong nhiều bài toán Vì vậy, tôi đề xuất một phương pháp kỹ thuật sử dụng mô hình Học sâu để tự động nhận diện đối tượng và phát hiện các điểm mốc trên cánh côn trùng Luận văn này sẽ phân tích và so sánh hiệu năng của các mô hình tiêu biểu nhằm lựa chọn ra mô hình tốt nhất.

Quá trình nghiên cứu

Hình thái học (Morphology) nghiên cứu về hình dạng và cấu trúc của sinh vật, trong đó điểm mốc giải phẫu (anatomical landmark) đóng vai trò quan trọng Các điểm mốc này có ý nghĩa sinh học, giúp xác định mối quan hệ giữa các cá thể trong quần thể và mô tả hình dạng cũng như cấu trúc của chúng thông qua những điểm này.

Nghiên cứu về nhận dạng điểm mốc đang được áp dụng rộng rãi trong nhiều lĩnh vực, bao gồm nhận diện khuôn mặt và biểu cảm khuôn mặt, cũng như trong y tế để xác định bệnh Ngoài ra, điểm mốc cũng được sử dụng trong nhận dạng vân tay Tuy nhiên, việc nhận dạng điểm mốc trên cánh côn trùng, đặc biệt là cánh ruồi dấm (Drosophila), vẫn còn hạn chế và cần được nghiên cứu sâu hơn.

Quy trình nhận dạng điểm mốc:

Quy trình nhận dạng điểm mốc bắt đầu bằng việc đưa ảnh cần xác định qua khối tiền xử lý, nơi thực hiện các nhiệm vụ như lọc nhiễu, nối biên và tăng độ tương phản Sau đó, ảnh đã được xử lý sẽ được chuyển đến hệ thống nhận dạng điểm mốc, nơi các khung hình sẽ được phân lớp để xác định điểm mốc chính xác.

Để xác định điểm mốc một cách chính xác, cần chú ý đến 6 đối tượng quan trọng Hệ thống nhận dạng điểm mốc sẽ đánh giá tỷ lệ độ chính xác và độ tin cậy của mỗi lần xác định, từ đó đảm bảo tính hiệu quả trong việc tìm kiếm thông tin.

Có hai phương pháp nhận dạng điểm mốc, điểm đặc trưng

Hình 1 2: Hai phương pháp nhận dạng điểm mốc

Có hai phương pháp chính để trích chọn đặc trưng ảnh: phương pháp thủ công, yêu cầu người dùng chọn điểm đặc trưng, tốn nhiều thời gian và dễ gây sai sót khi số lượng điểm mốc hoặc ảnh lớn; và phương pháp thứ hai sử dụng mô hình học sâu (deep learning) để tự động trích chọn đặc trưng, giúp tăng hiệu suất, rút ngắn thời gian và nâng cao độ chính xác Tuy nhiên, phương pháp học sâu vẫn chưa được áp dụng cho bài toán cánh côn trùng do thiếu hụt dữ liệu lớn.

Vấn đề tồn tại, sự cần thiết:

Còn ít nghiên cứu về nhận dạng điểm mốc hình thái tự động cho cánh côn trùng Mới sử dụng phương pháp Handcrated feature trên cánh ruồi dấm

(drosophila) Nghiên cứu cho kết quả tốt nhất hiện nay (Vandaela et al.,

2018) có tốc độ thấp Mô hình học sâu chưa áp dụng cho cánh côn trùng do thiếu dữ liệu, các phương pháp nhận dạng đều hướng dữ liệu

Mục tiêu của luận văn: Là ‘nghiên cứu tự động phát hiện điểm mốc trên ảnh cánh côn trùng’ mục đích

Nâng cao độ chính xác: Lựa chọn phương pháp dò điểm mốc ứng viên, trích chọn đặc trưng và phân loại phù hợp, áp dụng mô hình học sâu

Cải thiện tốc độ nhận dạng: Lựa chọn tập đặc trưng hiệu quả hơn, giảm số lượng điểm mốc ứng viên cần nhận dạng

Mục đích, đối tượng, phạm vi nghiên cứu

Trong luận văn này, tôi sẽ trình bày một phương pháp kỹ thuật sử dụng các mô hình Học sâu Nhận diện đối tượng nhằm tự động phát hiện các điểm mốc cánh côn trùng Báo cáo sẽ phân tích và so sánh hiệu năng của các mô hình tiêu biểu để xác định mô hình tốt nhất cho nhiệm vụ này.

Tóm tắt các luận điểm và đóng góp của tác giả

Trong luận văn này, tôi nghiên cứu về việc tự động phát hiện điểm mốc trên ảnh cánh côn trùng Một số luận điểm và đóng góp chính của nghiên cứu bao gồm việc cải thiện độ chính xác trong việc xác định các điểm mốc, ứng dụng công nghệ học máy và phát triển các phương pháp mới để phân tích hình ảnh cánh côn trùng.

- Nghiên cứu tổng quan bài toán Nhận diện đối tượng và chi tiết các mạng nhận dạng Học sâu

Nghiên cứu thực nghiệm sẽ được trình bày với các kết quả và đánh giá cụ thể Phần này sẽ đề cập đến tập dữ liệu cũng như quy trình huấn luyện và kiểm định các mô hình Hơn nữa, hiệu năng và độ chính xác của các mô hình Học sâu sẽ được làm rõ thông qua các thí nghiệm thực tế.

- Nghiên cứu tổng kết công việc đã thực hiện, bàn luận về hạn chế của đề tài và hướng nghiên cứu tương lai

Trong luận văn này, phương pháp nghiên cứu sử dụng dựa trên:

- Nghiên cứu tổng quan về bài toán nhận dạng điểm mốc cánh côn trùng;

- Nghiên cứu phương pháp đánh giá mô hình Học sâu;

Nghiên cứu các mạng nhận dạng Học sâu, trong đó có một số khái niệm và thuật toán thường dùng, cấu trúc các mạng backbone trong Học sâu

Cấu trúc của luận án

Luận án được tổ chức như sau: Chương 1 là giới thiệu đề tài Chương

Chương 2 trình bày phương pháp nghiên cứu, bao gồm tổng quan về bài toán Nhận diện đối tượng và các mạng nhận dạng Học sâu Chương 3 tập trung vào thực nghiệm, kết quả và đánh giá, với nội dung về tập dữ liệu, quá trình huấn luyện và kiểm định các mô hình, đồng thời làm rõ hiệu năng và độ chính xác của các mô hình Học sâu thông qua thí nghiệm Cuối cùng, chương 4 tổng kết công việc đã thực hiện, thảo luận về những hạn chế của đề tài và đề xuất hướng nghiên cứu trong tương lai.

PHƯƠNG PHÁP NGHIÊN CỨU

Tổng quan bài toán và phương pháp Học Sâu

Bài toán nhận dạng điểm mốc cánh côn trùng được mô tả như sau: cho một ảnh kỹ thuật số dưới dạng ma trận I có kích thước w x h, trong đó w là chiều rộng và h là chiều cao Các thành phần của ma trận I có thể là giá trị nguyên trong khoảng [0, 255] cho ảnh đơn sắc, hoặc là bộ ba giá trị nguyên [0, 255] tương ứng với các màu đỏ (R), xanh lá (G), và xanh dương (B) đối với ảnh màu Mục tiêu là xác định tọa độ của n điểm mốc LMi (xi, yi) với 0 ≤ i ≤ n, trong đó xi nằm trong khoảng (0, w) và yi nằm trong khoảng (0, h).

Hình 2 1: Khung chữ nhật bao quanh các điểm mốc được nhận diện

Mục tiêu của nghiên cứu này là phát triển một phương pháp tự động hóa bài toán nhận dạng bằng cách áp dụng Học sâu Các mạng học sâu hiện nay đã đạt được hiệu quả cao trong việc nhận dạng, với đầu ra là các khung chữ nhật (bounding box) Nghiên cứu này tập trung vào việc sử dụng kết quả từ các mạng nhận dạng, coi tâm của các khung chữ nhật phát hiện được là tọa độ của các điểm mốc.

2.1.2 Giới thiệu về Học Sâu (Machine Learning)

Machine learning đã tạo ra một cơn sốt công nghệ toàn cầu trong những năm gần đây, với hàng ngàn bài báo khoa học được công bố hàng năm trong giới học thuật Các công ty lớn như Google, Facebook, và Microsoft, cùng với nhiều startup, đều đầu tư mạnh mẽ vào lĩnh vực này Ứng dụng của machine learning ngày càng phong phú, từ khoa học máy tính đến các lĩnh vực như vật lý, hóa học, y học và chính trị AlphaGo, cỗ máy đánh cờ vây với khả năng tính toán vượt trội, là một ví dụ điển hình cho sự ưu việt của machine learning so với các phương pháp truyền thống.

AI là mục tiêu cuối cùng của con người, trong khi machine learning là công cụ hỗ trợ để đạt được mục tiêu đó Machine learning đã giúp nhân loại tiến xa trong hành trình chinh phục AI, nhưng vẫn còn nhiều thách thức phía trước Mối quan hệ giữa machine learning và AI là chặt chẽ nhưng không hoàn toàn trùng khớp, vì AI là đích đến còn machine learning là phương tiện Dù chinh phục AI là mục tiêu tối thượng, machine learning hiện tại đang tập trung vào những mục tiêu ngắn hạn hơn.

Làm cho máy tính có những khả năng nhận thức cơ bản của con người như nghe, nhìn, hiểu được ngôn ngữ, giải toán, lập trình, …

Hỗ trợ con người trong việc xử lý một khối lượng thông tin khổng lồ mà chúng ta phải đối mặt hàng ngày, hay còn gọi là Big Data

Big Data không phải là một ngành khoa học chính thống, mà là một thuật ngữ phổ biến được giới truyền thông sử dụng để mô tả sự bùng nổ dữ liệu hiện nay Khái niệm này tương tự như "cách mạng công nghiệp" hay "kỷ nguyên phần mềm" Big Data xuất phát từ sự gia tăng kết nối trên mạng Internet, phản ánh sự phát triển không ngừng của công nghệ thông tin.

Sự ra đời của các mạng xã hội như Facebook, Instagram và Twitter đã thúc đẩy nhu cầu chia sẻ thông tin của con người tăng trưởng nhanh chóng Ngoài ra, Youtube cũng đóng vai trò là một mạng xã hội, nơi người dùng có thể chia sẻ video và bình luận về nội dung mà họ xem.

Phương pháp đánh giá mô hình

Mô hình Học sâu nhận diện đối tượng sẽ đưa ra nhiều dự đoán cho mỗi ảnh, kèm theo các độ chắc chắn khác nhau Chúng tôi chỉ chọn dự đoán có độ chắc chắn cao nhất cho từng loại điểm mốc Trong nhận dạng, IOU (Intersection Over Union) là hàm đánh giá độ chính xác của mô hình trên tập dữ liệu cụ thể.

Diện tích giao nhau (Area of Overlap) là phần diện tích chung giữa khung chữ nhật dự đoán và khung chữ nhật thực tế, trong khi diện tích hợp nhất (Area of Union) là tổng diện tích của cả hai khung chữ nhật này Các khung chữ nhật được gán nhãn thủ công trong quá trình huấn luyện và kiểm định Nếu chỉ số IOU (Intersection over Union) lớn hơn 0.5, điều này cho thấy khả năng dự đoán là tốt.

Trong bài toán nhận diện điểm mốc, do điểm mốc không có kích thước, chúng ta chỉ chú trọng vào tọa độ của nó Để đánh giá độ chính xác của một lần dự đoán, thay vì sử dụng chỉ số IOU, chúng tôi tập trung vào khoảng cách từ tâm khung chữ nhật được nhận dạng đến vị trí của điểm mốc.

Khoảng cách từ tâm khung chữ nhật dự đoán đến điểm mốc thực tế được gọi là r Nếu r nhỏ hơn ngưỡng R thres, mô hình được coi là nhận diện chính xác Ngưỡng R thres được xác định dựa trên kích thước ảnh của bộ dữ liệu.

Chất lượng mô hình được đánh giá qua tỷ lệ độ chính xác, tính bằng số lượng ảnh có điểm mốc nhận diện chính xác chia cho tổng số ảnh đã kiểm tra.

Các mạng nhận dạng Học sâu

2.3.1 Một số khái niệm và thuật ngữ thường dùng

2.3.1.1 Trích xuất đặc trưng a) Khái niệm:

Trong học máy, trích xuất đặc trưng là quá trình chọn lọc các giá trị có ý nghĩa từ dữ liệu đã đo đạc, giúp loại bỏ thông tin thừa thãi Việc này tạo điều kiện thuận lợi cho các bước học tập và khái quát hóa của máy Đặc biệt, trong một số trường hợp, máy tính có khả năng diễn giải về đối tượng quan tâm tốt hơn cả con người Sự quan trọng của trích xuất đặc trưng không chỉ nằm ở việc tối ưu hóa dữ liệu mà còn nâng cao hiệu quả của các thuật toán học máy.

Trích xuất đặc trưng từ dữ liệu đầu vào là một bước quan trọng giúp nâng cao độ chính xác của mô hình đào tạo Giai đoạn này giảm số chiều của dữ liệu bằng cách loại bỏ thông tin dư thừa, từ đó cải thiện khả năng trực quan hóa, đặc biệt là với các tập dữ liệu phức tạp, khi có thể hiển thị dễ dàng trong hai hoặc ba chiều Điều này không chỉ tăng tốc độ huấn luyện mà còn cải thiện tốc độ suy luận của mô hình Bằng cách kết hợp và biến đổi các đặc trưng ban đầu, trích xuất đặc trưng tạo ra những đặc trưng mới có giá trị hơn, với các dạng thường thấy trong dữ liệu ảnh như màu sắc, hình dạng, kết cấu và giá trị pixel.

Trích xuất đặc trưng có nhiều ứng dụng quan trọng, bao gồm phân tích ngữ nghĩa tiềm ẩn, nén dữ liệu, phân tích và chiếu dữ liệu, cũng như nhận diện mẫu Ngoài ra, quá trình này còn giúp tăng cường tốc độ và hiệu quả của việc học có giám sát.

Thị giác máy tính là một lĩnh vực quan trọng trong Trí tuệ nhân tạo, bao gồm các phương pháp thu nhận và xử lý ảnh kỹ thuật số, phân tích và nhận dạng hình ảnh, phát hiện đối tượng, tạo ảnh và tăng cường độ phân giải.

Nhận diện đối tượng là một nhiệm vụ quan trọng trong Thị giác máy tính, nhằm tự động xác định vị trí của các đối tượng trong ảnh đầu vào Công việc này bao gồm việc vẽ khung chữ nhật xung quanh các vật thể cần nhận diện và gán nhãn cho chúng một cách chính xác.

Hình 2 3: Ví dụ về nhận diện đối tượng

2.3.2 Cấu trúc các mạng backbone trong Học sâu

2.3.2.1 Faster R-CNN a) R-CNN (Region with CNN feature) Ý tưởng thuật toán R-CNN khá đơn giản

Bước đầu tiên là sử dụng thuật toán tìm kiếm chọn lọc để xác định khoảng 2000 bounding box trong đầu vào, có khả năng chứa đối tượng Hình ảnh được phân tích thông qua thuật toán phân đoạn hình ảnh dựa trên đồ thị.

Bước 2: Đối với mỗi bounding box, chúng ta xác định loại đối tượng (như người, ô tô, xe đạp,…) và điều chỉnh các khu vực đề xuất về cùng kích thước Sau đó, tiến hành huấn luyện với feature extractor Đầu tiên, ảnh được phân tích thông qua thuật toán phân đoạn hình ảnh dựa trên đồ thị.

Thuật toán tìm kiếm chọn lọc cho phân hình ảnh màu đầu vào, tạo ra khoảng 2000 vùng đề xuất có khả năng chứa đối tượng Quá trình bắt đầu bằng việc phân đoạn hình ảnh dựa trên lý thuyết đồ thị, không sử dụng deep learning Do mỗi đối tượng có thể chứa nhiều màu sắc và có thể bị che khuất, nên không thể đơn giản sử dụng từng màu để tạo vùng đề xuất Thay vào đó, các vùng màu được nhóm lại dựa trên độ tương đồng về màu sắc, hướng gradient và kích thước Cuối cùng, các vùng đề xuất được xác định từ những nhóm màu này.

Hình 2 5: Phân loại khung hình đề xuất khu vực R-CNN

Thuật toán tìm kiếm hiện tại đề xuất tới 2000 khu vực, nhưng nhiều trong số đó không chứa đối tượng nào, do đó cần thêm một lớp nền (background) không có đối tượng Ví dụ, trong hình 2.5, chúng ta có 4 khu vực đề xuất và sẽ phân loại mỗi bounding box thành người, ngựa hoặc background Các khu vực đề xuất này sau đó được điều chỉnh về cùng kích thước và huấn luyện với bộ trích xuất đặc trưng (feature extractor) Các đặc trưng đã trích xuất sẽ được đưa vào thuật toán SVM để phân loại hình ảnh Đồng thời, các đặc trưng này cũng được sử dụng để dự đoán 4 giá trị bù đắp cho mỗi cạnh, giúp mở rộng khu vực đề xuất, ví dụ như khi chỉ có phần thân và nửa mặt của người trong khu vực đề xuất.

R-CNN đã từng là một bước tiến lớn trong lĩnh vực computer vision nhờ vào việc sử dụng CNN, nhưng nó vẫn gặp nhiều hạn chế Cụ thể, thuật toán yêu cầu phân loại các lớp cho 2000 khu vực đề xuất trong mỗi ảnh, dẫn đến thời gian huấn luyện kéo dài Hơn nữa, R-CNN không thể được áp dụng cho các ứng dụng thời gian thực, khi mỗi ảnh trong tập kiểm tra cần tới 47 giây để xử lý.

Khoảng 1.5 năm sau đó, Fast R-CNN được giới thiệu bởi cùng tác giả của R-CNN, nó giải quyết được một số hạn chế R-CNN để cải thiện tốc độ b) Fast R-CNN

Tương tự như R-CNN thì Fast R-CNN vẫn dùng thuật toán tìm kiếm chọn lọc để lấy ra các khu vực đề xuất Tuy nhiên là nó không tách 2000

Fast R-CNN sử dụng ConvNet để xử lý toàn bộ bức ảnh, từ đó tạo ra bản đồ đối tượng khu vực Sau đó, các khu vực đề xuất sẽ được trích xuất tương ứng từ bản đồ này để thực hiện bài toán phân loại hình ảnh cho từng ảnh.

Hình 2 6: Kiến trúc của Fast R-CNN

Các khu vực đề xuất (FCs) được sử dụng để dự đoán lớp và xác định giá trị bù đắp cho khung hình Tuy nhiên, kích thước của các khu vực này khác nhau, dẫn đến việc FCs tạo ra các vector có kích thước không đồng nhất, gây khó khăn trong việc áp dụng mạng nơ ron Trong R-CNN, các khu vực đề xuất được resize về cùng kích thước trước khi thực hiện transfer learning Tuy nhiên, với tính năng bản đồ khu vực, việc resize không khả thi, do đó cần một giải pháp khác để chuyển các khu vực đề xuất về cùng kích thước, và từ đó, kỹ thuật ROI pooling đã ra đời.

ROI pooling là một loại lớp pooling đặc biệt, khác biệt so với max pooling và average pooling ở chỗ nó luôn tạo ra đầu ra có kích thước cố định đã được xác định trước, bất kể kích thước của tensor đầu vào.

Fast R-CNN cải tiến quy trình so với R-CNN bằng cách thực hiện tính năng bản đồ khu vực trên toàn bộ ảnh trước khi lấy các khu vực đề xuất, trong khi R-CNN tách các khu vực đề xuất trước rồi mới phân loại Nhờ vào cách tiếp cận này, Fast R-CNN đạt được hiệu suất nhanh hơn đáng kể nhờ tối ưu hóa quá trình tính toán.

Hình 2 7: So sánh training time, test time giữa R-CNN và Fast R-CNN

THỰC NGHIỆM, KẾT QUẢ VÀ ĐÁNH GIÁ

Tập dữ liệu

Tôi đã thu thập tập dữ liệu cánh ruồi giấm Drosophila từ các nghiên cứu trước đây để làm tiêu chuẩn đánh giá và so sánh kết quả của đề tài với những nghiên cứu đã tồn tại.

Theo báo cáo của Rémy và cộng sự trên tạp chí Nature, cơ sở dữ liệu về cánh Drosophila chứa nhiều hình ảnh cánh ruồi giấm chất lượng cao, đi kèm với các biến thể sinh học và kỹ thuật Biến thể sinh học bao gồm 4 kiểu gen đột biến trong điều kiện hoang dã của Samarkand, cùng với thông tin về giới tính và bản thân từng cá thể ruồi, bao gồm cả cánh trái và phải.

Bảng 3 1: Thông tin về gen alen của Drosophila

Tên kiểu gen Kí hiệu Gen alen

Epidermal growth factor receptor Egfr P{lacW}Egfr k05115 mastermind Mam P{SUPor-P}mam kG02641

Star S P{SUPor-P}mam kG02641 thickveins tkv P{SUPor-P}tkv KG01923

Có từ 100 đến 130 mẫu riêng lẻ cho mỗi sự kết hợp của các biến thể sinh học Bộ dữ liệu chứa các kiểu gen đột biến mất chức năng dị hợp tử đối với các gen mã hóa thụ thể yếu tố tăng trưởng biểu bì (Egfr), mastermind (mam), Star (S) và thickveins (tkv) Các nghiên cứu trước đây cho thấy rằng các đột biến gen dị hợp tử trong tập dữ liệu này có ảnh hưởng định lượng đa dạng đến hình dạng cánh.

Hình 3 1: Dữ liệu ảnh cánh ruồi giấm Drosophila thu thập được ở [7]

In the study by Sonnenschein et al (2015), a comprehensive image database of Drosophila melanogaster wings was created for phenomic and biometric analysis, consisting of 1,135 black-and-white images of the left wings and 1,135 images of the right wings from each individual fly.

Hình 3 2: Dữ liệu ảnh cánh ruồi giấm Drosophila thu thập được ở [9]

Trong bộ dữ liệu này, các điểm mốc không tuân theo quy luật như trong bài báo số [7] Vì vậy, tôi đã tự gán nhãn thủ công 15 điểm mốc cho 1035 cánh phải đen trắng được thu nhận từ tập dữ liệu của bài báo [9], dựa trên hình ảnh từ bài báo số [7] để làm tiêu chuẩn thực nghiệm so sánh.

Hình 3 3: Ảnh bên trái được gán nhãn 15 điển mốc bằng tay theo bên phải

Mỗi mẫu ảnh bao gồm một cánh, được chụp bằng camera điện tử trong điều kiện tiêu chuẩn và lưu dưới định dạng đồ họa raster TIF Tệp TPS đi kèm chỉ ra vị trí các điểm mốc trong ảnh, được gán nhãn thủ công bằng phần mềm TPsDig2 ver2.31 Nội dung của file TPS được chia thành ba phần.

1 “LM = 15”: số điểm mốc (Landmark) trong bức ảnh

2 “X Y”: cặp tọa độ (X, Y) theo pixel của các điểm mốc

3 “IMAGE = ”: tên file ảnh tương ứng

Hình 3 4: Quá trình gán nhãn thủ công bằng phần mềm TpsDig2 ver2.31

Trong nghiên cứu này, chúng tôi sử dụng công nghệ Nhận diện điểm mốc dựa trên Học sâu để phân tích ảnh cánh phải Bộ dữ liệu ảnh cánh phải được áp dụng trong quá trình nghiên cứu này.

1035 được gán nhãn thủ công 15 điểm mốc

Thực nghiệm

Công tác chuẩn bị dữ liệu cho mô hình Học sâu bao gồm việc chia bộ dữ liệu ảnh đen trắng 1.035 cánh phải ruồi giấm theo tỷ lệ 4:1 để phục vụ cho quá trình đào tạo và kiểm tra độ chính xác của mô hình Đoạn mã dùng để chia ngẫu nhiên bộ dữ liệu này được viết bằng ngôn ngữ Python bởi tác giả Aishwarya Malgonde (xem Phụ lục B).

Các khung phần mềm phổ biến hiện nay cho tác vụ nhận diện vật thể bao gồm Weka, Darknet, Caffe và Tensorflow Trong số đó, Tensorflow nổi bật nhất nhờ vào sự phát triển và cập nhật liên tục từ Google Tensorflow cung cấp nhiều mô hình Học sâu đã được huấn luyện sẵn trên các bộ dữ liệu lớn như COCO, Kitti, Open Images và AVA v2.1, bao gồm cả mạng Faster R-CNN Inception.

Faster R-CNN ResNet, SSD MobileNet, SSD Inception, SSD ResNet,…

In this study, I selected the most reliable models to represent three families of object detection algorithms: Faster R-CNN, SSD, and YOLO The chosen models for experimentation include Faster R-CNN Inception ResNet v2 Atrous, SSD MobileNet v1 FPN COCO, and YOLOv3.

3.2.1 Tiền xử lý Để có thể huấn luyện được mô hình phân loại vật thể bằng Tensorflow Object Detection API, việc chuyển đổi file chứa giá trị thật dữ liệu từ định dạng TPS sang định dạng XML là rất quan trọng và hết sức cần thiết Đồng thời, để chuẩn hóa ảnh làm đầu vào huấn luyện mô hình Tensorflow, ảnh dưới định dạng TIF phải chuyển đổi thành JPG Để thực hiện được quá trình chuẩn hóa ảnh đầu vào huấn luyện mô hình Tensorflow tôi sử dụng Python để xây dựng một đoạn script ngắn cho hai phần việc này đảm bảo yêu cầu chuẩn hóa ảnh đầu vào huấn luyện (xem Phụ lục A)

Quá trình nghiên cứu thực hiện đào tạo hai mô hình Faster R-CNN, SSD riêng biệt theo hướng dẫn sử dụng của Tensorflow và YOLO của Darknet

Cấu hình máy tính tôi sử dụng để thực hiện Huấn luyện mô hình:

• GPU: NVIDIA® GeForce™ RTX 2070 8GB

Quá trình huấn luyện Faster R-CNN, SSD theo Tensorflow và

YOLO theo Darknet có chỉ số hàm Losses gần như không giảm thì cho thấy sự hội tụ của mạng khi huấn luyện tìm kiếm 15 điểm đặc trưng

Hình 3 5: Quá trình huấn luyện Faster R-CNN theo Tensorflow

Hình 3 6: Quá trình huấn luyện SSD theo Tensorflow

Hình 3 7: Quá trình huấn luyện YOLO theo Darknet

Sau khi hoàn tất quá trình huấn luyện, chúng tôi đã xuất tệp đồ thị suy luận dựa trên các checkpoint trong quá trình đào tạo mô hình Tiếp theo, chúng tôi tiến hành kiểm thử các mô hình trên ảnh thuộc tập kiểm định.

Quá trình kiểm thử các mô hình học sâu đã được huấn luyện sẽ xác định các điểm mốc cho từng ảnh trong tập kiểm thử, đồng thời cung cấp các thông số liên quan đến độ tin cậy của các phán đoán.

Độ tin cậy thấp không cho phép nhận diện điểm mốc, trong khi độ tin cậy cao có khả năng nhận diện chính xác điểm mốc và đưa ra phán đoán đúng khi r < Rthres, cũng như phán đoán sai khi r ≥ Rthres.

Hệ thống mô hình học sâu sẽ báo cáo tỉ lệ phán đoán nhận diện từng điểm mốc trong ảnh kiểm thử, lưu lại và phân loại các điểm mốc có được nhận diện hay không Khi nhận diện thành công, hệ thống cũng xác định độ chính xác của từng điểm mốc Dưới đây là hình ảnh minh họa quá trình kiểm thử và kết quả đạt được.

Hình 3 8: Kết quả kiểm thử từng ảnh của mạng Faster R-CNN và SSD

Hình 3 9: Kết quả kiểm thử từng ảnh của mạng YOLO

Kết quả của việc này sẽ được đề cập chi tiết trong các bảng ở phần bên dưới.

Kết quả

Để đánh giá độ chính xác của mô hình, nhóm nghiên cứu tập trung vào khoảng cách từ tâm khung chữ nhật dự đoán đến vị trí thực của điểm mốc, do đặc điểm của điểm mốc không có kích thước.

Trong quá trình thực nghiệm, khoảng cách nhỏ nhất giữa các điểm mốc trong tập dữ liệu được đo là 30 pixel Do đó, việc chọn ngưỡng 9 pixel là hợp lý để phân biệt hai điểm mốc.

36 gần nhau bằng mắt thường Do đó, tôi đã lựa chọn R thres = 9 cho công tác kiểm định độ chính xác

Bảng 3 2: Kết quả đánh giá của mô hình Faster R-CNN Điểm mốc Đúng (r<

Không nhận diện Độ chính xác (%)

Bảng 3 3: Kết quả đánh giá của mô hình SSD Điểm mốc Đúng (r<

Bảng 3 4: Kết quả đánh giá của mô hình YOLO Điểm mốc Đúng (r<

39 Độ chính xác của các họ mô hình sử dụng trong thí nghiệm của chúng tôi được mô tả theo biểu đồ cột trong Hình 2.8

Hình 3 10: So sánh độ chính xác của các mô hình nhận diện

Đánh giá

Các bảng dữ liệu 3.2, 3.3, 3.4 chỉ ra rằng các mô hình nhận diện đạt kết quả tốt, trong đó mô hình Faster R-CNN có độ chính xác cao nhất với khoảng 90.3% Nguyên nhân là do mô hình này được chia thành hai mạng riêng biệt: một để đề xuất các vùng và một để phân loại Mặc dù các mô hình SSD và YOLO cũng có chất lượng khá, nhưng chúng chỉ thua mô hình Faster R-CNN một chút Tuy nhiên, SSD và YOLO có tốc độ xử lý nhanh hơn vì chỉ sử dụng một giai đoạn trong mạng.

Các nghiên cứu trước đây đã chỉ ra kết quả khả quan nhưng chưa đạt độ chính xác 90% Thông qua thực nghiệm trong luận văn, mô hình Faster R-CNN đã đạt độ chính xác 90,3% Vì vậy, việc áp dụng các mô hình Học sâu để tự động phát hiện các điểm mốc cánh côn trùng là rất cần thiết.

100 Độ chính xác trung bình của các mô hình nhận diện vật thể

Faster R-CNN Inception V2 PETSSSD MobileNet V1 FPNYolo V3

Tiêu đề	Nghiên cứu tự động phát hiện điểm mốc trên ảnh cánh côn trùng
Tác giả	Ngô Xuân Quang
Người hướng dẫn	TS. Võ Lê Cường, TS. Nguyễn Hoàng Hà
Trường học	Đại học Bách Khoa Hà Nội
Chuyên ngành	Kỹ thuật Điện tử
Thể loại	luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	56
Dung lượng	1,83 MB