Ứng dụng mạng học sâu cho nhận biết bệnh cây bằng việc phân loại ảnh lá Ứng dụng mạng học sâu cho nhận biết bệnh cây bằng việc phân loại ảnh lá Ứng dụng mạng học sâu cho nhận biết bệnh cây bằng việc phân loại ảnh lá Ứng dụng mạng học sâu cho nhận biết bệnh cây bằng việc phân loại ảnh lá
TỔNG QUAN
Đặt vấn đề
Trong nông nghiệp, sâu bệnh là mối đe dọa lớn đối với sự phát triển của cây trồng và lưu trữ sản phẩm nông nghiệp Việc nhận diện sâu bệnh bằng mắt thường đòi hỏi thời gian dài và không có biện pháp xử lý kịp thời, dẫn đến ảnh hưởng tiêu cực đến năng suất Gần đây, sự phát triển của công nghệ phần mềm đã thúc đẩy ứng dụng kỹ thuật cao trong sản xuất nông nghiệp, cho phép truy cập hình ảnh sâu bệnh dễ dàng hơn Các thuật toán học máy truyền thống như mạng nơ-ron hay máy vectơ hỗ trợ thường tốn thời gian do yêu cầu trích xuất tính năng thủ công Tuy nhiên, phương pháp học sâu với mạng Nơ-ron tích chập (CNN) đang cho thấy tiềm năng lớn trong việc phân loại bệnh cây Đề tài “Ứng dụng mạng học sâu cho nhận biết bệnh cây bằng việc phân loại ảnh lá” nhằm cải thiện hiệu quả nhận diện bệnh, giúp nông dân chủ động hơn trong việc ngăn ngừa và xử lý kịp thời, từ đó bảo vệ năng suất cây trồng.
1.2 Các nghiên cứu được công bố
Nhận diện bệnh cây thông qua phân loại hình ảnh lá đang thu hút sự chú ý của nhiều nhà nghiên cứu Hiện nay, nhiều mô hình và thuật toán tiên tiến đã được phát triển trên toàn cầu để cải thiện khả năng phát hiện và chẩn đoán bệnh cây.
Hai phương pháp đã được đề xuất để giải quyết bài toán phát hiện và chẩn đoán bệnh trên cây trồng Dr Neha Mangla và cộng sự đã xây dựng hệ thống dựa trên máy Vectơ hỗ trợ (SVM) để nhận diện bệnh trên lá lúa, qua các bước tiền xử lý hình ảnh, phân đoạn, trích đặc trưng và cuối cùng là phân loại Nhiều nghiên cứu hiện nay cũng áp dụng mạng CNN cho việc nhận biết bệnh cây qua hình ảnh lá Melike Sardogan và cộng sự đã sử dụng mô hình mạng Nơron tích chập CNN kết hợp với phương pháp lượng tử hóa vector LVQ để phát hiện bệnh trên lá cà chua, với tập dữ liệu gồm 500 ảnh và bốn triệu chứng Serawork Wallelign và cộng sự đã phát triển mô hình CNN dựa trên kiến trúc LeNet để phân loại bệnh trên cây đậu tương, với tập ảnh 12.673 mẫu và đạt kết quả phân loại 99,32%.
Hệ thống nhận diện bệnh cây được xây dựng dựa trên việc phân loại ảnh lá bằng phương pháp mạng nơ-ron tích chập CNN-VGG16 Hệ thống này có khả năng phân loại 8 loại lá bệnh trên cây cà chua với hiệu suất phân loại cao.
1.4 Nhiệm vụ và giới hạn
Thu thập dữ liệu gồm tập ảnh lá bệnh của các loại cây trên Website
Tiền xử lý ảnh (định lại kích cỡ ảnh, tăng cường hình ảnh, chuẩn hóa ảnh)
Trình bày tóm tắt các phương pháp phân loại lá bệnh trên cây trồng để làm cơ sở nghiên cứu cho luận văn
Thực hiện huấn luyện và phân loại bệnh cây sử dụng mạng Nơ-ron tích chập
Viết code cho mô phỏng thuật toán dùng phần mềm Matlab 2019a
Nghiên cứu mạng nơ-ron tích chập nhằm huấn luyện và phân loại nhiều loại bệnh khác nhau, từ đó đánh giá hiệu suất để xác định mô hình tối ưu nhất.
Viết luận văn, trình bày kết quả đạt được
Dựa trên kết quả đạt được đưa ra hướng phát triển cho luận văn
Trong nông nghiệp, sự đa dạng cây trồng đi kèm với nhiều dạng bệnh lá khác nhau Bài viết này tập trung vào tám loại bệnh lá trên cây cà chua, bao gồm: bệnh đốm vi khuẩn (Bacterial-spot), bệnh bạc lá sớm (Early-blight), lá khỏe (Healthy), bệnh bạc lá muộn (Late-blight), bệnh đốm lá nâu (Septoria-leaf-spot), bệnh nhện ve hai đốm (Two-spotted-spider-mites), bệnh điểm mục tiêu (Target-spot) và bệnh vàng xoắn lá (Yellow-leaf-curl-virus).
Tập ảnh thu thập trên website thông qua tập dữ liệu PlantVillage, chưa tự thu thập được các hình ảnh chụp từ thực tế
Nghiên cứu và thu thập tài liệu từ các bài báo trong và ngoài nước về nhận biết bệnh cây thông qua phân loại ảnh lá, bao gồm các nguồn từ các tạp chí khoa học, IEEE, Springer và các diễn đàn trí tuệ nhân tạo AI tại Việt Nam Đặc biệt, bài viết tập trung vào ứng dụng của mạng học sâu trong việc phân loại bệnh cây, sử dụng lập trình Matlab để phát triển các giải pháp hiệu quả.
Phân tích, tổng hợp, mô phỏng trên phần mềm Matlab 2019a để đưa ra kết quả, phân tích, đánh giá và kết luận
Luận văn được trình bày thành 5 chương
Chương I: Tổng quan Đặt vấn đề, trình bày khái quát về lĩnh vực nghiên cứu, tầm quan trọng của lĩnh vực nghiên cứu Từ đó, tác giả đưa ra những mục tiêu và nhiệm vụ cụ thể trong đề tài
Chương II: Cơ sở lý thuyết
Bài viết này tóm tắt các phương pháp nhận biết bệnh cây thông qua việc phân loại ảnh lá, đồng thời giới thiệu các thuật toán phân loại ảnh lá hiện đang được áp dụng Các phương pháp này giúp phát hiện sớm các bệnh trên cây trồng, từ đó nâng cao hiệu quả quản lý và bảo vệ cây trồng Việc sử dụng công nghệ phân tích hình ảnh và các thuật toán học máy đang trở thành xu hướng nổi bật trong nông nghiệp thông minh, góp phần cải thiện năng suất và chất lượng cây trồng.
Chương III: Phương pháp nhận biết bệnh cây bằng việc phân loại ảnh lá sử dụng mạng Nơ-ron tích chập
Mô hình mạng Nơ-ron tích chập VGG-16 được cấu trúc với nhiều lớp, trong đó có các lớp tích chập và lớp hoàn toàn kết nối, cho phép xử lý và phân loại hình ảnh hiệu quả Phương pháp tính toán kích thước và các tham số ở từng lớp mạng giúp tối ưu hóa hiệu suất của mô hình Quá trình huấn luyện mạng được thực hiện thông qua các thuật toán tối ưu hóa, nhằm nâng cao độ chính xác trong việc nhận biết bệnh cây bằng cách phân loại ảnh lá.
Chương IV: Kết quả và thảo luận
Kết quả của quá trình huấn luyện và phân loại ảnh lá giúp nhận diện bệnh cây Luận văn cũng đánh giá hiệu suất của mô hình so với các mô hình mạng khác.
Chương V: Kết luận và hướng phát triển
Trình bày những phương pháp, nội dung đã thực hiện được, đề ra hướng phát triển tiếp theo giúp cho luận văn đạt được hiệu quả tốt hơn.
Mục tiêu
Hệ thống nhận biết bệnh cây được xây dựng dựa trên việc phân loại ảnh lá bằng phương pháp mạng nơ-ron tích chập CNN-VGG16 Hệ thống này có khả năng phân loại 8 loại lá bệnh trên cây cà chua với hiệu suất phân loại cao.
Nhiệm vụ và giới hạn
Thu thập dữ liệu gồm tập ảnh lá bệnh của các loại cây trên Website
Tiền xử lý ảnh (định lại kích cỡ ảnh, tăng cường hình ảnh, chuẩn hóa ảnh)
Trình bày tóm tắt các phương pháp phân loại lá bệnh trên cây trồng để làm cơ sở nghiên cứu cho luận văn
Thực hiện huấn luyện và phân loại bệnh cây sử dụng mạng Nơ-ron tích chập
Viết code cho mô phỏng thuật toán dùng phần mềm Matlab 2019a
Nghiên cứu mạng nơ-ron tích chập nhằm huấn luyện và phân loại nhiều loại bệnh khác nhau, đồng thời đánh giá hiệu suất để xác định mô hình tối ưu nhất.
Viết luận văn, trình bày kết quả đạt được
Dựa trên kết quả đạt được đưa ra hướng phát triển cho luận văn
Trong nông nghiệp, sự đa dạng cây trồng đi kèm với các dạng bệnh lá khác nhau Bài viết này tập trung vào 8 loại bệnh lá trên cây cà chua, bao gồm: bệnh đốm vi khuẩn (Bacterial-spot), bệnh bạc lá sớm (Early-blight), lá khỏe (Healthy), bệnh bạc lá muộn (Late-blight), bệnh đốm lá nâu (Septoria-leaf-spot), bệnh nhện ve hai đốm (Two-spotted-spider-mites), bệnh điểm mục tiêu (Target-spot), và bệnh vàng xoắn lá (Yellow-leaf-curl-virus).
Tập ảnh thu thập trên website thông qua tập dữ liệu PlantVillage, chưa tự thu thập được các hình ảnh chụp từ thực tế
Nghiên cứu và thu thập tài liệu về nhận diện bệnh cây thông qua phân loại ảnh lá từ các tạp chí khoa học, bài báo của IEEE và Springer, cùng với thông tin từ diễn đàn trí tuệ nhân tạo AI Việt Nam và lập trình Matlab Chúng tôi đặc biệt chú trọng đến các ứng dụng mạng học sâu trong việc phân loại bệnh cây, nhằm nâng cao hiệu quả trong công tác phát hiện và xử lý bệnh.
Phân tích, tổng hợp, mô phỏng trên phần mềm Matlab 2019a để đưa ra kết quả, phân tích, đánh giá và kết luận
Luận văn được trình bày thành 5 chương
Chương I: Tổng quan Đặt vấn đề, trình bày khái quát về lĩnh vực nghiên cứu, tầm quan trọng của lĩnh vực nghiên cứu Từ đó, tác giả đưa ra những mục tiêu và nhiệm vụ cụ thể trong đề tài
Chương II: Cơ sở lý thuyết
Bài viết này tóm tắt các phương pháp nhận biết bệnh cây thông qua việc phân loại hình ảnh lá Hiện nay, có nhiều thuật toán phân loại hình ảnh lá được áp dụng, giúp nâng cao độ chính xác trong việc phát hiện bệnh Những phương pháp này không chỉ hỗ trợ nông dân trong việc quản lý cây trồng mà còn góp phần bảo vệ mùa màng hiệu quả hơn.
Chương III: Phương pháp nhận biết bệnh cây bằng việc phân loại ảnh lá sử dụng mạng Nơ-ron tích chập
Mô hình mạng Nơ-ron tích chập VGG-16 có cấu trúc đặc trưng với nhiều lớp tích chập và lớp hoàn toàn, cho phép xử lý ảnh hiệu quả Để tính toán kích thước và các tham số ở từng lớp mạng, ta cần áp dụng các công thức cụ thể liên quan đến kích thước đầu vào và số lượng bộ lọc Phương pháp huấn luyện mạng bao gồm việc sử dụng tập dữ liệu lớn để cải thiện độ chính xác, đồng thời áp dụng các kỹ thuật như điều chỉnh tốc độ học và regularization Cuối cùng, mạng được sử dụng để nhận biết bệnh cây thông qua việc phân loại ảnh lá, giúp nông dân phát hiện sớm các vấn đề về sức khỏe cây trồng.
Chương IV: Kết quả và thảo luận
Kết quả của quá trình huấn luyện và phân loại ảnh lá đã được sử dụng để nhận diện bệnh cây, đồng thời đánh giá hiệu suất của mô hình trong luận văn so với các mô hình mạng khác.
Chương V: Kết luận và hướng phát triển
Trình bày những phương pháp, nội dung đã thực hiện được, đề ra hướng phát triển tiếp theo giúp cho luận văn đạt được hiệu quả tốt hơn.
Cấu trúc luận văn
Luận văn được trình bày thành 5 chương
Chương I: Tổng quan Đặt vấn đề, trình bày khái quát về lĩnh vực nghiên cứu, tầm quan trọng của lĩnh vực nghiên cứu Từ đó, tác giả đưa ra những mục tiêu và nhiệm vụ cụ thể trong đề tài
Chương II: Cơ sở lý thuyết
Bài viết này tóm tắt các phương pháp nhận biết bệnh cây thông qua việc phân loại ảnh lá, nhấn mạnh sự quan trọng của công nghệ trong nông nghiệp Các thuật toán phân loại ảnh lá hiện nay, bao gồm học máy và trí tuệ nhân tạo, đang được áp dụng rộng rãi để cải thiện độ chính xác trong việc phát hiện bệnh Những công nghệ này không chỉ giúp nông dân phát hiện sớm các dấu hiệu bệnh mà còn tối ưu hóa quy trình chăm sóc cây trồng, từ đó nâng cao năng suất và chất lượng nông sản.
Chương III: Phương pháp nhận biết bệnh cây bằng việc phân loại ảnh lá sử dụng mạng Nơ-ron tích chập
Mô hình mạng Nơ-ron tích chập VGG-16 được cấu trúc với nhiều lớp khác nhau, mỗi lớp có kích thước và tham số riêng biệt, góp phần vào khả năng nhận diện hình ảnh Phương pháp tính toán kích thước và các tham số ở từng lớp mạng rất quan trọng để tối ưu hóa hiệu suất Để huấn luyện mạng, cần áp dụng các kỹ thuật học sâu và điều chỉnh tham số, nhằm cải thiện độ chính xác trong việc phân loại ảnh lá cây Phương pháp này giúp nhận biết bệnh cây hiệu quả thông qua việc phân tích hình ảnh lá, từ đó hỗ trợ nông dân trong việc chăm sóc cây trồng.
Chương IV: Kết quả và thảo luận
Bài viết này trình bày kết quả quá trình huấn luyện và phân loại ảnh lá nhằm nhận diện bệnh cây Đồng thời, nó cũng đánh giá hiệu suất của mô hình trong luận văn bằng cách so sánh với các mô hình mạng khác.
Chương V: Kết luận và hướng phát triển
Trình bày những phương pháp, nội dung đã thực hiện được, đề ra hướng phát triển tiếp theo giúp cho luận văn đạt được hiệu quả tốt hơn
CƠ SỞ LÝ THUYẾT
Một số phương pháp xử lý ảnh
Hình 2.1 Một số loại lá bệnh trên cây
Bệnh vầy trên táo, bệnh thối đen trên táo và bệnh rỉ tuyết trùng trên táo là những vấn đề nghiêm trọng ảnh hưởng đến sức khỏe cây táo, trong khi lá táo khỏe là dấu hiệu của cây trồng phát triển tốt Tương tự, bệnh thối đen, bệnh sởi đen và bệnh bạc lá trên nho cũng gây hại cho cây nho, nhưng lá nho khỏe có thể giúp cây chống lại bệnh tật Đối với cà chua, bệnh đốm vi khuẩn, bệnh bạc lá sớm và bệnh vàng xoắn lá là những bệnh phổ biến, trong khi lá cà chua khỏe cho thấy sự phát triển mạnh mẽ của cây.
2.2 Một số phương pháp xử lý ảnh
2.2.1 Thuật toán phân cụm K-means:
Thuật toán K-means là một trong những phương pháp phân cụm dữ liệu phổ biến nhất, giúp tăng cường sự tương đồng giữa các nhóm đồng thời tối ưu hóa khoảng cách giữa chúng Thuật toán này dựa trên phép tính khoảng cách Euclidean để xác định sự gần gũi giữa các điểm dữ liệu Công thức tính khoảng cách Euclidean giữa hai điểm được sử dụng để thực hiện quá trình phân cụm hiệu quả.
Công thức D E = x - x + y - y (2.1) mô tả khoảng cách trong không gian hai chiều, nhưng cũng có thể áp dụng cho không gian đa chiều Trong thuật toán phân cụm, K biểu thị số lượng cụm mà dữ liệu được phân chia thành.
Trong bài viết này, chúng ta xem xét một tập dữ liệu gồm N phần tử (x1, x2, , xN) và K cụm để phân loại dữ liệu Phân tích khoảng cách Euclide được sử dụng như một phương pháp đo lường để xác định sự tương đồng giữa các phần tử trong tập dữ liệu.
Với C j là cụm thứ j, z j là trọng tâm của cụm và x i là mẫu đầu vào
Hình 2.2 Mô tả thuật toán phân cụm K-means
Trình tự cho thuật toán phân cụm K-means như sau:
Bước 1: Đặt K điểm vào không gian được biểu diễn bởi các phần tử ( , x x 1 2 , , x N )đang được nhóm lại Những vị trí biểu thị các trung tâm cụm ban đầu ( , z z 1 2, , z K )
Bước 2: Nếu x i z p x i z j , j p và p 1, 2, , N sau đó chỉ định từng phần tử ( , x i i 1, 2, , N ) cho nhóm có các trung tâm gần với cụm C j , j (1, 2, , K )nhất có thể tìm thấy được
Bước 3: Khi tất cả các yếu tố đã được chỉ định, một lần nữa tính vị trí của K trọng tâm như sau:
, i 1, 2, , K , z chỉ ra các trọng tâm mới, đối với số N i của các phần tử thuộc cụm C j
Bước 4: Dừng lại nếu z i z i với i 1, 2, , K, hoặc tiếp tục từ bước 2 cho đến khi các trọng tâm không còn dịch chuyển Quá trình này tạo ra một phân vùng các phần tử thành cụm, giúp tính toán số liệu giảm thiểu một cách hiệu quả.
2.2.2 Trích đặc trưng dùng PCA
Phân tích thành phần chính (PCA) là một phương pháp phổ biến hiện nay trong việc phân tích dữ liệu Phương pháp này sử dụng các kỹ thuật toán học để giảm thiểu số chiều dữ liệu, giúp tối ưu hóa quá trình phân tích và trực quan hóa thông tin hiệu quả hơn.
Phân tích thành phần chính (PCA) là một phương pháp mạnh mẽ để trích xuất các đặc trưng cơ bản, giúp đại diện cho cấu trúc bên trong của tập dữ liệu PCA cho phép hình dung cùng một tập dữ liệu trong không gian n chiều chuyển đổi thành không gian k chiều (với k < n), trong đó các đặc điểm chính của dữ liệu đầu vào vẫn được bảo toàn Hình 2.3 minh họa quá trình biến đổi dữ liệu thông qua phương pháp PCA.
Hình 2.3 Mô tả phương pháp PCA
PCA giúp chuyển đổi tập dữ liệu ban đầu từ không gian 3 chiều sang một không gian mới với ít chiều hơn, nhưng vẫn duy trì khả năng biểu diễn tốt độ biến thiên của dữ liệu Hình 2.4 cho thấy rằng mặc dù không gian 3 chiều ban đầu không tối ưu, hệ trục tọa độ mới (màu xanh lá) trong hình (b) chỉ cần 2 trục để thể hiện rõ ràng hơn sự biến thiên của dữ liệu Ưu điểm nổi bật của PCA là khả năng giảm chiều dữ liệu mà không làm mất thông tin quan trọng.
Không gian N chiều với hệ cơ sở
Không gian K chiều (K