1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn Thạc sĩ Công nghệ thông tin: Ứng dụng học sâu trong phân loại trái cây

69 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Học Sâu Trong Phân Loại Trái Cây
Tác giả Nguyễn Văn Phúc
Người hướng dẫn TS. Vũ Thanh Hiền
Trường học Trường Đại Học Ngoại Ngữ - Tin Học TPHCM
Chuyên ngành Công Nghệ Thông Tin
Thể loại luận văn
Năm xuất bản 2019
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 69
Dung lượng 2,07 MB

Cấu trúc

  • CHƯƠNG 1. TỔNG QUAN (12)
    • 1.1 Đ ẶT VẤN ĐỀ (12)
    • 1.2 G IỚI THIỆU TRÍ TUỆ NHÂN TẠO VÀ HỌC MÁY (14)
    • 1.3 T ỔNG QUAN VỀ XỬ LÝ ẢNH SỐ (16)
      • 1.3.1 G IỚI THIỆU (16)
      • 1.3.2 M ỘT SỐ KHÁI NIỆM CƠ BẢN TRONG XỬ LÝ ẢNH (0)
  • CHƯƠNG 2. CƠ SỞ LÝ THUYẾT (20)
    • 2.1 G IỚI THIỆU VỀ D EEP L EARNING (20)
    • 2.2 M ỘT SỐ ỨNG DỤNG CỦA D EEP L EARNING (0)
    • 2.3 G IỚI THIỆU M ẠNG N EURON (27)
    • 2.4 M ẠNG N EURON TÍCH CHẬP (28)
      • 2.4.1 Đ ỊNH NGHĨA MẠNG N EURON TÍCH CHẬP (29)
      • 2.4.2 C ONVOLUTION ( TÍCH CHẠ ̂ P ) (29)
      • 2.4.3 M O ̂ HÌNH MẠNG NƠ - RON TÍCH CHẠ ̂ P (0)
      • 2.4.4 X A ̂ Y DỰNG MẠNG N Ơ - RON TÍCH CHẠ ̂ P (0)
    • 2.5 M ỘT SỐ KIẾN TRÚC CONVOLUTIONAL NEURAL NETWORK THÔNG DỤNG (0)
      • 2.5.1 K IẾN TRÚC A LEX N ET [17] (44)
      • 2.5.2 K IẾN TRÚC VGG 16 [17] (45)
      • 2.5.3 K IẾN TRÚC I NCEPTION /G OOGLE N ET [18] (45)
  • CHƯƠNG 3. PHÂN LOẠI ẢNH TRÁI CÂY (47)
    • 3.1 P HÁT BIỂU BÀI TOÁN (47)
    • 3.2 C Ơ SỞ DỮ LIỆU TRÁI CÂY (48)
    • 3.3 C ẤU TRÚC THƯ MỤC CƠ SỞ DỮ LIỆU ẢNH TRÁI CÂY (0)
    • 3.4 D Ữ LIỆU MẪU (51)
    • 3.5 P HƯƠNG PHÁP ĐỀ XUẤT (0)
    • B. H ÀM LOSS (58)
    • C. P HƯƠNG PHÁP HUẤN LUYỆN (0)
  • CHƯƠNG 4. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN (59)
    • 4.1 T HỰC NGHIỆM VÀ KẾT QUẢ (0)
    • 4.2 K ẾT LUẬN VÀ PHƯỚNG PHÁT TRIỂN (0)
    • 4.3 H ƯỚNG PHÁT TRIỂN TIẾP THEO (0)
  • TÀI LIỆU THAM KHẢO (67)

Nội dung

Luận văn Ứng dụng học sâu trong phân loại trái cây thực hiện với mục tiêu chính như tìm hiểu bài toán phân loại dữ liệu nói chung và bài toán phân loại dữ ảnh trái cây nói riêng. Nghiên cứu mô hình mạng neuron đa tầng, các thuật toán lan truyền tiến, lan truyền ngược để sử dụng và huấn luyện mạng neuron.

TỔNG QUAN

Đ ẶT VẤN ĐỀ

- Cơ sở hình thành đề tài:

Luận văn này tổng quan về xử lý ảnh và các phương pháp trích xuất đặc trưng, đồng thời trình bày ứng dụng của mạng neuron tích chập trong bài toán phân loại đối tượng.

Trong bối cảnh công nghiệp 4.0, sự phát triển mạnh mẽ của công nghệ thông tin và trí tuệ nhân tạo đã dẫn đến nhiều ứng dụng thực tiễn trong các lĩnh vực như an ninh, bảo mật, và nhận dạng Các hệ thống nhận dạng người trên bằng lái xe, hộ chiếu, và trong tương tác người-máy đang ngày càng trở nên phổ biến Sự ra đời của cách mạng công nghiệp 4.0 đã thúc đẩy việc ứng dụng công nghệ tiên tiến nhằm phục vụ con người, tạo ra nhu cầu cao về trí tuệ nhân tạo và mở ra nhiều phương pháp nghiên cứu mới Mặc dù ban đầu gặp khó khăn trong việc áp dụng công nghệ, nhưng những kết quả khả quan từ các dự án nghiên cứu đã tạo động lực cho các công trình tiếp theo Mặc dù nhận dạng đối tượng không đạt độ chính xác như các phương pháp khác như nhận dạng vân tay hay khuôn mặt, nhưng vẫn thu hút sự quan tâm lớn từ các nhà nghiên cứu trong lĩnh vực thị giác máy tính, vì đây là phương pháp truyền thống mà con người vẫn sử dụng để nhận diện và phát hiện đối tượng.

Mô hình tính toán mô phỏng bộ não người, đặc biệt là mạng neuron, đã được nghiên cứu rộng rãi Nghiên cứu này áp dụng mạng neuron để giải quyết nhiều bài toán như tối ưu hóa, nhận dạng đối tượng và điều khiển Công nghệ này đang được ứng dụng trong nhiều lĩnh vực, đặc biệt trong phát hiện và nhận dạng.

Mạng neuron nhân tạo bao gồm các neuron cơ bản, truyền thông tin qua các kênh kết nối có trọng số Mỗi neuron nhận tín hiệu từ các neuron khác hoặc nguồn bên ngoài, tính toán và truyền tín hiệu ra Ngoài ra, neuron còn điều chỉnh trọng số để tối ưu hóa quá trình xử lý Hệ thống hoạt động song song, cho phép nhiều neuron tính toán đồng thời Với bối cảnh này, tôi đã chọn đề tài “Nhận dạng ảnh xác định đối tượng của ảnh khi sử dụng mạng Neuron”, không chỉ có giá trị khoa học mà còn đáp ứng nhu cầu thực tiễn hiện tại.

• Tìm hiểu bài toán phân loại dữ liệu nói chung và bài toán phân loại dữ ảnh trái cây nói riêng

• Nghiên cứu mô hình mạng neuron đa tầng, các thuật toán lan truyền tiến, lan truyền ngược để sử dụng và huấn luyện mạng neuron

• Nghiên cứu một số kiến trúc mạng neuron hiện đại giải quyết bài toán phân loại dữ liệu ảnh

Xây dựng kiến trúc mô hình và thực nghiệm nhằm giải quyết bài toán phân loại ảnh trái cây là bước quan trọng Qua quá trình thực nghiệm, chúng ta có thể đánh giá kết quả và hiệu quả của mô hình trong việc nhận diện và phân loại các loại trái cây.

G IỚI THIỆU TRÍ TUỆ NHÂN TẠO VÀ HỌC MÁY

Trí tuệ nhân tạo (AI) là một lĩnh vực nghiên cứu trong Công nghệ thông tin và Khoa học máy tính, nhằm phát triển các hệ thống thông minh có khả năng giải quyết các bài toán thực tế tương tự như hoạt động của bộ não con người Nghiên cứu về AI bắt đầu từ những năm 1950 và đã thu hút sự quan tâm mạnh mẽ của cộng đồng khoa học trong 30 năm qua Hàng năm, nhiều hội thảo lớn về AI được tổ chức trên toàn thế giới Các ứng dụng của trí tuệ nhân tạo trong đời sống xã hội bao gồm robot, xử lý ngôn ngữ tự nhiên, nhận dạng, phát hiện dị thường, an ninh quốc phòng, tin sinh học, và nghiên cứu khoa học về vũ trụ và trái đất.

Trong khuôn khổ luận văn Thạc sĩ, tôi đã lựa chọn đề tài nghiên cứu các phương pháp cơ bản về nhận dạng và phát hiện các loại trái cây thông dụng trong ảnh màu, dựa trên kiến thức lý thuyết từ các môn học như thuật toán, xử lý ảnh và trí tuệ nhân tạo Phân lớp dữ liệu là một nhánh quan trọng trong lĩnh vực học máy của trí tuệ nhân tạo, với nhiều ứng dụng thực tiễn như robot, nhận dạng khuôn mặt, nhận dạng giọng nói và chữ viết.

+ Đối tượng và phạm vi nghiên cứu

- Đối tượng nghiên cứu

• Nghiên cứu mạng neuron đa tầng và mạng neuron tích chập

• Nghiên cứu bài toán phân lớp ảnh trái cây

• Tìm hiểu xây dựng kiến trúc và thực nghiệm mô hình mạng neuron tích chập để giải quyết bài toán phân lớp ảnh trái cây

- Lý thuyết: Nghiên cứu lý thuyết về xử lý ảnh, Học máy, Deep Learning,

- Thực nghiệm: Lập trình trên phần mềm Python cho chương trình phân loại một số loại trái cây thông dụng trong ảnh

+ Phương pháp nghiên cứu

Để có cái nhìn tổng quan về đề tài, cần thu thập và phân tích các tài liệu cũng như thông tin liên quan Quá trình này giúp xác định những khó khăn gặp phải và các ràng buộc của bài toán.

- Tiến hành phân tích, xây dựng giải pháp phát hiện gồm có : Tiền xử lý, trích chọn đặc trưng, huấn luyện mô hình dữ liệu, hậu xử lý

- Xây dựng và kiểm thử việc đánh giá hiệu quả phương pháp mạng neuron tích chập để phân loại đối tượng bằng ngôn ngữ Python

+ Cấu trúc của luận văn

Cấu trúc của luận văn nghiên cứu và ứng dụng mạng neuron tích chập trong các thí nghiệm đa tầng nhằm tìm ra giải pháp tối ưu cho bài toán và chương trình bao gồm các phần chính như sau:

Chương 1: Tổng quan về

Chương 2: Lý thuyết về Deep Learning và Mạng neuron tích chập

Chương 3 sẽ tập trung vào việc cài đặt ứng dụng phát hiện và phân loại các loại trái cây phổ biến thông qua phương pháp Deep Learning, sử dụng mô hình mạng neuron tích chập.

Chương 4: Kết quả và hướng phát triển

Kết luận: Tóm tắt các vấn đề được tìm hiểu trong luận văn và các vấn đề liên quan trong luận văn.

T ỔNG QUAN VỀ XỬ LÝ ẢNH SỐ

Con người tiếp nhận thông tin chủ yếu qua các giác quan, trong đó thị giác là quan trọng nhất Gần đây, sự phát triển mạnh mẽ của phần cứng máy tính đã thúc đẩy tiến bộ trong lĩnh vực xử lý ảnh và đồ họa, mang lại nhiều ứng dụng thiết thực trong cuộc sống Xử lý ảnh và đồ họa không chỉ nâng cao trải nghiệm người dùng mà còn đóng vai trò then chốt trong tương tác giữa con người và máy móc.

Quá trình xử lý ảnh là thao tác trên ảnh đầu vào để đạt được kết quả mong muốn Kết quả của quá trình này có thể là một bức ảnh mới, được cải thiện hoặc biến đổi theo yêu cầu.

“tốt hơn” hoặc một kết luận

- Các bước cơ bản trong một hệ thống xử lý ảnh:

+ Khối thu nhận ảnh: có nhiệm vụ tiếp nhận ảnh đầu vào

+ Khối tiền xử lý: có nhiệm vụ xử lý nâng cao chất lượng ảnh như giảm nhiễu, phân vùng, tìm biên v.v

Khối trích chọn đặc điểm có vai trò quan trọng trong việc lựa chọn các đặc trưng nổi bật từ những bức ảnh đã được tiền xử lý, nhằm phục vụ cho hệ thống quyết định.

Khối hậu xử lý đóng vai trò quan trọng trong việc xử lý các đặc điểm đã được trích chọn, cho phép lược bỏ hoặc biến đổi các đặc điểm này để phù hợp với các kỹ thuật cụ thể trong hệ quyết định.

+ Khối hệ quyết định và lưu trữ: có nhiệm vụ đưa ra quyết định (phân loại) dựa trên dự liệu đã học lưu trong khối lưu trữ

+ Khối kết luận: đưa ra kết luận dựa vào quyết định của khối quyết định

1.3.2 Một số khái niệm cơ bản trong xử lý ảnh

Điểm ảnh là đơn vị cơ bản thể hiện cường độ sáng tại một vị trí cụ thể trong không gian, trong khi ảnh được hình thành từ tập hợp các điểm ảnh này.

Là số các giá trị có thể có của các điểm ảnh của ảnh

+ Nắn chỉnh biến dạng: Ảnh thu nhận thường bị biến dạng do các thiết bị quang học và điện tử

Có 2 loại nhiễu cơ bản trong quá trình thu nhận ảnh mà chúng ta cần loại bỏ: Nhiễu hệ thống: là nhiễu có quy luật có thể khử bằng các phép biến đổi

Nhiễu ngẫu nhiên: vết bẩn không rõ nguyên nhân có thể khắc phục bằng các phép lọc

+ Chỉnh số mức xám:

Chỉnh số mức xám là nhằm khắc phục tính không đồng đều của hệ thống xử lý ảnh, thông thường có 2 hướng tiếp cận:

Giảm số mức xám trong ảnh có thể thực hiện bằng cách nhóm các mức xám gần nhau thành một bó, và khi giảm xuống chỉ còn 2 mức xám, ảnh sẽ chuyển thành đen trắng Ngược lại, để tăng số mức xám, ta sử dụng kỹ thuật nội suy để tạo ra các mức xám trung gian, giúp tăng cường độ mịn cho hình ảnh.

Phân tích ảnh là một bước quan trọng trong quá trình xử lý ảnh nhằm hiểu rõ hơn về nội dung hình ảnh Trong đó, việc trích chọn đặc điểm là cần thiết và phụ thuộc vào mục đích nhận dạng Một số đặc điểm của ảnh bao gồm đặc điểm không gian như phân bố mức xám, phân bố xác suất, biên độ và điểm uốn Bên cạnh đó, đặc điểm biến đổi được trích chọn thông qua kỹ thuật lọc vùng (zonal filtering), sử dụng các bộ vùng hay còn gọi là "mặt nạ đặc điểm" với hình dạng đa dạng như chữ nhật, tam giác hay cung tròn.

Nén ảnh là kỹ thuật giảm thiểu không gian lưu trữ với hai phương pháp chính: nén có bảo toàn và không bảo toàn thông tin Nén không bảo toàn thường đạt tỷ lệ nén cao hơn nhưng không thể phục hồi ảnh gốc, trong khi nén có bảo toàn cho phép khôi phục hoàn toàn ảnh gốc Nén ảnh có bốn cách tiếp cận cơ bản.

Kỹ thuật nén ảnh thống kê dựa trên việc phân tích tần suất xuất hiện của giá trị các điểm ảnh để phát triển chiến lược mã hóa phù hợp Một ví dụ điển hình cho phương pháp mã hóa này là định dạng tệp *.TIF.

Nén ảnh không gian là một kỹ thuật mã hóa dựa trên vị trí không gian của các điểm ảnh, tận dụng sự tương đồng giữa các điểm ảnh trong các vùng lân cận Một ví dụ điển hình cho kỹ thuật này là mã nén *.PCX.

Nén ảnh sử dụng phép biến đổi là kỹ thuật nén không bảo toàn với tỷ lệ nén tương đối cao Phương pháp nén này thường được áp dụng trong định dạng *.JPG.

Nén ảnh Fractal là phương pháp sử dụng tính chất Fractal của hình ảnh, cho phép lặp lại các chi tiết ở nhiều vị trí và kích thước khác nhau Kỹ thuật này chỉ cần lưu trữ phần gốc của ảnh cùng với quy luật sinh ra hình ảnh dựa trên nguyên lý Fractal, giúp tối ưu hóa dung lượng lưu trữ mà vẫn đảm bảo chất lượng hình ảnh.

CƠ SỞ LÝ THUYẾT

G IỚI THIỆU VỀ D EEP L EARNING

Deep Learning là một phương pháp trong Học máy, cho phép huấn luyện dữ liệu để dự đoán đầu ra từ các đầu vào Cả hai phương pháp huấn luyện có giám sát và không giám sát đều có thể áp dụng, nhưng trong trường hợp này, chúng ta sẽ sử dụng phương pháp học có giám sát để huấn luyện mô hình.

Nói rộng ra, deep learning là một tên gọi dễ hiểu hơn của mạng neuron nhân tạo

Từ "deep" trong deep learning ám chỉ độ sâu của mạng neuron, có thể rất cạn hoặc sâu Mạng neuron được thiết kế dựa trên cấu trúc của vỏ não, với mức cơ bản là perceptron, đại diện cho mô hình toán học của một neuron sinh học Tương tự như vỏ não, mạng có thể bao gồm nhiều lớp perceptron được kết nối với nhau.

Lớp đầu tiên trong mạng neuron là lớp đầu vào, nơi mỗi nút nhận một đầu vào và chuyển output của nó cho lớp tiếp theo Không có kết nối giữa các nút trong cùng một lớp, và lớp cuối cùng tạo ra kết quả đầu ra Phần giữa được gọi là lớp ẩn, với các neuron không kết nối với bên ngoài và chỉ được kích hoạt bởi các nút trong lớp trước Tất cả các công nghệ này đều có nguồn gốc từ deep learning, một nhánh của trí tuệ nhân tạo (AI), và nhiều nhà khoa học vẫn gọi nó là deep neural network (mạng neuron sâu).

Kỹ sư không thể lập trình máy tính thực hiện các tính năng phức tạp, mà thay vào đó, họ phát triển thuật toán cho phép máy tính tự học Để làm điều này, máy tính được cung cấp hàng terabyte dữ liệu, bao gồm hàng trăm ngàn bức ảnh về chó và nhiều giờ ghi âm giọng nói.

Quá trình tiếp xúc liên tục với hình ảnh và giọng nói sẽ giúp máy tính "huấn luyện" để nhận diện chính xác các đối tượng và âm thanh Tương tự như cách mà trẻ em học hỏi về thế giới, sau một thời gian dài tiếp xúc với hình ảnh của chó và cách phát âm từ ngữ, máy tính sẽ có khả năng "nhìn" và "nghe" để nhận diện đúng các khái niệm này.

Học sâu, mặc dù đã được nghiên cứu từ những năm 1950, chỉ mới gần đây được công nhận là công nghệ quan trọng Từ những năm 1990, nó đã được áp dụng thành công trong thương mại, nhưng thường bị coi là nghệ thuật chỉ dành cho chuyên gia Số lượng kỹ năng cần thiết để đạt hiệu suất tốt từ thuật toán học sâu giảm khi lượng dữ liệu đào tạo tăng lên Các thuật toán học sâu hiện đạt hiệu suất tương đương con người trên các nhiệm vụ phức tạp Sự phát triển công nghệ giúp việc thu thập và sắp xếp dữ liệu trở nên dễ dàng hơn, đặc biệt trong bối cảnh bùng nổ Dữ liệu lớn Thuật toán học được giám sát có thể đạt hiệu suất chấp nhận được với khoảng 5.000 ví dụ gắn nhãn và vượt trội với ít nhất 10 triệu ví dụ Nghiên cứu về cách làm việc hiệu quả với tập dữ liệu nhỏ hơn, đặc biệt là thông qua học không giám sát hoặc bán giám sát, đang trở thành một lĩnh vực quan trọng.

Deep Learning là một thuật toán lấy cảm hứng từ cấu trúc não bộ, cho phép xử lý và hiểu dữ liệu thông qua nhiều tầng biểu đạt khác nhau, từ cụ thể đến trừu tượng.

Deep Learning là công nghệ tiên tiến được ứng dụng rộng rãi trong nhận diện hình ảnh, giọng nói và xử lý ngôn ngữ tự nhiên Điểm nổi bật của Deep Learning là khả năng đạt độ chính xác cao nhờ vào lượng dữ liệu khổng lồ mà nó có thể xử lý mà không bị giới hạn Để hiểu rõ về Deep Learning, chúng ta cần khám phá mối quan hệ giữa nó với machine learning, mạng neuron và trí tuệ nhân tạo.

Cách tốt nhất để hiểu về mối quan hệ này là mường tượng chúng thành những vòng tròn đồng tâm:

Deep learning, hay học sâu, là một khái niệm dễ hiểu hơn về mạng neuron nhân tạo, nằm ở trung tâm của trí thông minh nhân tạo và machine learning Thuật ngữ "deep" trong deep learning ám chỉ đến độ sâu của mạng lưới, cho thấy khả năng xử lý và phân tích dữ liệu phức tạp Mạng neuron nhân tạo có thể có nhiều mức độ khác nhau, từ rất cạn đến sâu, ảnh hưởng đến khả năng học tập và dự đoán của hệ thống.

Mạng neuron, được phát triển dựa trên cấu trúc của vỏ não, bao gồm các perceptron, là biểu diễn toán học của một neuron sinh học Tương tự như vỏ não, mạng này có thể có nhiều lớp perceptron kết nối với nhau, tạo thành một hệ thống phức tạp và mạnh mẽ.

Lớp đầu tiên trong mạng nơ-ron là lớp đầu vào, nơi mỗi nút nhận một đầu vào và chuyển output của nó tới các nút trong lớp tiếp theo Thông thường, không có kết nối giữa các nút trong cùng một lớp, và lớp cuối cùng sẽ tạo ra kết quả đầu ra.

Lớp ẩn trong mạng nơ-ron là phần trung gian, nơi chứa các nơ-ron không kết nối trực tiếp với đầu vào hay đầu ra Những nơ-ron này chỉ được kích hoạt bởi các nơ-ron trong lớp trước, đóng vai trò quan trọng trong quá trình xử lý thông tin.

Hình 2.2 Minh hoạ các lớp trong Deep Learning https://github.com/rcassani/mlp-example

Deep learning là một kỹ thuật học tập trong mạng nơ-ron, sử dụng nhiều lớp trừu tượng để giải quyết các vấn đề nhận dạng mẫu Trong khi đó, machine learning được xem là một nhánh của trí tuệ nhân tạo, và deep learning là một loại machine learning chuyên biệt.

Machine learning liên quan đến trí thông minh nhân tạo mà không cần biết trước câu trả lời Chương trình này sẽ phân tích dữ liệu huấn luyện, đánh giá hiệu quả của các nỗ lực và điều chỉnh phương pháp để cải thiện kết quả.

Machine learning đòi hỏi một nền tảng kiến thức vững chắc, bao gồm công nghệ phần mềm, khoa học máy tính, các phương pháp thống kê và đại số tuyến tính.

2.2 Một số ứng dụng của Deep Learning

G IỚI THIỆU M ẠNG N EURON

Mạng Neuron nhân tạo (ANN) là mô hình xử lý thông tin được thiết kế dựa trên hoạt động của hệ thống thần kinh sinh vật, bao gồm nhiều Neuron liên kết để xử lý thông tin Giống như bộ não con người, ANN học từ kinh nghiệm thông qua quá trình huấn luyện, cho phép nó lưu giữ tri thức và áp dụng những hiểu biết này để dự đoán dữ liệu chưa biết.

Sự kết hợp giữa logic mờ và mạng neuron nhân tạo đã tạo ra một cuộc cách mạng trong việc nâng cao tính thông minh và khả năng đa năng của các bộ điều khiển kỹ thuật cao Điều này đặc biệt thể hiện qua các ứng dụng như hệ thống tự động điều khiển lái tàu và hệ thống dự báo sự cố, mở ra nhiều cơ hội cho tương lai.

Mạng neuron được xây dựng dựa trên việc mô phỏng các hệ thống neuron sinh học Với sự tiến bộ trong việc mô phỏng neuron sinh học trong tương lai, chúng ta có khả năng phát triển các loại máy móc tiên tiến hơn.

Mạng Neuron được ứng dụng rộng rãi trong nhiều lĩnh vực như điện, điện tử, kinh tế và quân sự, giúp giải quyết các bài toán phức tạp với yêu cầu độ chính xác cao Chúng được sử dụng hiệu quả trong các lĩnh vực như điều khiển tự động, khai phá dữ liệu và nhận dạng.

Kiến trúc chung của một mạng neuron nhân tạo gồm 3 thành phần đó là: Input Layer, Hidden Layer và Output Layer (Xem Hình)

Hình 2.3 Kiến trúc tổng quát của một ANN

Lớp ẩn trong mạng nơ-ron nhân tạo (ANN) bao gồm các Neuron tiếp nhận dữ liệu đầu vào từ lớp trước và chuyển đổi chúng cho các lớp xử lý tiếp theo Một ANN có thể có nhiều lớp ẩn khác nhau.

In an Artificial Neural Network (ANN), the Processing Elements (PE), known as Neurons, receive input data, process it, and produce a single output The output from one Neuron can serve as input for other Neurons, enabling complex data processing and interconnectivity within the network.

M ẠNG N EURON TÍCH CHẬP

Để máy tính có thể xử lý các dạng dữ liệu tự nhiên như âm thanh, hình ảnh và cảm giác, cần phải xây dựng một kiến trúc tương tự như hệ thần kinh Mặc dù máy tính hiện đại có tốc độ xử lý rất cao, nhưng khả năng xử lý tuần tự vẫn không đáp ứng kịp thời cho các tác vụ điều khiển Do đó, để đạt được hiệu suất xử lý nhanh và đa luồng, cần thiết phải phát triển hệ thống xử lý song song với nhiều chip xử lý, tương tự như cách mà hệ thần kinh hoạt động trong cơ thể sống.

Công nghệ mạng neuron tế bào CNN (Cellular Neural Networks) được phát minh bởi các nhà khoa học Mỹ và Hungary vào năm 1988, với khả năng xử lý lên đến 10^12 phép tính mỗi giây cho mỗi tế bào Hệ thống này bao gồm khoảng 16.000 CPU hoạt động đồng thời, đánh dấu một bước đột phá trong cấu trúc của CNN nhờ vào việc kết nối các CPU song song thành một mạng tích hợp trên một chip.

2.4.1 Định nghĩa mạng Neuron tích chập

Trong những năm gần đây, ngành Thị giác máy tính (Computer Vision) đã đạt được nhiều thành tựu nổi bật Các hệ thống xử lý ảnh của các công ty lớn như Facebook, Google và Amazon đã tích hợp những tính năng thông minh, bao gồm nhận diện khuôn mặt, phát triển xe hơi tự lái và drone giao hàng tự động.

Mạng neuron tích chập (CNNs) là một trong những mô hình Deep Learning tiên tiến, cho phép xây dựng hệ thống thông minh với độ chính xác cao Luận văn này sẽ trình bày về quá trình tích chập và ý tưởng của mô hình CNNs trong việc phân loại đối tượng, nhằm phát hiện và nhận dạng trái cây trong ảnh màu.

Tích chập, được ứng dụng đầu tiên trong xử lý tín hiệu số, đã trở thành một công cụ quan trọng trong xử lý ảnh và video nhờ vào nguyên lý biến đổi thông tin Kỹ thuật này có thể được hình dung như một cửa sổ trượt áp đặt lên một ma trận, giúp theo dõi cơ chế hoạt động của nó một cách trực quan.

Hình 2.4 Mô hình tích chập https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/content/convolution.html

Ma trận bên trái đại diện cho một bức ảnh đen trắng, trong đó mỗi giá trị của ma trận tương ứng với một điểm ảnh (pixel) Giá trị 0 biểu thị màu đen, trong khi giá trị 1 biểu thị màu trắng Đối với ảnh grayscale, giá trị pixel có thể thay đổi từ 0 đến 255.

Sliding window, còn được gọi là kernel, filter hay feature detector, sử dụng một ma trận filter 3×3 để thực hiện phép nhân từng thành phần tương ứng với ma trận ảnh bên trái Giá trị đầu ra được tính bằng cách cộng lại các tích của các thành phần này Kết quả của phép tích chập là một ma trận (convoled feature) được tạo ra từ việc trượt ma trận filter và thực hiện tích chập trên toàn bộ ma trận ảnh bên trái.

2.4.3 Mô hình mạng nơ-ron tích chập

CNNs, hay Mạng Nơ-ron Tích chập, là một cấu trúc mạng bao gồm nhiều lớp convolution kết hợp với các hàm kích hoạt phi tuyến như ReLU hoặc tanh Điều này giúp tạo ra thông tin trừu tượng hơn cho các lớp tiếp theo, từ đó nâng cao khả năng nhận diện và phân loại dữ liệu.

In a Feedforward Neural Network, layers are directly connected through weighted vectors, known as weights These layers are often referred to as fully connected layers or affine layers, emphasizing their comprehensive interconnectivity.

Trong mô hình CNN, các lớp được kết nối thông qua cơ chế convolution, tạo ra các kết nối cục bộ Mỗi lớp tiếp theo nhận kết quả từ lớp trước đó, với mỗi neuron ở lớp sau được hình thành từ việc áp dụng Filter lên một vùng ảnh cục bộ của neuron ở lớp trước.

Mỗi lớp trong mạng nơ-ron thường sử dụng hàng trăm đến hàng nghìn bộ lọc khác nhau để xử lý dữ liệu Ngoài ra, các lớp pooling hoặc subsampling được sử dụng để tinh lọc thông tin, giúp loại bỏ những dữ liệu không cần thiết và giữ lại các thông tin hữu ích hơn.

Trong quá trình huấn luyện, mạng nơ-ron tích chập (CNNs) tự động tối ưu hóa các thông số cho các bộ lọc Cụ thể, trong nhiệm vụ phân loại hình ảnh, CNNs tìm kiếm thông số tốt nhất cho các bộ lọc từ pixel thô, cạnh, hình dạng, đặc trưng khuôn mặt đến các đặc trưng cấp cao Lớp cuối cùng được sử dụng để thực hiện phân loại hình ảnh.

Hình 2.5 Mô hình mạng neuron tích chập https://www.kdnuggets.com/2016/11/intuitive-explanation-convolutional-neural- networks.html/3

CNNs có tính bất biến và tính kết hợp cục bộ (Location Invariance and

Compositionality đề cập đến việc một đối tượng khi được chiếu từ các góc độ khác nhau như dịch chuyển, xoay và thay đổi kích thước sẽ ảnh hưởng đáng kể đến độ chính xác của thuật toán Layer pooling giúp đảm bảo tính bất biến đối với các phép dịch chuyển, từ đó cải thiện hiệu suất của mô hình.

(translation), phép quay (rotation) và phép co giãn (scaling)

Tính kết hợp cục bộ cho phép chúng ta biểu diễn thông tin ở nhiều cấp độ khác nhau, từ thấp đến cao và trừu tượng hơn, thông qua quá trình convolution với các bộ lọc.

Mô hình CNN đạt độ chính xác cao trong việc nhận diện đối tượng, tương tự như cách con người phân biệt các vật thể trong tự nhiên Chẳng hạn, con người có thể nhận ra chó và mèo dựa trên các đặc trưng từ cơ bản như số chân và đuôi, đến những đặc điểm phức tạp hơn như dáng đi, hình thể và màu lông.

2.4.4 Xây dựng mạng Nơ-ron tích chập

M ỘT SỐ KIẾN TRÚC CONVOLUTIONAL NEURAL NETWORK THÔNG DỤNG

Lớp cuối cùng trong mạng là lớp kết nối đầy đủ, nơi mà mọi neuron từ lớp max-pooled được kết nối với tất cả các neuron của tầng ra Kiến trúc này tương tự như mô hình đã được sử dụng trong các chương trước.

Kiến trúc tích chập khác biệt so với các kiến trúc trước đây, nhưng vẫn giữ nguyên cấu trúc từ nhiều đơn vị đơn giản, với hành vi được xác định bởi trọng số và độ lệch Mục tiêu chính vẫn là sử dụng dữ liệu huấn luyện để điều chỉnh trọng số và độ lệch, nhằm cải thiện khả năng phân loại chữ số đầu vào Như đã đề cập, mạng sẽ được huấn luyện thông qua phương pháp gradient descent ngẫu nhiên và lan truyền ngược, tuy nhiên, cần điều chỉnh quy trình lan truyền ngược để phù hợp với các lớp tích chập và lớp max-pooling, do công thức hiện tại chỉ áp dụng cho các mạng với tầng kết nối đầy đủ.

2.5 Một số kiến trúc convolutional neural network thông dụng

Hình 2.17 Kiến trúc AlexNet https://www.researchgate.net/figure/AlexNet-CNN-architecture-layers_fig1_318168077

Kiến trúc AlexNet do Alex Krizhevsky phát triển vào năm 2012 để khi tham gia cuộc thi ImageNet Mô hình này đã đạt giải nhất trong cuộc thi 2012 ImageNet

Mô hình gồm 5 tầng convolitional và 3 tầng fully connected với các tham số như trong hình vẽ trên

Số lượng tham số: 60 triệu tham số

Kiến trúc VGG 16, được phát triển bởi Simonyan và Zisserman vào năm 2014, đã nổi bật trong cuộc thi ILSVRC 2014 khi giành giải nhì Mô hình này được thiết kế với cấu trúc sâu và hiệu quả, góp phần đáng kể vào sự phát triển của mạng nơ-ron trong lĩnh vực học sâu.

Mô hình gồm tổng cộng 16 tầng, trong đó có 13 tầng convolitional và 3 tầng fully connected với các tham số như trong hình vẽ trên

Số lượng tham số: 138 triệu tham số

Hình 2.19 Kiến trúc Inception https://medium.com/coinmonks/paper-review-of-googlenet-inception-v1-winner-of-ilsvlc-

2014-image-classification-c2b3565a64e7 Kiến trúc Inception do Google phát triển và đã chiến thắng trong cuộc thi ILSVRC

Mô hình bao gồm 22 tầng convolutional và không sử dụng tầng fully connected Trong mô hình Inception, các tác giả giới thiệu module Inception, nơi các phép toán filter được thực hiện song song trên đầu vào của tầng trước đó Mỗi module Inception bao gồm 3 convolutional với kích thước (1x1, 3x3, 5x5) và 1 tầng max pooling kích thước 3x3.

Hình 2.20 Inception https://medium.com/coinmonks/paper-review-of-googlenet-inception-v1-winner-of-ilsvlc-

Số lượng tham số: 5 triệu tham số

PHÂN LOẠI ẢNH TRÁI CÂY

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Ngày đăng: 05/07/2022, 15:39

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Horea Muresan, Mihai Oltean, “Fruit recognition from images using deep learning”, Technical Report, Babes-Bolyai University, 2017 Sách, tạp chí
Tiêu đề: Fruit recognition from images using deep learning
[3] Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. “Dropout: A simple way to prevent neural networks from overfitting”, The Journal of Machine Learning Research, 15(1), p.1929-1958, 2014 Sách, tạp chí
Tiêu đề: Dropout: A simple way to prevent neural networks from overfitting
[5] .Y. LeCun and Y. Bengio.“Convolutional networks for images, speech, and time- series.” In M. A. Arbib, editor, The Handbook of Brain Theory and Neural Networks.MIT Press, 1995 Sách, tạp chí
Tiêu đề: Convolutional networks for images, speech, and time-series
[8] Chirag N. Paunwala & Suprava Patnaik. “A Novel Multiple License Plate Extraction Techniquefor Complex Background in Indian Traffic Conditions”, Sarvajanik College of Engineering and Technology, 2010 Sách, tạp chí
Tiêu đề: A Novel Multiple License Plate Extraction Techniquefor Complex Background in Indian Traffic Conditions
[9] Choo Kar Soon, Kueh Chiung Lin, Chung Ying Jeng and Shahrel A. Suandi , “Malaysian Car Number Plate Detection and Recognition System”, 2012 Sách, tạp chí
Tiêu đề: Malaysian Car Number Plate Detection and Recognition System
[10] Tran Duc Duan, Duong Anh Duc, Tran Le Hong Du, “Combining Hough Transform and Contour Algorithm for detecting Vehicles License-Plates”, University of Natural Sciences, 2004 Sách, tạp chí
Tiêu đề: Combining Hough Transform and Contour Algorithm for detecting Vehicles License-Plates
[11] Nobuyuki Otsu, "A threshold selection method from gray-level histograms”, 1979 Sách, tạp chí
Tiêu đề: A threshold selection method from gray-level histograms
[16] Alex Krizhevsky, “Imagenet classification with deep convolutional neural networks”, Advances in neural information processing systems, 2012 Sách, tạp chí
Tiêu đề: Imagenet classification with deep convolutional neural networks
[17] Karen Simonyan, Andrew Zisserman, “Very Deep Convolutional Networks for Large-Scale Image Recognition”, arXiv:1409.1556, 2014 Sách, tạp chí
Tiêu đề: Very Deep Convolutional Networks for Large-Scale Image Recognition
[1] Fruits dataset, https://www.kaggle.com/moltean/fruits (truy cập ngày 18/5/2018) Link
[13] Các tài liệu về EmguCV tại www.emgucv.com OPenCV tại www.opencv.com [14] http://genk.vn/giai-ngo-ve-deep-learning-cong-nghe-dang-giup-cho-tri-tue-nhan-tao-sanh-duoc-voi-con-nguoi-20160816002755886.chn (Ngày truy cập 20/07/2018) Link
[6] .Fabien Lauer, ChingY. Suen, Gérard Bloch,”A trainable feature extractor for handwritten digit recognition“,Elsevier, october 2006 Khác
[7] Proceedings of the Seventh International Conference on Document Analysis and Recognition (ICDAR 2003) 0-7695-1960-1/03 $17.00 © 2003 IEEE Khác
[12] R.C. Gonzalez, R.E. Woods, Digital Image Processing, Addison-Wesley, 1993 Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN