Tối Ưu hóa chi phí tính toán mô tả Ảnh trong Ứng dụng generative ai

Đề tài này sẽ tập trung vào việc áp dụng các kỹ thuật học sâu và các thuậttoán tối ưu hóa tiên tiến, kết hợp với việc sử dụng các công cụ và nền tảng tính toán hiệunăng cao, nhằm xây dựn

Giới thiệu

Trong thời đại số hóa, việc áp dụng trí tuệ nhân tạo (AI) để cải thiện cuộc sống hằng ngày đã trở thành xu hướng tất yếu Generative AI, một lĩnh vực nổi bật, không chỉ mang lại đột phá trong sáng tạo nội dung mà còn mở ra cơ hội mới trong mô tả ảnh tự động Tuy nhiên, quá trình này đòi hỏi nhiều tài nguyên tính toán và dữ liệu, gây ra thách thức về chi phí và hiệu quả Do đó, tối ưu hóa hiệu quả chi phí trong mô tả ảnh bằng Generative AI trở thành mục tiêu quan trọng Đề tài “Tối ưu hóa hiệu quả tính toán mô tả ảnh trong ứng dụng Generative AI” nghiên cứu và phát triển các phương pháp cải thiện hiệu quả chi phí của hệ thống mô tả ảnh tự động Bằng cách tích hợp kỹ thuật học sâu và thuật toán tối ưu hóa, mục tiêu là xây dựng mô hình mô tả ảnh chính xác, tiết kiệm tài nguyên và chi phí, từ đó mở rộng ứng dụng trong y tế, giáo dục, thương mại điện tử và giải trí.

Nghiên cứu này sẽ thảo luận về quy trình thiết kế và triển khai mô hình Generative

AI trong mô tả ảnh cung cấp cái nhìn tổng quan về các phương pháp và công nghệ hiện đại, đồng thời nêu bật những thách thức và giải pháp nhằm tối ưu hóa chi phí Bài viết sẽ tập trung vào các kỹ thuật tối ưu hóa hiệu năng, giúp mô hình AI trở nên nhẹ hơn và tối ưu hóa phần cứng Ngoài ra, các phương pháp huấn luyện mô hình hiệu quả cũng sẽ được thảo luận, với mục tiêu áp dụng vào nghiên cứu và triển khai các phương pháp tối ưu trên một trong những mô hình AI mô tả ảnh tiên tiến nhất hiện nay.

Mục tiêu nghiên cứu là phát triển mô hình ứng dụng cho việc triển khai mô tả ảnh bằng AI, nhằm chứng minh hiệu quả và sự tương thích của mô hình với các công nghệ hiện đại Kết quả nghiên cứu hứa hẹn mang lại lợi ích thiết thực cho doanh nghiệp, giúp tiết kiệm chi phí, nâng cao hiệu quả hoạt động và đáp ứng tốt hơn nhu cầu người dùng trong kỷ nguyên số hóa.

Mục tiêu đề tài

Để nâng cao hiệu quả chi phí trong mô tả ảnh, nghiên cứu này sẽ tối ưu hóa một trong những mô hình AI hiện đại nhất, nhằm tạo ra mô hình mới với trọng số và thời gian huấn luyện giảm thiểu Điều này sẽ giúp các nhà phát triển phần mềm dễ dàng ứng dụng mô tả ảnh, từ đó tăng cường tính cạnh tranh và sự đa dạng của ứng dụng AI trong cuộc sống Nghiên cứu tập trung vào hai mục tiêu chính.

Nghiên cứu và huấn luyện mô hình AI mô tả ảnh dựa trên ExpansionNet v2, một trong những mô hình tiên tiến nhất hiện nay Đề tài sẽ áp dụng các thuật toán và phương pháp mới nhằm giảm thiểu độ phức tạp và tối ưu hóa các hạn chế của ExpansionNet v2.

Thiết kế một ứng dụng web server cho mô hình AI đã được tối ưu và huấn luyện là bước quan trọng Ứng dụng này sẽ bao gồm giao diện cho phép người dùng tải lên ảnh và nhận mô tả, giao diện để người dùng cung cấp ảnh cùng yêu cầu tìm kiếm, và một chatbot tích hợp giúp hiểu nội dung hình ảnh Qua đó, ứng dụng thể hiện khả năng ứng dụng và tích hợp của mô hình AI đã nghiên cứu.

Giới hạn đề tài

Do hạn chế về thời gian và phần cứng, đồ án sẽ tập trung vào việc nghiên cứu và áp dụng kiến thức chuyên môn để thiết kế và huấn luyện mô hình, nhằm giải quyết các vấn đề cụ thể.

Nghiên cứu và thiết kế một mô hình mô tả ảnh dựa trên ExpansionNet v2, tập trung vào việc tối ưu hóa kích thước và độ phức tạp của mô hình trong khi vẫn duy trì hiệu suất mô tả ảnh vượt trội so với mô hình gốc.

Việc huấn luyện mô hình sẽ chỉ dựa trên một tập dữ liệu duy nhất là MS-COCO, bao gồm hình ảnh các đối tượng phổ biến như người, đồ vật và thú nuôi, kèm theo mô tả bằng tiếng Anh cho mỗi hình ảnh Điều này dẫn đến việc mô hình gặp khó khăn trong việc nhận diện các đối tượng ít gặp hoặc không có trong tập dữ liệu, đồng thời ngôn ngữ mô tả hình ảnh do mô hình tạo ra sẽ chỉ là tiếng Anh.

Phương pháp nghiên cứu

Vận dụng kiến thức về trí tuệ nhân tạo, thị giác máy tính và xử lý ngôn ngữ để thực thi mô hình hiệu quả.

AI trên các ứng dụng web, từ đó thực hiện các công việc như sau:

Nghiên cứu kiến trúc mô hình mô tả ảnh ExpansionNet v2 nhằm tìm ra những điểm hạn chế có thể cải thiện Chúng tôi thực hiện các thử nghiệm về kiến trúc và huấn luyện để phát triển một mô hình mới tối ưu hơn.

Nghiên cứu các thư viện và framework hỗ trợ tích hợp mô hình AI vào ứng dụng web, thiết kế và triển khai ứng dụng sử dụng mô hình AI đã được nghiên cứu Kết hợp với các API có sẵn, mục tiêu là tạo ra một ứng dụng đơn giản và tiết kiệm chi phí cho việc mô tả ảnh.

Bố cục khóa luận

Chương 1: TỔNG QUAN giới thiệu về trí tuệ nhân tạo (AI) và AI sinh sinh, đặc biệt là việc sử dụng AI trong mô tả ảnh Nội dung chương sẽ phân tích lợi ích và hạn chế về chi phí của công nghệ này, đồng thời đề xuất các giải pháp và hướng đi nhằm tối ưu hóa mô hình AI mô tả ảnh.

Chương 2: CƠ SỞ LÝ THUYẾT sẽ tổng quan về các lý thuyết ứng dụng trong nghiên cứu, thực hiện và thiết kế đề tài Nội dung sẽ bao gồm các công nghệ hỗ trợ xây dựng mô hình và thiết kế ứng dụng web, cùng với các khái niệm về AI, Generative AI, mô tả ảnh và các tác vụ liên quan Ngoài ra, chương cũng sẽ đề cập đến tập dữ liệu MS-COCO và kiến trúc mạng của mô hình mô tả ảnh ExpansionNet v2.

Chương 3: Tối ưu hóa mô hình mạng neural mô tả ảnh tập trung vào việc cải tiến ExpansionNet v2 Chúng tôi thiết kế và phát triển mô hình mới mang tên Light-ExpansionNet, sau đó tiến hành huấn luyện và đánh giá hiệu năng, kích thước và chi phí của mô hình này Kết quả cho thấy Light-ExpansionNet có những ưu điểm vượt trội so với ExpansionNet v2.

Chương 4 tập trung vào việc thiết kế và xây dựng ứng dụng web Generative AI, sử dụng mô hình Light-ExpansionNet để mô tả ảnh Ứng dụng này tích hợp OpenAI API nhằm kết hợp mô hình GPT với Light-ExpansionNet, từ đó tạo ra một chatbot hiệu quả.

Chương 5: Kết luận và Hướng phát triển tổng hợp quá trình nghiên cứu về tối ưu hóa hiệu quả chi phí mô tả ảnh trong ứng dụng Generative AI Từ những kết luận rút ra, bài viết sẽ đề xuất những hướng phát triển tiềm năng cho đề tài trong tương lai.

Tổng quan về trí tuệ nhân tạo

Trí tuệ nhân tạo là gì?

Trí tuệ nhân tạo (AI) là lĩnh vực khoa học máy tính nhằm phát triển hệ thống có khả năng thực hiện các nhiệm vụ thông minh, vốn chỉ con người mới làm được Mục tiêu của AI là xây dựng các hệ thống có khả năng học hỏi và suy luận từ dữ liệu, tự động hóa quy trình, và đưa ra quyết định dựa trên thông tin có sẵn.

Lợi ích của trí tuệ nhân tạo

Công nghệ AI, thông qua mạng máy học và học sâu, có khả năng giải quyết các vấn đề phức tạp tương tự như trí tuệ con người Với khả năng xử lý thông tin quy mô lớn, AI có thể nhận diện mẫu, xác định thông tin và đưa ra câu trả lời chính xác Ứng dụng của AI rất đa dạng, từ phát hiện gian lận, chẩn đoán y tế đến phân tích kinh doanh.

AI có khả năng hoạt động liên tục 24/7 mà không giảm hiệu suất, giúp tăng cường hiệu quả kinh doanh Nó thực hiện các tác vụ thủ công mà không mắc lỗi và cho phép tập trung vào những nhiệm vụ lặp đi lặp lại Nhờ đó, AI không chỉ giảm khối lượng công việc cho nhân viên mà còn điều chỉnh tất cả các nhiệm vụ liên quan đến doanh nghiệp một cách hiệu quả.

AI sử dụng máy học để phân tích khối lượng lớn dữ liệu, giúp phát hiện xu hướng và cung cấp hướng dẫn chính xác Nhờ vào khả năng dự báo dữ liệu, AI có thể đề xuất những hành động tốt nhất cho tương lai, từ đó hỗ trợ việc đưa ra quyết định thông minh hơn.

Ứng dụng của trí tuệ nhân tạo

Trong những năm gần đây, sự phát triển vượt bậc của công nghệ AI đã tạo ra nhiều cơ hội mới, từ ứng dụng hàng ngày như dịch văn bản và trợ lý ảo đến các lĩnh vực chuyên sâu như dự đoán thời tiết và tư vấn y tế Công nghệ AI áp dụng nhiều phương pháp và kỹ thuật đa dạng, mở rộng khả năng ứng dụng trong tài chính và nhiều lĩnh vực khác.

Học máy (Machine Learning) là phương pháp giúp máy tính tự học từ dữ liệu mà không cần lập trình cụ thể Các thuật toán học máy chủ yếu bao gồm học có giám sát, học không giám sát và học tăng cường.

Học sâu (Deep Learning) là một phương pháp học máy tiên tiến, sử dụng các mạng neural sâu với nhiều lớp ẩn Phương pháp này đã góp phần quan trọng vào sự phát triển của nhiều ứng dụng trí tuệ nhân tạo thành công, bao gồm nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên và công nghệ xe tự lái.

Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực quan trọng trong trí tuệ nhân tạo, chuyên nghiên cứu cách máy tính hiểu và tạo ra ngôn ngữ tự nhiên NLP được ứng dụng rộng rãi trong nhiều lĩnh vực, bao gồm dịch máy, phân tích ngữ nghĩa và sinh tổng hợp văn bản, giúp cải thiện tương tác giữa con người và máy móc.

Thị giác máy tính (Computer Vision - CV) là một lĩnh vực quan trọng trong trí tuệ nhân tạo (AI), nhằm giúp máy tính có khả năng nhận diện và hiểu hình ảnh Các ứng dụng của thị giác máy tính rất đa dạng, bao gồm nhận dạng khuôn mặt, nhận diện vật thể và công nghệ xe tự lái.

AI ngày càng trở nên quan trọng trong cuộc sống hàng ngày, ảnh hưởng đến nhiều lĩnh vực như công nghiệp, giáo dục và y tế Tuy nhiên, việc triển khai AI cũng đặt ra thách thức về đạo đức, bao gồm yêu cầu đảm bảo minh bạch và công bằng trong việc sử dụng dữ liệu, cũng như quản lý rủi ro liên quan đến an toàn thông tin và quyền riêng tư.

Tổng quan về học máy và học sâu

Tổng quan về học máy

Học máy là một lĩnh vực nghiên cứu cho phép máy tính học hỏi từ dữ liệu mà không cần lập trình cụ thể Mục tiêu chính của học máy là phát triển các thuật toán có khả năng tổng quát hóa, chuyển giao kiến thức từ dữ liệu huấn luyện sang dữ liệu chưa thấy.

Supervised learning involves learning a mapping function from input to output based on sample input-output pairs Common algorithms in this category include linear regression, support vector machines (SVM), and neural networks.

Học không giám sát (Unsupervised Learning) là phương pháp học từ dữ liệu không có nhãn, giúp hệ thống khám phá cấu trúc cơ bản của dữ liệu Các thuật toán phổ biến trong lĩnh vực này bao gồm phân cụm (K-Means, Hierarchical), phân tích thành phần chính (Principal Component Analysis - PCA) và mã hóa tự động (Autoencoders).

Học tăng cường (Reinforcement Learning) là phương pháp học mà ở đó, các tác nhân học cách hành động hoặc ra quyết định thông qua việc tương tác với môi trường và nhận phần thưởng hoặc hình phạt Những thuật toán quan trọng trong lĩnh vực này bao gồm Q-Learning và Deep Q Networks (DQN), đóng vai trò then chốt trong việc phát triển các ứng dụng học máy hiệu quả.

Trong quá trình huấn luyện và kiểm tra mô hình, dữ liệu được phân chia thành hai tập: tập huấn luyện và tập kiểm tra Tập huấn luyện được sử dụng để xây dựng mô hình, trong khi tập kiểm tra đóng vai trò quan trọng trong việc đánh giá hiệu suất của mô hình đó.

Quá khớp và thiếu khớp là hai vấn đề thường gặp trong quá trình học máy Quá khớp xảy ra khi mô hình học quá tốt từ dữ liệu huấn luyện, bao gồm cả nhiễu, dẫn đến hiệu suất kém khi gặp dữ liệu mới Ngược lại, thiếu khớp xảy ra khi mô hình quá đơn giản, không đủ khả năng để nhận diện các mẫu cơ bản trong dữ liệu.

Kiểm tra chéo là một kỹ thuật quan trọng để đánh giá khả năng tổng quát hóa của mô hình Phương pháp này bao gồm việc chia dữ liệu thành các tập con và thực hiện xác thực mô hình trên các tập con khác nhau theo cách lặp lại, giúp đảm bảo tính chính xác và độ tin cậy của mô hình.

Các chỉ số hiệu suất như độ chính xác, độ chính xác (precision), độ hồi tưởng (recall), F1-score và ROC-AUC là những công cụ quan trọng để đánh giá hiệu suất của các mô hình máy học (ML).

Tổng quan về học sâu

Học sâu, một nhánh của học máy, sử dụng mạng neural sâu để mô hình hóa các mẫu phức tạp trong dữ liệu Phương pháp này tỏ ra hiệu quả vượt trội trong các nhiệm vụ xử lý dữ liệu lớn và có cấu trúc phức tạp, chẳng hạn như nhận diện hình ảnh và giọng nói.

Neuron nhân tạo là đơn vị cơ bản của mạng neural, được thiết kế dựa trên cấu trúc của neuron sinh học Chức năng chính của nó là nhận đầu vào, xử lý thông tin và truyền dữ liệu đến lớp tiếp theo trong mạng.

Mạng neural bao gồm ba loại lớp: lớp đầu vào, các lớp ẩn và lớp đầu ra Mỗi lớp trong mạng neural có nhiệm vụ chuyển đổi dữ liệu đầu vào thành các biểu diễn ngày càng trừu tượng, giúp cải thiện khả năng học và dự đoán.

• Hàm kích hoạt (Activation functions): Các hàm như Sigmoid, Tanh, và ReLU (Rectified Linear Unit) đưa tính phi tuyến vào mạng, cho phép nó học các mẫu phức tạp.

Lan truyền ngược (Backpropagation) là một thuật toán huấn luyện quan trọng cho các mạng neural, cho phép truyền tiếp đầu vào và điều chỉnh các trọng số của mạng thông qua việc lan truyền ngược các lỗi.

Các kiến trúc học sâu:

Mạng neural tích chập (CNNs) chủ yếu được áp dụng cho dữ liệu hình ảnh, cho phép tự động học các phân cấp không gian của các đặc trưng thông qua các lớp tích chập.

Mạng neural hồi quy (RNNs) là lựa chọn lý tưởng cho dữ liệu tuần tự nhờ khả năng duy trì bộ nhớ của các đầu vào trước đó thông qua các vòng lặp Các biến thể tiên tiến như Long Short-Term Memory (LSTM) và Gated Recurrent Unit (GRU) được phát triển để khắc phục vấn đề phụ thuộc dài hạn trong RNNs.

Mạng dối kháng sinh (GANs) là một cấu trúc gồm hai mạng: mạng tạo (generator) và mạng phân biệt (discriminator) Công nghệ này được sử dụng để tạo ra các mẫu dữ liệu mới, có khả năng không thể phân biệt với dữ liệu thực, mở ra nhiều ứng dụng trong lĩnh vực học máy và trí tuệ nhân tạo.

Ứng dụng của học máy và học sâu

Cả học máy và học sâu đều có các ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau:

Thị giác máy tính là một lĩnh vực quan trọng của trí tuệ nhân tạo, bao gồm các kỹ thuật như phân loại hình ảnh, phát hiện đối tượng và nhận diện khuôn mặt Ứng dụng của AI trong thị giác máy tính thể hiện rõ qua các ví dụ như nhận dạng và phát hiện đối tượng, minh họa trong Hình 2.1.

Hình 2.1: Ứng dụng AI vào trong lĩnh vực thị giác máy tính.

• Xử lý ngôn ngữ tự nhiên: Dịch máy, phân tích cảm xúc và chatbot.

Y tế đang trải qua những bước tiến vượt bậc nhờ vào AI, đặc biệt trong việc chẩn đoán bệnh và khám phá thuốc Một trong những ứng dụng nổi bật của công nghệ này là hỗ trợ chẩn đoán hình ảnh bệnh ung thư, như được minh họa trong Hình 2.2, với nhiều quốc gia trên thế giới áp dụng Y học cá nhân hóa cũng đang được phát triển, giúp cải thiện hiệu quả điều trị cho từng bệnh nhân.

Hình 2.2: Ứng dụng AI vào trong lĩnh vực y tế.

• Tài chính: Phát hiện gian lận, giao dịch thuật toán và quản lý rủi ro.

Những thách thức và hướng đi trong tương lai

Hiện nay, công cuộc nghiên cứu và ứng dụng các mô hình ML và DL vẫn còn gặp những thách thức khó nhằn:

• Yêu cầu dữ liệu: Các mô hình DL thường yêu cầu các tập dữ liệu lớn, điều này không phải lúc nào cũng có sẵn.

• Tài nguyên tính toán: Huấn luyện các mạng sâu có thể tốn nhiều tài nguyên, đòi hỏi các GPU mạnh và bộ nhớ rộng lớn.

Các mô hình học sâu, đặc biệt là mạng neural sâu, thường được xem là "hộp đen", điều này gây khó khăn trong việc giải thích quá trình ra quyết định của chúng.

Nghiên cứu trong tương lai sẽ chú trọng vào việc nâng cao khả năng giải thích của các mô hình, giảm thiểu yêu cầu về dữ liệu và tài nguyên tính toán, đồng thời mở rộng ứng dụng của Machine Learning (ML) và Deep Learning (DL) trong nhiều lĩnh vực khác nhau.

Tổng quan về trí tuệ nhân tạo tạo sinh

Trí tuệ nhân tạo tạo sinh là gì?

Trí tuệ nhân tạo tạo sinh (Generative AI) là một lĩnh vực quan trọng trong trí tuệ nhân tạo, chuyên phát triển các mô hình máy học có khả năng tạo ra dữ liệu mới và chất lượng từ dữ liệu hiện có Generative AI có khả năng tự động và sáng tạo trong việc sản xuất hình ảnh, âm nhạc, văn bản, video và nhiều loại dữ liệu khác Trong thời đại số hiện nay, Generative AI đã trở thành công cụ thiết yếu cho nhiều ứng dụng sáng tạo và thương mại.

Công nghệ Generative AI được phát triển từ các mô hình học sâu như GANs, VAEs và Transformers, có khả năng học từ dữ liệu và tạo ra dữ liệu mới Những mô hình này ánh xạ từ không gian tiềm ẩn sang không gian dữ liệu mong muốn, hoạt động dựa trên các nguyên lý toán học và thống kê phức tạp, cho phép chúng tạo ra dữ liệu mới một cách độc lập và sáng tạo.

Ứng dụng của trí tuệ nhân tạo tạo sinh

Công nghệ Generative AI đã và đang được phát triển và áp dụng rộng rãi trên nhiều lĩnh vực cụ thể:

Generative AI có khả năng viết bài báo, sáng tác thơ, tạo kịch bản phim và quảng cáo một cách tự nhiên Mô hình ngôn ngữ GPT-3 có thể sản xuất các bài viết mà khó có thể phân biệt được với những tác phẩm do con người sáng tác.

Generative AI có khả năng tạo ra hình ảnh và video từ văn bản mô tả hoặc biến đổi hình ảnh hiện có theo yêu cầu Chẳng hạn, mô hình DALL-E 2 có thể sản xuất hình ảnh từ các câu mô tả đơn giản và chuyển đổi ảnh chân dung thành phong cách hoạt hình.

Generative AI có khả năng sáng tác nhạc, tạo hiệu ứng âm thanh và phối nhạc cho video Công nghệ này cho phép sản xuất các bản nhạc theo phong cách mong muốn và tạo ra hiệu ứng âm thanh phù hợp cho phim điện ảnh.

Generative AI hỗ trợ các trang thương mại điện tử trong việc đề xuất sản phẩm phù hợp với sở thích và nhu cầu của từng khách hàng, từ đó nâng cao tỷ lệ chuyển đổi và gia tăng doanh thu hiệu quả.

Generative AI có khả năng cá nhân hóa tin tức và nội dung cho từng người dùng, dựa trên sở thích và hành vi của họ, giúp nâng cao trải nghiệm người đọc và tạo ra thông tin phù hợp hơn với nhu cầu cá nhân.

Generative AI đang cách mạng hóa lĩnh vực lập trình bằng cách tự động hóa một số công việc lập trình, cung cấp các đoạn mã mẫu hữu ích Điều này giúp các lập trình viên có thể tập trung vào những nhiệm vụ phức tạp hơn, nâng cao hiệu suất làm việc và chất lượng sản phẩm.

Generative AI có khả năng tạo ra các bài giảng và tài liệu học tập được cá nhân hóa cho từng học sinh, từ đó nâng cao chất lượng học tập và giảng dạy cho cả học sinh lẫn giáo viên.

Tổng quan về mô tả ảnh

Mô tả ảnh là gì?

Mô tả ảnh (Image captioning) là quá trình tự động tạo ra văn bản mô tả nội dung hình ảnh bằng thuật toán máy học Mục tiêu chính là cung cấp một câu hoặc đoạn văn chi tiết về hình ảnh, bao gồm vị trí các đối tượng, hoạt động diễn ra, môi trường xung quanh và các thông tin khác có thể được rút ra từ hình ảnh.

Quá trình mô tả ảnh bao gồm hai phần chính: trích xuất đặc trưng hình ảnh và sinh văn bản mô tả từ các đặc trưng này Các mô hình học sâu như mạng neural tích chập (CNN) được sử dụng để chuyển đổi hình ảnh thành vectơ đặc trưng, sau đó vectơ này được đưa vào kiến trúc xử lý ngôn ngữ như RNN, LSTM hoặc Transformer để tạo ra văn bản mô tả Những phương pháp này đã phát triển các hệ thống mô tả ảnh có khả năng sinh ra mô tả chính xác và phong phú Ứng dụng của mô tả ảnh rất đa dạng, từ hỗ trợ người khiếm thị hiểu hình ảnh, tạo mô tả cho video và hình ảnh trên mạng xã hội, đến việc cải thiện tìm kiếm hình ảnh và ứng dụng trong giáo dục, y tế, du lịch và công nghiệp.

Tiền xử lý dữ liệu cho mô tả ảnh

Tiền xử lý dữ liệu là bước thiết yếu trong việc xây dựng mô hình học máy cho bài toán mô tả ảnh, giúp chuẩn hóa và nâng cao chất lượng dữ liệu, từ đó cải thiện hiệu quả của mô hình Các kỹ thuật tiền xử lý sẽ thay đổi tùy thuộc vào tác vụ như thị giác máy tính, xử lý ngôn ngữ hay xử lý âm thanh Đối với bài toán mô tả ảnh, dữ liệu đầu vào bao gồm hình ảnh và ngôn ngữ, yêu cầu kết hợp các phương pháp tiền xử lý từ cả lĩnh vực thị giác máy tính và xử lý ngôn ngữ tự nhiên Một số kỹ thuật tiền xử lý dữ liệu phổ biến cho bài toán thị giác máy tính bao gồm chuẩn hóa hình ảnh, phát hiện biên và giảm nhiễu.

Việc thay đổi kích thước ảnh là một bước quan trọng trong quá trình chuẩn hóa dữ liệu cho mô hình, giúp tất cả ảnh có cùng kích thước và cho phép mô hình tập trung vào các đặc điểm quan trọng Các phương pháp phổ biến để chuẩn hóa kích thước ảnh bao gồm: thay đổi kích thước ảnh theo yêu cầu, cắt ảnh từ vị trí trung tâm hoặc chọn khu vực chứa nhiều thông tin nhất, và điều chỉnh tỷ lệ chiều rộng và chiều cao để phù hợp với kích thước mong muốn Để thực hiện kỹ thuật này, có thể sử dụng các hàm thay đổi kích thước ảnh trong các thư viện xử lý hình ảnh như OpenCV, Keras, và PyTorch.

Phát hiện và loại bỏ nhiễu là bước quan trọng trong xử lý ảnh, vì nhiễu có thể do nhiều yếu tố như ánh sáng, bụi bẩn và cảm biến camera gây ra Nhiễu không chỉ làm giảm chất lượng dữ liệu mà còn dẫn đến kết quả mô tả ảnh không chính xác Để cải thiện chất lượng ảnh, các phương pháp xử lý nhiễu phổ biến bao gồm lọc trung bình, lọc trung vị và lọc Gauss.

Tăng cường dữ liệu (Data Augmentation) là phương pháp cải thiện hiệu quả mô hình bằng cách tạo ra dữ liệu mới từ dữ liệu hiện có, giúp tiết kiệm thời gian và chi phí trong việc thu thập dữ liệu ảnh chất lượng cao và có chú thích chính xác Các kỹ thuật phổ biến trong tăng cường dữ liệu ảnh bao gồm xoay, lật, cắt ảnh, thêm nhiễu, và điều chỉnh độ sáng cũng như độ tương phản.

Chuẩn hóa (Normalization) là quá trình chuyển đổi các giá trị RGB của ảnh từ khoảng 0-255 sang khoảng 0-1 bằng cách chia mỗi giá trị pixel cho 255, giúp ổn định quá trình huấn luyện Công thức chuẩn hóa được biểu diễn như sau: \( x_{norm} = \frac{x - x_{min}}{x_{max} - x_{min}} \), trong đó \( x \) là giá trị RGB gốc, \( x_{min} \) và \( x_{max} \) là giá trị nhỏ nhất và lớn nhất trong tập dữ liệu Sau đó, các giá trị pixel được chuẩn hóa thêm bằng cách sử dụng giá trị trung bình và độ lệch chuẩn, với công thức: \( x_{norm} = \frac{x_c - mean_c}{std_c} \), với \( c \in \{red, green, blue\} \) Các giá trị trung bình và độ lệch chuẩn điển hình cho bộ dữ liệu ImageNet là: \( mean = (0.485, 0.456, 0.406) \) và \( std = (0.229, 0.224, 0.225) \), giúp mỗi kênh màu được chuẩn hóa riêng biệt, tăng tốc độ hội tụ trong quá trình huấn luyện.

Áp dụng kỹ thuật mặt nạ (Masking) giúp tập trung vào các vùng cụ thể trong hình ảnh, loại bỏ các phần không liên quan và làm nổi bật các đặc trưng quan trọng Đây là một trong những phương pháp tiền xử lý dữ liệu phổ biến trong lĩnh vực xử lý ngôn ngữ.

Tách từ (Tokenization) là quá trình chia văn bản thành các đơn vị nhỏ hơn gọi là token, có thể là từ, phân từ hoặc ký tự Quá trình này có thể thực hiện ở nhiều mức độ khác nhau, giúp phân tích và xử lý ngôn ngữ tự nhiên hiệu quả hơn.

Chuyển tất cả các ký tự trong văn bản thành chữ thường để đảm bảo tính nhất quán, vì 'Word' và 'word' nên được xử lý như nhau.

• Loại bỏ dấu câu (Punctuation Removal): Loại bỏ các dấu câu khỏi văn bản vì chúng thường không đóng góp nhiều vào ý nghĩa trong nhiều tác vụ NLP.

Text vectorization involves converting text into numerical vectors, enabling easier analysis and processing Common methods include Bag of Words (BoW), which represents text based on word frequency, and TF-IDF (Term Frequency-Inverse Document Frequency), which highlights the importance of words in relation to a document and the entire corpus.

Điều chỉnh tần suất từ dựa trên mức độ hiếm của chúng trong tài liệu là một phương pháp quan trọng Sử dụng các mô hình Word Embeddings như Word2Vec, GloVe hoặc FastText giúp nắm bắt ý nghĩa ngữ nghĩa của từ, từ đó cải thiện khả năng hiểu biết và phân tích ngữ cảnh trong văn bản.

Điều chỉnh độ dài chuỗi (Sequence Padding) là quy trình quan trọng trong xử lý dữ liệu, giúp đảm bảo rằng tất cả các chuỗi văn bản trong một tập dữ liệu đều có độ dài đồng nhất Điều này thường được thực hiện bằng cách cắt bớt các chuỗi dài hơn hoặc thêm đệm vào các chuỗi ngắn hơn thông qua các token đệm, nhằm tối ưu hóa hiệu suất của các mô hình học máy.

‘PAD’, mục đích chính là để đưa dữ liệu vào các mạng neural.

Xử lý từ ngoài từ điển (OOV) là một kỹ thuật quan trọng trong việc quản lý các từ không có trong từ điển huấn luyện Để giải quyết vấn đề này, ta sử dụng một token đặc biệt, chẳng hạn như 'UNK', nhằm đại diện cho những từ không được nhận diện Việc áp dụng phương pháp này giúp cải thiện độ chính xác và hiệu quả của các mô hình ngôn ngữ trong việc xử lý văn bản.

Các chỉ số đánh giá mô tả ảnh

Trong lĩnh vực mô tả ảnh, các chỉ số đánh giá được sử dụng để đo lường độ chính xác và chất lượng của các câu mô tả do mô hình tạo ra so với các câu mô tả tham chiếu Một số chỉ số đánh giá phổ biến bao gồm:

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) là một công cụ đo lường mức độ trùng khớp giữa các n-grams, cụm từ và chuỗi ký tự của câu mô tả được tạo ra với câu tham chiếu Công cụ này thường được áp dụng trong các nhiệm vụ tóm tắt văn bản và mô tả ảnh Một biến thể phổ biến của ROUGE là ROUGE-L, tập trung vào việc đánh giá độ dài của chuỗi con chung dài nhất (Longest Common Subsequence - LCS) Công thức tính ROUGE-L được sử dụng để xác định mức độ tương đồng giữa các đoạn văn.

Hệ số điều chỉnh β thường được thiết lập sao cho β² = Precision Recall, nhằm tạo sự cân bằng giữa Precision và Recall Độ dài của chuỗi con chung dài nhất giữa văn bản tham khảo X và văn bản được tạo ra Y được ký hiệu là LCS(X,Y).

BLEU (Bilingual Evaluation Understudy) là một chỉ số đánh giá tự động phổ biến, thường được sử dụng để đánh giá chất lượng mô hình dịch máy và mô tả ảnh Chỉ số này hoạt động bằng cách so sánh n-grams (các cụm từ có độ dài n) của câu mô tả được tạo ra với các câu mô tả tham chiếu, từ đó tính toán mức độ trùng khớp giữa chúng Công thức tính BLEU được thiết kế để phản ánh độ chính xác và tính đầy đủ của các mô hình dịch.

Hình phạt ngắn gọn (Brevity Penalty - BP) có giá trị là 2.5, nhằm điều chỉnh để không ưu tiên các bản dịch ngắn hơn Tỷ lệ n-gram chính xác được ký hiệu là pn cho mỗi n, trong khi wn là trọng số tương ứng cho từng n-gram.

• METEOR (Metric for Evaluation of Translation with Explicit ORdering):

METEOR đánh giá mức độ khớp ngữ nghĩa giữa câu mô tả và câu tham chiếu, cải thiện so với BLEU bằng cách xem xét từ đồng nghĩa và biến thể từ Công thức tính METEOR được thiết lập để phản ánh chính xác hơn sự tương đồng ngữ nghĩa trong các câu mô tả.

Công thức MET EOR được định nghĩa là MET EOR = Fmeanã(1−Penalty), trong đó Fmean là giá trị trung bình của Precision và Recall Hình phạt (Penalty) được áp dụng dựa trên sự sắp xếp lại từ và các đoạn không khớp, nhằm giảm điểm cho những bản dịch có cấu trúc kém hoặc sắp xếp từ không chính xác.

CIDEr (Đánh giá Mô tả Hình ảnh Dựa trên Đồng thuận) là một chỉ số dùng để đánh giá chất lượng các câu mô tả hình ảnh thông qua sự đồng thuận giữa nhiều câu mô tả tham chiếu Chỉ số này tập trung vào ngữ nghĩa và tính tự nhiên của các câu mô tả, đảm bảo rằng chúng phản ánh chính xác nội dung hình ảnh Công thức tính CIDEr được thiết lập để đo lường hiệu quả của các mô tả này.

∑ n=1 wnãIDFnã∑jmin(Count(g n j ,Ci),Count(g n j ,S))

CIDEr (Consensus-based Image Description Evaluation) là một chỉ số đánh giá chất lượng của các chú thích hình ảnh, trong đó CIDEri là điểm số CIDEr cho mỗi chú thích i, với m là tổng số chú thích Các n-gram trong chú thích j được ký hiệu là g n j, và Ci là văn bản tham khảo thứ i, trong khi S là văn bản được tạo ra Công thức Count(a,b) tính số lần xuất hiện của a trong b, và IDFn là trọng số nghịch đảo tần suất của n-gram n, thường được đặt là 1 Biến thể CIDEr-D bổ sung yếu tố giảm trọng số để giảm thiểu ảnh hưởng của các n-gram xuất hiện quá thường xuyên, từ đó giúp tập trung vào các n-gram có giá trị thông tin cao hơn bằng cách điều chỉnh trọng số IDF.

SPICE (Đánh giá mô tả hình ảnh theo ngữ nghĩa) tập trung vào việc đánh giá các khía cạnh ngữ nghĩa của câu mô tả Phương pháp này chuyển đổi các câu thành đồ thị ngữ nghĩa và thực hiện so sánh giữa đồ thị của câu mô tả được tạo ra và câu tham chiếu Công thức tính của SPICE được áp dụng để đo lường độ chính xác và tính phù hợp của các mô tả hình ảnh.

Các chỉ số đánh giá mô hình mô tả ảnh mang đến cái nhìn đa chiều về chất lượng, hỗ trợ các nhà nghiên cứu và phát triển nắm bắt hiệu suất của mô hình Nhờ đó, họ có thể cải thiện mô hình để đạt được kết quả tối ưu hơn.

Các kỹ thuật huấn luyện mô hình mô tả ảnh

Các mô hình mô tả ảnh phổ biến hiện nay như OSCAR, Image Captioning Transformer và NIC đều sử dụng kiến trúc encoder-decoder với một backbone đã được huấn luyện sẵn để trích xuất đặc trưng ảnh Kiến trúc phức tạp này khiến việc huấn luyện từ đầu trở nên khó khăn, đòi hỏi một lượng lớn dữ liệu và thời gian, dẫn đến việc tiêu tốn nhiều tài nguyên.

Các kỹ thuật huấn luyện đặc biệt đã được áp dụng cho các mô hình mô tả ảnh nhằm giải quyết vấn đề nêu trên.

• Sử dụng trọng số đã được huấn luyện trước (Transfer Learning): Fine-tuning

Phương pháp này sử dụng một mô hình đã được huấn luyện trước trên tập dữ liệu lớn như ImageNet và điều chỉnh các trọng số của mô hình cho tập dữ liệu cụ thể Đây là một phương pháp phổ biến cho các mô hình có backbone Trong phương pháp Feature Extraction, các trọng số của backbone, thường là một mạng CNN đã được huấn luyện trước, được giữ cố định, trong khi chỉ các lớp phía trên (decoder) được huấn luyện Cách tiếp cận này giúp giảm thiểu thời gian huấn luyện và yêu cầu ít dữ liệu hơn.

Huấn luyện đa giai đoạn (Multi-Stage Training) bao gồm ba giai đoạn chính: Giai đoạn 1 tập trung vào việc huấn luyện phần encoder hoặc backbone để nắm bắt các đặc trưng cơ bản của hình ảnh Giai đoạn 2 khóa trọng số của backbone và chuyển sang huấn luyện phần decoder nhằm tái tạo hoặc mô tả hình ảnh từ các đặc trưng đã mã hóa Cuối cùng, Giai đoạn 3 thực hiện huấn luyện toàn bộ mô hình với tốc độ học nhỏ để tinh chỉnh đồng thời cả encoder và decoder.

Huấn luyện với dữ liệu bổ sung bao gồm hai phương pháp chính: Semi-Supervised Learning, trong đó sử dụng một lượng nhỏ dữ liệu có gán nhãn kết hợp với một lượng lớn dữ liệu không gán nhãn để nâng cao hiệu suất mô hình, và Self-Supervised Learning, nơi tạo ra các nhiệm vụ tự giám sát như dự đoán phần bị che khuất của hình ảnh hoặc dự đoán tương lai của chuỗi hình ảnh.

Tổng quan về trả lời câu hỏi bằng hình ảnh

Trả lời câu hỏi bằng hình ảnh (Visual Q & A) là một phương pháp trong xử lý ngôn ngữ tự nhiên và thị giác máy tính, nơi hình ảnh được sử dụng để trả lời câu hỏi liên quan đến nội dung của nó Phương pháp này kết hợp việc hiểu nội dung hình ảnh và nội dung câu hỏi để đưa ra câu trả lời chính xác Các hệ thống thường sử dụng mô hình học sâu như CNN để trích xuất đặc trưng từ hình ảnh, cùng với RNN, LSTM hoặc Transformer để hiểu câu hỏi và tạo ra câu trả lời.

Quá trình này thường bao gồm các bước sau:

• Trích xuất đặc trưng từ hình ảnh bằng cách sử dụng CNN.

• Hiểu nội dung của câu hỏi bằng cách sử dụng các phương pháp NLP như LSTM, Transformer hoặc BERT.

Việc kết hợp thông tin từ hình ảnh và câu hỏi để tạo ra câu trả lời thường sử dụng cơ chế chú ý hoặc tự chú ý, giúp mô hình tập trung vào các phần quan trọng của hình ảnh và văn bản Ứng dụng của công nghệ này rất đa dạng, từ việc phát triển hệ thống trả lời câu hỏi tự động cho hình ảnh y tế, giáo dục, thị trường, đến giải trí Ngoài ra, nó còn hỗ trợ xây dựng các công cụ hữu ích cho người khiếm thị và những người gặp khó khăn trong việc xử lý văn bản.

Giới thiệu về các công nghệ sử dụng

Ngôn ngữ lập trình Python

Python là một ngôn ngữ lập trình bậc cao và đa năng, được phát triển bởi Guido van Rossum và ra mắt lần đầu vào năm 1991 Với thiết kế dễ đọc, dễ học và dễ nhớ, Python đã trở thành lựa chọn phổ biến cho cả người mới bắt đầu lẫn lập trình viên chuyên nghiệp.

Một số ưu điểm của Python:

Python là ngôn ngữ lập trình dễ học và dễ sử dụng nhất hiện nay, nhờ vào cú pháp đơn giản và rõ ràng, gần gũi với ngôn ngữ tự nhiên Điều này giúp người mới bắt đầu dễ dàng tiếp cận và làm quen với lập trình.

• Năng suất cao: Python cho phép viết mã ngắn gọn, súc tích, giúp tăng năng suất lập trình.

Python là một ngôn ngữ lập trình đa năng, được ứng dụng rộng rãi trong nhiều lĩnh vực như phát triển web, khoa học dữ liệu, học máy, trí tuệ nhân tạo và tự động hóa.

• Đa nền tảng: Python có thể chạy trên nhiều hệ điều hành khác nhau như Windows, macOS, Linux,

• Cộng đồng lớn: Python có cộng đồng người dùng và nhà phát triển rộng lớn, luôn sẵn sàng hỗ trợ và chia sẻ kiến thức.

Một số nhược điểm của Python:

Python là một ngôn ngữ lập trình được thông dịch, điều này khiến cho tốc độ thực thi của nó chậm hơn so với các ngôn ngữ biên dịch như C++ hoặc Java.

Python sử dụng bộ nhớ động, điều này có nghĩa là nó có khả năng tiêu tốn nhiều bộ nhớ hơn so với các ngôn ngữ lập trình yêu cầu quản lý bộ nhớ thủ công.

Các ứng dụng của Python:

• Phát triển web: Python được sử dụng rộng rãi để phát triển các ứng dụng web back-end, framework phổ biến như Django và Flask.

• Khoa học dữ liệu: Python là ngôn ngữ hàng đầu trong lĩnh vực khoa học dữ liệu nhờ các thư viện mạnh mẽ như NumPy, Pandas, Scikit-learn.

• Học máy: Python được sử dụng để phát triển các mô hình học máy và trí tuệ nhân tạo nhờ các thư viện như TensorFlow, PyTorch.

• Tự động hóa: Python được sử dụng để tự động hóa các tác vụ thủ công, giúp tiết kiệm thời gian và công sức.

• Phát triển game: Python được sử dụng để phát triển các trò chơi 2D và 3D nhờ các thư viện như PyGame.

• Giáo dục: Python được sử dụng để giảng dạy lập trình cho học sinh và sinh viên nhờ tính dễ học và dễ sử dụng.

Thư viện học sâu PyTorch

PyTorch là một thư viện mã nguồn mở viết bằng Python, chuyên dùng cho các ứng dụng học máy và học sâu, được phát triển bởi Facebook Research cùng với cộng đồng mã nguồn mở Với tính linh hoạt, dễ sử dụng và hiệu quả, PyTorch đã trở thành lựa chọn ưa chuộng của nhiều nhà nghiên cứu và kỹ sư trong lĩnh vực học máy.

Một số ưu điểm của PyTorch:

PyTorch là một framework học máy dễ sử dụng với cú pháp đơn giản và trực quan, giúp người dùng dễ dàng học hỏi và áp dụng, ngay cả những người mới bắt đầu trong lĩnh vực này.

PyTorch mang đến sự linh hoạt cho người dùng trong việc xây dựng các mô hình học máy tùy chỉnh, cho phép kết hợp nhiều kỹ thuật học máy khác nhau và tích hợp các thư viện bên ngoài một cách dễ dàng.

• Hiệu quả: PyTorch sử dụng các thuật toán tối ưu hóa hiệu suất cao, giúp tăng tốc độ đào tạo và triển khai mô hình.

• Cộng đồng lớn: PyTorch có cộng đồng người dùng và nhà phát triển rộng lớn, luôn sẵn sàng hỗ trợ và chia sẻ kiến thức.

• Nhiều tài liệu: PyTorch có nhiều tài liệu hướng dẫn, bài viết và video hướng dẫn, giúp người dùng dễ dàng học hỏi và sử dụng thư viện.

Một số tính năng nổi bật của PyTorch:

Hệ thống tensor trong PyTorch cho phép biểu diễn dữ liệu và thực hiện các phép toán học máy một cách hiệu quả, từ đó đơn giản hóa quá trình viết và thực thi mã.

PyTorch cung cấp chế độ tự động đạo hàm, cho phép người dùng tự động tính toán các đạo hàm của hàm học máy, từ đó tiết kiệm thời gian và công sức trong quá trình phát triển mô hình.

• Hỗ trợ GPU: PyTorch hỗ trợ sử dụng GPU để tăng tốc độ đào tạo và triển khai mô hình.

PyTorch cung cấp một loạt các mô hình học sẵn cho các nhiệm vụ học máy phổ biến, bao gồm phân loại ảnh, xử lý ngôn ngữ tự nhiên và nhận dạng giọng nói.

Một số ứng dụng của PyTorch:

• Nhận dạng ảnh: PyTorch được sử dụng để phát triển các mô hình nhận dạng ảnh, phân loại ảnh, xác định đối tượng trong ảnh, .

PyTorch là một công cụ mạnh mẽ cho việc phát triển các mô hình xử lý ngôn ngữ tự nhiên, bao gồm dịch máy, tóm tắt văn bản và phân tích tình cảm Với khả năng linh hoạt và hiệu suất cao, PyTorch hỗ trợ các nhà nghiên cứu và lập trình viên xây dựng các ứng dụng ngôn ngữ thông minh một cách hiệu quả.

• Nhận dạng giọng nói: PyTorch được sử dụng để phát triển các mô hình nhận dạng giọng nói, chuyển đổi giọng nói, hiểu ngôn ngữ tự nhiên,

• Khuyến nghị hệ thống: PyTorch được sử dụng để phát triển các hệ thống đề xuất sản phẩm, phim ảnh, âm nhạc,

• Chơi game: PyTorch được sử dụng để phát triển các mô hình trí tuệ nhân tạo cho trò chơi, tạo ra các nhân vật ảo thông minh.

Khung phần mềm lập trình web Streamlit

Streamlit là một khung phần mềm mã nguồn mở được phát triển bằng Python, giúp đơn giản hóa việc xây dựng và triển khai ứng dụng web tương tác Được thiết kế đặc biệt cho các nhà khoa học dữ liệu, kỹ sư học máy và nhà phát triển, Streamlit cho phép họ dễ dàng chia sẻ kết quả công việc thông qua các ứng dụng web trực quan và hấp dẫn.

Một số ưu điểm của Streamlit:

Streamlit là một công cụ dễ sử dụng, với cú pháp Python đơn giản và trực quan, cho phép người dùng tạo ra các ứng dụng web một cách nhanh chóng mà không cần phải có nhiều kiến thức về lập trình web.

• Nhanh chóng: Streamlit cho phép người dùng xây dựng và triển khai các ứng dụng web chỉ trong vài phút.

• Tương tác: Streamlit hỗ trợ tạo các ứng dụng web tương tác với các biểu đồ, widget và các thành phần giao diện người dùng khác.

• Tùy chỉnh giao diện: Streamlit cho phép người dùng tùy chỉnh giao diện của ứng dụng web bằng CSS.

• Chia sẻ: Streamlit giúp người dùng dễ dàng chia sẻ các ứng dụng web của họ với người khác thông qua URL hoặc nền tảng lưu trữ đám mây.

• Miễn phí: Streamlit là mã nguồn mở và miễn phí sử dụng.

Một số ứng dụng của Streamlit:

Streamlit là công cụ lý tưởng để phát triển các ứng dụng web trực quan hóa dữ liệu, giúp người dùng dễ dàng khám phá và hiểu rõ hơn về dữ liệu của mình.

• Học máy: Streamlit được sử dụng để xây dựng các ứng dụng web cho phép người dùng tương tác với các mô hình học máy và dự đoán.

• Báo cáo: Streamlit được sử dụng để tạo các báo cáo web tương tác để chia sẻ kết quả nghiên cứu và phân tích dữ liệu.

Streamlit là công cụ hữu ích trong giáo dục, cho phép phát triển các ứng dụng web hỗ trợ học sinh và sinh viên tiếp cận và hiểu biết về các khái niệm trong khoa học dữ liệu và học máy.

• Nguyên mẫu: Streamlit được sử dụng để tạo các nguyên mẫu nhanh chóng cho các ứng dụng web mới.

Dịch vụ EC2 trong Amazon Web Services

Amazon Elastic Compute Cloud (Amazon EC2) là dịch vụ điện toán đám mây của Amazon Web Services (AWS), cung cấp máy chủ ảo có khả năng mở rộng linh hoạt EC2 cho phép người dùng thuê và quản lý các máy chủ ảo (instance) như máy chủ vật lý, mang lại hiệu quả và tính linh hoạt cao hơn.

Một số ưu điểm của Amazon EC2:

• Khả năng mở rộng: EC2 cho phép người dùng dễ dàng mở rộng hoặc thu hẹp dung lượng máy tính theo nhu cầu sử dụng.

Amazon EC2 mang đến sự linh hoạt với nhiều loại instance, mỗi loại có cấu hình CPU, RAM, lưu trữ và hệ điều hành đa dạng, đáp ứng nhu cầu sử dụng phong phú của người dùng.

• Hiệu quả: EC2 sử dụng mô hình thanh toán theo giờ, giúp người dùng chỉ trả tiền cho những gì họ sử dụng.

• Dễ sử dụng: EC2 cung cấp giao diện web và API dễ sử dụng để quản lý instance

• Độ tin cậy: EC2 cung cấp dịch vụ có độ tin cậy cao với khả năng sẵn sàng 99,95 Một số ứng dụng của Amazon EC2:

• Web hosting: EC2 được sử dụng phổ biến để lưu trữ các trang web và ứng dụng web.

• Học máy: EC2 được sử dụng để đào tạo và triển khai các mô hình học máy.

• Big data: EC2 được sử dụng để xử lý và phân tích dữ liệu lớn.

• Phát triển phần mềm: EC2 được sử dụng để phát triển và thử nghiệm phần mềm.

OpenAI API

OpenAI API là bộ giao diện lập trình ứng dụng (API) giúp các nhà phát triển tích hợp mô hình ngôn ngữ và trí tuệ nhân tạo của OpenAI vào ứng dụng của họ API này cung cấp quyền truy cập vào các mô hình như GPT, Codex, và DALL-E 2, cho phép thực hiện nhiều chức năng như tạo văn bản, dịch ngôn ngữ, viết mã, và tạo hình ảnh.

API của OpenAI cung cấp cho các nhà phát triển khả năng tích hợp dễ dàng các mô hình ngôn ngữ và trí tuệ nhân tạo tiên tiến nhất vào ứng dụng của họ, mở ra cơ hội tiếp cận công nghệ hiện đại.

API giúp các nhà phát triển nâng cao khả năng sáng tạo bằng cách cho phép họ tạo ra những ứng dụng mới mẻ và độc đáo, tận dụng sức mạnh của mô hình ngôn ngữ và trí tuệ nhân tạo.

• Tăng hiệu quả: API giúp tự động hóa các tác vụ và quy trình, giúp tiết kiệm thời gian và công sức cho các nhà phát triển.

• Dễ sử dụng: API được thiết kế để dễ sử dụng và tích hợp với các ứng dụng hiện có.

Một số mô hình phổ biến có trong OpenAI API:

• GPT-3: Mô hình ngôn ngữ mạnh mẽ có thể tạo văn bản, dịch ngôn ngữ, viết mã.

• Codex: Mô hình có thể tạo mã Python, Java, JavaScript, C++, từ mô tả bằng ngôn ngữ tự nhiên.

• DALL-E 2: Mô hình có thể tạo hình ảnh từ mô tả bằng ngôn ngữ tự nhiên.

Các ứng dụng của OpenAI API:

• Chatbots: OpenAI API có thể được sử dụng để tạo ra chatbots có thể trò chuyện với con người một cách tự nhiên và thông minh.

OpenAI API là một công cụ mạnh mẽ hỗ trợ sáng tạo, giúp các nhà văn, nghệ sĩ và nhà thiết kế nâng cao hiệu quả công việc của họ.

• Công cụ giáo dục: OpenAI API có thể được sử dụng để tạo ra các công cụ giáo dục giúp học sinh học tập hiệu quả hơn.

• Dịch vụ khách hàng: OpenAI API có thể được sử dụng để cung cấp dịch vụ khách hàng tự động và hiệu quả.

Tập dữ liệu Microsoft Common Object in Context

Tập dữ liệu Microsoft Common Objects in Context (MS-COCO) là một bộ dữ liệu lớn, nhằm cải thiện hiệu suất của các thuật toán trong lĩnh vực thị giác máy tính và học máy Với hình ảnh mô tả các cảnh sinh hoạt hàng ngày và các đối tượng quen thuộc trong môi trường tự nhiên, MS-COCO trở thành nguồn tài nguyên quý giá cho nhiều nhiệm vụ thị giác khác nhau.

Tập dữ liệu mô tả hình ảnh trong MS-COCO được thiết kế đặc biệt để hỗ trợ việc tạo ra các mô tả văn bản chi tiết và mạch lạc về nội dung hình ảnh Một số ví dụ minh họa về hình ảnh và mô tả văn bản tương ứng có thể được tìm thấy trong Hình 2.3 Các đặc điểm chính của bộ dữ liệu này bao gồm tính chính xác trong việc mô tả nội dung và khả năng hỗ trợ cho nhiều ứng dụng trong lĩnh vực thị giác máy tính.

Mỗi hình ảnh trong bộ dữ liệu được chú thích với năm mô tả khác nhau, do các nhà chú thích cung cấp, nhằm miêu tả nội dung hình ảnh bằng ngôn ngữ tự nhiên và nắm bắt các khía cạnh cũng như chi tiết đa dạng.

Các hình ảnh trong bộ dữ liệu này phản ánh sự phong phú của ngữ cảnh, bao gồm nhiều hoạt động và cảnh sinh hoạt hàng ngày Các đối tượng xuất hiện ở nhiều vị trí khác nhau và tương tác dưới các điều kiện ánh sáng đa dạng Sự đa dạng này giúp các mô hình được huấn luyện có khả năng xử lý tốt hơn những phức tạp của thế giới thực.

Bộ dữ liệu quy mô lớn bao gồm hơn 330.000 hình ảnh, trong đó có hơn 200.000 hình ảnh được gán nhãn và hơn 80.000 hình ảnh có chú thích mô tả Quy mô này tạo ra một nền tảng vững chắc cho việc huấn luyện các mô hình học sâu.

Chú thích phức tạp không chỉ bao gồm mô tả mà còn cung cấp hình ảnh với các chú thích giúp phân đoạn đối tượng và định vị chính xác, từ đó hỗ trợ các kịch bản huấn luyện và đánh giá đa chiều hiệu quả.

Phân chia chuẩn hóa bộ dữ liệu thành các phần huấn luyện, xác thực và kiểm tra giúp đánh giá và so sánh các mô hình một cách nhất quán và hiệu quả.

Hình 2.3: Một số hình ảnh và mô tả ảnh có trong tập dữ liệu MS-COCO.

Bộ dữ liệu mô tả hình ảnh MS-COCO đã trở thành tiêu chuẩn vàng trong việc đánh giá các mô hình mô tả hình ảnh, góp phần thúc đẩy sự phát triển của các mô hình tạo ra mô tả giống con người Các mô hình này được đánh giá dựa trên khả năng sản xuất các mô tả lưu loát, phù hợp và chính xác theo ngữ cảnh, làm cho MS-COCO trở thành nguồn tài nguyên quan trọng cho nghiên cứu và phát triển trong lĩnh vực thị giác máy tính và xử lý ngôn ngữ tự nhiên.

Mô hình mạng neural mô tả ảnh - ExpansionNet v2

ExpansionNet v2 là mô hình AI tiên tiến cho nhiệm vụ mô tả ảnh, sử dụng cơ chế mở rộng để xử lý dữ liệu đầu vào mà không bị giới hạn bởi số lượng phần tử trong chuỗi Nhờ vào phương pháp này, mô hình học hiệu quả hơn so với các phương pháp dựa trên attention truyền thống ExpansionNet v2 đã đạt được kết quả xuất sắc trên bộ dữ liệu MS.

COCO 2014 đạt điểm số 143,7 CIDEr-D trong tập kiểm tra offline và 140,8 CIDEr-D trong đánh giá online Bên cạnh đó, nó giới thiệu thuật toán huấn luyện End-to-End nhanh hơn gấp 2,8 lần so với các phương pháp hiện tại Kiến trúc tổng quát ExpansionNet v2 cũng được trình bày trong bài viết.

Backbone Backward Forward Selection Norm Feed Forward Norm

Forward Selection Norm Feed Forward Norm Norm

Hình 2.4: Kiến trúc mô hình mô tả ảnh ExpansionNet v2.

ExpansionNet v2 được phát triển với cấu trúc mạng neural encoder-decoder, có kích thước mô hình là 512 và bao gồm 3 encoder và 3 decoder Các thành phần chính của ExpansionNet v2 tạo nên hiệu suất và khả năng xử lý dữ liệu hiệu quả.

Mô hình sử dụng Swin Transformer backbone đã được huấn luyện trước trên tập ImageNet, giúp trích xuất đặc trưng hình ảnh một cách hiệu quả và chính xác Việc này cho phép mô hình hoạt động tốt mà không cần tốn nhiều thời gian cho quá trình huấn luyện.

Cơ chế mở rộng cho phép phân phối dữ liệu đầu vào thành các chuỗi có độ dài khác nhau trong giai đoạn truyền xuôi và thực hiện quá trình ngược lại trong giai đoạn truyền ngược Điều này giúp mạng có khả năng xử lý chuỗi mà không bị giới hạn bởi số lượng phần tử Cơ chế này được áp dụng trong cả Mở rộng Tĩnh và Mở rộng Động.

Mô hình sử dụng hai phương pháp Expansion là Static và Dynamic để hỗ trợ xử lý hai chiều và tự động hồi quy Static Expansion được áp dụng trong các khối encoder, trong khi Dynamic Expansion được sử dụng trong các khối decoder, nhằm tối ưu hóa hiệu quả và giảm thiểu tác động tính toán đối với các cấu hình nhỏ.

Swin Transformer là mô hình Transformer tối ưu hóa cho các tác vụ thị giác máy tính, giúp giải quyết những thách thức khi chuyển giao từ ngôn ngữ tự nhiên sang lĩnh vực hình ảnh Mô hình này được thiết kế để xử lý sự biến đổi lớn về quy mô và độ phân giải cao trong hình ảnh, vượt trội hơn so với các từ trong văn bản.

Cấu trúc của mô hình Swin Transformer:

Kiến trúc phân cấp của Swin Transformer cho phép xây dựng các bản đồ đặc trưng phân cấp bằng cách ghép các mảng ảnh nhỏ hơn ở các lớp sâu hơn, giúp mô hình xử lý hiệu quả các tác vụ nhận dạng mật độ cao như phân loại hình ảnh, phát hiện đối tượng và phân đoạn ngữ nghĩa Kiến trúc này tạo ra các bản đồ đặc trưng ở nhiều độ phân giải khác nhau, tương tự như các mạng neural tích chập (CNN).

Cửa sổ trượt (Shifted Windows) là một yếu tố thiết kế quan trọng trong Swin Transformer, cho phép tính toán attention hiệu quả hơn Bằng cách kết nối các cửa sổ của lớp trước, phương pháp này tăng cường khả năng mô hình hóa và giảm độ phức tạp tính toán từ bậc hai xuống bậc nhất so với kích thước hình ảnh, giúp cải thiện hiệu suất của mô hình trên phần cứng thực tế.

Swin Transformer cải thiện hiệu suất xử lý bằng cách tính toán attention trong các cửa sổ không chồng lấp, thay vì thực hiện tính toán attention toàn cục Phương pháp này giúp giảm độ phức tạp tính toán và tối ưu hóa việc chia đều hình ảnh.

The Swin Transformer architecture consists of several key components, including a multi-head self-attention (MSA) module that utilizes a sliding window mechanism This is followed by a two-layer MLP network with GELU activation Each MSA and MLP module is enhanced with LayerNorm (LN) and features a residual connection applied after each module, ensuring effective information flow and stability in the model.

Hình 2.5: Kiến trúc của mô hình Swin Transformer.

Figure 2.5 illustrates the architecture of the Swin Transformer model Subfigure 2.5 a) provides an overview of the overall architecture, while subfigure 2.5 b) details the internal structure of two consecutive Swin Transformer blocks Within these blocks, W-MSA and SW-MSA represent multi-head self-attention modules configured with Regular Windowing and Shifted Windowing, respectively.

Swin Transformer thể hiện hiệu suất vượt trội trong các tác vụ nhận dạng hình ảnh như phân loại, phát hiện đối tượng và phân đoạn ngữ nghĩa Mô hình này đã vượt qua các đối thủ như ViT/DeiT và ResNet/ResNeXt trên các bộ dữ liệu kiểm tra nổi bật như ImageNet-1K, COCO và ADE20K Thành công này chứng tỏ tiềm năng lớn của các mô hình dựa trên Transformer trong lĩnh vực thị giác máy tính.

Swin Transformer, nhờ vào thiết kế phân cấp và phương pháp cửa sổ trượt, mang lại hiệu suất cao và sự linh hoạt trong việc ứng dụng cho nhiều nhiệm vụ thị giác khác nhau, bao gồm phân loại hình ảnh và nhận dạng mật độ cao.

Swin Transformer được lựa chọn làm mô hình trích xuất đặc trưng hình ảnh hiệu quả, giúp tiết kiệm thời gian và chi phí trong quá trình huấn luyện mô hình Cơ chế mở rộng của nó đóng vai trò quan trọng trong việc tối ưu hóa quy trình này.

Light-ExpansionNet - Phiên bản cải tiến của ExpansionNet v2

Trích xuất đặc trưng hình ảnh sử dụng Swin Transformer v2

Swin Transformer, một bộ trích xuất đặc trưng hình ảnh trong ExpansionNet v2, đã chứng minh là một trong những mô hình hàng đầu trong các nhiệm vụ thị giác máy tính như phân loại, phát hiện và phân đoạn Nhờ vào hiệu suất xuất sắc của nó trong ExpansionNet v2, Swin Transformer trở thành lựa chọn phù hợp cho các mô hình chú thích hình ảnh Gần đây, phiên bản nâng cấp với các triển khai và cấu hình mới mang tên Swin Transformer v2 đã được giới thiệu.

Bảng 3.1: Hiệu suất phân loại hình ảnh của Swin Transformer v1 và v2 (Biến thể Base và Large).

Swin Transformer v2 cho thấy sự cải thiện nhẹ về độ chính xác phân loại hình ảnh trên các tập dữ liệu ImageNet-1k-v1 và ImageNet-1k-v2 Mô hình Swin Transformer v2-Base đạt hiệu suất gần tương đương với Swin Transformer-Large, mặc dù có số trọng số ít hơn 55,33% (88M so với 197M) Việc áp dụng Swin Transformer v2-Base cho việc trích xuất đặc trưng hình ảnh trong ExpansionNet v2 giúp giảm độ phức tạp và nâng cao hiệu quả tính toán, đồng thời giảm tổng số tham số với chỉ một suy giảm nhỏ trong hiệu suất mô tả hình ảnh Sự đánh đổi này hợp lý, giúp mạng neural nhỏ hơn nhưng vẫn duy trì hiệu suất tốt.

Áp dụng Memory-Augmented Attention

Theo nghiên cứu trong bài báo “Meshed-memory transformer for image captioning,” cơ chế Multi-Head Attention trong các mô hình chú thích hình ảnh, như ExpansionNet v2, gặp hạn chế lớn do tự chú ý chỉ dựa vào sự tương đồng từng cặp, thiếu khả năng kết hợp kiến thức trước về mối quan hệ giữa các vùng trong hình ảnh Ví dụ, việc nhận diện một người chơi bóng rổ từ hai vùng mã hóa khác nhau là khó khăn nếu không có kiến thức trước Để khắc phục vấn đề này, phương pháp Memory-Augmented Attention được đề xuất, cho phép mở rộng tập hợp các khoá và giá trị trong Multi-Head Attention, từ đó mã hóa thông tin trước đó mà không làm thay đổi các yếu tố khác.

Trong bài viết này, chúng tôi trình bày phương pháp mới áp dụng vào cơ chế Multi-Head Attention cũ, kết hợp thêm một khối Multi-Head Attention vào bộ mã hóa như minh họa trong Hình 3.1 Kết quả cho thấy Light-ExpansionNet đã cải thiện hiệu suất chú thích hình ảnh mà không làm thay đổi số lượng tham số.

Hình 3.1: Kiến trúc khối encoder mới với sự bổ sung Memory-augmented Multi-headAttention.

Bổ sung lớp Multiplicative Residual Embedding

Trong ExpansionNet v2, các lớp fully-connected được bố trí trước mỗi phép nhân ma trận trong các lớp Static Expansion và Dynamic Expansion, giúp mô hình tiếp thu thông tin từ các vector đặc trưng Để tối ưu hóa độ phức tạp mà vẫn giữ hiệu suất cao, nhóm nghiên cứu đã giảm số lượng lớp mã hóa và giải mã xuống còn 2, đồng thời thêm một lớp fully-connected mới với kết nối residual nhân tử (Multiplicative Residual), như minh họa trong Hình 3.2, nhằm cải thiện hiệu suất tổng thể của mô hình.

Công thức F n MR = Xnãσ(FC 2 (F n )) thể hiện mối quan hệ giữa các chuỗi đầu vào Xn∈R d model và các lớp fully-connected FC 1, FC 2, với σ là hàm sigmoid Đầu ra F MR từ lớp Multiplicative Residual cũng đóng vai trò là đầu vào cho bước nhân ma trận Phương pháp này đã giúp cải thiện nhẹ hiệu suất chú thích hình ảnh trong khi giảm đáng kể số lượng tham số.

Hình 3.2: Lớp Multiplicative Residual Embedding được thêm vào trong các lớp Static và Dynamic Expansion.

Các thuật toán xử lý dữ liệu và huấn luyện mô hình

Chuẩn bị tập dữ liệu

Nhóm nghiên cứu đã tiến hành thí nghiệm trên bộ dữ liệu MS-COCO 2014, một nguồn tài nguyên phổ biến cho các mô hình học máy tiên tiến Bộ dữ liệu này bao gồm 123,287 hình ảnh, được phân loại theo phương pháp của Karpathy, từ đó tạo điều kiện cho các nghiên cứu và ứng dụng trong lĩnh vực thị giác máy tính.

Mô hình được huấn luyện bằng 113287 hình ảnh trong tập huấn luyện, cùng với 5000 hình ảnh cho mỗi phần xác thực và kiểm tra Mỗi hình ảnh đi kèm với 5 chú thích tham chiếu.

Xử lý hình ảnh

Trong tác vụ mô tả ảnh, giống như các bài toán thị giác máy tính khác, việc tiền xử lý dữ liệu hình ảnh là rất cần thiết Trước khi đưa vào mô hình, các hình ảnh trong tập dữ liệu MS-COCO sẽ trải qua các bước xử lý nhất định.

• Thay đổi kích thước: Đầu tiên, các hình ảnh sẽ được thay đổi kích thước thành

Kích thước hình ảnh là 384×384 được chuyển đổi thành dạng tensor với kích thước 3×384×384, trong đó chiều dài và chiều rộng của ảnh là 384, và chiều sâu là 3, tương ứng với 3 kênh màu RGB.

• Chuyển đổi giá trị RGB:Sau khi đưa về dạng tensor với kích thước3×384×384, các giá trị RGB sẽ được chuyển đổi thành các giá trị nằm trong khoảng [0, 1].

• Chuẩn hóa bằng giá trị trung bình và độ lệch chuẩn: Tiếp theo, các hình ảnh được chuẩn hóa với giá trị trung bình mean= (0.485,0.456,0.406) và độ lệch chuẩnstd= (0.229,0.224,0.225).

Sau khi hoàn tất các bước tiền xử lý, hình ảnh sẽ được chuyển vào mô hình dưới dạng tensor, trong đó chứa các giá trị số lưu trữ thông tin đặc trưng của hình ảnh.

Xử lý chuỗi mô tả ảnh

Mỗi hình ảnh sẽ có 5 chú thích để đối chiếu và tính toán mất mát trong quá trình huấn luyện Trước khi đưa vào mô hình, các chú thích này cần trải qua quy trình tiền xử lý tương tự như các bài toán xử lý ngôn ngữ thông thường Quy trình tiền xử lý đóng vai trò quan trọng trong việc chuẩn bị dữ liệu cho mô hình huấn luyện.

Chuyển đổi chữ in hoa thành chữ thường giúp mô hình chỉ cần học các ký tự chữ thường, từ đó tiết kiệm thời gian và tài nguyên huấn luyện, đồng thời giảm thiểu các lỗi không mong muốn trong quá trình mô hình đưa ra mô tả.

Mô hình của chúng tôi chuyên mô tả ảnh, vì vậy không cần sử dụng dấu câu Do đó, việc loại bỏ dấu câu và các ký tự không phải chữ là cần thiết.

Để tối ưu hóa mô hình học và nâng cao hiệu quả mô tả ảnh, những từ xuất hiện ít hơn 5 lần sẽ bị loại bỏ, dẫn đến việc thu được một tập từ vựng gồm 10.000 từ Trong số đó, có 4 token đặc biệt là {‘SOS’, ‘EOS’, ‘UNK’, ‘PAD’} được sử dụng để quản lý chuỗi Cụ thể, ‘SOS’ (Start of Sequence) đánh dấu điểm bắt đầu của câu, ‘EOS’ (End of Sequence) đánh dấu điểm kết thúc, ‘UNK’ (Unknown) chỉ các ký tự không xác định, và ‘PAD’ (Padding) dùng để điều chỉnh độ dài các chuỗi văn bản.

Sau khi hoàn thành quá trình, chúng ta có được một tập từ vựng để huấn luyện mô hình Từ tập từ vựng này, các chuỗi mô tả ảnh sẽ được mã hóa thành các vector số dựa trên vị trí của từng từ trong câu.

Ví dụ, ta có tập từ vựng gồm: {‘SOS’, ‘EOS’, ‘UNK’, ‘PAD’, ‘a’, ‘at’, ‘go’, ‘i’, ‘is’,

‘he’, ‘she’, ‘there’, ‘the’, ‘sky’, ‘waiting’} Câu “There is a Starman waiting at the sky.” sẽ được mã hóa như sau:

• Đầu tiên, câu sẽ được biến đổi thành: {‘SOS’, ‘there’, ‘is’, ‘a’, ‘UNK’, ‘waiting’,

Tại EOS, các ký tự đặc biệt sẽ được sử dụng để đánh dấu vị trí đầu và cuối câu, đồng thời thay thế những từ không nằm trong tập từ vựng bằng token.

• Sau đó, câu sẽ được biến đổi thành vector số: {0; 11; 8; 4; 2; 14; 5; 12; 13; 1}.

Trong trường hợp cần điều chỉnh độ dài vector để đưa vào các batch trong quá trình huấn luyện, các token ‘PAD’ cũng sẽ được thêm vào cuối vector.

Trong mỗi epoch của quá trình huấn luyện, chỉ một trong năm mô tả thực được chọn ngẫu nhiên để đưa vào mô hình nhằm đánh giá và tính toán mất mát Điều này giúp mô hình học hỏi hiệu quả hơn từ một hình ảnh nhờ vào sự đa dạng của các mô tả ảnh.

Huấn luyện mô hình

Bài viết đề cập đến hai mô hình được triển khai cho thiết lập thử nghiệm: mô hình gốc là ExpansionNet v2 và mô hình nhóm là Light-ExpansionNet Light-ExpansionNet được cấu hình tương tự như trong tài liệu [13], với điểm khác biệt duy nhất là số lớp encoder và decoder, cụ thể là N enc = N dec = 2 Ngoài ra, Light-ExpansionNet sử dụng Swin Transformer v2-Base làm bộ trích xuất đặc trưng hình ảnh thay vì Swin Transformer-Large.

Quá trình chuẩn bị dữ liệu và huấn luyện mô hình được thực hiện trong môi trường Python 3.11.2 với thư viện PyTorch 2.1, sử dụng phần cứng gồm CPU Xeon 2.1 GHz, 128GB RAM và GPU NVIDIA P40 với 24GB VRAM Thuật toán huấn luyện giữ nguyên như bản gốc của ExpansionNet v2 Do tính phức tạp của Swin Transformer, quá trình huấn luyện được chia thành bốn bước, trong đó hai bước đầu là giai đoạn huấn luyện cross-entropy và hai bước còn lại là giai đoạn học tăng cường, được gọi là “Fast End to End training” Để phù hợp với giới hạn phần cứng của nhóm, một số điều chỉnh nhỏ đã được thực hiện đối với kích thước batch trong mỗi bước huấn luyện.

Trong bước A) Cross-Entropy, mô hình được huấn luyện với kích thước batch là 48 và tốc độ học ban đầu là 2e−4 Thời gian khởi động (warmup) được thiết lập là 10,000 bước, và sau đó tốc độ học giảm dần với hệ số 0,8 sau mỗi 2 epochs trong tổng cộng 8 epochs.

• Bước B) Cross-Entropy - End to End: Toàn bộ hệ thống trải qua huấn luyện thêm

2 epochs, với kích thước batch là8và tốc độ học ban đầu là3e −5 , sau đó giảm dần theo hệ số0,55 mỗi epoch.

Để tối ưu hóa CIDEr-D, trong giai đoạn tăng cường, chúng tôi đã đóng băng backbone với kích thước batch là 8 và tốc độ học ban đầu là 1e-4 Không áp dụng thời gian khởi động, tốc độ học sẽ giảm dần theo hệ số 0,8 sau mỗi epoch trong tổng số 9 epochs.

Để tối ưu hóa CIDEr-D theo phương pháp End to End, toàn bộ hệ thống sẽ được tinh chỉnh qua nhiều lần lặp lại, kéo dài thêm một epoch, sử dụng kích thước batch là 4 và tốc độ học cố định là 2e −6.

Kết quả huấn luyện mô hình và nhận xét

Kết quả huấn luyện mô hình Light-ExpansionNet

Sau khi hoàn tất quá trình huấn luyện, mô hình Light-ExpansionNet và mô hình gốc ExpansionNet v2 đã được đánh giá và so sánh dựa trên các chỉ số SPICE, CIDEr-D, BLEU, METEOR và ROUGE-L, với kết quả được trình bày trong Bảng 3.2.

Light-ExpansionNet cho thấy hiệu suất mô tả ảnh tương đương với ExpansionNet v2, nhưng lại vượt trội hơn về hiệu quả tính toán và kích thước mạng Nhờ vào ba cải tiến đã được giới thiệu, Light-ExpansionNet đã giảm đáng kể kích thước mạng.

113 triệu tham số học được - nhỏ hơn 48,5% so với ExpansionNet v2, với tổng cộng

Light-ExpansionNet has 120 million learnable parameters, equivalent to 1.47GB, compared to ExpansionNet v2, which has 233 million parameters and 2.62GB of storage In the Karpathy validation set, Light-ExpansionNet slightly underperformed against ExpansionNet v2 across various metrics, including CIDEr-D, BLEU1, BLEU4, SPICE, and METEOR, with respective decreases of 0.55, 0.06, and 0.01.

0,15 và0,08 Ngược lại, Light-ExpansionNet đạt điểm cao hơn trong BLEU 2, BLEU

Light-ExpansionNet outperformed ExpansionNet v2 in the Karpathy test set, achieving higher scores across five key metrics: CIDEr-D, BLEU 1, BLEU 2, BLEU 3, and BLEU 4, with improvements of 0.18, 0.04, 0.33, 0.41, and 0.02 respectively Additionally, ROUGE-L scores were higher by 0.04, 0.02, and 0.02, demonstrating the superior overall performance of Light-ExpansionNet.

0,40 so với ExpansionNet v2, trong khi chỉ giảm nhẹ0,01; 0,10 và0,02 trong các chỉ số ROUGE-L, SPICE và METEOR.

Nhóm cũng đã thực hiện một so sánh khác về thời gian huấn luyện giữa Expan- sionNet v2 và Light-ExpansionNet, như được hiển thị trong Bảng 3.3 Trong các bước

Khi backbone được đóng băng và chỉ phần thân của mô hình được huấn luyện, Light-ExpansionNet cho thấy tốc độ huấn luyện nhanh hơn, chỉ cần 60% thời gian so với ExpansionNet v2 Ngược lại, trong các bước khi toàn bộ mạng lưới được sử dụng, hiệu suất có thể thay đổi.

Bảng3.2:HiệunăngmôtảảnhcủaExpansionNetv2vàLight-ExpansionNetsaukhihuấnluyện Set Model CIDEr -D BLEU1 BLEU2 BLEU3 BLEU4 R OUGE-L SPICE METEOR P arams V alidation

ExpansionN et v2 138 , 49 82 , 93 68 , 23 53 , 59 41 , 12 60 , 18 23 , 89 29 , 93 233 M Light-ExpansionN et 137 , 94 82 , 87 68 , 27 53 , 61 41 , 11 60 , 20 23 , 74 29 , 85 120 M ∆ ↓ 0 , 55 ↓ 0 , 06 ↑ 0 , 04 ↑ 0 , 02 ↓ 0 , 01 ↑ 0 , 02 ↓ 0 , 15 ↓ 0 , 08 ↓ 113 M T es t

ExpansionN et v2 138 , 60 82 , 63 67 , 60 52 , 96 40 , 53 60 , 20 24 , 07 29 , 92 233 M Light-ExpansionN et 138 , 78 82 , 67 67 , 93 53 , 37 40 , 93 60 , 19 23 , 97 29 , 90 120 M ∆ ↑ 0 , 18 ↑ 0 , 04 ↑ 0 , 33 ↑ 0 , 41 ↑ 0 , 40 ↓ 0 , 01 ↓ 0 , 10 ↓ 0 , 02 ↓ 113 M

Bảng 3.3: So sánh thời gian huấn luyện của ExpansionNet v2 với Light-ExpansionNet.

Period ExpansionNet v2 Light-ExpansionNet param train time param train time

Light-ExpansionNet, với 233 triệu tham số và 110 giờ huấn luyện, nhanh hơn khoảng 20% so với ExpansionNet v2 Toàn bộ quá trình huấn luyện của Light-ExpansionNet chỉ mất 85 giờ (3,5 ngày), tiết kiệm 25 giờ (khoảng 22,7%) so với thời gian huấn luyện của ExpansionNet v2.

Nhóm nghiên cứu đã thực hiện một so sánh hiệu suất mô tả ảnh giữa ExpansionNet v2 và Light-ExpansionNet, đối chiếu với mô tả ảnh thực tế trên hình ảnh từ tập kiểm tra MS-COCO 2014 Ngoài ra, nhóm cũng đã sử dụng một số hình ảnh ngẫu nhiên tải xuống từ internet để đánh giá thêm hiệu suất mô tả ảnh Kết quả cho thấy sự khác biệt trong khả năng mô tả giữa các mô hình trên tập dữ liệu kiểm tra MS-COCO.

Hai mô hình được trình bày trong Hình 3.3 cho ra mô tả gần tương tự nhau và khá giống với thực tế Trong Hình 3.3 a), Light-ExpansionNet nhận diện chính xác giới tính của người trong ảnh là phụ nữ, trong khi ExpansionNet v2 lại sai Cả hai mô hình đều mô tả hành động "holding a snowboard" đúng như thực tế Ở Hình 3.3 b) và c), mô hình cho ra mô tả tương tự nhau, đặc biệt ở Hình 3.3 c) khi cả hai đều đưa ra cùng một mô tả Tương tự, ở Hình 3.3 d), mặc dù cả hai mô hình cho ra cùng một mô tả, nhưng không nhận diện được những con bò ở xa, cho thấy khó khăn trong việc nhận dạng các vật thể nhỏ.

Kết quả mô tả ảnh từ ExpansionNet v2 và Light-ExpansionNet cho thấy cả hai mô hình đều hoạt động ấn tượng Cụ thể, Light-ExpansionNet vượt trội hơn ExpansionNet v2 trong việc nhận diện “microphone” trong hình ảnh Kurt Cobain, trong khi ExpansionNet v2 không làm được Đối với bức ảnh đen trắng của The Beatles, Light-ExpansionNet cũng thể hiện tốt hơn, mặc dù ExpansionNet v2 đã mô tả sai khi cho rằng có “three men” thay vì bốn Ngược lại, trong hình ảnh Lionel Messi, ExpansionNet v2 lại vượt trội khi nhận diện chính xác “soccer uniform” và hành động “kicking”, điều mà Light-ExpansionNet không thể làm Cuối cùng, ở hình ảnh đường đua, mô tả của Light-ExpansionNet tốt hơn nhờ vào việc nhận diện “race track”, trong khi ExpansionNet v2 không thể Nhìn chung, cả hai mô hình đều có kết quả mô tả ấn tượng, mặc dù vẫn còn một số lỗi, và ở một số trường hợp, Light-ExpansionNet có thể mô tả tốt hơn, trong khi ở những trường hợp khác thì ngược lại.

Hình 3.3: Kết quả mô tả ảnh từ tập dữ liệu kiểm tra MS-COCO 2014 của ExpansionNet v2 và Light-ExpansionNet.

Hình 3.4: Kết quả mô tả ảnh tải từ internet của ExpansionNet v2 và Light-ExpansionNet.

Nhận xét

Light-ExpansionNet đạt hiệu suất mô tả ảnh tương đương ExpansionNet v2 nhưng có hiệu quả tính toán cao hơn, tiết kiệm đáng kể kích thước mạng và thời gian huấn luyện Nhóm nghiên cứu đã áp dụng các kỹ thuật như backbone Swin Transformer v2, Memory-augmented Attention và Multiplicative Residual Embedding để giảm thiểu số lượng tham số học và tăng tốc độ huấn luyện Cải tiến này không chỉ giảm yêu cầu tài nguyên phần cứng mà còn dễ dàng triển khai mô hình vào các ứng dụng thực tế, đặc biệt trong các hệ thống hạn chế tài nguyên như thiết bị di động và IoT.

Mô hình Light-ExpansionNet mà nhóm đề xuất vẫn còn một số hạn chế do hạn chế về phần cứng và thời gian nghiên cứu, như khả năng nhận diện vật thể nhỏ chưa tốt, có thể sai trong việc đếm số lượng vật thể, và khó khăn trong việc nhận dạng các vật thể ít hoặc không xuất hiện trong tập dữ liệu huấn luyện Tuy nhiên, mô hình này đã đạt được mục tiêu tối ưu hóa chi phí tính toán cho mô hình mô tả ảnh ExpansionNet v2.

THIẾT KẾ ỨNG DỤNG WEB GENER- ATIVE AI

Tổng quan về ứng dụng web Generative AI

Tính năng Image captioning

Ý tưởng về tính năng Image captioning sẽ là một giao diện người dùng cho việc sử dụng mô hình Light-ExpansionNet để tạo mô tả ảnh tự động.

Kiến trúc tổng quát của tính năng Image captioning được mô tả như Hình 4.1:

Hình 4.1: Kiến trúc tổng quát của tính năng Image captioning.

Tính năng Image captioning gồm có những thành phần chính sau:

• Giao diện người dùng: Giao diện người dùng cho phép người dùng tải lên ảnh và xem mô tả ảnh được tạo ra bởi ứng dụng.

Bộ xử lý ảnh sử dụng trong bài viết này là Swin Transformer backbone, đóng vai trò quan trọng trong việc xử lý ảnh trước khi đưa vào bộ tạo mô tả ảnh Quá trình xử lý ảnh bao gồm các bước như thay đổi kích thước, chuẩn hóa và trích xuất đặc trưng, giúp nâng cao chất lượng và độ chính xác của mô tả ảnh.

Bộ tạo mô tả ảnh sử dụng đặc trưng được trích xuất từ hình ảnh qua bộ xử lý ảnh, kết hợp với mô hình Light-ExpansionNet để tạo ra các mô tả chi tiết cho từng bức ảnh.

Tính năng Visual Q & A

Tính năng Visual Q & A kết hợp khả năng phân tích hình ảnh của mô hình Light-ExpansionNet và khả năng hiểu ngôn ngữ của GPT-3.5 từ OpenAI, cho phép trả lời câu hỏi bằng hình ảnh Điều này tạo ra các phản hồi liên quan đến bài toán Visual Q & A, với kiến trúc tổng quát được mô tả trong Hình 4.2.

Hình 4.2: Kiến trúc tổng quát của tính năng Visual Q & A.

Tính năng Visual Q & A gồm có những thành phần chính sau:

Giao diện người dùng của ứng dụng cho phép người dùng dễ dàng tải lên ảnh, nhập câu hỏi liên quan đến hình ảnh và nhận được câu trả lời được tạo ra một cách tự động.

Bộ xử lý ảnh sử dụng Swin Transformer backbone, đóng vai trò quan trọng trong việc xử lý ảnh trước khi đưa vào bộ tạo mô tả Quá trình này bao gồm các bước như thay đổi kích thước, chuẩn hóa và trích xuất đặc trưng của ảnh, nhằm tối ưu hóa chất lượng đầu vào cho mô hình.

Bộ tạo mô tả ảnh sử dụng các đặc trưng được trích xuất từ ảnh thông qua bộ xử lý ảnh, áp dụng mô hình Light-ExpansionNet để tạo ra những mô tả chi tiết và chính xác cho từng bức ảnh.

Bộ xử lý câu hỏi sử dụng ứng dụng để nhận mô tả ảnh từ bộ tạo mô tả ảnh và câu hỏi từ người dùng Sau đó, nó áp dụng OpenAI API để xử lý thông tin và tạo ra câu trả lời chính xác.

Chatbot

Tính năng Chatbot mới được phát triển dựa trên sự kết hợp giữa mô hình Light-ExpansionNet và GPT-3.5 của OpenAI API, cho phép chatbot này hiểu cả ngôn ngữ và hình ảnh Điều này nâng cao khả năng của chatbot thông thường, giúp giải quyết hiệu quả các câu hỏi từ người dùng dưới dạng văn bản hoặc hình ảnh Kiến trúc tổng quan của tính năng này được thể hiện trong Hình 4.3.

Hình 4.3: Kiến trúc tổng quát của tính năng Chatbot.

Tính năng Chatbot gồm có những thành phần chính sau:

Giao diện người dùng của ứng dụng cho phép người dùng dễ dàng nhập văn bản, hình ảnh và câu hỏi liên quan đến hình ảnh, đồng thời xem các câu trả lời được tạo ra một cách nhanh chóng và hiệu quả.

• Bộ xử lí văn bản giao tiếp: Ứng dụng sử dụng OpenAI API, model gpt-3.5-turbo có khả năng xử lí văn bản và giao tiếp với người dùng.

Bộ xử lý ảnh sử dụng Swin Transformer backbone đảm nhiệm việc xử lý ảnh trước khi đưa vào bộ tạo mô tả Quá trình này bao gồm các bước như thay đổi kích thước, chuẩn hóa và trích xuất đặc trưng của ảnh.

Bộ tạo mô tả ảnh sử dụng đặc trưng trích xuất từ ảnh thông qua bộ xử lý ảnh, áp dụng mô hình Light-ExpansionNet để tạo ra các mô tả chi tiết cho hình ảnh.

Bộ xử lý câu hỏi từ hình ảnh là một ứng dụng thông minh, cho phép nhận diện mô tả ảnh từ bộ tạo mô tả và câu hỏi của người dùng Ứng dụng này sử dụng API của OpenAI để xử lý thông tin và tạo ra câu trả lời chính xác, giúp người dùng dễ dàng tương tác và tìm kiếm thông tin từ hình ảnh.

Kết quả thiết kế và nhận xét

Kết quả thiết kế ứng dụng Generative AI

Sau khi lên ý tưởng về các tính năng, ứng dụng website Generative AI được tích hợp mô hình Light-ExpansionNet bao gồm 3 tính năng: Image captioning, Visual Q &

A và Chatbot đã được xây dựng dựa trên khung phần mềm lập trình web Streamlit và host bởi AWS EC2.

Streamlit là khung phần mềm lập trình web mạnh mẽ, cho phép phát triển ứng dụng nhanh chóng và dễ dàng bằng Python Nó hỗ trợ trực quan hóa dữ liệu, tích hợp mô hình học máy và tạo giao diện người dùng với nhiều widget như button, file uploader và text input Bên cạnh đó, Streamlit còn cho phép tích hợp HTML/CSS/JavaScript để tùy chỉnh giao diện theo ý muốn, đồng thời có một cộng đồng chia sẻ kiến thức lớn Nhờ những tính năng này, nhóm đã hoàn thành việc xây dựng ứng dụng website Generative.

Web hosting: Để đảm bảo ứng dụng dễ dàng và ổn định truy cập công khai, website được lưu trữ trên AWS EC2 Dịch vụ EC2 cung cấp máy tính ảo linh hoạt và có khả năng mở rộng, giúp website hoạt động hiệu quả và đáp ứng nhu cầu truy cập của người dùng.

Website được phát triển bằng Khung phần mềm Streamlit và được lưu trữ trên AWS EC2 với cổng 8051 Tại trang chủ, người dùng có khả năng lựa chọn các tùy chọn khác nhau.

1 trong 3 tính năng trên thanh công cụ lần lượt là Image captioning, Visual Q & A và Chatbot.

Hình 4.4: Giao diện chính của ứng dụng web Generative AI.

Giao hiện ứng dụng: Ứng dụng có3giao diện chính tương ứng3tính năng:

Tính năng chú thích hình ảnh cho phép người dùng tải ảnh lên website thông qua nút "Browse files" và tạo mô tả cho ảnh bằng cách nhấn nút "Generate captions", như được mô tả trong Hình 4.5.

Hình 4.5: Giao diện của tính năng Image captioning.

Sau khi người dùng tải ảnh lên, hình ảnh sẽ được xử lý và hiển thị mô tả về hình ảnh như trong ví dụ Hình 4.6.

Hình 4.6: Ví dụ tính năng Image captioning.

Tính năng Visual Q & A cho phép người dùng tải ảnh lên trang web thông qua nút "Browse files" và nhập câu hỏi liên quan đến hình ảnh vào thanh văn bản Sau khi người dùng thực hiện, trang web sẽ hiển thị câu trả lời tương ứng, như minh họa trong Hình 4.8.

Hình 4.7: Giao diện tính năng Visual Q & A.

Hình 4.8: Ví dụ tính năng Visual Q & A.

Giao diện tính năng Chatbot, như mô tả trong Hình 4.9, cho phép giao tiếp qua văn bản, mô tả hình ảnh và trả lời câu hỏi bằng hình ảnh.

Hình 4.9: Giao diện tính năng Chatbot.

Người dùng có thể nhập câu hỏi vào thanh văn bản, và Chatbot sẽ xử lý để cung cấp câu trả lời, tương tác với người dùng như minh họa trong Hình 4.10.

Hình 4.10: Giao diện tính năng Chatbot, chức năng giao tiếp văn bản.

Nếu người dùng chỉ tải lên hình ảnh, chatbot sẽ hiển thị mô tả về hình ảnh lấy từ mô hình Ligh-ExpansionNet như trong ví dụ Hình 4.11.

Hình 4.11: Giao diện tính năng Chatbot, chức năng mô tả ảnh.

Chatbot mới được trang bị tính năng trả lời câu hỏi bằng hình ảnh, cho phép người dùng tải lên hình ảnh và nhập câu hỏi Ứng dụng sẽ hiển thị câu trả lời tương ứng với hình ảnh đã tải lên.

Hình 4.12: Giao diện tính năng Chatbot, chức năng trả lời câu hỏi hình ảnh.

Sau khi hoàn thiện thiết kế ứng dụng web Generative AI, mô hình Light-ExpansionNet đã cho thấy sự kết hợp hiệu quả với GPT-3.5, mang lại những mô tả ảnh và phản hồi tự nhiên, chính xác Tốc độ phản hồi của ứng dụng phụ thuộc vào tốc độ mô tả của Light-ExpansionNet và phần cứng của AWS EC2, với thời gian phản hồi từ 5-10 giây tùy vào độ phức tạp yêu cầu Điều này chứng tỏ khả năng tích hợp tốt của Light-ExpansionNet, với việc giảm 48,5% số tham số học, dung lượng chỉ 1,47 GB, giúp mô hình dễ dàng tích hợp vào các ứng dụng nhẹ, hạn chế về tài nguyên và chi phí thấp.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Nhóm nghiên cứu đã tối ưu hóa hiệu quả chi phí cho mô hình mô tả ảnh tiên tiến ExpansionNet v2, đề xuất mô hình mới Light-ExpansionNet, kết hợp kiến trúc ExpansionNet v2 với ba cải tiến: Swin Transformer v2 cho trích xuất đặc trưng, thuật toán Memory-Augmented Multi-Head Attention và lớp Multiplicative Residual Embedding Mô hình này giảm 48,5% số tham số có thể học nhưng vẫn duy trì hiệu suất mô tả ảnh với chỉ số CIDEr-D đạt 138,78 Light-ExpansionNet đã được áp dụng thành công với GPT-3.5 từ OpenAI API trong ứng dụng Generative AI, cho phép mô tả ảnh, trả lời câu hỏi và tích hợp chatbot hiểu hình ảnh Kết quả cho thấy mô hình tạo ra mô tả chính xác và tự nhiên cho hầu hết hình ảnh phổ biến, đồng thời phản hồi nhanh chóng, chứng minh tính hiệu quả và khả năng tích hợp vào ứng dụng thực tế với chi phí thấp.

Mô hình Light-ExpansionNet, mặc dù chưa hoàn thiện, đã mở ra nhiều cơ hội phát triển cho công nghệ mô tả ảnh trong tương lai Nó giúp doanh nghiệp và tổ chức tiết kiệm chi phí và nâng cao hiệu quả trong các hoạt động liên quan đến mô tả ảnh cũng như Generative AI, từ đó đáp ứng tốt hơn nhu cầu của người dùng trong kỷ nguyên số hóa.

5.2 Hướng phát triển Để tiếp tục phát triển và hoàn thiện công việc nghiên cứu và ứng dụng mô hình AI mô tả ảnh trong tương lai, nhóm đề xuất một số hướng phát triển sau:

Để nâng cao hiệu suất của mô hình Light-ExpansionNet, cần tiếp tục nghiên cứu và cải tiến kiến trúc nhằm tăng cường độ chính xác và tốc độ phản hồi, đồng thời khắc phục các điểm yếu hiện tại Việc này có thể thực hiện thông qua thử nghiệm các thuật toán tối ưu hóa mới, điều chỉnh siêu tham số của mô hình và huấn luyện trên nhiều tập dữ liệu hơn.

Mở rộng ứng dụng bằng cách khám phá và phát triển các tính năng mới trên nền tảng mô hình hiện tại, như phân loại hình ảnh, nhận diện đối tượng và dự đoán hành vi, sẽ nâng cao giá trị của ứng dụng và khả năng thương mại hóa.

Nghiên cứu và tích hợp mô hình Light-ExpansionNet với các công nghệ Generative AI khác như Chatbot tự phát triển, mô hình tạo ảnh theo yêu cầu (Text to Image), mô hình chuyển đổi hình ảnh (Image to Image) và mô hình đọc tài liệu (Document Understanding) sẽ mở ra nhiều cơ hội mới trong việc cải thiện hiệu suất và khả năng tương tác của các ứng dụng AI.

Tiêu đề	Tối Ưu Hóa Chi Phí Tính Toán Mô Tả Ảnh Trong Ứng Dụng Generative AI
Tác giả	Võ Anh Kiệt, Nguyễn Minh Tuấn
Người hướng dẫn	TS. Huỳnh Thế Thiện
Trường học	Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành	Công Nghệ Kỹ Thuật Máy Tính
Thể loại	Đồ Án Tốt Nghiệp
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	72
Dung lượng	8 MB