TỔNG QUAN VỀ ĐỀ TÀI
TỔNG QUAN VỀ ĐỀ TÀI
Gợi ý phối trang phục đang trở thành yếu tố quan trọng trong thị trường bán lẻ trực tuyến, nhằm tăng cường sự quan tâm và tham gia của khách hàng vào mua sắm trực tuyến thông qua việc giới thiệu các bộ trang phục thời trang phù hợp Những nghiên cứu ban đầu về đề tài này thường sử dụng các bộ dữ liệu nhỏ, điều này hạn chế khả năng phát triển các mô hình phức tạp cần dataset lớn, như các mô hình học sâu Gần đây, sự phát triển của các cộng đồng thời trang trực tuyến như Polyvore và Chictopia đã cho phép người dùng chia sẻ và bình luận về các thành phần trang phục, mang lại thông tin quý giá để xây dựng các hệ thống gợi ý thông minh và chính xác hơn.
Hình 1.1: Trang phục từ Chictopia Người dùng chia sẻ rộng rãi các thành phần trang phục của họ với công chúng.
Nhiệm vụ chính là phát triển một mô hình gợi ý phối trang phục sử dụng công nghệ học sâu Mô hình này sẽ nhận diện một phần trang phục, chẳng hạn như áo sơ mi, và đề xuất một danh sách ngắn các phần dưới như quần hoặc váy phù hợp nhất từ một bộ sưu tập lớn Để thực hiện điều này, chúng ta cần mô hình hóa khả năng tương thích của các yếu tố thời trang, bao gồm màu sắc, chất liệu, hoa văn và hình dạng.
Mô hình gợi ý trang phục sử dụng mạng lưới thần kinh tích chập (CNN) kết hợp với cơ chế chú ý lẫn nhau để trích xuất đặc điểm hình ảnh của trang phục Quá trình bắt đầu bằng việc mô hình hóa phần trên và phần dưới thành các vectơ tiềm ẩn, sau đó áp dụng cơ chế chú ý lẫn nhau để nhận diện các đặc điểm nổi bật Các tính năng hình ảnh này được giải mã thành điểm đánh giá thông qua Matching Decoder Nhiều nghiên cứu đã đề cập đến việc khuyến nghị trang phục, trong đó có nghiên cứu của Song và cộng sự, sử dụng mạng mã hóa tự động kép để khám phá không gian tương thích tiềm ẩn Tuy nhiên, bài viết này khác biệt khi giới thiệu cơ chế chú ý lẫn nhau và đa phương thức vào không gian tương thích, đồng thời đào tạo tính năng trích xuất và xếp hạng ưu tiên trong một sơ đồ truyền bá ngược.
Bộ dữ liệu từ Polyvore cung cấp một tập hợp lớn thông tin đa phương thức bao gồm hình ảnh và siêu dữ liệu ngữ cảnh của các mục Kết quả thử nghiệm mở rộng cho thấy mô hình này vượt trội hơn so với các mô hình hiện đại trong việc gợi ý phối trang phục, thể hiện qua các chỉ số như Độ chính xác trung bình (MAP), Xếp hạng đối ứng trung bình (MRR) và Vùng dưới đường cong ROC (AUC).
Bài viết này đóng góp vào việc cải thiện chất lượng đề xuất trang phục thông qua việc khám phá ý kiến người dùng và đưa ra các gợi ý cụ thể về trang phục Nó cũng áp dụng sự chú ý lẫn nhau để mô hình hóa sự tương thích giữa các mặt hàng thời trang Phương pháp đề xuất này đã được chứng minh là hiệu quả qua các thử nghiệm trên bộ dữ liệu hiện có cũng như bộ dữ liệu quy mô lớn được xây dựng có mục đích.
BÀI TOÁN GỢI Ý TRANG PHỤC
Bài toán gợi ý trang phục liên quan đến việc đề xuất các mặt hàng thời trang bổ sung dựa trên một item cụ thể, chẳng hạn như phần trên Một số nghiên cứu đã được thực hiện để giải quyết nhiệm vụ này Iwata và cộng sự đã phát triển một mô hình xác suất để liên kết phần trên với phần dưới bằng cách phân tích thông tin tọa độ từ các đặc điểm trực quan của từng item Liu và cộng sự đã nghiên cứu cả hai khía cạnh của gợi ý trang phục và vật phẩm, giới thiệu một mô hình Máy Vector Hỗ trợ tiềm ẩn nhằm đề xuất quần áo phù hợp nhất cho đầu vào của người dùng Jagadeesh và cộng sự đã phân loại người giới thiệu trang phục thành hai loại: xác định và ngẫu nhiên, tập trung vào mô hình màu sắc trong việc đề xuất trang phục.
Nhiều nghiên cứu trước đây dựa trên bộ dữ liệu nhỏ và được chú thích thủ công, điều này hạn chế sự phát triển của các mô hình phức tạp Gần đây, một số ấn phẩm đã sử dụng các nguồn dữ liệu phong phú có thể thu thập tự động, đặc biệt trong lĩnh vực đề xuất trang phục cá nhân hóa Hu và cộng sự đã đề xuất một phương pháp kéo căng chức năng để mô hình hóa tương tác giữa người dùng và các mặt hàng thời trang, dựa trên dữ liệu thu thập từ Polyvore.
Nghiên cứu đã sử dụng khung chung để mô hình hóa sở thích trực quan của con người từ dữ liệu đồng mua hàng trên Amazon, áp dụng CNN để trích xuất các tính năng trực quan và khám phá mối quan hệ giữa chúng He và McAuley đã phát triển phương pháp nhân tố ma trận kết hợp các tín hiệu thị giác vào yếu tố dự đoán ý kiến người dùng Li và cộng sự phân loại trang phục theo độ phổ biến thông qua hệ thống học sâu đa phương thức, trong khi Song và cộng sự khai thác dữ liệu đa phương thức của các mặt hàng thời trang bằng bộ mã hóa tự động và xếp hạng cá nhân hóa Bayes Kang và cộng sự sử dụng bộ lọc cộng tác để đề xuất sản phẩm thời trang cho người dùng Han và cộng sự đã nghiên cứu các nhúng trực quan và mối quan hệ giữa các mặt hàng thời trang bằng mô hình LSTM hai chiều, trong khi Song và cộng sự áp dụng kiến thức miền thời trang để kết hợp quần áo và phát triển kế hoạch tích hợp với mạng lưới thần kinh.
TỔNG QUAN VỀ HỌC SÂU
Deep Learning
Deep Learning là một phương pháp trong Machine Learning, sử dụng các thuật toán được lấy cảm hứng từ cấu trúc và chức năng của não bộ động vật, thông qua việc áp dụng mạng thần kinh nhân tạo.
Mạng thần kinh nhân tạo là hệ thống mô phỏng hoạt động của não người thông qua các chương trình và cấu trúc dữ liệu Trong khi đó, Machine Learning là một ứng dụng chạy trên mạng thần kinh nhân tạo, cho phép máy tính "học" từ khối lượng dữ liệu lớn để giải quyết các vấn đề cụ thể.
Deep Learning là một lĩnh vực quan trọng trong công nghệ, tập trung vào việc cải thiện mạng thần kinh nhân tạo để nâng cao khả năng nhận diện giọng nói, tầm nhìn máy tính và xử lý ngôn ngữ tự nhiên Công nghệ này đã thúc đẩy sự tiến bộ trong nhiều lĩnh vực khác nhau, bao gồm nhận thức sự vật, dịch tự động và nhận diện giọng nói.
… những vấn đề từng rất khó khăn với các nhà nghiên cứu trí tuệ nhân tạo.
Convolutional Neural Network
Mạng nơ-ron tích chập (CNNs) là một trong những mô hình Deep Learning tiên tiến, giúp xây dựng hệ thống thông minh với độ chính xác cao Các công ty lớn như Facebook, Google và Amazon đã áp dụng CNNs vào sản phẩm của mình để phát triển các chức năng thông minh như nhận diện khuôn mặt, xe tự lái và drone giao hàng tự động Đặc trưng ảnh là những chi tiết xuất hiện trong ảnh, từ đơn giản như cạnh và hình khối đến phức tạp như mắt, mặt, động vật và các vật thể hàng ngày.
Bộ lọc phát hiện đặc trưng là công cụ quan trọng trong việc nhận diện và trích xuất các đặc trưng của hình ảnh, bao gồm các loại như bộ lọc góc, cạnh, đường chéo, hình tròn và hình vuông.
Lớp tích chập (Convolutional Layers):
Lớp tích chập được sử dụng để phát hiện và trích xuất các đặc trưng chi tiết của ảnh Nó nhận dữ liệu đầu vào và thực hiện các phép chuyển đổi thông qua phép tính tích chập, tạo ra dữ liệu đầu vào cho lớp tiếp theo Mỗi lớp tích chập bao gồm một hoặc nhiều bộ lọc, giúp phát hiện và trích xuất các đặc trưng khác nhau của ảnh.
Bộ lọc trong các lớp tích chập sâu hơn sẽ phát hiện các đặc trưng phức tạp hơn Độ phức tạp của đặc trưng tỉ lệ thuận với độ sâu của lớp tích chập Trong mạng CNN, các lớp tích chập đầu tiên sử dụng bộ lọc hình học để nhận diện những đặc trưng đơn giản như cạnh ngang, dọc và chéo của hình ảnh Các lớp tích chập tiếp theo phát hiện các đối tượng nhỏ hơn như mắt, mũi, và tóc Cuối cùng, các lớp tích chập sâu nhất sẽ nhận diện các đối tượng hoàn chỉnh như chó, mèo, chim, ô tô, và đèn giao thông Để hiểu rõ hơn về cách thức hoạt động của lớp tích chập và phép tính tích chập, chúng ta có thể xem xét ví dụ về bộ lọc phát hiện cạnh.
Trong ví dụ này, CNN được áp dụng để phân loại tập ảnh viết tay từ 0 đến 9 Đầu vào là các bức ảnh trắng đen, được biểu diễn qua ma trận điểm ảnh với kích thước cố định h×w Lớp tích chập đầu tiên của CNN sử dụng 4 bộ lọc kích thước 3×3 với các giá trị tương ứng, được minh họa trong hình Các giá trị trong mỗi ô của bộ lọc được thể hiện bằng màu sắc: Đen (−1), Xám (0), và Trắng (1).
Hình 3.1: Bộ lọc được sử dụng trong lớp tích chập đầu tiên là các ma trận kích thước
Hình 3.2: Ví dụ về bộ lọc cạnh (đứng phải, đứng trái, ngang dưới, ngang trên) với đầu vào là ảnh số viết tay [4]
Lớp Pooling trong mạng nơ-ron tích chập (CNN) giúp giảm kích thước đầu vào, tăng tốc độ tính toán và cải thiện hiệu suất phát hiện đặc trưng Hai phương pháp Pooling phổ biến nhất là max pooling và average pooling.
Hình 3.3: Ví dụ pooling theo giá trị cực đại [4]
Recurrent Neural Network
RNN (Recurrent Neural Network) là một mạng nơ-ron chủ yếu được sử dụng để xử lý các bài toán ngôn ngữ tự nhiên và các nhiệm vụ liên quan đến xử lý chuỗi Với khả năng tính toán tuần tự, RNN phù hợp cho các bài toán dự đoán dữ liệu tuần tự như nhận diện giọng nói, tạo nhạc, phân loại cảm xúc, phân tích chuỗi DNA, dịch ngôn ngữ và nhận diện hoạt động trong video.
RNN, hay mạng nơ-ron hồi tiếp, sử dụng chuỗi thông tin để thực hiện cùng một tác vụ cho tất cả các từ trong chuỗi, với đầu ra phụ thuộc vào các phép tính trước đó Ví dụ, khi dịch một chuỗi từ ngôn ngữ này sang ngôn ngữ khác, RNN sẽ dịch từng từ từ trái sang phải, dự đoán nghĩa của từ hiện tại dựa vào những từ đã được dịch trước đó Cơ chế hoạt động này cho phép RNN ghi nhớ thông tin qua từng giai đoạn xử lý, từ đó tiếp tục xử lý cho giai đoạn tiếp theo.
Hình 3.4: Kiến trúc của mô hình RNN [6]
Tại mỗi thời điểm t, từ trong chuỗi được đưa vào hidden layer ký hiệu là ℎ để dự đoán kết quả Quá trình này lặp lại cho đến khi dự đoán hết tất cả các từ trong câu Hidden layer hoạt động như một "bộ nhớ", lưu trữ thông tin từ các hidden layer trước đó để dự đoán từ tiếp theo, đồng thời cập nhật thông tin hiện tại cho giai đoạn dự đoán tiếp theo Hidden layer (ℎ) tại thời điểm t được tính theo công thức ℎ = ( + ℎ.
Các ma trận trọng số và hidden layer ℎ −1 ở thời điểm t-1 được sử dụng để tính tổng tích vô hướng (dot-product) của từ và ma trận trọng số Tổng này sau đó được đưa qua hàm phi tuyến tính f, như tanh hoặc ReLU, nhằm điều chỉnh sự chênh lệch quá lớn giữa các trọng số của hidden layer h tại thời điểm t, đảm bảo giá trị nằm trong miền từ khoảng (-1,1).
Tại thời điểm t, từ dự đoán được tính bằng cách nhân hidden layer hiện tại ℎ với ma trận trọng số, sau đó áp dụng hàm softmax để chuẩn hóa phân bổ xác suất về miền giá trị [0,1].
Tại mỗi thời điểm t, điểm mất mát giữa đầu ra thực tế và đầu ra dự đoán được tính toán và tổng hợp, nhằm cập nhật trọng số cho các ma trận.
, , Mất mát (loss) này được lan truyền ngược lại cập nhật những trọng số để tối giản mất mát, kỹ thuật này gọi là Back propagation through time (BPTT).
Mạng neural tái phát (RNN) gặp khó khăn với vấn đề hao hụt hoặc bùng nổ đạo hàm khi xử lý chuỗi dữ liệu lớn Việc lặp lại phép nhân của ma trận trọng số nhiều lần để dự đoán các từ trong chuỗi dài khiến RNN dễ bị ảnh hưởng bởi hiện tượng này.
GIẢI PHÁP ĐỀ XUẤT CHO BÀI TOÁN GỢI Ý TRANG PHỤC
Tổng quan
Chọn một phần từ nhóm T = {1, 2, }, nhiệm vụ đề xuất phần dưới là tạo ra danh sách các phần dưới được xếp hạng từ nhóm ứng cử viên = {1, }.
2 , , } Tương tự, nhiệm vụ đề xuất phần trên là đề xuất một danh sách các phần trên được xếp hạng cho một phần dưới nhất định.
Dựa trên mạng nơ-ron tích chập, hình 4.1(a) trích xuất các đặc điểm hình ảnh từ một cặp (t,b) và chuyển đổi chúng thành các biểu diễn tiềm ẩn tương ứng Một cơ chế chú ý lẫn nhau được giới thiệu để đảm bảo rằng bộ mã hóa hình ảnh phần trên và phần dưới có thể mã hóa tính tương thích giữa t và b Trong hình 4.1(b), Matching Decoder là một tri giác đa lớp (MLP) được sử dụng để đánh giá điểm phù hợp giữa t và b.
(a) Bộ mã hóa hình ảnh trên và dưới.
(b) Sự chú ý lẫn nhau và Matching Decoder.
Bộ mã hóa hình ảnh trích xuất các tính năng từ hình ảnh, sử dụng cơ chế chú ý lẫn nhau để chuyển đổi các tính năng trực quan thành các biểu diễn tiềm ẩn Cuối cùng, Matching Decoder dự đoán chỉ số phù hợp dựa trên các biểu diễn này.
4.2 Bộ mã hóa hình ảnh phần trên và phần dưới
Bộ mã hóa hình ảnh phía trên và phía dưới sử dụng CNN, phổ biến trong khuyến nghị trang phục Mặc dù các kiến trúc mạnh mẽ như ResNet và DenseNet, việc đào tạo chúng gặp khó khăn do số lượng tham số lớn và yêu cầu nhiều dữ liệu cũng như thời gian Để tối ưu hóa chi phí đào tạo và hiệu suất, chúng tôi thiết kế một CNN hai lớp với sự chú ý lẫn nhau, có ít tham số hơn nhưng vẫn đạt hiệu suất tốt Chúng tôi đã xác minh tính hiệu quả của kiến trúc mạng này qua các thử nghiệm.
Input của CNN là một tensor 3 chiều, được định nghĩa bởi kích thước width x height x depth Trong đó, width là số lượng điểm ảnh theo chiều rộng, height là số lượng điểm ảnh theo chiều cao, và depth đại diện cho số lượng kênh màu, chẳng hạn như RGB với 3 kênh cho các mức độ của màu Đỏ, Lục và Lam.
Cho một cặp hình ảnh ( , ), chúng tôi giả sử rằng hình ảnh và hình ảnh có kích thước
Chúng tôi sử dụng kích thước 224 × 224 với 3 kênh màu để trích xuất các tính năng trực quan thông qua mạng nơ-ron tích chập (CNN) hai lớp Đầu tiên, các đặc trưng chính được thu nhận từ một lớp chập, như được minh họa trong Hình 4.1 (a).
Chúng tôi bắt đầu với F 1 ∈ ℝ 1 × 1 × 1 và đưa vào một lớp chập khác để tạo ra các tính năng hình ảnh tiên tiến F 2 ∈ ℝ 2 × 2 × 2 Bằng cách sử dụng DensetNet [16], chúng tôi tối ưu hóa việc sử dụng các tính năng hình ảnh trong các lớp CNN, đảm bảo rằng 1 = 2 và 1 = 2 thông qua các thao tác đệm để kết hợp F 1 và F 1, từ đó thu được F ∈ ℝ 2 × 2 ×( 1 + 2 ) Cuối cùng, chúng tôi áp dụng nhóm tối đa trong F để có được các tính năng hình ảnh cuối cùng F ∈ ℝ × ×, với mục tiêu giảm kích thước đầu vào, tăng tốc độ tính toán và cải thiện hiệu suất phát hiện đặc trưng Chúng tôi cũng định hình lại F = [f 1, , f L ] bằng cách làm phẳng chiều rộng và chiều cao của F ban đầu, trong đó f ∈ ℝ và L = W ×.
H Chúng ta có thể coi f là các tính năng trực quan của khu vực địa phương thứ i của hình ảnh đầu vào Cho một cặp bao gồm hình ảnh phần trên và hình phần dưới , chúng sẽ được đưa vào cùng một CNN, tức là, bộ mã hóa hình ảnh phần trên và phần dưới có cùng cấu trúc và các tham số chia sẻ Đối với nó, các tính năng hình ảnh được trích xuất được ký hiệu như trong biểu thức 1:
Tương tự, đối với các đăc,̣ trưng hình ảnh được trích xuất của hình ảnh , chúng ta có:
Các cơ chế chú ý trước đây không được thiết kế đặc biệt cho khuyến nghị trang phục, do đó không phù hợp để mô hình hóa mối quan hệ giữa hình ảnh trên và hình ảnh dưới Chúng tôi đề xuất cơ chế chú ý lẫn nhau để đánh giá mối tương quan và sự liên kết giữa từng khu vực địa phương Cơ chế này có khả năng mô hình hóa mối quan hệ phù hợp từ cả hai phía, từ hình ảnh dưới lên hình ảnh trên và ngược lại, làm cho nó phù hợp hơn cho khuyến nghị trang phục Để tính trọng số chú ý từ trên xuống dưới, chúng tôi thực hiện tổng hợp trung bình tổng quát.
27 tính năng hình ảnh từ tất cả các khu vực địa phương để có được các tính năng hình ảnh tổng quát g ∈ ℝ của trong biểu thức 3: g
Sau đó, đối với khu vực địa phương thứ i của , chúng ta có thể tính trọng số chú ý , với và như trong biểu thức 4 [17]
Sau đó, chúng tôi tính tổng trọng số của
=1 , để có được các attentive global
Tương tự, chúng ta có thể tính toán các trọng số chú ý từ dưới lên trên và có được các attentive global visual features g của : g
Sau đó, chúng tôi chiếu à
ReLU là một hàm kích hoạt giúp loại bỏ các tham số không quan trọng trong quá trình đào tạo, làm cho mạng trở nên nhẹ hơn và tăng tốc độ huấn luyện Hàm này giữ nguyên các giá trị đầu vào lớn hơn 0 và đặt các giá trị đầu vào nhỏ hơn 0 thành 0.
Dựa trên các phương pháp dựa trên yếu tố ma trận, chúng tôi nghiên cứu các yếu tố tiềm ẩn top T và bottom B, kết hợp thông tin lọc cộng tác để cải thiện các tính năng trực quan Cụ thể, với mỗi đỉnh t và mỗi đáy b, chúng tôi xác định các yếu tố tiềm ẩn nhằm thu được các biểu diễn tiềm ẩn hiệu quả hơn.
Chúng tôi sử dụng mạng thần kinh nhiều lớp để tính xác suất khớp giữa t và b, như được thể hiện trong Hình 4.1(b) Để thực hiện điều này, chúng tôi ánh xạ các đại diện tiềm ẩn vào một không gian chung, trong đó ℎ ∈.
Chúng tôi ước tính xác suất khớp bằng cách sử dụng các tham số ∈, với p( = 1) tương ứng cho trường hợp khớp và p( = 0) cho trường hợp không khớp Trong đó, t và b biểu thị cho các yếu tố khớp nhau, và giá trị = 0 cho thấy t và b không khớp Cuối cùng, dựa trên xác suất p( ), chúng tôi có thể đề xuất các điểm đỉnh hoặc đáy.
Chúng tôi sử dụng negative log-likelihood (NIL) cho tác vụ khớp, trong đó hàm mất mát được xác định với tập hợp các cặp dương và âm Tập hợp dương, ký hiệu là +, bao gồm các cặp top-bottom được trích xuất từ các kết hợp trang phục trên Polyvore, trong khi tập hợp âm, ký hiệu là −, bao gồm các cặp được tạo ra ngẫu nhiên mà không thuộc tập hợp dương Đối với các cặp dương, p( ) đại diện cho xác suất p( = 1), nghĩa là cặp đã cho khớp, trong khi đối với các cặp âm, p( ) thể hiện xác suất p( = 0), tức là cặp đã cho không khớp.
Matching Decoder
Chúng tôi sử dụng mạng thần kinh nhiều lớp để tính xác suất khớp giữa t và b, như thể hiện trong Hình 4.1(b) Đầu tiên, chúng tôi ánh xạ các đại diện tiềm ẩn vào một không gian chung để thực hiện các tính toán trong biểu thức.
Chúng tôi ước tính xác suất khớp bằng cách xác định p( = 1) cho trường hợp t và b khớp, và p( = 0) cho trường hợp t và b không khớp nhau Cuối cùng, dựa trên giá trị p( ), chúng tôi có thể đề xuất các đỉnh hoặc đáy phù hợp.
Hàm mất mát
Chúng tôi sử dụng hàm mất mát negative log-likelihood (NIL) cho tác vụ khớp, trong đó xác định các cặp tích cực và tiêu cực từ dữ liệu trang phục Polyvore Tập hợp các cặp tích cực được ký hiệu là +, bao gồm các cặp top-bottom được trích xuất, trong khi tập hợp các cặp tiêu cực, ký hiệu là −, được tạo ra từ các cặp mẫu ngẫu nhiên không có trong + Đối với các cặp tích cực, p ( ) biểu thị xác suất p ( = 1), nghĩa là cặp đã cho khớp, còn đối với các cặp tiêu cực, p ( ) biểu thị xác suất p ( = 0), nghĩa là cặp đã cho không khớp.
CÀI ĐẶT THỬ NGHIỆM
Ứng dụng vào việc phân vùng đối tượng trong ảnh thời trang
Báo cáo này trình bày mô hình CNN, có khả năng trích xuất đặc điểm hình ảnh của trang phục và chuyển đổi chúng thành biểu diễn tiềm ẩn Sau đó, mô hình sử dụng Matching Decoder để dự đoán chỉ số phù hợp Đầu vào của hệ thống là một bức ảnh thời trang, trong khi đầu ra là bức ảnh đó với đối tượng được bao quanh bởi một đa giác.
Tập dữ liệu
FashionVC: hơn 25,000 hinh̀ ảnh về trang phục được thu thập trên Polyvore:
Môi trường
Thưc,̣ nghiệm trên Google Colaboratory:
- Notebook-based với backend Python 3
Chip xử lý: Intel(R) Xeon(R) CPU @ 2.30GHz
5.4 Kết quả (Khi cho top vào ta sẽ nhận được các bottom phù hợp với số điểm tương ứng.)
Với tập train 400 tấm hình:
Với tập train 5000 tấm hình:
Bảng 5.2: Kết quả khi train với tập gồm 5000 hình ảnh thời trang
Với tập train 10000 tấm hình:
Bảng 5.3: Kết quả khi train với tập gồm 10000 hình ảnh thời trang
Với tập train 18000 tấm hình:
Bảng 5.4: Kết quả khi train với tập gồm 18000 hình ảnh thời trang
Với tập train 25000 tấm hình
Bảng 5.5: Kết quả khi train với tập gồm 25000 hình ảnh thời trang
Kết quả
Báo cáo nghiên cứu này trình bày việc sử dụng mô hình CNN với cơ chế chú ý lẫn nhau để trích xuất đặc điểm hình ảnh của trang phục Nghiên cứu áp dụng bộ dữ liệu fashionCV và cho thấy sự cải tiến đáng kể về các chỉ số MAP, MRR và AUC Kết quả này chứng minh rằng cơ chế chú ý lẫn nhau là rất hữu ích trong việc gợi ý trang phục.
Phương pháp đề xuất này đã được chứng minh là hiệu quả thông qua các thử nghiệm trên bộ dữ liệu hiện có, cũng như trên bộ dữ liệu quy mô lớn được xây dựng có mục đích.
Nhược điểm: Mô hình còn hạn chế về sự đa dạng của các mặt hàng thời trang như các phụ kiện kính, mũ, giày, …
Trong tương lai, chúng tôi mong muốn khám phá thêm nhiều sự kết hợp thời trang mới Việc kết hợp các mô hình khác nhau sẽ giúp gợi ý trang phục trở nên đơn giản và dễ dàng hơn.