TỔNG QUAN VỀ ĐỀ TÀI
TỔNG QUAN VỀ ĐỀ TÀI
Gợi ý phối trang phục ngày càng trở nên quan trọng trong thị trường bán lẻ trực tuyến, nhằm tăng cường sự quan tâm và tham gia của người tiêu dùng vào mua sắm trực tuyến thông qua việc giới thiệu các trang phục thời trang phù hợp Các nghiên cứu ban đầu về đề tài này thường dựa trên các bộ dữ liệu nhỏ, điều này hạn chế sự phát triển của các mô hình phức tạp cần dữ liệu lớn, như các mô hình học sâu Gần đây, sự phát triển của các cộng đồng thời trang trực tuyến như Polyvore và Chictopia đã cho phép người dùng chia sẻ và bình luận về các thành phần trang phục, cung cấp thông tin quý giá để xây dựng các hệ thống gợi ý thông minh và chính xác hơn.
Hình 1.1: Trang phục từ Chictopia Người dùng chia sẻ rộng rãi các thành phần trang phục của họ với công chúng
Nhiệm vụ là phát triển một mô hình gợi ý phối trang phục dựa trên học sâu, nhằm đề xuất danh sách ngắn các phần dưới (như quần, váy) phù hợp với phần trên (ví dụ: áo sơ mi) từ một bộ sưu tập lớn Mô hình này cần phải xác định khả năng tương thích giữa các yếu tố thời trang như màu sắc, chất liệu, hoa văn và hình dạng.
Mô hình gợi ý trang phục sử dụng mạng lưới thần kinh tích chập (CNN) kết hợp cơ chế chú ý lẫn nhau để trích xuất đặc điểm hình ảnh của trang phục Cụ thể, CNN được sử dụng để mô hình hóa phần trên và phần dưới thành các vectơ tiềm ẩn, sau đó áp dụng cơ chế chú ý lẫn nhau để xác định các đặc điểm nổi bật của cả hai phần Các đặc điểm này được giải mã thành điểm đánh giá thông qua Matching Decoder Nhiều nghiên cứu đã được thực hiện về khuyến nghị trang phục, trong đó có công trình của Song và cộng sự, những người đã áp dụng mạng mã hóa tự động kép để khám phá không gian tương thích giữa các tính năng.
Bài viết này trình bày 15 quan (hình ảnh) và các tính năng theo ngữ cảnh (danh mục, thẻ), sử dụng xếp hạng cá nhân hóa Bayes (BPR) để khai thác ưu tiên theo cặp giữa phần trên và phần dưới Sự khác biệt chính so với các nghiên cứu trước là việc giới thiệu cơ chế chú ý lẫn nhau và đa phương thức vào không gian tương thích tiềm ẩn, thay vì sử dụng mạng tự động mã hóa kép Chúng tôi thực hiện đào tạo tính năng trích xuất và xếp hạng ưu tiên trong một sơ đồ truyền bá ngược.
Bộ dữ liệu Polyvore là một tập hợp lớn chứa thông tin đa phương thức như hình ảnh và siêu dữ liệu ngữ cảnh của các mục Các thử nghiệm mở rộng trên bộ dữ liệu này cho thấy mô hình đề xuất phối trang phục đạt hiệu suất vượt trội so với các mô hình hiện đại, được đo bằng các chỉ số như Độ chính xác trung bình (MAP), Xếp hạng đối ứng trung bình (MRR) và Vùng dưới đường cong ROC (AUC).
Bài viết này tập trung vào việc khám phá ý kiến người dùng nhằm nâng cao chất lượng đề xuất trang phục, đồng thời đưa ra các gợi ý cụ thể về trang phục Nó cũng sử dụng sự chú ý lẫn nhau để mô hình hóa sự tương thích giữa các mặt hàng thời trang Phương pháp đề xuất này đã được chứng minh là hiệu quả qua các thử nghiệm trên bộ dữ liệu hiện có và bộ dữ liệu quy mô lớn được xây dựng có mục đích.
BÀI TOÁN GỢI Ý TRANG PHỤC
Bài toán gợi ý trang phục liên quan đến việc đề xuất các mặt hàng thời trang phù hợp, ví dụ như từ phần trên đến phần dưới Một số nghiên cứu đã được thực hiện để giải quyết nhiệm vụ này Iwata và cộng sự đã phát triển một mô hình xác suất để đề xuất phần trên dựa trên thông tin tọa độ từ các đặc điểm trực quan của từng mặt hàng Liu và cộng sự nghiên cứu cả hai khía cạnh là đề xuất trang phục và vật phẩm, sử dụng mô hình Máy Vector Hỗ trợ tiềm ẩn để tìm ra quần áo phù hợp nhất cho người dùng Jagadeesh và cộng sự đề xuất hai lớp người giới thiệu trang phục, bao gồm xác định và ngẫu nhiên, với trọng tâm là mô hình màu cho gợi ý trang phục.
Các nghiên cứu hiện tại chủ yếu dựa trên bộ dữ liệu nhỏ và được chú thích thủ công, điều này hạn chế sự phát triển của các mô hình phức tạp Gần đây, một số ấn phẩm đã sử dụng dữ liệu phong phú thu thập tự động, như trong lĩnh vực đề xuất trang phục cá nhân hóa Hu và cộng sự đã đề xuất phương pháp nhân tố kéo căng chức năng để mô hình hóa tương tác giữa người dùng và mặt hàng thời trang từ dữ liệu Polyvore McAuley và cộng sự áp dụng khung chung để mô hình hóa sở thích trực quan của con người từ dữ liệu đồng mua hàng của Amazon, sử dụng CNN để trích xuất tính năng trực quan Tương tự, He và McAuley đã giới thiệu phương pháp nhân tố ma trận kết hợp tín hiệu thị giác vào dự đoán ý kiến người dùng Li và cộng sự phân loại trang phục là phổ biến hay không thông qua hệ thống học tập sâu đa phương thức Song và cộng sự đã sử dụng bộ mã hóa tự động để khai thác không gian tương thích của các mặt hàng thời trang, sau đó áp dụng xếp hạng cá nhân hóa Bayes để tìm hiểu ưu tiên giữa các sản phẩm Cuối cùng, Kang và cộng sự sử dụng CNN để nghiên cứu biểu diễn hình ảnh.
Bài viết đề cập đến việc sử dụng bộ lọc cộng tác để đề xuất các mặt hàng thời trang cho người dùng Han và cộng sự đã nghiên cứu các nhúng trực quan và mối quan hệ tương thích giữa các mặt hàng thời trang, huấn luyện một mô hình LSTM hai chiều để dự đoán tuần tự các mục tiếp theo dựa trên các mục trước Ngoài ra, Song và cộng sự đã xem xét kiến thức miền thời trang để kết hợp quần áo và đề xuất một kế hoạch tích hợp với các mạng lưới thần kinh, đồng thời giới thiệu một sơ đồ để gán niềm tin quy tắc trong quy trình chưng cất kiến thức.
TỔNG QUAN VỀ HỌC SÂU
Deep Learning
Deep Learning là một phương pháp trong Machine Learning, được phát triển dựa trên các thuật toán mô phỏng cấu trúc và chức năng của bộ não động vật, cụ thể là mạng thần kinh nhân tạo.
Mạng thần kinh nhân tạo là hệ thống mô phỏng cách hoạt động của não người thông qua các chương trình và cấu trúc dữ liệu Trong khi đó, Machine Learning là một ứng dụng chạy trên mạng thần kinh nhân tạo, cho phép máy tính "học" từ lượng dữ liệu lớn để giải quyết các vấn đề cụ thể.
Deep Learning tập trung vào việc cải thiện mạng thần kinh nhân tạo, góp phần nâng cao công nghệ như nhận diện giọng nói, tầm nhìn máy tính và xử lý ngôn ngữ tự nhiên Công nghệ này đã thúc đẩy sự tiến bộ trong nhiều lĩnh vực, bao gồm nhận thức sự vật, dịch tự động và nhận diện giọng nói.
… những vấn đề từng rất khó khăn với các nhà nghiên cứu trí tuệ nhân tạo.
Convolutional Neural Network
Mạng nơ-ron tích chập (CNNs) là một trong những mô hình Deep Learning tiên tiến, giúp xây dựng các hệ thống thông minh với độ chính xác cao Các công ty lớn như Facebook, Google và Amazon đã áp dụng CNN vào sản phẩm của họ, mang lại những chức năng thông minh như nhận diện khuôn mặt, phát triển xe hơi tự lái và drone giao hàng tự động Đặc trưng ảnh là những chi tiết xuất hiện trong ảnh, từ các yếu tố đơn giản như cạnh và hình khối đến các đối tượng phức tạp như mắt, mặt, chó, mèo, bàn, ghế và đèn giao thông.
Bộ lọc phát hiện đặc trưng là công cụ quan trọng trong việc nhận diện và trích xuất các đặc trưng của hình ảnh, bao gồm các loại bộ lọc như góc, cạnh, đường chéo, hình tròn và hình vuông.
Lớp tích chập (Convolutional Layers):
Lớp tích chập là thành phần quan trọng trong việc phát hiện và trích xuất các đặc trưng chi tiết từ ảnh Nó nhận dữ liệu đầu vào và thực hiện các phép chuyển đổi thông qua phép tính tích chập để tạo ra dữ liệu cho lớp tiếp theo Mỗi lớp tích chập bao gồm một hoặc nhiều bộ lọc, hay còn gọi là bộ phát hiện đặc trưng, giúp nhận diện và trích xuất các đặc trưng khác nhau của hình ảnh.
Bộ lọc trong các lớp tích chập sâu phát hiện các đặc trưng phức tạp hơn, với độ phức tạp tỉ lệ thuận với độ sâu của lớp Trong mạng CNN, các lớp tích chập đầu tiên sử dụng bộ lọc hình học để nhận diện các đặc trưng đơn giản như cạnh ngang, dọc và chéo Các lớp sau đó phát hiện các đối tượng nhỏ như mắt, mũi và tóc, trong khi các lớp sâu nhất nhận diện các đối tượng hoàn chỉnh như chó, mèo, chim, ô tô và đèn giao thông Để hiểu rõ hơn về cách hoạt động của lớp tích chập và phép tính tích chập, chúng ta sẽ xem xét ví dụ về bộ lọc phát hiện cạnh.
Trong ví dụ này, CNN được áp dụng để phân loại ảnh viết tay từ 0 đến 9, sử dụng đầu vào là các bức ảnh trắng đen được biểu diễn dưới dạng ma trận điểm ảnh với kích thước h×w Lớp tích chập đầu tiên của CNN bao gồm 4 bộ lọc kích thước 3×3, được ký hiệu là 𝐹 1, 𝐹 2, 𝐹 3, 𝐹 4, với các giá trị tương ứng được thể hiện trong hình 3 Các giá trị trong từng ô của bộ lọc được biểu diễn bằng màu sắc: Đen (-1), Xám (0), và Trắng (1).
Hình 3.1: Bộ lọc được sử dụng trong lớp tích chập đầu tiên là các ma trận kích thước
Hình 3.2: Ví dụ về bộ lọc cạnh (đứng phải, đứng trái, ngang dưới, ngang trên) với đầu vào là ảnh số viết tay [4]
Lớp Pooling trong CNN giúp giảm kích thước đầu vào, tăng tốc độ tính toán và cải thiện hiệu suất phát hiện đặc trưng Hai phương pháp pooling phổ biến nhất là max pooling và average pooling.
Hình 3.3: Ví dụ pooling theo giá trị cực đại [4]
Recurrent Neural Network
RNN (Recurrent Neural Network) là một mạng neural chủ yếu được sử dụng để xử lý các bài toán ngôn ngữ tự nhiên và các nhiệm vụ liên quan đến xử lý chuỗi Với khả năng tính toán tuần tự, RNN rất phù hợp cho các bài toán dự đoán dữ liệu tuần tự như nhận diện giọng nói, tạo nhạc, phân loại cảm xúc, phân tích chuỗi DNA, dịch ngôn ngữ và nhận diện hoạt động trong video.
RNN (Mạng nơ-ron hồi tiếp) hoạt động dựa trên chuỗi thông tin, thực hiện cùng một tác vụ cho tất cả các từ trong chuỗi, với đầu ra phụ thuộc vào các phép tính trước đó Ví dụ, trong việc dịch ngôn ngữ, các từ được dịch từ trái sang phải, và RNN dự đoán nghĩa của từ hiện tại dựa vào những từ đã dịch trước đó Cơ chế này cho phép RNN ghi nhớ thông tin qua các giai đoạn xử lý, từ đó tiếp tục xử lý ở giai đoạn tiếp theo.
Hình 3.4: Kiến trúc của mô hình RNN [6]
Tại mỗi thời điểm t, chuỗi 𝑥 𝑡 được đưa vào lớp ẩn (hidden layer) ký hiệu là ℎ 𝑡 để dự đoán kết quả 𝑦 𝑡 Quá trình này được lặp lại cho đến khi hoàn thành việc dự đoán.
Hidden layer trong mô hình mạng nơ-ron được coi như một “bộ nhớ”, giữ lại thông tin từ các hidden layer trước đó để dự đoán từ tiếp theo Đồng thời, nó cũng cập nhật thông tin hiện tại để tiếp tục quá trình dự đoán Cụ thể, hidden layer (ℎ 𝑡 ) tại thời điểm t được tính theo một công thức nhất định.
Công thức ℎ 𝑡 = 𝑓(𝑊 𝑖𝑛 𝑥 𝑡 + 𝑊 𝑟𝑒𝑐 ℎ 𝑡−1 ) mô tả cách tính toán đầu ra ẩn h tại thời điểm t Trong đó, 𝑊 𝑖𝑛, 𝑊 𝑜𝑢𝑡, và 𝑊 𝑟𝑒𝑐 là các ma trận trọng số, và việc tính toán được thực hiện thông qua tổng tích vô hướng (dot-product) giữa đầu vào 𝑥 𝑡 và ma trận trọng số 𝑊 𝑖𝑛, cùng với trạng thái ẩn ℎ 𝑡−1 từ thời điểm t-1 với ma trận trọng số tương ứng.
Tổng này sẽ được đưa qua hàm f, một hàm phi tuyến tính như tanh hoặc ReLU, nhằm điều chỉnh sự chênh lệch quá lớn giữa các trọng số của hidden layer tại thời điểm t sau khi thực hiện phép tính trong miền từ khoảng (-1, 1).
Dự đoán (𝑦 𝑡) tại thời điểm t được tính bằng cách nhân hidden layer hiện tại ℎ 𝑡 với ma trận trọng số 𝑊 𝑜𝑢𝑡 Kết quả sau đó được đưa qua hàm softmax để chuẩn hóa phân bổ xác suất về miền giá trị [0,1].
Tại mỗi thời điểm t, hàm Softmax được sử dụng để tính toán xác suất của từ dự đoán thông qua công thức 𝑦 𝑡 = Softmax(𝑊 𝑜𝑢𝑡 ℎ 𝑡) Điểm mất mát giữa từ thực sự và từ được dự đoán sẽ được tính toán và tổng hợp nhằm cập nhật trọng số cho các ma trận.
𝑊 𝑖𝑛 , 𝑊 𝑜𝑢𝑡 , 𝑊 𝑟𝑒𝑐 Mất mát (loss) này được lan truyền ngược lại cập nhật những trọng số để tối giản mất mát, kỹ thuật này gọi là Back propagation through time (BPTT).
Mạng neural tái phát (RNN) gặp khó khăn với vấn đề hao hụt hoặc bùng nổ đạo hàm khi xử lý chuỗi dữ liệu lớn Việc lặp lại phép nhân của ma trận trọng số nhiều lần để dự đoán các từ trong chuỗi dài khiến RNN dễ bị ảnh hưởng bởi hiện tượng này, dẫn đến hiệu suất kém trong việc học và dự đoán.
GIẢI PHÁP ĐỀ XUẤT CHO BÀI TOÁN GỢI Ý TRANG PHỤC
Tổng quan
Chọn một phần trên 𝑡 𝑖 từ nhóm Ƭ = {𝑡 1 , 𝑡 2 , , 𝑡 𝑁 𝑡 } và nhiệm vụ đề xuất phần dưới là tạo ra một danh sách các phần dưới được xếp hạng từ nhóm ứng cử viên 𝐵 = {𝑏 1 , }.
𝑏 2 , , 𝑏 𝑁 𝑏 } Tương tự, nhiệm vụ đề xuất phần trên là đề xuất một danh sách các phần trên được xếp hạng cho một phần dưới nhất định
Dựa trên mạng nơ-ron tích chập, hình 4.1(a) trích xuất các đặc điểm hình ảnh từ một cặp (t,b) và chuyển đổi chúng thành các biểu diễn tiềm ẩn tương ứng Một cơ chế chú ý lẫn nhau được giới thiệu nhằm đảm bảo rằng bộ mã hóa hình ảnh cho phần trên và phần dưới có thể mã hóa tính tương thích giữa t và b Trong hình 4.1(b), Matching Decoder là một tri giác đa lớp (MLP) được sử dụng để đánh giá điểm phù hợp giữa t và b.
(a) Bộ mã hóa hình ảnh trên và dưới
(b) Sự chú ý lẫn nhau và Matching Decoder
Hình 4.1: (a) Bộ mã hóa hình ảnh trên và dưới trích xuất các tính năng hình ảnh 𝐹 𝑡 và
Chúng tôi sử dụng cơ chế chú ý lẫn nhau để chuyển đổi các tính năng trực quan thành các biểu diễn tiềm ẩn 𝑣𝑡 và 𝑣𝑏 Sau đó, Matching Decoder sẽ dự đoán chỉ số phù hợp 𝑟𝑡𝑏 từ các biểu diễn này.
Bộ mã hóa hình ảnh phần trên và phần dưới
Bộ mã hóa hình ảnh phía trên và phía dưới trong hệ thống khuyến nghị trang phục được xây dựng dựa trên CNN, mặc dù các kiến trúc mạnh mẽ như ResNet và DenseNet thường gặp khó khăn trong quá trình đào tạo do số lượng tham số lớn và yêu cầu dữ liệu dồi dào Để tối ưu hóa chi phí đào tạo và hiệu suất, chúng tôi thiết kế một CNN hai lớp với sự chú ý lẫn nhau, giúp giảm thiểu số tham số mà vẫn đạt được hiệu suất tốt Chúng tôi đã tiến hành xác minh tính hiệu quả của kiến trúc này thông qua các thử nghiệm Đầu vào của CNN là một bức ảnh số hóa với kích thước width x height x depth, trong đó depth thể hiện số lượng kênh màu, chẳng hạn như RGB với 3 kênh tương ứng cho màu Đỏ, Lục và Lam, tạo thành một tensor 3 chiều.
Cho hai hình ảnh 𝐼 𝑡 và 𝐼 𝑏 có kích thước 224 × 224 với 3 kênh màu, chúng tôi sử dụng CNN hai lớp để trích xuất các tính năng trực quan Cụ thể, hình ảnh 𝐼 𝑡 hoặc 𝐼 𝑏 được đưa vào lớp chập đầu tiên để thu được các tính năng trực quan chính 𝐹 1.
Chúng tôi bắt đầu với đặc trưng hình ảnh F 1 ∈ ℝ 𝐻 1 ×𝑊 1 ×𝐷 1 và đưa nó vào một lớp chập khác để tạo ra các đặc trưng hình ảnh nâng cao F 2 ∈ ℝ 𝐻 2 ×𝑊 2 ×𝐷 2 Sử dụng DensetNet [16], chúng tôi tối ưu hóa việc sử dụng các đặc trưng hình ảnh trong các lớp CNN khác nhau, đảm bảo rằng 𝐻 1 = 𝐻 2 và 𝑊 1 = 𝑊 2 thông qua các thao tác đệm Điều này cho phép chúng tôi kết hợp F 1 và F 2 để tạo ra F 𝑐𝑎𝑡 ∈ ℝ 𝐻 2 ×𝑊 2 ×(𝐷 1 +𝐷 2) Cuối cùng, chúng tôi áp dụng phương pháp nhóm tối đa để hoàn thiện quá trình.
Để có được các tính năng hình ảnh cuối cùng F ∈ ℝ 𝐻×𝑊×𝐷, chúng tôi giảm kích thước đầu vào nhằm tăng tốc độ tính toán và hiệu suất trong việc phát hiện đặc trưng F được định hình lại thành F = [f 1, , f L] bằng cách làm phẳng chiều rộng và chiều cao của F ban đầu, trong đó f 𝑖 ∈ ℝ 𝐷 và L = W × H, với f 𝑖 đại diện cho các tính năng trực quan của khu vực địa phương thứ i trong hình ảnh đầu vào Đối với một cặp hình ảnh phần trên 𝐼 𝑡 và phần dưới 𝐼 𝑏, chúng được đưa vào cùng một CNN với cấu trúc và tham số chia sẻ, từ đó các tính năng hình ảnh được trích xuất 𝐹 𝑡.
𝐹 𝑡 = [𝑓 𝑡 1 , … , 𝑓 𝑡 𝐿 ], 𝑓 𝑡 𝑖 ∈ ℝ 𝐷 (1) Tương tự, đối với các đặc trưng hình ảnh được trích xuất 𝐹 𝑏 của hình ảnh 𝐼 𝑏 , chúng ta có:
Các cơ chế chú ý trước đây không được thiết kế riêng cho việc khuyến nghị trang phục, dẫn đến việc không mô hình hóa hiệu quả mối quan hệ giữa hình ảnh top và bottom Chúng tôi đề xuất một cơ chế chú ý lẫn nhau để đánh giá mối tương quan và sự liên kết giữa từng khu vực địa phương của hình ảnh trên và hình ảnh dưới Cơ chế chú ý lẫn nhau cho phép mô hình hóa mối quan hệ phù hợp từ cả hai phía, tức là từ hình ảnh dưới lên hình ảnh trên và ngược lại, do đó, nó phù hợp hơn cho việc khuyến nghị trang phục Để tính trọng số chú ý từ trên xuống dưới, chúng tôi thực hiện tổng hợp trung bình tổng quát ở hình ảnh trên.
28 tính năng hình ảnh từ tất cả các khu vực địa phương để có được các tính năng hình ảnh tổng quát g 𝑡 ∈ ℝ 𝐷 của 𝐼 𝑡 trong biểu thức 3: g 𝑡 =1
Sau đó, đối với khu vực địa phương thứ i của 𝐼 𝑏 , chúng ta có thể tính trọng số chú ý 𝑒 𝑡,𝑖 với 𝑔 𝑡 và 𝑓 𝑏 𝑖 như trong biểu thức 4 [17]
𝑒 𝑡,𝑖 = 𝑣 𝑎 𝑇 tanh (𝑊 𝑎 𝑓 𝑏 𝑖 + U 𝑎 g 𝑡 ) (4) Trong đó 𝑊 𝑎 và 𝑈 𝑎 ∈ ℝ 𝐷×𝐷 và 𝑣 𝑎 ∈ ℝ 𝐷 Các trọng số chú ý được chuẩn hóa trong biểu thức 5:
∑ 𝐿 𝑖=1 exp (𝑒 𝑡,𝑖 ) (5) Sau đó, chúng tôi tính tổng trọng số của 𝑓 𝑏 𝑖 bằng 𝛼 𝑡,𝑖 để có được các attentive global visual features g 𝑏 𝑎 ∈ ℝ 𝐷 of 𝐼 𝑏 : g 𝑏 𝑎 = ∑ 𝛼 𝑡,𝑖 𝑓 𝑏 𝑖 (6)
Tương tự, chúng ta có thể tính toán các trọng số chú ý từ dưới lên trên và có được các attentive global visual features g 𝑡 𝑎 của 𝐼 𝑡 : g 𝑏 = 1
Sau đó, chúng tôi chiếu 𝑔 𝑡 𝑎 𝑣à 𝑔 𝑏 𝑎 vào các vectơ đặc trưng trực quan 𝑣 𝑡 𝑓 và 𝑣 𝑏 𝑓 ∈
ReLU, hay Rectified Linear Unit, là một hàm kích hoạt giúp loại bỏ các tham số không quan trọng trong quá trình huấn luyện, từ đó làm cho mạng trở nên nhẹ hơn Việc này không chỉ giúp tăng tốc độ huấn luyện mà còn nâng cao hiệu quả của mô hình Hàm ReLU thực hiện một chức năng rất đơn giản nhưng mang lại nhiều lợi ích cho quá trình học máy.
29 như sau: giữ nguyên những giá trị đầu vào lớn hơn 0, nếu giá trị đầu vào nhỏ hơn 0 thì coi là 0
Cuối cùng, dựa trên những hiểu biết từ các phương pháp dựa trên yếu tố ma trận, chúng tôi đã nghiên cứu các yếu tố tiềm ẩn top T ∈ ℝ 𝑁 𝑇 ×𝑚 𝑣 và bottom B ∈ ℝ 𝑁 𝑏 ×𝑚 𝑣 Qua đó, chúng tôi kết hợp thông tin lọc cộng tác để bổ sung cho các tính năng trực quan Cụ thể, với mỗi đỉnh t và mỗi đáy b, chúng tôi xác định các yếu tố tiềm ẩn 𝑣 𝑡 𝑇 và 𝑣 𝑏 𝐵.
𝑣 𝑡 𝑇 = 𝑇(𝑡, : ), 𝑣 𝑏 𝐵 = 𝐵(𝑏, : ), (9) trong đó 𝑣 𝑡 𝑇 và 𝑣 𝑏 𝐵 ∈ ℝ 𝑚 𝑣 Và chúng tôi kết hợp các vectơ đặc trưng hình ảnh và các yếu tố tiềm ẩn để có được các biểu diễn tiềm ẩn 𝑣 𝑡 và 𝑣 𝑏
Matching Decoder
Chúng tôi áp dụng mạng thần kinh nhiều lớp để tính xác suất khớp giữa các đại diện tiềm ẩn 𝑣 𝑡 và 𝑣 𝑏 Đầu tiên, chúng tôi ánh xạ 𝑣 𝑡 và 𝑣 𝑏 vào một không gian chung, như được trình bày trong Hình 4.1(b).
Trong nghiên cứu này, chúng tôi sử dụng công thức ℎ 𝑟 = 𝑅𝑒𝐿𝑈(𝑊 𝑠 𝑣 𝑡 + 𝑈 𝑠 𝑣 𝑏 ) để tính toán đặc trưng ℎ 𝑟 ∈ ℝ 𝑛, với các ma trận ánh xạ 𝑊 𝑠 và 𝑈 𝑠 ∈ ℝ 𝑛×𝑚 cho 𝑣 𝑡 và 𝑣 𝑏 Tiếp theo, chúng tôi ước tính xác suất khớp p(𝑟 𝑡𝑏 ) = softmax(𝑊 𝑟 ℎ 𝑟 ), trong đó 𝑊 𝑟 ∈ ℝ 2×𝑛 và p(𝑟 𝑡𝑏 ) ∈ ℝ 2 cung cấp phân phối xác suất cho hai trường hợp: 𝑟 𝑡𝑏 = 1 (khớp) và 𝑟 𝑡𝑏 = 0 (không khớp) Cuối cùng, chúng tôi có thể đề xuất đỉnh hoặc đáy dựa trên giá trị p(𝑟 𝑡𝑏 ).
Hàm mất mát
Sử dụng negative log-likelihood (NIL) cho cả tác vụ khớp Đối với tác vụ khớp, chúng tôi xác định hàm mất mát như sau:
𝐿 𝑚𝑎𝑡 = ∑ {𝑟 𝑡𝑏 |(𝑡,𝑏)∈𝜌 + ∪𝜌 − } −𝑙𝑜𝑔𝑝(𝑟 𝑡𝑏 ), (13) trong 𝜌 + = {(𝑡 𝑖 1 , 𝑏 𝑗 1 ), (𝑡 𝑖 2 , 𝑏 𝑗 2 ), … , (𝑡 𝑖 𝑁 , 𝑏 𝑗 𝑁 ), 𝑡 𝑖 ∈ 𝜏, 𝑏 𝑖 ∈ 𝛽} là tập hợp các kết hợp dương, là các cặp top bottom được trích xuất từ các kết hợp trang phục trên Polyvore
Tập hợp các kết hợp âm, ký hiệu là 𝜌 −, được định nghĩa bởi các cặp (𝑡, 𝑏) với 𝑡 thuộc 𝜏 và 𝑏 thuộc 𝛽, trong đó các cặp này không nằm trong tập hợp các kết hợp dương 𝜌 + Đối với các kết hợp dương, xác suất p (𝑟 𝑡𝑏 = 1) cho biết cặp đã cho khớp, trong khi đối với các cặp âm, xác suất p (𝑟 𝑡𝑏 = 0) cho thấy cặp đã cho không khớp.
CÀI ĐẶT THỬ NGHIỆM
Ứng dụng vào việc phân vùng đối tượng trong ảnh thời trang
Báo cáo này trình bày mô hình CNN trong việc trích xuất đặc điểm hình ảnh của trang phục, sau đó chuyển đổi thành biểu diễn tiềm ẩn 𝑣 𝑡 và 𝑣 𝑏 Mô hình sử dụng Matching Decoder để dự đoán chỉ số phù hợp 𝑟 𝑡𝑏 Đầu vào là một ảnh thời trang, và đầu ra là bức ảnh đó với đối tượng được bao quanh bởi một đa giác.
Tập dữ liệu
FashionVC: hơn 25,000 hình ảnh về trang phục được thu thập trên Polyvore:
Môi trường
Thực nghiệm trên Google Colaboratory:
- Notebook-based với backend Python 3
Chip xử lý: Intel(R) Xeon(R) CPU @ 2.30GHz
Kết quả
Với tập train 400 tấm hình:
Input (Top) Output (Bottom) Score:
Bảng 5.1: Kết quả khi train với tập gồm 400 hình ảnh thời trang
Với tập train 5000 tấm hình:
Input (Top) Output (Bottom) Score:
Bảng 5.2: Kết quả khi train với tập gồm 5000 hình ảnh thời trang
Với tập train 10000 tấm hình:
Input (Top) Output (Bottom) Score:
Bảng 5.3: Kết quả khi train với tập gồm 10000 hình ảnh thời trang
Với tập train 18000 tấm hình:
Bảng 5.4: Kết quả khi train với tập gồm 18000 hình ảnh thời trang
Với tập train 25000 tấm hình
Input (Top) Output (Bottom) Score:
Bảng 5.5: Kết quả khi train với tập gồm 25000 hình ảnh thời trang