Cơ sở lý thuyết
Phát biểu bài toán
Luận văn sẽ mô hình hóa bài toán cơ bản, trong đó phát biểu nội dung bài toán như sau: “Đối với một đầu vào văn bản là tên sản phẩm, xây dựng một hệ thống cho phép tự động tạo ra mô tả tương ứng, giả định rằng tiêu đề sản phẩm và mô tả của chúng được định nghĩa rõ ràng.”
Mục tiêu của bước này là phân tích xác suất có điều kiện giữa kết quả đầu ra và chuỗi đầu vào, tập trung vào các xác suất có điều kiện của các token trong chuỗi so với các token được tạo ra trước đó trong cùng chuỗi đầu vào.
Đầu vào văn bản trong phát biểu trên chưa cung cấp đủ thông tin về sản phẩm, điều này là cần thiết để người tiêu dùng có thể đưa ra quyết định mua hàng Người tiêu dùng cần biết nhiều hơn chỉ tiêu đề của sản phẩm; do đó, cần bổ sung thông tin quan trọng như cấu trúc danh mục, thương hiệu và các thuộc tính chi tiết Tóm tắt ngắn gọn những dữ liệu này sẽ được trình bày trong Bảng 2.1.
Bảng 2.1 Các thông tin đầu vào cần thiết trong quá trình sinh mô tả
Category structure Cấu trúc danh mục sản phẩm title Tiêu đề của sản phẩm
8 brand Nhãn hiệu của sản phẩm attribute Thuộc tính của sản phẩm
Bảng 2.1 cung cấp các thông tin đầu vào quan trọng cho quá trình sinh mô tả sản phẩm Những thông tin này được lựa chọn nhằm hỗ trợ người tiêu dùng trong việc phân loại sản phẩm và thương hiệu, từ đó xác định độ tin cậy và nguồn gốc xuất xứ Cuối cùng, các thuộc tính này sẽ mang đến cái nhìn sâu sắc về đặc trưng của sản phẩm.
Hình 2.1 Ví dụ các dữ liệu của sản phẩm trên trang Amazon
Trên trang thương mại điện tử Amazon, một sản phẩm tai nghe có thể bao gồm các dữ liệu quan trọng như tiêu đề, cấu trúc thư mục, thuộc tính và mô tả chi tiết về sản phẩm.
Transformer
Transformer là một mô hình ngôn ngữ được Google phát triển và công bố vào năm
Bài báo "Attention is All You Need" được công bố vào năm 2017 giới thiệu một mô hình kiến trúc gồm hai thành phần chính: Bộ mã hóa và Bộ giải mã Bộ mã hóa có nhiệm vụ chuyển đổi chuỗi token đầu vào thành một chuỗi liên tục tương ứng, trong khi Bộ giải mã sử dụng chuỗi này để tạo ra chuỗi đầu ra Dưới đây là sơ đồ tổng thể của kiến trúc mô hình này.
Hình 2.2 Sơ đồ kiến trúc tổng thể của Transformer
Trong quy trình chuyển đổi ngôn ngữ, câu "Tôi là sinh viên" được bộ mã hóa xử lý và biến đổi thành đầu vào cho bộ giải mã, cuối cùng cho ra kết quả "I'm a student" Để làm rõ hơn về quy trình và hiệu quả của kiến trúc này, luận văn sẽ trình bày chi tiết về các thành phần cấu tạo, kỹ thuật và lý thuyết liên quan đến mô hình trong các phần nội dung tiếp theo.
Trước khi các từ trong văn bản được xử lý bởi mô hình, chúng cần trải qua quá trình mã hóa để chuyển đổi thành hình thức biểu diễn thông tin mà chương trình có thể hiểu, gọi là các từ nhúng (word embedding) Các vectơ từ nhúng này được kết hợp thành một ma trận hai chiều và tiếp tục được xử lý bởi các tiến trình của mô hình Mặc dù quá trình này phổ biến trong các mô hình tuần tự, nhưng trong Transformer, một vấn đề phát sinh là mô hình không nhận biết được vị trí của các từ do cơ chế xử lý song song Để khắc phục vấn đề này, các tác giả đã giới thiệu cơ chế mã hóa vị trí (position encoding), nhằm mã hóa vị trí của các từ bằng vectơ có kích thước tương ứng với word embedding, và cộng trực tiếp vào vectơ embedding.
Trong công thức (2), t đại diện cho vị trí của từ trong văn bản, trong khi i là vị trí của chiều trong không gian embedding Các tác giả đã sử dụng hàm sin để tính giá trị cho các chiều chẵn và hàm cos cho các chiều lẻ.
Bộ mã hóa là một trong hai thành phần quan trọng của mô hình Transformer, có nhiệm vụ chuyển đổi đầu vào thành một biểu diễn mới giàu thông tin gọi là "vectơ ngữ cảnh" Kiến trúc của bộ mã hóa được xây dựng bằng cách xếp chồng các lớp mã hóa, thường là 6 lớp, tạo thành một mạng truyền thẳng (Feedforward Neural Networks) Điều này cho phép các lớp xử lý đồng thời các từ, khác với cách xử lý tuần tự của các mô hình như LSTM.
Hình 2.3 Kiến trúc lớp của bộ mã hóa và bộ giải mã trong Transformer
Khối bộ mã hóa bao gồm nhiều lớp xếp chồng lên nhau, có chức năng xử lý dữ liệu đầu vào và cung cấp thông tin cần thiết cho các lớp trong khối Decoder.
Mỗi bộ mã hóa bao gồm hai thành phần chính: tầng tập trung đa đầu và mạng truyền thẳng, cùng với các yếu tố bổ sung như bỏ kết nối và lớp chuẩn hóa Sơ đồ kiến trúc chi tiết của một lớp mã hóa sẽ được trình bày dưới đây.
Hình 2.4 Kiến trúc chi tiết một lớp của bộ mã hóa trong Transformer
Sau khi nhận đầu vào là ma trận từ đã được mã hóa vị trí (Positional Encoding), mô đun chú ý đa đầu sẽ xử lý dữ liệu đầu tiên Mô đun này là một phần quan trọng trong cơ chế chú ý, bao gồm nhiều lớp tự chú ý (self-attention) giúp xử lý nhiều mẫu khác nhau trong dữ liệu.
Tự chú ý (Self Attention) là cơ chế giúp mô hình phân tích và xác định thông tin liên quan đến một từ trong ngữ cảnh của văn bản, thường là từ các từ khác xung quanh Cơ chế này cho phép mô hình tập trung vào những phần quan trọng trong câu, từ đó cải thiện khả năng hiểu ngữ nghĩa và mối quan hệ giữa các từ.
Kỹ thuật mã hóa từ trong mô hình Transformer tập trung vào việc xác định mối quan hệ giữa các từ trong câu để cải thiện hiệu suất học của mô hình Chẳng hạn, trong câu “Tôi đã mua một quyển sách vào chiều thứ bảy và nó có giá 100 nghìn đồng”, từ “nó” được mã hóa bằng cách chú ý đến từ “quyển sách”, giúp mô hình hiểu rõ hơn về ngữ cảnh Việc này không chỉ giúp cải thiện khả năng học phụ thuộc xa mà còn giảm thiểu độ phức tạp trong mỗi lớp, đồng thời tối ưu hóa khối lượng tính toán, từ đó tăng tốc độ xử lý Mô hình Transformer sử dụng ba ma trận chính là Query, Keys và Values (Q, K, V) để tính toán giá trị attention cho từng từ Trong đó, Query chứa thông tin từ cần tìm kiếm, Keys biểu diễn thông tin các từ so sánh, và Values thể hiện nội dung và ý nghĩa của các từ.
K được sử dụng để xác định giá trị attention của các từ trong câu liên quan đến một từ cụ thể Những giá trị này sau đó được áp dụng để tính toán các vectơ attention thông qua việc trung bình hóa có trọng số với ma trận V Phương trình tính toán Attention được mô tả một cách chi tiết.
● là số chiều của vectơ Key Việc chia cho là nhằm mục đích tránh tràn luồng nếu số mũ trở nên quá lớn
2.2.2.3 Tầng chú ý đa đầu Áp dụng kỹ thuật tự chú ý, Transformer có thể học được những mối quan hệ giữa các từ với nhau trong một văn bản Tuy nhiên, trong thực tế những mối quan hệ này cũng rất đa dạng và phong phú, không thể chỉ gói gọn trong một hình thức thể hiện nhất định Do đó, để mở rộng cũng như cải thiện hiệu suất của mô hình, các tác giả đã đề xuất sử dụng nhiều lớp tự chú ý nhằm mục đích nắm bắt nhiều nhất có thể những mối quan hệ trong văn bản Và để phân biệt các lớp tự chú ý với nhau, các ma
14 trận trọng số Query, Key, Value sẽ có thêm một chiều “depth” chứa định danh của lớp
Hình 2.5 Mô tả kiến trúc Multi-Head Attention
Mô-đun chú ý đa đầu (Multi-Head Attention) bao gồm nhiều lớp Attention, xử lý dữ liệu đầu vào là Embedding đã được mã hóa vị trí, từ đó tạo ra các kết quả đầu ra tương ứng.
2.2.2.4 Kết nối phần dư và Lớp chuẩn hóa
Trong mỗi lớp encoder, các kết nối phần dư và lớp chuẩn hóa giúp mô hình hội tụ nhanh hơn và ngăn ngừa mất mát thông tin trong quá trình huấn luyện, như được minh họa chi tiết trong Hình 3.3.
Bộ giải mã có kiến trúc xếp chồng với 6 lớp, tương tự như bộ mã hóa, tạo thành mạng truyền thẳng Mỗi lớp nhận thông tin đầu vào từ bộ mã hóa để giải mã vectơ của câu nguồn thành đầu ra tương ứng Kiến trúc của các lớp này giống với bộ mã hóa, nhưng có thêm một lớp chú ý đa đầu ở giữa, giúp học mối quan hệ giữa các từ đang dịch và các từ trong văn bản gốc Dưới đây là mô tả chi tiết về kiến trúc của từng lớp giải mã.
Hình 2.6 Kiến trúc của một lớp trong khối giải mã
GPT-2
GPT-2, hay Generative Pre-Trained Transformer 2, là phiên bản nâng cấp của GPT, với sự cải thiện đáng kể về hiệu suất Mô hình này đã tăng số lượng tham số lên gấp 10 lần so với phiên bản trước, cho phép đạt được nhiều kết quả vượt trội hơn trong nhiều tác vụ Hiện tại, GPT-2 được phân loại thành 4 phiên bản dựa trên kích thước.
● GPT-2 Small: Mô hình có 117 triệu tham số
● GPT-2 Medium: Mô hình có 345 triệu tham số
● GPT-2 Large: Mô hình có 762 triệu tham số
● GPT-2 Extra Large: Mô hình có 1.542 tỉ tham số
Kiến trúc của GPT-2 được xây dựng trên mô hình Transformer, nhưng đã loại bỏ bộ mã hóa và tăng cường số lượng lớp trong bộ giải mã Số lớp giải mã của GPT-2 thay đổi theo từng phiên bản, với 12 lớp cho GPT-2 Small và lên đến 48 lớp cho GPT-2 Extra Large Xu hướng thiết kế này cũng được áp dụng trong nhiều mô hình nổi tiếng khác như BERT (chỉ sử dụng bộ mã hóa) và Transformer XL (chỉ sử dụng bộ giải mã) Dưới đây là thống kê ngắn gọn về số lượng lớp trong các phiên bản của GPT-2.
Hình 2.8 Thống kê số lớp của từng phiên bản GPT-2
Mô hình GPT-2 Small có 12 lớp giải mã, tương đương với phiên bản GPT trước Các phiên bản khác của GPT-2 có số lớp tăng dần: GPT-2 Medium với 24 lớp, GPT-2 Large với 36 lớp và GPT-2 Extra Large với 48 lớp.
Các lớp giải mã của GPT-2 được thiết kế tương tự như các lớp trong Transformer, nhưng loại bỏ lớp tự chú ý thứ hai Hơn nữa, lớp chuẩn hóa cũng được áp dụng để cải thiện hiệu suất của mô hình.
Trong nghiên cứu, 19 được đưa vào đầu vào của mỗi lớp, tương tự như đề xuất của He và các cộng sự Ngoài ra, một lớp chuẩn hóa bổ sung cũng được thêm vào sau khối tự chú ý cuối cùng.
Hình 2.9 Mô tả kiến trúc của GPT-2
Mô hình GPT-2 được huấn luyện để dự đoán từ tiếp theo dựa trên các từ đã biết trước đó Đầu vào yêu cầu một token đặc biệt để đánh dấu vị trí bắt đầu của chuỗi Sau mỗi lần sinh ra một token mới, nó sẽ được thêm vào chuỗi đầu vào, và chuỗi mới này sẽ trở thành đầu vào cho mô hình trong bước lặp tiếp theo Quá trình này diễn ra liên tục cho đến khi một token được sinh ra, đánh dấu sự kết thúc của chuỗi văn bản.
Trước khi được xử lý bởi mô hình, mỗi từ sẽ được mã hóa thành hai dạng chính: vectơ nhúng và vectơ mã hóa vị trí Hai vectơ này sau đó sẽ được kết hợp với nhau để tạo thành đại diện cho từ trong không gian ngữ nghĩa.
20 vào thành đầu vào của mô hình Dưới đây là một minh họa ngắn gọn của quá trình này
Hình 2.10 Cơ chế mã hóa đầu vào của GPT-2
Khối giải mã đầu tiên sẽ tiếp nhận các token và xử lý chúng thông qua quá trình tự chú ý, sau đó chuyển tiếp vào lớp mạng nơ-ron Sau khi hoàn tất xử lý, vectơ kết quả sẽ được chuyển đến khối xử lý tiếp theo để tiếp tục quá trình.
21 các khối là độc lập và mỗi khối sẽ duy trì các trọng số ở lớp tự chú ý và mạng nơ- ron của chúng một cách độc lập
GPT-2 được huấn luyện trên một nguồn dữ liệu khổng lồ gọi là WebText, với 40GB dữ liệu thu thập từ các trang web liên kết với bài đăng trên Reddit có ít nhất ba phiếu tán thành trước tháng 12 năm 2017 Các tác giả đánh giá dữ liệu này có chất lượng tốt hơn so với Common Crawl, một tập dữ liệu thường được sử dụng trong huấn luyện mô hình xử lý ngôn ngữ.
GPT-2, với những ưu điểm của Transformer và được huấn luyện trên một tập dữ liệu phong phú, đã thể hiện khả năng vượt trội trong nhiều tác vụ như trả lời câu hỏi, tóm tắt văn bản và dịch máy Các tác giả đã chứng minh hiệu suất ấn tượng của mô hình trên các tập dữ liệu nổi bật như WMT-14-Fr-En cho dịch máy, CoQA cho đọc hiểu văn bản, và CNN cùng Daily Mail cho tóm tắt văn bản Kết quả này cho thấy tiềm năng đáng kinh ngạc của GPT-2, mặc dù nó chỉ được thiết kế cho bài toán dự đoán từ tiếp theo trong chuỗi.
BART
BART là một bộ mã hóa tự động khử nhiễu, có chức năng ánh xạ văn bản bị biến đổi về trạng thái gốc Được xây dựng trên kiến trúc seq2seq, BART sử dụng bộ mã hóa hai chiều để xử lý văn bản biến đổi và bộ giải mã tự động theo chiều từ trái sang phải nhằm dự đoán nội dung gốc Mô hình BART mang lại hiệu quả cao trong việc phục hồi thông tin từ văn bản bị thay đổi.
11 https://commoncrawl.org/connect/blog/
Hình 2.11 Sơ lược kiến trúc mô hình BART
Trong BART, đầu vào được xử lý bởi bộ mã hóa mà không cần căn chỉnh với đầu ra của bộ giải mã, cho phép thực hiện các biến đổi nhiễu tùy ý và thay đổi độ dài dữ liệu Phương pháp này cải thiện khả năng xử lý nhiễu của mô hình Hình 2.11 minh họa quá trình, trong đó văn bản được tiền xử lý bằng cách che dấu một số phần bằng ký hiệu đặc biệt, sau đó được mã hóa bởi mô hình 2 chiều (Bidirectional Encoder), và cuối cùng, văn bản khôi phục sẽ được tính toán thông qua bộ giải mã hồi quy tự động.
Kiến trúc BART được xây dựng dựa trên Transformer, tương tự như các mô hình nổi tiếng như GPT và GPT-2, nhưng sử dụng hàm kích hoạt GeLUs thay vì ReLU và khởi tạo tham số theo cơ chế khác BART có hai phiên bản chính: phiên bản cơ sở với 6 lớp trong mỗi khối mã hóa và giải mã, và phiên bản lớn hơn với 12 lớp mỗi khối So với BERT, BART có một số điểm khác biệt, bao gồm việc mỗi lớp trong khối giải mã thực hiện cơ chế chú ý chéo (cross-attention) trên lớp ẩn cuối cùng của khối mã hóa và không sử dụng mạng truyền thẳng trước khi dự đoán các từ.
2.4.2 Tiền huấn luyện Được huấn luyện với mục tiêu khôi phục lại văn bản, BART cho phép xử lý bất kỳ dạng mất mát thông tin nào của văn bản Trong trường hợp đặc biệt khi toàn bộ thông tin bị lược bỏ, có thể coi BART tương đương với một mô hình ngôn ngữ Một số phương thức biến đổi văn bản mà BART áp dụng trong quá trình huấn luyện bao gồm:
Mặt nạ: Thay đổi một số token trong văn bản bằng token [MASK] một cách ngẫu nhiên
Xóa Token: Xóa ngẫu nhiên một số token trong văn bản gốc
Trong bài viết này, một số đoạn văn bản đã được thay thế bằng token [MASK] Độ dài của các đoạn văn bản được lấy mẫu theo phân phối Poisson với λ=3 Đặc biệt, các đoạn văn bản có độ dài bằng 0 sẽ được biểu thị bằng việc thêm token [MASK].
Hoán vị câu: Văn bản sẽ được tách thành tập hợp các câu và những câu này sẽ được hoán vị theo một thứ tự mới
Để giúp mô hình nhận diện điểm bắt đầu của văn bản, một token sẽ được chọn ngẫu nhiên, từ đó văn bản gốc sẽ lấy token này làm điểm khởi đầu cho văn bản mới.
Khi so sánh với các mô hình nổi tiếng như BERT và RoBERTa, BART thể hiện hiệu suất vượt trội trên nhiều bài toán và tập dữ liệu khác nhau, bao gồm tóm tắt văn bản và sinh hội thoại Dưới đây là bảng tóm tắt hiệu suất của BART so với các mô hình phổ biến khác.
Hình 2.12 Bảng so sánh hiệu suất của BART với các mô hình ngôn ngữ nổi tiếng
BART đạt hiệu quả tương đương với RoBERTa và XLNet trong nhiều tác vụ phân loại, cho thấy sức mạnh của các lớp trong bộ giải mã một hướng.
BART không chỉ duy trì hiệu suất ổn định cho các tác vụ mà còn thể hiện khả năng xử lý vượt trội so với BERT và UniLM trong các thử nghiệm.
Là một mô hình mạnh mẽ, BART có thể được áp dụng trong rất nhiều nhiệm vụ, bài toán khác nhau, ví dụ như:
Trong nhiệm vụ phân loại chuỗi, đầu vào sẽ được xử lý qua cả bộ mã hóa và bộ giải mã Cuối cùng, trạng thái ẩn của token cuối cùng từ bộ giải mã sẽ được sử dụng để đưa vào một bộ phân loại tuyến tính đa lớp mới, nhằm thực hiện phân loại kết quả.
Trong quá trình phân loại token, các tài liệu văn bản được mã hóa và giải mã hoàn toàn Trạng thái ẩn cuối cùng của bộ giải mã sẽ được sử dụng làm vectơ đại diện cho từng từ, và vectơ này sẽ tiếp tục được áp dụng trong việc phân loại token.
BART có khả năng sinh chuỗi nhờ vào bộ giải mã tự động, cho phép tinh chỉnh trực tiếp cho các nhiệm vụ như trả lời và tóm tắt câu hỏi trừu tượng Trong các nhiệm vụ này, thông tin từ đầu vào được sao chép và thao tác lại, liên quan chặt chẽ đến mục tiêu huấn luyện khử nhiễu Cụ thể, đầu vào của bộ mã hóa là chuỗi đầu vào, trong khi bộ giải mã tạo ra đầu ra tự động.
BART có khả năng nâng cao hiệu suất của bộ giải mã trong dịch máy, đặc biệt trong việc dịch văn bản sang tiếng Anh Mô hình BART, bao gồm cả bộ mã hóa và bộ giải mã, có thể được áp dụng như một bộ giải mã được huấn luyện trước cho nhiệm vụ dịch máy bằng cách tích hợp một tập tham số mã hóa mới được học từ bitext.
RoBERTa
Năm 2019, Liu và các cộng sự đã giới thiệu RoBERTa, một mô hình ngôn ngữ được phát triển dựa trên BERT của Google, với tối ưu hóa cho bài toán che giấu ngôn ngữ chủ động RoBERTa giữ nguyên kiến trúc của BERT nhưng điều chỉnh một số siêu tham số quan trọng, loại bỏ nhiệm vụ dự đoán câu tiếp theo, và áp dụng cơ chế sinh mặt nạ mới cùng với các thông số mini-batch và learning-rate lớn hơn.
Trong bài viết này, chúng tôi sẽ phân tích chi tiết những lợi ích của việc chuyển đổi từ phương pháp sinh mặt nạ tĩnh sang sinh mặt nạ động trong quá trình tiền huấn luyện Thay vì chỉ thay thế token bằng token MASK một lần, kỹ thuật mặt nạ động cho phép tạo mẫu mặt nạ bất kỳ lúc nào trong quá trình huấn luyện, giúp đa dạng hóa đầu vào mà không cần nhân bản dữ liệu lên gấp 10 lần Nghiên cứu cho thấy phương pháp này không chỉ duy trì hiệu suất của mô hình mà còn nâng cao hiệu quả thời gian chạy, đặc biệt khi huấn luyện trên tập dữ liệu lớn.
Bài báo chỉ ra rằng việc loại bỏ tác vụ dự đoán câu tiếp theo (Next Sentence Prediction - NSP) và chuyển sang định dạng đầu vào huấn luyện Full-Sentences đã mang lại cải thiện đáng kể cho hiệu suất của mô hình BERT Full-sentences là định dạng đầu vào trong đó các câu đầy đủ được lấy mẫu liền nhau từ một hoặc nhiều tài liệu, với tổng độ dài tối đa là 512 token, và có mã phân tách giữa các tài liệu Trong khi đó, tác vụ NSP có mục đích dự đoán xem hai câu có phải là liên tiếp trong cùng một văn bản hay không, nhằm cải thiện hiệu suất cho các nhiệm vụ như Suy luận ngôn ngữ (Natural Language Inference) Tuy nhiên, các thí nghiệm trong bài báo cho thấy việc loại bỏ NSP không chỉ không ảnh hưởng đến mô hình mà còn giúp nâng cao kết quả.
Hình 2.13 Các thí nghiệm chứng minh tính hiệu quả khi loại bỏ nhiệm vụ NSP và sử dụng định dạng đầu vào Full-sentences [23]
Khi đánh giá trên các tập dữ liệu phổ biến như SQuAD 1.1 / 2.0, MNLI-m, SST-2, và RACE với các cách triển khai mô hình khác nhau, không sử dụng NSP và chuyển đổi định dạng đầu vào thành Full-sentences cho kết quả tốt nhất Các tác giả chọn Full-sentences thay vì Doc-sentences do Doc-sentences có thể làm thay đổi kích thước lô.
RoBERTa đã thực hiện một số thay đổi quan trọng, bao gồm việc điều chỉnh các tham số mini-batches và learning-rate, cũng như thay đổi bộ từ vựng BPE Các tác giả nhận thấy rằng việc sử dụng mini-batch lớn và learning-rate phù hợp có thể tăng tốc quá trình huấn luyện và cải thiện hiệu suất cho một số nhiệm vụ cụ thể Kích cỡ lô được khuyến nghị là 8000 và learning-rate là , trong khi BERT có kích thước mặc định là 256 Hơn nữa, bộ từ vựng BPE cấp độ ký tự với kích cỡ 30K được đề xuất thay thế cho bộ từ vựng BPE cấp độ bytes kích cỡ 50K của BERT, nhằm mã hóa dữ liệu đầu vào mà không cần sử dụng token “unknown” Mặc dù thay đổi này có thể dẫn đến kết quả kém hơn trong một số tác vụ, nhưng nó vẫn mang lại nhiều lợi ích cho mô hình.
27 các tác giả cũng nhấn mạnh rằng ưu điểm khi sử dụng cơ chế mã hóa này là không thể chối cãi
RoBERTa đã chứng minh hiệu quả vượt trội trong việc dự đoán từ ngữ bị che giấu, nhờ vào các cải tiến đáng kể so với mô hình gốc, và đạt kết quả tốt hơn trên các nhiệm vụ cụ thể (downstream task).
Độ đa dạng từ vựng
Độ đa dạng từ vựng (Lexical Diversity) là chỉ số đánh giá số lượng từ vựng khác nhau trong một văn bản, bao gồm danh từ, tính từ, động từ và trạng từ Chỉ số này phản ánh mức độ phức tạp của văn bản và có ứng dụng rộng rãi trong các lĩnh vực như ngôn ngữ học, thống kê và tâm lý học.
Lexical Diversity có thể được đo bằng nhiều phương pháp, phổ biến nhất là tỷ số giữa số từ duy nhất (type) và tổng số từ (token) trong một văn bản, được gọi là tỷ lệ type-token (TTR) Phương pháp này hữu ích khi so sánh các văn bản có kích thước tương đương, nhưng không phù hợp với các trường hợp tổng quát hơn Khi độ dài văn bản tăng lên, các văn bản ngắn có thể có TTR cao hơn, điều này dẫn đến kết quả không hợp lý Để khắc phục hạn chế này, các phương pháp khác như MTLD và VoC đã được đề xuất.
Các phương pháp như VoC-D và MTLD giúp giảm thiểu ảnh hưởng của chiều dài văn bản trong việc tính toán độ đa dạng ngôn ngữ VoC-D thực hiện bằng cách lấy ngẫu nhiên từ 35 đến 50 từ từ dữ liệu, tính toán chỉ số TTR trung bình cho mỗi độ dài và tìm đường cong phù hợp nhất Giá trị tham số tương ứng với đường cong này được coi là kết quả đo độ đa dạng Trong khi đó, MTLD, hay Measure of Textual Lexical Diversity, sử dụng phân tích tuần tự để ước tính điểm LD bằng cách tính toán độ dài trung bình của các đoạn có chỉ số TTR nhất định, thực hiện phép tính từ trái sang phải và ngược lại, sau đó tổng hợp và tính trung bình kết quả Hiện nay, TTR, VoC và MTLD đang là những chỉ số phổ biến trong nghiên cứu độ đa dạng ngôn ngữ.
Việc sử dụng 28 phương pháp phổ biến trong các bài toán xác định tính đa dạng của văn bản giúp chúng ta có cái nhìn tổng quát hơn về nội dung Khi kết hợp chúng, chúng ta có thể tránh được những kết luận sai lầm và hiểu rõ hơn về văn bản.
Giải pháp
Sinh mô tả sản phẩm với GPT-2
Bài toán sinh mô tả sản phẩm có thể được hiểu là việc tạo ra văn bản mô tả dựa trên các thông tin đầu vào như tiêu đề, nhãn hiệu, danh mục và thuộc tính sản phẩm.
Luận văn này sẽ tập trung vào việc phát triển giải pháp sử dụng GPT-2 để tạo ra các mô tả có ý nghĩa dựa trên tiêu đề Để tinh chỉnh mô hình GPT-2, dữ liệu đầu vào sẽ được điều kiện hóa theo một định dạng cụ thể nhằm đáp ứng yêu cầu nhiệm vụ.
Trong bài viết, và là hai token đặc biệt, được đề cập trong phần 3.3, tượng trưng cho điểm bắt đầu và kết thúc của một văn bản Sau khi nhận được đầu vào, các token này đóng vai trò quan trọng trong việc xác định cấu trúc của nội dung.
, nhiệm vụ của mô hình GPT-2 sẽ là lấy mẫu với các tham số Top-
K và Top-p là hai phương pháp sampling giúp tạo ra văn bản mạch lạc và giảm thiểu hiện tượng thoái hóa văn bản Bên cạnh việc sử dụng tiêu đề, các phương pháp này còn tích hợp thêm thông tin như cấu trúc danh mục, thương hiệu và các thuộc tính sản phẩm, như đã trình bày trong phần 3.1 Do đó, định dạng dữ liệu huấn luyện sẽ được điều chỉnh để phù hợp hơn.
Một nhược điểm của cách tiếp cận này là mô tả sinh ra thường dài và khó tổng quát thông tin đầu vào Việc tạo ra văn bản dài vẫn gặp nhiều khó khăn, dẫn đến nội dung không mạch lạc hoặc bị lặp lại Do đó, phương pháp này chia tác vụ tạo mô tả sản phẩm thành hai nhiệm vụ nhỏ hơn: sinh mô tả tổng quan và mô tả cho các thuộc tính riêng biệt Cuối cùng, các mô tả này được kết hợp để tạo ra kết quả cuối cùng Dữ liệu huấn luyện cho mô tả tổng quan sẽ có cấu trúc rõ ràng hơn.
(7) Với mô tả thuộc tính, dữ liệu huấn luyện có cấu trúc:
Hình 3.1 Định dạng dữ liệu huấn luyện trong phương pháp đề xuất
Phương pháp mới trong huấn luyện mô hình mang lại nhiều lợi ích đáng kể Đầu tiên, tốc độ suy diễn được cải thiện rõ rệt nhờ khả năng tạo ra các mô tả tổng quan và thuộc tính sản phẩm một cách song song Hơn nữa, có thể tổ chức nhiều mô hình chạy đồng thời để tối ưu hóa hiệu suất ứng dụng Cuối cùng, kết quả tổng hợp sẽ chứa đựng những thông tin quan trọng từ dữ liệu đầu vào, bao gồm thương hiệu và các thuộc tính của sản phẩm.
Tạo ra các mô tả với số lượng thuộc tính linh hoạt giúp cải thiện chất lượng kết quả tổng thể mà không bị ảnh hưởng bởi vấn đề phụ thuộc xa Điều này đảm bảo rằng mô tả sẽ chính xác và mạch lạc hơn.
Mặc dù tác vụ này được cải thiện nhờ tri thức từ mô hình GPT-2, chất lượng vẫn không đạt yêu cầu do thiếu dữ liệu và sự khác biệt giữa miền dữ liệu đào tạo của GPT-2 và miền dữ liệu của bài toán sinh mô tả Chương này sẽ trình bày một số phương pháp nhằm giải quyết hai vấn đề này.
Tăng cường dữ liệu
Để nâng cao dữ liệu cho quá trình huấn luyện, luận văn đã áp dụng các kỹ thuật như mô hình dịch, thêm từ và thay thế một số từ loại bằng từ đồng nghĩa Chi tiết về những kỹ thuật này sẽ được trình bày dưới đây.
3.2.1 Viết lại văn bản bằng mô hình dịch
Ngôn ngữ chốt, hay còn gọi là "pivot language", là một khái niệm quan trọng trong dịch máy, được sử dụng như một cầu nối trong quá trình dịch thuật Chẳng hạn, khi dịch từ Tiếng Phạn sang Tiếng Tây Ban Nha, nội dung sẽ được chuyển sang một ngôn ngữ trung gian trước, rồi sau đó mới dịch sang tiếng Tây Ban Nha Việc sử dụng ngôn ngữ chốt giúp giảm thiểu sự phức tạp trong việc xây dựng các mô hình dịch cho từng cặp ngôn ngữ, theo ý tưởng của Kay.
Đề xuất lần đầu tiên vào năm 1997 cho thấy rằng việc dịch văn bản từ một ngôn ngữ nguồn sang ngôn ngữ đích có thể dễ dàng hơn nếu có bản dịch chất lượng tốt từ một ngôn ngữ trung gian Các ngôn ngữ thường được sử dụng làm ngôn ngữ trung gian bao gồm Tiếng Anh, Tiếng Pháp, Tiếng Nga và Tiếng Ả Rập.
3.2.1.2 Viết lại nội dung bằng mô hình dịch Áp dụng ý tưởng về ngôn ngữ chốt, Mallinson và các cộng sự [34] đã giới thiệu một phương pháp cho phép viết lại nội dung văn bản bằng cách sử dụng các mô hình dịch Trong phương pháp này, các tác giả đã sử dụng một tập hợp 3 ngôn ngữ chốt
Bài viết này đề cập đến việc sử dụng 32 ngôn ngữ, bao gồm Tiếng Pháp, Tiếng Séc và Tiếng Đức, cùng với 6 mô hình dịch để chuyển đổi các văn bản Tiếng Anh Quá trình này bao gồm việc dịch văn bản Tiếng Anh sang nhiều ngôn ngữ trung gian, từ đó tạo ra các phiên bản dịch khác nhau Các bản dịch này sẽ được phân tích độc lập để tính toán sự phân phối từ vựng, và sau đó được kết hợp theo một công thức nhằm tìm ra từ vựng hợp lý nhất cho kết quả cuối cùng Ví dụ, từ hai bản dịch và vị trí từ trong câu đích, có thể xây dựng hai phân phối và áp dụng công thức kết hợp tương ứng.
Các trọng số đối với mỗi phân phối là các giá trị được tính bởi công thức Do đó, công thức ở trên cũng có thể viết lại như sau:
Luận văn này áp dụng một phương pháp đơn giản hơn bằng cách sử dụng cặp ngôn ngữ Tiếng Pháp và Tiếng Đức, với mô hình BART cho tác vụ dịch và RoBERTa cho việc đánh giá khả năng giữ nguyên ý nghĩa câu Phương pháp đánh giá dựa trên việc xác định câu có ngữ nghĩa tương đồng nhất với câu gốc.
3.2.2 Thay thế từ đồng nghĩa
Một phương pháp hiệu quả để viết lại văn bản là thay thế một số từ loại bằng từ đồng nghĩa Để thực hiện phương pháp này, luận văn sử dụng cơ sở dữ liệu từ vựng PPDB 2.0 với hơn 100 triệu cụm từ, kết hợp với thư viện nlpaug Các tham số của thư viện nlpaug đã được cấu hình phù hợp để tối ưu hóa quá trình viết lại.
● aug_min: Số từ thay thế tối thiểu trong văn bản được thiết lập là 1
● aug_max: Số từ thay thế tối đa trong văn bản được thiết lập là 20
● aug_p: Xác suất thay thế từ đồng nghĩa là 0.3
● tokenizer: thuật toán tách từ được thiết lập là thuật toán của thư viện nltk 14
13 https://github.com/makcedward/nlpaug
● stopwords: Danh sách từ dừng được thiết lập là danh sách mặc định trong corpus của nltk
Các bước của quá trình thay thế từ loại sử dụng cơ sở dữ liệu PPDB 2.0 bao gồm:
1 Tách từ bằng thuật toán của thư viện nltk, ra kết quả danh sách các token của văn bản đầu vào
2 Đánh dấu từ loại của các token trong danh sách, trong bước này cũng sử dụng mô hình gán nhãn từ loại của thư viện nltk
3 Loại các token là từ dừng, dấu câu hoặc các từ không có từ đồng nghĩa trong mạng từ PPDB 2.0 (có nhãn là “DT”)
4 Lấy ngẫu nhiên danh sách các từ cần tìm từ đồng nghĩa
5 Tìm các từ đồng nghĩa bằng PPDB 2.0, đối với mỗi từ có thể có nhiều từ đồng nghĩa tương ứng, do đó chỉ lấy ngẫu nhiên một từ duy nhất
6 Kết hợp văn bản gốc với các từ đồng nghĩa đã được trích xuất
3.2.3 Thêm từ theo ngữ cảnh Đây là một phương pháp sử dụng mô hình ngôn ngữ để thêm những từ vựng phù hợp với ngữ cảnh của cả văn bản Trong luận văn, phương pháp được triển khai bằng thư viện nlpaug kết hợp với mô hình RoBERTa cùng những thiết lập như sau:
● aug_min: Số từ thêm tối thiểu trong văn bản được thiết lập là 1
● aug_max: Số từ thêm tối đa trong văn bản được thiết lập là 20
● aug_p: Xác suất thêm từ là 0.3
● Các tham số còn lại thiết lập theo mặc định
Quá trình thêm từ theo ngữ cảnh cơ bản bao gồm các bước như sau:
1 Tách từ sử dụng công cụ tách từ của RoBERTa, lấy ra các token từ trái qua phải cho đến hết hoặc đến khi đạt đến ngưỡng tối đa (ngưỡng số token tối đa của RoBERTa)
2 Chọn số lượng từ sẽ thêm dựa trên các thông số truyền vào như aug_min, aug_max, aug_p
3 Bỏ qua các token là từ dừng, dấu câu
4 Lấy ngẫu nhiên các token bằng số lượng từ đã được khởi tạo ở bước 2
5 Thêm các Token Mask (Một token đặc biệt đại diện cho một token chưa biết, chưa rõ nội dung) tại các vị trí của các token được lấy ngẫu nhiên
6 Dùng RoBERTa dự đoán nội dung các Token Mask
7 Cập nhật nội dung của văn bản ban đầu bằng các kết quả có được
Task-Adaptive Pretraining
Để nâng cao chất lượng mô tả do mô hình GPT-2 tạo ra, luận văn áp dụng kỹ thuật tiền huấn luyện thích ứng nhiệm vụ (TAPT) nhằm điều chỉnh miền dữ liệu của GPT-2 sang miền dữ liệu mô tả sản phẩm Dữ liệu nhiệm vụ thường chỉ chiếm một phần nhỏ trong tập dữ liệu lớn hơn, vì vậy TAPT sẽ tiếp tục quá trình tiền huấn luyện với tập dữ liệu không gán nhãn liên quan đến nhiệm vụ Quá trình huấn luyện sẽ gồm hai bước: bước đầu tiên là tiếp tục tiền huấn luyện GPT-2 trên kho dữ liệu mô tả sản phẩm chưa gán nhãn, và bước thứ hai là huấn luyện mô hình GPT-2 sau khi áp dụng TAPT cho tác vụ sinh mô tả.
Thực nghiệm và đánh giá kết quả
Dữ liệu
Để thực hiện các thí nghiệm và đánh giá, tôi đã tạo ra một bộ dữ liệu mới từ các trang thương mại điện tử lớn như Walmart.com và Amazon.com Bộ dữ liệu này bao gồm mô tả tổng quan và chi tiết theo từng thuộc tính của sản phẩm, được phân loại thành ba nhóm chính: “Quần áo, Giày dép & Phụ kiện”.
In the categories of "Electronics & Office" and "Home, Furniture & Appliances," each product may possess a variety of diverse attributes To standardize these attributes, I have selected the most distinctive features applicable across all product types, including "brand."
“size”, “material”, “color” và “style” Dưới đây là bảng thống kê số lượng mô tả tổng quan sản phẩm và số lượng mô tả các thuộc tính
Bảng 4.1 Số lượng mô tả tổng quan và mô tả thuộc tính sản phẩm
Phân loại Mô tả tổng quan Mô tả thuộc tính
Dữ liệu mô tả tổng quan sản phẩm dễ dàng thu thập từ các website thương mại điện tử, trong khi dữ liệu mô tả thuộc tính cần được trích xuất qua các phương pháp đặc biệt như trích xuất tự động Bảng 4.1 trình bày số lượng mô tả tổng quan và thuộc tính sản phẩm trong cơ sở dữ liệu của tôi sau khi đã loại bỏ trùng lặp và các mô tả không cần thiết.
Tôi tạo 36 mô tả ngắn dưới 10 từ Mỗi mô tả được viết lại nhiều phiên bản khác nhau Dữ liệu mô tả được chia thành 3 bộ: 80% cho đào tạo, 10% cho kiểm chứng và 10% cho kiểm thử.
Mô hình
Trong thử nghiệm này, các mô hình được xây dựng dựa trên hai kiến trúc chính là Transformer và GPT-2, sử dụng các thư viện OpenNMT-py và HuggingFace Đối với Transformer, thuật toán tối ưu Adam được áp dụng với learning rate là 2.0, loại batch là “token”, kích thước batch huấn luyện là 4096, chiều dài tối đa đầu ra là 300, và beam width là 10, trong khi các tham số khác được thiết lập mặc định Đối với mô hình GPT-2, do hạn chế về tài nguyên tính toán, phiên bản nhỏ với 124 triệu tham số và 12 khối Decoder được sử dụng, với kích thước embedding và hidden state là 768, kích thước batch là 4, chiều dài đầu ra tối đa là 300, top_k là 50 và top_p là 0.9, cùng với các tham số mặc định khác Tóm lại, đây là các mô hình đã được đánh giá trong thử nghiệm.
Mô hình cơ sở được sử dụng là Transformer, trong đó đầu vào được điều kiện hóa bao gồm danh mục, thương hiệu, tiêu đề và các thuộc tính của sản phẩm, với đầu ra là mô tả tương ứng.
● GPT2-base: Mô hình này được huấn luyện bằng việc sử dụng mô hình GPT-
2 trên tập dữ liệu được thu thập trên Internet
GPT-2 Plus là một mô hình tương tự như GPT-2 base, nhưng được cải thiện nhờ vào việc huấn luyện trên một tập dữ liệu phong phú hơn, bao gồm cả dữ liệu gốc và dữ liệu đã được viết lại.
● GPT-2 + TAPT: Mô hình áp dụng phương pháp task-adaptive pretraining để nâng cao chất lượng của mô hình GPT-2 base
● GPT-2 Plus + TAPT: Mô hình này áp dụng cả 2 phương pháp, tăng cường dữ liệu và task-adaptive để cải thiện mô hình GPT-2 base
15 https://github.com/OpenNMT/OpenNMT-py
16 https://github.com/huggingface/transformers
Phương pháp đánh giá
Để đánh giá giải pháp, luận văn áp dụng hai phương pháp chính: đánh giá tự động và đánh giá thông qua con người Chi tiết về hai phương pháp này sẽ được trình bày dưới đây.
4.3.1 Đánh giá tự động Để kiểm tra hướng tiếp cận hoạt động hiệu quả trên bài toán sinh mô tả, đầu tiên, tôi đánh giá các mô hình dựa trên 2 khía cạnh là độ mất mát và độ đa dạng của từ vựng (Lexical Diversity) Trong đó, độ mất mát là một chỉ số phản ánh sự thiếu chính xác trong dự đoán của mô hình trên một ví dụ độc lập Chỉ số này càng cao đồng nghĩa với khả năng mô hình sẽ cho ra những kết quả dự đoán có sự sai lệch so với mục tiêu càng lớn và ngược lại Do đó, mục tiêu trong bước đánh giá này là giảm thiểu độ lớn của chỉ số này đối với tất cả ví dụ Điều này sẽ được thực hiện thông qua việc tinh chỉnh tham số mô hình trong quá trình huấn luyện Ngoài ra, tôi cũng sử dụng thêm chỉ số đánh giá độ phong phú của từ vựng (Lexical Diversity) để đánh giá khả năng tạo ra những văn bản có nội dung đa dạng của mô hình Điều này cũng rất hợp lý khi những văn bản của con người tạo ra thường mang những nội dung phong phú
4.3.2 Đánh giá thông qua con người Để thực hiện phương pháp, tôi lấy mẫu ngẫu nhiên một tập hợp 200 ví dụ từ kết quả chạy của từng mô hình, sau đó cho 30 người Việt Nam có trình độ tiếng anh tối thiểu B2 đánh giá theo các tiêu chí đã đặt ra, kết quả cuối cùng sẽ được lấy trung bình và phân tích Mỗi ví dụ trong tập dữ liệu sẽ bao gồm những thông tin về sản phẩm như ảnh, nhãn phân loại, tiêu đề, nhãn hiệu, các thuộc tính và những mô tả sinh ra từ mô hình Những người tham gia được yêu cầu đánh giá một cách độc lập và trung thực theo các tiêu chí sau:
● Tính lưu loát: Mô tả có độ lưu loát ở mức nào
● Tính liên hệ: Mô tả được tạo ra có liên quan đến sản phẩm ở mức nào
● Tính thông tin: Mô tả có cung cấp những thông tin hữu ích về sản phẩm ở mức độ nào
● Chất lượng tổng thể: Mô tả có thể áp dụng trong điều kiện thực tế ở mức độ nào
Mỗi tiêu chí được đánh giá bằng thang đo Likert 5 mức: Hoàn toàn không đồng ý, Không đồng ý, Đồng ý, Trung lập và Hoàn toàn đồng ý, với điểm số từ 1 đến 5 Điểm số cao hơn cho thấy chất lượng mô tả theo tiêu chí đó tốt hơn.
Ngoài việc sử dụng tập ví dụ kiểm thử quan sát, tôi đã chuẩn bị thêm một tập ví dụ thử nghiệm khác bao gồm 200 ví dụ được lấy từ kết quả chạy của từng mô hình đối với các danh mục sản phẩm không có trong dữ liệu đào tạo, cụ thể là từ các nhãn phân loại “Đồ chơi và Trò chơi” cũng như “Thực phẩm và Hàng gia dụng”.
& Pets”, đây được coi là tập thử nghiệm không quan sát được.
Kết quả và phân tích
Bảng tổng hợp dưới đây so sánh kết quả giữa các mô hình đề xuất dựa trên các tiêu chí đánh giá tự động, bao gồm Baseline (Transformer), GPT-2 base, GPT-2 Plus, GPT-2 + TAPT, và GPT-2 Plus + TAPT Kết quả đánh giá được trình bày trong Bảng 4.2, tập trung vào độ mất mát và độ đa dạng từ vựng của các mô hình.
Mô hình Loss n-gram Lexical Diversity n = 1 n = 2 n = 3 n = 4
Mô hình GPT-2 thể hiện hiệu suất vượt trội so với mô hình cơ sở, được đánh giá qua hai tiêu chí chính là độ mất mát và độ đa dạng của từ vựng.
Một lý do giải thích cho hiện tượng này là kích thước dữ liệu huấn luyện không đủ để huấn luyện mô hình Transformer, thường yêu cầu hàng triệu ví dụ Các mô hình GPT-2 có lợi thế hơn nhờ được huấn luyện trên nhiều tập dữ liệu khác nhau Kết quả thí nghiệm trên các mô hình GPT-2 base và GPT-2 Plus cho thấy việc bổ sung dữ liệu đã được viết lại cải thiện chất lượng mô tả trên cả hai khía cạnh đánh giá Bên cạnh đó, áp dụng phương pháp TAPT với mô hình GPT-2 cũng nâng cao chất lượng so với GPT-2 base.
Bảng 4.3 dưới đây tóm tắt kết quả đánh giá các mô hình trên cả tập dữ liệu đã thấy và chưa thấy, dựa trên phương pháp đánh giá qua con người.
Bảng 4.3 Tổng hợp kết quả đánh giá trên hai tập dữ liệu đã thấy và chưa thấy
Kết quả trên tập dữ liệu đã thấy
Mô hình Độ lưu loát Độ liên hệ Độ thông tin Tổng quan
Kết quả trên tập dữ liệu chưa thấy
Mô hình Độ lưu loát Độ liên hệ Độ thông tin Tổng quan
Mô hình cơ sở cho thấy hiệu suất kém nhất trên cả hai tập dữ liệu và bốn tiêu chí đánh giá, như đã được giải thích trước đó Trong khi đó, các mô hình GPT-2, đặc biệt là GPT-2 Plus + TAPT, đã đạt kết quả vượt trội Đáng chú ý, các chỉ số về độ lưu loát và độ liên quan của tất cả mô hình GPT-2 đều trên ngưỡng 4, cho thấy các mô tả sinh ra có độ lưu loát tốt và phản ánh sát với sản phẩm Mặc dù độ đo thông tin có kết quả thấp hơn, nó vẫn chỉ ra rằng các mô tả cung cấp nhiều thông tin hữu ích cho người đọc.
Kết quả từ hai thử nghiệm đánh giá cho thấy mô tả sản phẩm do các mô hình GPT-2, đặc biệt là GPT-2 Plus + TAPT tạo ra đạt chất lượng tốt trên các tiêu chí như độ lưu loát, độ liên hệ, độ thông tin, độ đa dạng từ vựng và tổng quan Những phân tích này khẳng định rằng phương pháp được đề xuất trong luận văn là phù hợp và hứa hẹn mang lại kết quả khả quan cho bài toán sinh mô tả sản phẩm Dưới đây là một số ví dụ thực tế từ các mô hình trong thử nghiệm.
Bảng 4.4 Một số mô tả sản phẩm được tạo ra bởi các mô hình
GPT-2 base GPT-2 Plus + TAPT
Perfect for a chic or casual day, this Alivia Ford dress is a practical addition to any
Alivia Ford’s classic denim skirt are a go-to choice for work or play Crafted with a hint of stretch for
The versatile knee-length dress in chic black is a stylish and practical addition to any wardrobe, perfect for various occasions Made from soft spandex, it offers a luxurious feel and all-day comfort with its elastic waistband This classic piece not only ensures a fresh look each time but also keeps you ahead of the trends, making it a must-have staple for your closet.
A classic Bioworld action figure is a fun way to add a touch to any collection
Plastic action figures are durable, resistant to scratches and dirt, making them ideal for regular play With a 1:10 scale, these figures are perfect for both playtime and display, allowing you to enjoy them with friends and family.
Enhance your collection with the Bioworld action figure, an essential item for any fan Crafted from durable plastic, it can endure regular handling and daily wear and tear With a convenient 1:10 scale, this action figure is perfectly sized for display on shelves, in rooms, or as a standout piece in a cabinet.