(LUẬN văn THẠC sĩ) nghiên cứu học máy trong xây dựng gợi hệ ý âm nhạc

TỔNG QUAN VỀ HỌC MÁY TRONG HỆ GỢI Ý

Hệ gợi ý (Recommender Systems)

Trong thời đại internet hiện nay, người dùng máy tính, máy tính bảng và điện thoại thông minh thường xuyên tiếp xúc với các hệ thống gợi ý Khi truy cập vào một website bán hàng trực tuyến, người dùng sẽ thấy mục "Khách hàng mua sản phẩm này cũng mua các sản phẩm sau", liệt kê các mặt hàng có khả năng thu hút sự chú ý dựa trên thông tin sản phẩm được xem Đối với người dùng đã đăng ký, danh sách gợi ý cá nhân hóa sẽ tự động hiển thị sau khi đăng nhập Hệ thống gợi ý cần thu thập thông tin của từng người dùng, xây dựng và cập nhật hồ sơ cá nhân, lưu trữ sở thích của họ Thông tin này có thể được thu thập thông qua việc yêu cầu người dùng đánh giá sản phẩm hoặc giám sát hành vi của họ.

Học máy cho hệ gợi ý được phân thành ba phương pháp chính: lọc cộng tác (collaborative filtering), lọc nội dung (content-based filtering) và lọc kết hợp (hybrid filtering) Mỗi phương pháp này có những đặc điểm và cách tiếp cận riêng, giúp cải thiện hiệu quả của hệ thống gợi ý.

1.1.1 Học máy lọc cộng tác

Có nhiều loại thông tin để xác định danh sách gợi ý cho từng người dùng, trong đó phương pháp phổ biến nhất là sử dụng tham số hành vi, ý kiến cá nhân và thị hiếu từ cộng đồng người dùng lớn Phương pháp này được gọi là "Lọc cộng tác".

Hệ thống gợi ý dựa trên lọc cộng tác cho thấy rằng những người dùng có sở thích tương đồng có khả năng quan tâm đến các sản phẩm giống nhau trong tương lai Phương pháp này tận dụng sự tương tác giữa người dùng mà không cần hiểu biết chi tiết về các sản phẩm được gợi ý, giúp tiết kiệm tài nguyên và giảm bớt sự phức tạp trong việc duy trì dữ liệu Tuy nhiên, việc không sử dụng dữ liệu cụ thể có thể làm giảm độ chính xác của hệ thống và gây khó khăn trong việc gợi ý các sản phẩm mới hoặc chưa được người dùng quan tâm Ngoài ra, hệ thống cũng có thể gặp phải tình trạng "SPAM" từ các tài khoản gửi tin nhắn tự động Theo bài báo "A Survey of Collaborative Filtering Techniques," các phương pháp lọc cộng tác được phân loại thành ba nhóm chính.

Các hệ thống dựa trên bộ nhớ, hệ thống dựa trên mô hình và hệ thống kết hợp đều có những thách thức riêng như sự thưa thớt dữ liệu, khả năng mở rộng, từ đồng nghĩa và “Shilling attacks” Các tác giả cũng đề cập đến nhiều phương pháp tính khoảng cách để xác định sự tương đồng giữa các sản phẩm trong lọc cộng tác, bao gồm Tương quan Pearson, véc-tơ khoảng cách cô-sin và khoảng cách Euclide Trong bài báo “Khám Phá Các Chú Thích Xã Hội cho Web Ngữ Nghĩa,” các tác giả tìm ra một phương pháp cộng tác cho các chú thích trên mạng xã hội, cho phép người dùng cập nhật mà không cần một ontology hình thức đã được định nghĩa trước.

Bài viết này đề cập đến việc phân tích các tiên đề và định nghĩa mà không quan tâm đến tính khả thi của việc thực hiện trên máy tính Mặc dù các chú thích có phần tùy tiện và mơ hồ, nhưng chúng lại dễ dàng thu thập Ví dụ, dữ liệu từ Del.icio.us được thu thập tự động từ trang chủ, bao gồm 2.879.614 thẻ đánh dấu từ 10.109 người dùng Các đánh giá ban đầu cho thấy phương pháp này có khả năng phát hiện hiệu quả các web bookmarks có liên quan về ngữ nghĩa.

Trong bài viết “Usage Patterns of Collaborative Tagging Systems,” các tác giả phân tích cấu trúc và lợi ích của các hệ thống đánh dấu cộng tác Nghiên cứu chỉ ra rằng các thẻ đánh dấu được sử dụng phổ biến với sự đa dạng về thông tin mà chúng mô tả Mặc dù một số lượng lớn thẻ được người dùng tạo ra cho mục đích cá nhân, nhưng chúng vẫn mang lại giá trị cho những người dùng khác Hệ gợi ý dựa trên phương pháp lọc cộng tác cũng đã được đánh giá và thảo luận trong nhiều ấn phẩm khác nhau, nhấn mạnh tầm quan trọng của chúng trong việc cải thiện trải nghiệm người dùng.

1.1.2 Học máy lọc theo nội dung

Hệ gợi ý được xây dựng với nhiều lý do khác nhau, bao gồm việc khuyến khích người dùng thực hiện hành động như mua sản phẩm hoặc xem chương trình truyền hình Nó giúp người dùng khám phá những sản phẩm mới mà họ có thể bỏ lỡ và giải quyết vấn đề “quá tải thông tin” bằng cách lọc qua một lượng dữ liệu lớn để chọn ra những sản phẩm phù hợp nhất Mục tiêu chính của hệ gợi ý là phân loại dữ liệu liên quan đến người dùng, sử dụng thông tin từ nội dung của các phần tử dữ liệu để xếp hạng, thường được gọi là hệ gợi ý dựa trên nội dung.

Phương pháp tiếp cận dựa trên nội dung chủ yếu sử dụng mô tả sản phẩm, có thể được thu thập thủ công hoặc tự động, kết hợp với dữ liệu người dùng để xác định mức độ quan tâm của họ đối với các mô tả này.

Phương pháp tiếp cận dựa trên nội dung nhằm gợi ý sản phẩm cho người dùng bằng cách so sánh các thuộc tính mà họ quan tâm với các đặc điểm của sản phẩm Dữ liệu người dùng có thể là bài hát họ nghe hoặc sở thích cá nhân Mục tiêu là đề xuất sản phẩm mới phù hợp với sở thích của người dùng, ví dụ như mô tả sản phẩm âm nhạc có thể bao gồm thể loại, nhịp độ, âm sắc và nhạc cụ Thông tin này có thể được thu thập qua các phương pháp thủ công hoặc tự động thông qua việc trích xuất đặc trưng âm thanh của bài nhạc.

Hệ gợi ý âm nhạc

Với kho tàng âm nhạc phong phú trên internet, người yêu nhạc gặp khó khăn trong việc tìm kiếm những bài hát ưa thích mà không tốn nhiều thời gian Hệ thống gợi ý âm nhạc đã được phát triển nhằm giúp người dùng dễ dàng khám phá và lựa chọn những bản nhạc phù hợp với sở thích của mình.

1.2.1 Các nghiên cứu trước đây Để nghiên cứu lý thuyết liên quan, một vài hệ gợi ý âm nhạc dựa trên phương pháp học máy lọc cộng tác đã được đề xuất Trong bài báo, “Web- collaborative Filtering: Recommending Music by Crawling the Web,” một chương trình tự động tìm kiếm trên internet đã được dùng để thu thập các thực hể liên quan về mặt ngữ nghĩa từ trên Web để lọc cộng tác Cụ thể, chương trình sẽ sử dụng giải thuật heuristics thu thập các danh sách của các nghệ sỹ nhạc nhằm mục đích bổ sung hoặc thay thế phương pháp lọc cộng tác dựa trên xếp hạng của người dụng Thí nghiệm được tiến hành bằng cách sử dụng một tập dữ liệu gồm 5095 bản nhạc làm dữ liệu thử nghiệm và 23.438 bản nhạc làm dữ liệu huấn luyện, các bản nhạc này của 981 nghệ sỹ Kết quả cho thấy triển vọng tốt của việc sử dụng web crawler cho hệ gợi ý dựa trên phương pháp lọc cộng tác

Trong bài báo “Automatic Generation of Social Tags for Music Recommendation”, các tác giả giới thiệu một thuật toán tự động gắn thẻ sử dụng học máy có giám sát để tạo ra các thẻ xã hội dựa trên đặc tính âm thanh từ tệp MP3 Thí nghiệm được thực hiện với 60 thẻ phổ biến nhất từ dữ liệu tự động của Last.fm, sử dụng tập dữ liệu gồm 89.924 bản nhạc của 1277 nghệ sĩ.

Một số phương pháp lọc dựa trên nội dung đã chứng minh hiệu quả trong việc gợi ý âm nhạc Bài báo “Hệ Thống Gợi Ý Nhạc Dựa Trên Nhóm Dữ Liệu Âm Nhạc và Sở Thích Người Dùng” mô tả cách các bản nhạc được chọn dựa trên các thuộc tính như cao độ, trường độ và độ to của âm thanh Sở thích của người dùng được ghi lại từ lịch sử truy cập và lưu trữ trong hồ sơ cá nhân Dựa trên lịch sử này, người dùng được phân nhóm theo sở thích trong các không gian đặc trưng, và ba phương pháp gợi ý đã được thử nghiệm để tìm ra những người dùng có sở thích tương đồng.

Trong bài báo “A Music Search Engine Built upon Audio-based and Web-based Similarity Measures”, các tác giả áp dụng phương pháp Kullback-Leibler để tính toán trên trung bình và ma trận hiệp phương sai dựa trên MFCCs nhằm phân tích sự tương quan âm nhạc Dữ liệu nghiên cứu bao gồm 12.601 bản nhạc, với mục tiêu phát triển một công cụ tìm kiếm cho các tập hợp bản nhạc lớn, cho phép truy vấn dữ liệu bằng ngôn ngữ tự nhiên Công cụ này sử dụng các thẻ từ Last.fm để cải thiện khả năng tìm kiếm.

Trong bài báo "Đánh giá các khoảng cách giữa các mô hình hỗn hợp Gaussian của MFCC", các tác giả đã so sánh ba phương pháp: Kullback-Leibler, khoảng cách Earth Mover và khoảng cách Euclide dựa trên MFCC Nghiên cứu được thực hiện trên 729 bản nhạc thuộc 6 thể loại từ trang MIREX năm 2004 Kết quả cho thấy cả ba phương pháp này đều mang lại kết quả tương tự nhau.

Trong bài báo “Song-level Features and Support Vector Machines for Music Classification”, các tác giả đã tiến hành so sánh hai phương pháp Kullback Leibler phân kỳ và khoảng cách Mahalanobis dựa trên MFCC Nghiên cứu này thực hiện các thử nghiệm nhận diện nghệ sỹ và các bản nhạc một cách tương đối trên tập dữ liệu gồm 1200 bản nhạc pop được biểu diễn bởi 18 nghệ sỹ.

Trong bài báo "Lightweight Measures for Timbral Similarity of Musical Audio", các tác giả giới thiệu một phương pháp đơn giản dựa trên MFCC nhằm xử lý các tập dữ liệu lớn Phương pháp bao gồm Kullback Leibler phân kỳ và khoảng cách Mahalanobis, được áp dụng cho các nhóm thể loại nhạc trong ba tập dữ liệu khác nhau Các tập dữ liệu thử nghiệm bao gồm một tập từ ISMIR 2004, một tập với 3600 bản nhạc, và một tập lớn hơn Kết quả cho thấy các phương pháp này hoạt động tương tự nhau.

1.2.2 Tập dữ liệu trên Last.fm

Last.fm là dịch vụ âm nhạc giúp người dùng khám phá bản nhạc mới dựa trên sở thích nghe của họ Mặc dù đã ngừng cung cấp dịch vụ streaming từ ngày 28/4/2014, công nghệ gợi ý của Last.fm vẫn có thể được tích hợp với các dịch vụ khác Trang web chứa thông tin phong phú về nghệ sỹ, album và bản nhạc, cho phép người dùng đã đăng ký tìm kiếm các bản nhạc tương tự và khám phá các nghệ sỹ mới Người dùng có thể đọc thông tin về nghệ sỹ yêu thích, nghe các bản nhạc phổ biến, duyệt album và tìm hiểu về sự kiện âm nhạc sắp tới Điểm nổi bật của Last.fm là sự tham gia tích cực của cộng đồng, cho phép người dùng tạo kênh stream, bình luận và tương tác với nhau.

Người dùng có khả năng thể hiện sở thích âm nhạc của mình thông qua việc đặt các thẻ đánh dấu cho từng bản nhạc, tương tự như trên Youtube hoặc Facebook Họ có thể bày tỏ sự yêu thích (loves) đối với một bản nhạc hoặc đề nghị cấm (ban) những bản nhạc không mong muốn không được phát.

Khi người dùng đăng ký tài khoản miễn phí trên Last.fm, một hồ sơ âm nhạc sẽ được tạo với dữ liệu từ thói quen nghe, bao gồm các bản nhạc yêu thích và bị cấm Dữ liệu bổ sung có thể được thu thập qua các câu hỏi về nghệ sĩ yêu thích Ngoài ra, người dùng có thể sử dụng phần mềm Scrobbler của Last.fm để ghi lại thói quen nghe từ máy tính, miễn là phần mềm được cài đặt và chạy nền Điều này giúp Last.fm theo dõi thói quen nghe của người dùng ngay cả khi họ không sử dụng trang web.

Hình 1.1 minh họa khả năng phát nhạc từ Youtube trên Last.fm, với thông tin về bản nhạc "Air on the G String" của Johann Sebastian Bach Người dùng có thể nhấn vào hình trái tim ở góc phải để thể hiện sự yêu thích bản nhạc Hệ thống cung cấp thông tin về tác giả, các bản nhạc và album phổ biến, đồng thời gợi ý những tác phẩm và nghệ sĩ tương tự Ngoài ra, người dùng có thể thêm các thẻ đánh dấu (tags) cho bản nhạc và nghệ sĩ.

Hình 1.1: Stream nhạc từ Youtube trên Last.fm

Last.fm cung cấp cho người dùng danh sách các nghệ sỹ và số lần bài hát của họ được nghe, dựa trên sở thích cá nhân Khi người dùng mới đăng ký, họ sẽ được hỏi về các nghệ sỹ yêu thích, từ đó hệ thống gợi ý thêm các nghệ sỹ tương tự Khi người dùng chọn “trái tim” cho một bài hát, nghệ sỹ của bài hát đó sẽ tự động được thêm vào danh sách nghệ sỹ yêu thích Hệ thống cũng sẽ đề xuất các album và bài hát khác cho người dùng khám phá.

Hình 1.2: Gợi ý các nghệ sỹ trong Last.fm

Kết luận chương

Trong chương 1, chúng ta đã khám phá nội dung về học máy trong hệ gợi ý, cùng với các phương pháp lọc được áp dụng trong lĩnh vực này Bên cạnh đó, chương cũng trình bày một số nghiên cứu trước đây liên quan đến các phương pháp trong hệ gợi ý âm nhạc Đặc biệt, chương 1 còn giới thiệu tập dữ liệu phổ biến Last.fm, một nguồn tài nguyên quý giá cho nghiên cứu âm nhạc hiện nay.

Trong chương tiếp theo chúng ta sẽ tìm hiểu cụ thể các phương pháp tiếp cận của hệ gợi ý âm nhạc được sử dụng trong luận văn này

PHƯƠNG PHÁP GỢI Ý KẾT HỢP GIỮA LỌC CỘNG TÁC VÀ LỌC NỘI DUNG

Phương pháp luận

Sử dụng lọc cộng tác để gợi ý âm nhạc có thể gặp phải một số hạn chế nghiêm trọng Một trong những hạn chế lớn nhất là các bản nhạc chỉ được gán thẻ khi người dùng phát hiện và nghe chúng, dẫn đến việc thiếu thẻ mô tả cho những bản nhạc mới hoặc chưa được biết đến Hơn nữa, người nghe thường chỉ gán thẻ cho những bài hát yêu thích, trong khi những bài hát ít được ưa chuộng lại không nhận được sự chú ý tương tự Do đó, hệ thống lọc cộng tác gặp khó khăn trong việc cung cấp gợi ý chính xác do thiếu dữ liệu thẻ đánh dấu cho mỗi bản nhạc.

Hệ gợi ý dựa trên nội dung cần nhiều thời gian và tài nguyên khi tự động trích chọn đặc trưng bản nhạc Trong khi đó, trích chọn thủ công gặp khó khăn về khả năng mở rộng Khi số lượng bản nhạc tăng lên và hệ thống trở nên phổ biến, sẽ cần nhiều nguồn lực hơn để phân tích các bản nhạc mới.

Luận văn này trình bày một hệ thống kết hợp giữa các phương pháp lọc cộng tác và lọc dựa trên nội dung, nhằm tận dụng lợi ích từ các thẻ đánh dấu do người dùng cung cấp và tự động trích chọn đặc trưng của các bản nhạc Hệ thống này sẽ khắc phục những nhược điểm của các phương pháp chỉ sử dụng một trong hai cách tiếp cận.

2.1.1 Các thẻ đánh dấu bản nhạc do người dùng cung cấp

Các thẻ đánh dấu, hay còn gọi là thẻ cộng tác và thẻ xã hội, là các từ khóa ngắn gọn mô tả sản phẩm hoặc bản nhạc trên các trang dịch vụ âm nhạc, được cung cấp bởi cộng đồng Chúng giúp người dùng dễ dàng định hướng trong các tập dữ liệu lớn Mặc dù có thể sử dụng bất kỳ từ nào có nghĩa để đánh dấu, nhưng việc chọn lựa thẻ phù hợp sẽ mang lại sự tiện lợi hơn cho người dùng.

Hệ thống được phát triển trong luận văn này sử dụng 13 dấu có sẵn từ người dùng trước để tạo ra một hệ thống đường dẫn hữu ích Những thẻ này sẽ được áp dụng bởi các giao diện tìm kiếm dựa trên thẻ đánh dấu, giúp hiển thị những thẻ phổ biến nhất cho các trang web hoặc vật phẩm Đặc biệt, hệ thống sẽ sử dụng các thẻ đánh dấu âm nhạc từ trang Last.fm để gợi ý các bản nhạc dựa trên những thẻ có sẵn.

2.1.2 Trích chọn đặc trưng âm thanh từ các bản nhạc

Dữ liệu MFCC là các đặc trưng quan trọng được trích xuất từ nhạc, thường được sử dụng trong nhận dạng giọng nói và phân tích âm nhạc Trong luận văn này, việc trích chọn dữ liệu MFCC được thực hiện thông qua phần mềm Sonic Annotator với phần mở rộng Vamp từ Đại học Queen Mary Sonic Annotator là một chương trình mã nguồn mở chạy bằng dòng lệnh, cho phép trích xuất các đặc trưng âm thanh từ nhiều tệp âm thanh Để minh họa quá trình này, luận văn sử dụng ứng dụng Sonic Visualiser để theo dõi và phân tích nội dung trong các tệp âm thanh Phần mềm này tương thích với các hệ điều hành Linux, OS/X và Windows, và được phát triển tại Trung tâm nhạc kỹ thuật số của Đại học Queen Mary, London Tiếp theo, chúng ta sẽ khám phá chi tiết cách Sonic Visualiser trích xuất các đặc trưng âm thanh từ tệp âm thanh.

Sau khi cài đặt Sonic Visualiser, hãy mở tệp âm thanh định dạng mp3 Tiếp theo, sử dụng phần mở rộng của Queen Mary để trích xuất các MFCC từ tệp âm thanh, đồng thời chọn các thiết lập mặc định.

Hình 2.1: Tính toán các MFCC bằng Sonic Visualisation

Hình 2.2: Thiết lập các cấu hình mặc định

Chúng ta chọn “Edit layer data” để hiển thị dữ liệu như hình ảnh Tiếp theo, chúng ta sẽ trích xuất giá trị trung bình của dữ liệu MFCC vào tệp định dạng CSV, với mỗi dòng chứa 20 giá trị đại diện cho các hệ số MFCC.

Các giá trị để tìm sự tương quan giữa các bản nhạc

Để đưa ra các gợi ý thích hợp dựa trên bản nhạc được người dùng lựa chọn,

Hệ gợi ý cần phải so sánh các sự giống nhau giữa bản nhạc gốc và các bản nhạc trong tập dữ liệu

2.2.1 Giá trị so sánh tính bởi các thẻ đánh dấu âm nhạc

Trong phần này, chúng ta sẽ khám phá cách tiếp cận dựa trên cộng tác thông qua nền tảng Last.fm, nơi có một cộng đồng người dùng đông đảo Last.fm cung cấp hệ thống API mã nguồn mở, cho phép các nhà phát triển ứng dụng truy cập vào cơ sở dữ liệu phong phú của họ Một trong những phương thức hữu ích là “track.getTopTags”, giúp lấy thông tin về các thẻ đánh dấu phổ biến nhất cho một bản nhạc cụ thể, cùng với số lượng người dùng đã sử dụng các thẻ đó Để sử dụng phương thức này, chúng ta cần cung cấp tên bản nhạc và tên nghệ sĩ, và kết quả trả về sẽ là danh sách 10 thẻ được đánh dấu nhiều nhất cho bản nhạc đó, sắp xếp theo thứ tự giảm dần.

Trong luận văn này, chúng tôi tiến hành tính toán các chỉ số tương quan thông qua việc so sánh sự cộng tác giữa hai bản nhạc, cụ thể là phân tích top 10 thẻ đánh dấu của mỗi bản.

Bài viết này phân tích 16 bản nhạc từ Last.fm, sử dụng khoảng cách Euclide để tính toán trọng số giữa các bài hát dựa trên thẻ đánh dấu cộng tác Kết quả cho thấy phương pháp này đạt hiệu quả tốt, dựa trên các nghiên cứu trước Chúng tôi áp dụng trọng số để tính toán khoảng cách giữa các thẻ có số lần đánh dấu khác nhau, trong đó những thẻ được nhiều người dùng sử dụng sẽ có ảnh hưởng lớn hơn so với những thẻ ít được đánh dấu.

Khoảng cách Euclide có trọng số dx,y(p,q) là khoảng cách giữa hai bản nhạc x và y được biểu diễn bởi các véc-tơ (p,q) được tính với công thức như sau

Trong đó, trọng số của thẻ thứ i (wi) được tính theo công thức wi = pi + qi Giá trị pi là chuẩn hóa của tổng số lần thẻ i được đánh dấu (số đếm thẻ) cho bản nhạc x, được xác định bằng công thức (3).

Trong nghiên cứu này, mỗi bản nhạc được đại diện bởi mười thẻ đánh dấu hàng đầu từ Last.fm, với ri là tổng số lần thẻ i được đánh dấu và qi là chuẩn hóa của tổng số lần thẻ i cho bản nhạc y Các giá trị p và q là chuẩn hóa của các vector tổng số lần đánh dấu liên quan đến bản nhạc truy vấn và bản nhạc so sánh Mỗi thẻ được trọng số bằng cách nhân với tổng số đếm của mười thẻ phổ biến nhất trong các bản nhạc Tập thẻ nào có khoảng cách nhỏ nhất sẽ được xác định là bản nhạc giống nhất với bản nhạc đang nghe.

Chúng ta sẽ xem xét một ví dụ cụ thể dựa trên các thẻ đánh dấu phổ biến nhất của Last.fm, trong đó chúng ta sẽ so sánh hai bản nhạc nổi bật là "Blue Train" và "Ornithology".

Bảng 2.1 cho ta thấy mười thẻ đánh dấu được dùng nhiều nhất của (a) Blue Train và (b) Ornithology, những thẻ đánh dấu giống nhau được bôi đậm Chuẩn

Trong bài viết, pi của thẻ đánh dấu "jazz" trong tác phẩm "Blue Train" được tính toán bằng công thức (2.3), với giá trị xấp xỉ 0,510 Giá trị này được xác định bằng cách chia số lần thẻ "jazz" được đánh dấu cho "Blue Train" cho tổng số thẻ đánh dấu trong bảng 1, là 196 Tổng các giá trị chuẩn hóa này luôn bằng 1.

Sau khi tiến hành chuẩn hóa cho cả hai bản nhạc, trọng số của một thẻ được tính theo công thức (2.2) Cụ thể, trọng số của thẻ "jazz" là tổng của pi và qi cho hai bản nhạc Blue Train (xấp xỉ 0,510) và Ornithology (xấp xỉ 0,450), dẫn đến kết quả tổng cộng là 0,960.

Bảng 2.1 Thẻ đánh dấu cho Blue Train và Ornithology

Tên thẻ Số đếm thẻ

Chuẩn hóa số đếm thẻ (p i )

John coltrane 20 0,1020408 saxophone 27 0,1216216 bebop 18 0,0918367 Charlie parker 16 0,0720721

Hard bop 12 0,0612245 instrumental 9 0,0405405 instrumental 5 0,0255102 bop 5 0,0225225

Free jazz 4 0,0204082 jazzysmalejazz 4 0,0180180 blues 3 0,0153061 Good Stuff 4 0,0180180 coltrane 3 0,0153061 la cucaracha 4 0,0180180

Tổng số đếm thẻ 196 Tổng số đếm thẻ

Bảng 2.2 trình bày việc chuẩn hóa số đếm các thẻ cho hai bản nhạc, đồng thời tính toán trọng số cho từng thẻ Các thẻ liên quan đến hai bản nhạc được làm nổi bật bằng cách bôi đậm.

Bảng 2.2 Chuẩn hóa số đếm thẻ và trọng số

Tên thẻ Chuẩn hóa số đếm thẻ cho

Chuẩn hóa số đếm thẻ cho Ornithology (q i )

18 saxophone 0,147959184 0,121621622 0,269580805 john coltrane 0,102040816 0,102040816 charlie parker 0,072072072 0,072072072 instrumental 0,025510204 0,040540541 0,066050745

Good Stuff 0,018018018 0,018018018 la cucaracha 0,018018018 0,018018018 latin fiesta 0,018018018 0,018018018

Tiếp theo chúng ta sẽ tính toán khoảng cách Euclide theo công thức (2.1), dựa trên các số liệu tính toán ở trên

Chúng ta sẽ so sánh Blue Train với một bản nhạc khác là Freak Out

Bảng 2.3 Thẻ đánh dấu cho Blue Train và Freak Out

Hard bop 12 0,0612245 running songs 16 0,048780488 instrumental 5 0,0255102 Genre-meld 16 0,048780488

Free jazz 4 0,0204082 non-select 16 0,048780488 blues 3 0,0153061 Omaha 16 0,048780488 coltrane 3 0,0153061 311 16 0,048780488

Classic jazz 2 0,0102041 white boy rap 16 0,048780488

Theo bảng 2.3 chúng ta có thể thấy không có thẻ đánh dấu nào chung giữa 2 bản nhạc Các số đếm thẻ đã được chuẩn hóa bằng công thức (2.3)

Sau khi hoàn tất quá trình chuẩn hóa, trọng số của các thẻ sẽ được tính toán theo công thức (2.2) Bảng 2.4 cung cấp danh sách các số đếm thẻ đã được chuẩn hóa cùng với trọng số tương ứng của từng thẻ.

Bảng 2.4 Chuẩn hóa số đếm thẻ và trọng số của Blue Train và Freak Out

Tên thẻ Chuẩn hóa số đếm thẻ cho

Chuẩn hóa số đếm thẻ cho Freak Out

Jazz 0,510204082 0,450450450 0,960654532 alternative rock 0,304878049 0,304878049 rock 0,201219512 0,201219512 saxophone 0.147959184 0,147959184 john coltrane 0,102040816 0,102040816 ska 0,100609756 0,100609756 reggae 0,100609756 0,100609756 bebop 0,091836735 0,091836735

311 0,048780488 0,048780488 white boy rap 0,048780488 0,048780488 instrumental 0,025510204 0,025510204 free jazz 0,020408163 0,020408163 blues 0,015306122 0,015306122

Tiếp theo, ta sẽ tính toán khoảng cách Euclide có trọng số bằng công thức (2.1)

Khoảng cách Euclide có trọng số giữa bài nhạc Blue Train và Ornithology là 0,103, trong khi khoảng cách giữa Blue Train và Freak Out là 0,421 Kết quả này cho thấy, dựa vào phương pháp lọc cộng tác, bài nhạc Ornithology tương đồng với Blue Train hơn so với Freak Out, do khoảng cách Euclide có trọng số nhỏ hơn.

2.2.2 Giá trị so sánh tính bởi các tín hiệu âm thanh

Trong nghiên cứu này, chúng tôi thực hiện tính toán sự tương quan âm thanh giữa hai bản nhạc bằng cách trích xuất giá trị phương sai và trung bình từ các hệ số cepstral tần số Mel (MFCC) của từng tệp âm nhạc Chúng tôi sử dụng khoảng cách Mahalanobis để đo lường khoảng cách giữa các bản nhạc dựa trên các thuộc tính âm thanh Phương pháp này được chọn vì tính dễ hiểu và cho kết quả tương đối tốt so với các phương pháp tính toán khác đã được đề cập.

Khoảng cách Mahalanobis Dx,y là khoảng cách giữa hai bản nhạc x và y thể hiện bởi các véc-tơ MFCC tương ứng của chúng:

Ma trận hiệp phương sai Σ đại diện cho các thuộc tính âm nhạc trong toàn bộ tập dữ liệu, có thể được xem như ma trận đường chéo chứa phương sai của từng thuộc tính Trong đó, các véc-tơ u và v biểu thị giá trị trung bình và phương sai MFCC tương đồng giữa hai bản nhạc.

Trong bài viết này, chúng tôi sẽ sử dụng Sonic Annotator để trích xuất 20 MFCC đầu tiên từ các tệp âm thanh Mỗi tệp âm thanh sẽ được xử lý theo từng khung với kích thước nhất định.

2048 mẫu (46,4 ms nếu tệp âm thanh được lâý mẫu ở tần số 44,1 kHz) với kích

21 thước bước nhảy 1024 mẫu Theo cách xử lý này, một tệp âm thanh dài ba phút sẽ có khoảng 7750 frame, và mỗi khung sẽ được biểu diễn bằng 20 MFCC

Các MFCC được tính cho mỗi khung âm thanh sẽ được kết hợp bằng cách tính toán trung bình và phương sai của 20 MFCC đầu tiên Kết quả là, thuộc tính âm thanh của mỗi tệp sẽ được biểu diễn bằng 40 giá trị, bao gồm 20 giá trị trung bình và 20 giá trị phương sai của 20 MFCC đầu tiên.

Sau đây là sẽ có một thử nghiệm so sánh dựa trên dữ liệu MFCC Ta sẽ so sánh 2 bản nhạc Beautiful Disaster và Freak Out

Trong hình 2.4, trục tung biểu diễn thời gian, trục hoành thể hiện 20 MFCC với màu sắc biểu diễn giá trị của một MFCC cụ thể

Kết luận chương

Chương 2 đã trình bày cụ thể về phương pháp tiếp cận được sử dụng trong hệ gợi ý của luận văn này Đó là sự kết hợp giữa hai phương pháp mang lại hiệu quả cho hệ gợi ý là phương pháp lọc cộng tác và phương pháp lọc nội dung Ngoài ra chương 2 còn đưa ra các ví dụ cụ thể cho các phương pháp, các bước tính toán để

Trong luận văn này, chúng tôi sẽ hình thành 33 dữ liệu so sánh, bao gồm các bước tính toán và số liệu cần thiết Những dữ liệu này sẽ được sử dụng để phát triển chương trình ứng dụng.

Chương 3 sẽ trình bày cụ thể các bước xây dựng, các công nghệ được sử dụng trong ứng dụng và kết quả thử nghiệm hệ thống

XÂY DỰNG HỆ THỐNG GỢI Ý CHO WEBSITE NGHE NHẠC TRỰC TUYẾN 34

Giới thiệu bài toán

Luồng dữ liệu của hệ thống gợi ý bao gồm một cơ sở dữ liệu với khoảng 1000 bản nhạc, bao gồm tệp âm thanh mp3 và siêu dữ liệu như tên bản nhạc, nghệ sỹ và tên tệp Tên bản nhạc và nghệ sỹ được sử dụng để trích xuất các thẻ đánh dấu phổ biến từ API Last.fm thông qua phương thức track.getTopTags Tệp âm thanh được xử lý để lấy dữ liệu MFCC, cung cấp các đặc trưng âm thanh thông qua Sonic Annotator.

Công việc xây dựng hệ thống sẽ được thực hiện qua nhiều bước, bắt đầu bằng việc thu thập một lượng lớn bản nhạc Tiếp theo, sẽ sử dụng hệ cơ sở dữ liệu SQL Server để thiết kế một cơ sở dữ liệu quan hệ hiệu quả.

Hình 3.1 thể hiện cấu trúc quan hệ giữa các thực thể trong cơ sở dữ liệu của hệ thống Bảng tbl_Song lưu trữ siêu dữ liệu từ các bản nhạc mp3 được lưu trữ.

Hình 3.1: Luồng dữ liệu của hệ thống

Hệ thống sẽ lưu trữ dữ liệu liên quan đến các thẻ nhớ của bản nhạc từ Last.fm, với các thông tin MFCC được trích xuất từ tệp âm nhạc và lưu vào bảng tbl_mfccData Các giá trị khoảng cách được tính toán dựa trên phương pháp lọc cộng tác, lọc nội dung và phương pháp kết hợp sẽ được lưu trong bảng tbl_similar Đánh giá từ người dùng sẽ được thu thập từ những người tham gia thử nghiệm sản phẩm và được lưu ẩn danh trong bảng tbl_session.

Bảng 3.1 Các công việc cần thực hiện

Công việc cần thực hiện Chi tiết công việc

Thu thập các bản nhạc mp3 Tìm các bản nhạc trên mạng internet

Thiết kế cơ sở dữ liệu Sử dụng SQL Server để thiết kế các bảng và tạo các quan hệ

Thu thập các siêu dữ liệu từ các bản nhạc

Loại bỏ các dữ liệu trùng, đưa các siêu dữ liệu của từng tệp mp3 vào cơ sở dữ liệu

Thu thập các thẻ đánh dấu cho các bản nhạc

Sử dụng ASP.NET để phát triển ứng dụng, lấy chuỗi giá trị từ API của Last.fm, thu thập 10 thẻ gợi ý phổ biến nhất cho từng bài hát và lưu trữ chúng vào cơ sở dữ liệu.

Thu thập các dữ liệu đặc trưng âm nhạc

Tùy chỉnh tệp batch sử dụng Sonic Annotator để trích xuất dữ liệu MFCC và xuất ra file CSV

Tính toán các giá trị so sánh bằng lọc cộng tác giữa tất cả các bản nhạc trong cơ sở dữ liệu

Sử dụng ASP.NET phát triển nghiệp vụ tính toán khoảng cách bằng giải thuật Euclide có trọng số dựa trên các thẻ gợi ý

Tính toán các giá trị so sánh bằng trích chọn đặc trưng âm nhạc giữa tất cả các bản nhạc trong cơ sở dữ liệu

Sử dụng ASP.NET phát triển nghiệp vụ tính toán khoảng cách bằng giải thuật Mahalanobis dựa trên các dữ liệu MFCC

Tính toán giá trị so sánh kết hợp giữa tất cả các bản nhạc trong cơ sở dữ liệu

Sử dụng ASP.NET phát triển nghiệp vụ tính toán khoảng cách kết hợp dựa trên chuẩn hóa của hai giá trị trên

Thiết kế website để những người tham gia thử nghiệm sản phẩm

Phát triển giao diện người dùng bằng HTML5, CSS, JavaScript và jQuery

Phát triển các nghiệp vụ để tải về cơ sở dữ liệu thẻ đánh dấu từ Last.fm và dữ liệu MFCC, đồng thời tính toán các giá trị so sánh và lưu vào bảng tbl_similar Cuối cùng, xây dựng ứng dụng web cho phép người dùng truy cập và sử dụng hệ thống gợi ý.

Trang chủ của ứng dụng web cho phép người dùng tìm kiếm bản nhạc theo tên bài hát hoặc nghệ sỹ, đồng thời sắp xếp kết quả theo thứ tự mong muốn Người dùng cũng có thể nhận được những gợi ý về bản nhạc bằng cách chọn nút “Gợi ý bản nhạc”, từ đó khám phá danh sách các bài hát được hệ thống đề xuất.

Hệ thống sẽ cung cấp danh sách gợi ý nhạc dựa trên bản nhạc người dùng đang nghe, bao gồm ba bản nhạc đầu tiên được chọn theo phương pháp lọc cộng tác, ba bản tiếp theo dựa trên lọc nội dung, và ba bản cuối cùng áp dụng phương pháp kết hợp.

Hình 3.2: Các bảng và quan hệ trong cơ sở dữ liệu

Các bản nhạc gợi ý được tạo ra thông qua ba nghiệp vụ độc lập, dẫn đến khả năng trùng lặp giữa các bản nhạc gợi ý Người dùng không biết nguồn gốc của bản nhạc gợi ý, nhưng có thể nghe cả bản nhạc gợi ý lẫn bản gốc Sau khi nghe, người dùng đánh giá sự tương đồng giữa bản nhạc gợi ý và bản gốc trên thang điểm từ 1 đến 5, với 5 là rất giống và 1 là rất khác Dữ liệu đánh giá sẽ được lưu trữ trong cơ sở dữ liệu để phân tích sau này.

Hình 3.3: Trang chủ của ứng dụng

Hình 3.4: Trang gợi ý của ứng dụng

Người dùng có thể truy vấn một bản nhạc từ cơ sở dữ liệu, và hệ thống sẽ tính toán giá trị so sánh dựa trên thẻ đánh dấu và MFCC giữa bản nhạc đang nghe và các bản nhạc khác Một giá trị kết hợp cũng được xác định từ giá trị so sánh của thẻ đánh dấu và MFCC, từ đó tạo ra danh sách gợi ý cho người chơi Để đánh giá hiệu quả của hệ thống gợi ý, chương trình triển khai ba phương pháp: phương pháp 1 sử dụng gợi ý dựa trên lọc cộng tác từ thẻ đánh dấu của Last.fm, phương pháp 2 dựa vào trích chọn đặc trưng âm thanh, và phương pháp 3 kết hợp cả hai phương pháp trên Hiệu quả của cả ba phương pháp này được đánh giá thông qua ý kiến của người dùng về mức độ tương đồng giữa bản nhạc đang nghe và bản nhạc được gợi ý.

Thử nghiệm hệ thống

Để chứng minh hệ thống mang lại sự hài lòng cho người dùng, một thí nghiệm đã được thực hiện tại công ty iMicrosoft Tất cả các thành viên đều có cơ hội tham gia, truy cập vào ứng dụng Web để tìm kiếm bản nhạc trong cơ sở dữ liệu Hệ thống sẽ cung cấp 12 bản nhạc gợi ý, bao gồm 3 gợi ý từ lọc cộng tác, 3 gợi ý từ lọc theo nội dung, 3 gợi ý từ phương pháp kết hợp, và 3 gợi ý kém chất lượng cũng từ phương pháp kết hợp.

Kết quả thực nghiệm và giải thích kết quả

Hình 3.5: Kết quả đánh giá hệ thống

Phương pháp lọc cộng tác dựa trên các thẻ đánh dấu đạt điểm trung bình cao nhất với 3,6 trong bốn kết quả gợi ý Tiếp theo, phương pháp kết hợp giữa lọc cộng tác và lọc nội dung có điểm trung bình 3,3 Phương pháp gợi ý dựa trên nội dung đặc trưng âm thanh đứng ở vị trí thứ ba với điểm trung bình 2,8 Cuối cùng, các gợi ý kém nhận điểm trung bình là 1,5.

5 Điểm trung bình cho các kết quả gợi ý (thang điểm từ 1-5)

Gợi ý dựa vào thẻ đánh dấu Gợi ý dựa vào mfccGợi ý kết hợp Gợi ý tồi dựa trên phương pháp kết hợp

Bảng 3.2 trình bày chi tiết 5 ví dụ thực nghiệm, minh họa rõ khả năng của hệ thống gợi ý âm nhạc dựa trên phương pháp kết hợp Tất cả các ví dụ này đều được phát triển từ phương pháp kết hợp, cho thấy hiệu quả của nó trong việc cải thiện trải nghiệm người dùng.

Bảng 3.2 5 ví dụ rút ra từ thực nghiệm

Bản nhạc được chọn Bản nhạc gợi ý Điểm đánh giá

Những đặc điểm giống nhau

Những thẻ đánh dấu giống nhau Tênbản nhạc

Nghệ sỹ Tên bản nhạc Nghệ sỹ

Thể loại giống nhau (slow R&B), cùng khóa nhạc (Si thứ),chùmhợp âm giống nhau, âm sắc giống nhau (nhạc cụ/giọng hát) pop, r&b, sexy, soul

Mama Weer All Crazee Now

Thể loại giống nhau (hard rock), Cùng nhịp độ (138), cùng khóa (Đô thăng trưởngvà

Rê trưởng), cùng âm sắc (tiếng guitar điện) hard rock, heavy metal, hair metal, 80s

Thể loại giống nhau (pop), nhịp trống giốn nhau, âm sắc giống nhau (tiếng bass, giọng hát) pop, dance, female vocalists, sexy

Thể loại giống nhau (cool jazz), âm sắc giống nhau (nhạc cụ) jazz

Has It Adele Rolling in the

Adele, a British singer-songwriter known for her soulful pop sound, showcases the similarities in rhythm and tone across her music As a prominent female vocalist, her unique blend of soul and pop resonates with audiences, highlighting the common elements in instrumentation and vocal style that define her artistry.

Bản nhạc "Until the End of Time" của Justin Timberlake và "Twenty Foreplay" của Janet Jackson đều thuộc cùng thể loại, có khóa nhạc tương đồng và chuỗi hợp âm giống nhau, tạo nên âm sắc gần gũi.

Bản nhạc của Janet Jackson được đề xuất bởi hệ gợi ý kết hợp do có sự tương đồng với 41 bản nhạc khác, cả hai đều mang các thẻ đánh dấu như pop, r&b, sexy và soul, đồng thời sở hữu những đặc trưng âm thanh tương tự.

Sử dụng phương pháp kết hợp, người dùng có khả năng cao hơn trong việc khám phá những bản nhạc mới lạ mà chưa ai biết đến, vì phương pháp này không chỉ dựa hoàn toàn vào lọc cộng tác.

Trong Chương 3, chúng tôi đã trình bày quy trình xây dựng và hoàn thiện ứng dụng gợi ý âm nhạc, kết hợp các phương pháp từ Chương 2 Chương này cũng đề cập đến phương pháp thử nghiệm hệ thống, bao gồm cách tiếp cận và thu thập ý kiến người dùng để đánh giá hiệu suất hoạt động của hệ thống.

Kết quả đạt được và hạn chế

Dựa trên phân tích dữ liệu từ thực nghiệm, phương pháp gợi ý sử dụng lọc cộng tác với các thẻ đánh dấu để đạt kết quả đánh giá tốt nhất Điều này được hỗ trợ bởi số lượng người dùng đông đảo trên Last.fm, giúp nâng cao hiệu quả gợi ý Tuy nhiên, các thẻ gợi ý chủ yếu tập trung vào tên bản nhạc, nghệ sĩ và album, điều này có thể ảnh hưởng đến điểm số của người tham gia, vì các bản nhạc cùng nghệ sĩ thường được đánh giá tương tự nhau.

Phương pháp gợi ý âm nhạc kết hợp lọc cộng tác và lọc nội dung đã đạt được một số thành công, nhưng độ chính xác của các gợi ý vẫn còn hạn chế do tập dữ liệu chỉ gồm khoảng 500 bản nhạc với sự thiếu đa dạng Ví dụ, bản nhạc jazz, medium-swing có chủ đề giáng sinh của Ella Fitzgerald là bản duy nhất trong tập dữ liệu, trong khi chỉ khoảng 3,8% bản nhạc được gán thẻ jazz Sự thiếu hụt này dẫn đến kết quả gợi ý không chính xác.

Phương pháp kết hợp gợi ý bài hát "What Christmas Means to Me" của Hanson, thuộc thể loại pop-rock, chủ yếu vì đây là một ca khúc giáng sinh Tương tự, bài hát "Christmas Time" của Backstreet Boys cũng được gợi ý dựa trên chủ đề giáng sinh và thuộc thể loại pop-rock Bài hát "Know You Now" của Amy Winehouse, thuộc thể loại R&B, được gợi ý nhờ vào giọng hát và quãng giọng tương tự như Ella Fitzgerald Tuy nhiên, cả ba bài hát này đều khác biệt với bản nhạc được nghe về thể loại và nhịp điệu.

Để định hướng phát triển tiếp theo, tôi sẽ mở rộng tập dữ liệu bằng cách tăng cường sự đa dạng về thể loại và số lượng bản nhạc Điều này không chỉ giúp nâng cao các chỉ số đo mức độ giống nhau mà còn cải thiện độ chính xác của các bản nhạc gợi ý.

Phương pháp lọc nội dung bằng cách tự động trích chọn thuộc tính MFCC thể hiện hiệu quả tốt nhưng có độ chính xác thấp nhất trong ba phương pháp thử nghiệm, chủ yếu do chỉ xét đến tần số âm thanh Để cải thiện, hệ thống tương lai cần mở rộng thêm các đặc trưng âm nhạc khác như nhạc cụ và nhịp điệu Để phục vụ cộng đồng người dùng tốt hơn, hệ thống cần có tính năng động, tự động cập nhật cơ sở dữ liệu với các thẻ gợi ý và bản nhạc mới, đồng thời điều chỉnh chỉ số dựa trên dữ liệu mới Hơn nữa, khả năng tự động điều chỉnh gợi ý theo hành vi người dùng sẽ giúp cá nhân hóa trải nghiệm cho từng người sử dụng.

[1] C H Chuan (2013), “Audio Classification and Retrieval Using Wavelets and Gaussian Mixture Models”, Multimedia Engineering and Management, International Journal of, vol 4, issue 1

[2] H C Chen, A.L Chen (2001), “A Music Recommendation System Based on Music Data Grouping and User Interests”, Information and Knowledge Management, 10 th ACM International Conference on, pp 231-238

[3] W W Cohen, W Fan (2000), “Web-collaborative Filtering: Recommending Music by Crawling the Web”, Computer Networks, vol 33, no 1, pp 685-

[4] M.M Deza, E Deza (2009), Encyclopedia of Distances, Springer, New York, pp 94

[5] D Eck, P Lamere, T Bertin-Mahieux, S Green (2008) “Automatic Generation of Social Tags for Music Recommendation”, Advances in Neural

[6] S.A Golder, B A Huberman (2006), “Usage Patterns of Collaborative Tagging Systems”, Journal ofInformation Science, vol 32, pp 198–208

[7] J Jenson, D Ellis, M Christensen, S Jensen (2007), “Evaluation of Distance Measures between Gaussian Mixture Models of MFCCs”, 8 th International Conference on Music Information Retrieval, pp 107-108

[8] P Knees, T Pohle, M Schedl, G Widmer (2007), “A Music Search Engine Built upon Audio-based and Web-based Similarity Measures”, International

ACM SIGIR Conference on Research and Development in Information Retrieval, pp 447-454

[9] M Levy, M Sandler (2006), “Lightweight Measures for Timbral Similarity of Musical Audio”, 1 st ACM Workshop on Audio and Music Computing Multimedia

[10] M Levy, M Sandler (2009), “Music Information Retrieval Using Social Tags and Audio”, IEEE Transactions on Multimedia, vol 11, no 3, pp 383-

[11] M Mandel, D Ellis (2005), “Song-Level Features and Support Vector Machines for Music Classification”, 6 th International Conference on Music Information Retrieval, pp 594-599.

Định dạng
Số trang	53
Dung lượng	1,76 MB