ĐỒ án môn học THỰC tập cơ sở đề tài xây DỰNG ỨNG DỤNG WEBSITE TỔNG hợp và tóm tắt TIN tức

CƠ SỞ LÝ THUYẾT

Tổng quan về học máy

Học máy là một lĩnh vực con của khoa học máy tính, cho phép các hệ thống tự học hỏi từ dữ liệu mà không cần lập trình cụ thể Theo định nghĩa từ Wikipedia, học máy có khả năng cải thiện hiệu suất qua trải nghiệm, mang lại nhiều ứng dụng trong các lĩnh vực khác nhau.

Ý tưởng cơ bản của mọi quy trình học máy là xây dựng mô hình dựa trên một số thuật toán để thực hiện một nhiệm vụ cụ thể như phân loại, phân lớp, hồi quy Giai đoạn huấn luyện được thực hiện dựa trên dữ liệu đầu vào và mô hình được xây dựng để dự đoán đầu ra Kết quả đầu ra phụ thuộc vào mục tiêu ban đầu và việc thực hiện Chi tiết quy trình học máy gồm các bước như sau:

Hình 1: Sơ đồ học máá́y

Quy trinh hoc may co ban đuơc chia lam cac giai đoan sau:

Quá trình thu thập dữ liệu phụ thuộc vào loại dự án mà chúng ta muốn xây dựng Nếu chúng ta muốn phát triển một dự án học máy, việc sử dụng dữ liệu thực sẽ giúp xây dựng một hệ thống IoT từ các dữ liệu cảm biến khác nhau Dữ liệu có thể được thu thập từ nhiều nguồn khác nhau như tạp chí, cơ sở dữ liệu, và cảm biến.

Tiền xử lý dữ liệu (data pre-processing) là một giai đoạn quan trọng trong học máy, giúp xây dựng mô hình học máy chính xác Quá trình này bao gồm việc làm sạch dữ liệu thô, mà dữ liệu này thường được thu thập từ nhiều nguồn khác nhau trong thế giới thực và được chuyển thành một tập dữ liệu sạch Dữ liệu thô ban đầu có một số đặc điểm như thiếu sót, không nhất quán, và nhiều vấn đề khác, do đó cần phải được xử lý trước khi đưa vào học máy.

Mục tiêu chính của chúng tôi là xây dựng một mô hình phù hợp cho loại dữ liệu, nhằm thực hiện tốt nhất dựa trên một số thuật toán phân loại và phân lớp.

Để huấn luyện và kiểm thử mô hình trên dữ liệu, chúng ta cần chia quá trình thành ba giai đoạn chính: dữ liệu huấn luyện, dữ liệu xác nhận và dữ liệu kiểm thử Dữ liệu huấn luyện được sử dụng để phát triển mô hình, trong khi dữ liệu xác nhận giúp điều chỉnh và tối ưu hóa mô hình Cuối cùng, dữ liệu kiểm thử được áp dụng để đánh giá hiệu suất của mô hình sau khi hoàn tất quá trình huấn luyện.

Để huấn luyện bộ phân loại, ta sử dụng tập hợp dữ liệu huấn luyện (training data set) để điều chỉnh các tham số Sau đó, ta sử dụng tập hợp xác nhận (validation set) để tinh chỉnh các tham số này và cuối cùng kiểm tra hiệu suất của bộ phân loại trên tập dữ liệu kiểm thử (test data set) Một lưu ý quan trọng là trong quá trình huấn luyện, dữ liệu kiểm thử không được sử dụng để huấn luyện.

Đánh giá mô hình là một bước quan trọng trong quy trình phát triển mô hình, giúp xác định mô hình tối ưu cho dữ liệu của chúng ta Việc này không chỉ đảm bảo rằng mô hình được chọn sẽ hoạt động hiệu quả trong tương lai mà còn tối ưu hóa khả năng dự đoán và phân tích dữ liệu.

Xử lý ngôn ngữ tự nhiên (NLP) là lĩnh vực khoa học máy tính kết hợp trí tuệ nhân tạo và ngôn ngữ học tính toán, nhằm cải thiện tương tác giữa con người và máy tính Mục tiêu của NLP là giúp máy tính hiểu và bắt chước ngôn ngữ con người Các ứng dụng phổ biến hiện nay bao gồm Siri, Cortana và Google Now.

NLTK, hay Natural Language Toolkit, là một thư viện Python hỗ trợ xử lý ngôn ngữ tự nhiên, giúp việc này trở nên dễ dàng và nhanh chóng hơn Được phát triển bởi Steven Bird và Edward Loper tại Đại Học Pennsylvania vào năm 2001, NLTK cung cấp nhiều kỹ thuật như classification, tokenization, stemming, tagging, parsing và semantic reasoning Ngoài việc hỗ trợ xử lý ngôn ngữ, NLTK còn có các mô phỏng đồ hoạ và dữ liệu mẫu hữu ích, đồng thời được sử dụng trong Machine Learning để làm sạch và xử lý dữ liệu đầu vào cho các thuật toán.

Quy trình xử lý và tóm tắt văn bản

Tiền xử lý văn bản là bước quan trọng để cải thiện chất lượng dữ liệu đầu vào, bao gồm việc loại bỏ các ký tự thừa, dấu câu không cần thiết và khoảng trắng dư thừa Quá trình này cũng bao gồm việc chuyển đổi tất cả các chữ cái thành chữ thường, cũng như loại bỏ các từ viết tắt và từ không mang ý nghĩa, nhằm đảm bảo rằng văn bản được chuẩn hóa và sẵn sàng cho các bước xử lý tiếp theo.

− Táá́ch câu trong văn bản: Ở bước này, sẽ tách 1 đoạn văn bản cần tóm tắt đã qua xử lý thành 1 danh sách các câu của văn bản.

Để chuẩn bị cho phương pháp tóm tắt tiếp theo, cần chuyển đổi các câu văn có độ dài khác nhau thành các vector số thực với độ dài cố định Việc này đảm bảo rằng sự khác biệt về ý nghĩa giữa hai câu được phản ánh tương ứng với sự khác biệt giữa hai vector được tạo ra.

Tổng quan về thuật toán sử dụng tóm tắt văn bản

tích ra những cụm câu có ý nghĩa giống nhau, để từ đó chọn lọc và loại bỏ bớt các câu có cùng ý nghĩa.

Để xây dựng một đoạn văn bản tóm tắt hiệu quả, trước tiên cần phân loại các cụm ý nghĩa Sau đó, từ mỗi cụm, chọn ra một câu duy nhất để tạo thành nội dung tóm tắt, đảm bảo truyền đạt đầy đủ ý nghĩa chính.

1.5 Tổng quan về thuật toáá́n sử dụng tóm tắt văn bản

Kmeans là một thuật toán học máy không giám sát, thuộc lĩnh vực phân cụm Thuật toán này nhận đầu vào là các điểm dữ liệu và phân chia chúng thành các cụm, trong đó các điểm cùng cụm có mối quan hệ chặt chẽ hơn so với các điểm thuộc cụm khác.

Thuật toán Kmeans yêu cầu người dùng cung cấp số lượng cụm cần phân nhóm Kmeans áp dụng khoảng cách Euclid để đo lường sự tương đồng giữa các điểm dữ liệu; hai điểm càng gần nhau thì mức độ tương đồng càng cao.

Kmeans là một thuật toán phổ biến trong Machine Learning, hoạt động bằng cách tính tổng khoảng cách từ một điểm đến tâm cụm tương ứng và tối ưu hóa dựa trên thuật toán lặp Với cách tiếp cận đơn giản và dễ triển khai, Kmeans mang lại kết quả tốt cho nhiều bài toán khác nhau.

1.5.1.2 Ý tưởng áp dụng thuật toán

Sau khi xử lý và chuẩn hóa dữ liệu đầu vào, việc xác định số lượng cụm là một thách thức Để đạt được hiệu quả tối ưu cho bài báo, hệ thống đã chọn sử dụng 5 cụm Kết quả là bài báo được tóm tắt với độ dài 5 câu, đảm bảo nội dung cô đọng và dễ hiểu.

Bước 1: Khởi tạo 5 điểm dữ liệu trong bộ dữ liệu và tạm thời coi nó là tâm của các cụm dữ liệu của chúng ta.

Bước 2: Với mỗi điểm dữ liệu trong bộ dữ liệu, tâm cụm của nó sẽ được xác định là 1 trong 5 tâm cụm gần nó nhất.

Bước 3: Sau khi tất cả các điểm dữ liệu đã được xác định tâm, hãy tính toán lại vị trí của tâm cụm để đảm bảo rằng nó nằm ở trung tâm của cụm.

Bước 4: Tiến hành lặp lại bước 2 và bước 3 cho đến khi vị trí của tâm cụm ổn định, tức là tâm của tất cả các điểm dữ liệu không còn thay đổi.

1.5.2 Thuật toán LSA (Latent Semantic Analysis)

LSA, hay Phân tích Tư duy Từ vựng, là một trong những kỹ thuật Xử lý Ngôn ngữ Tự nhiên (NLP) phổ biến, nhằm xác định các chủ đề trong văn bản thông qua phân tích toán học các thành phần của nó Kỹ thuật này thuộc loại học tập không giám sát và dựa trên hai yếu tố chính.

- Giả thuyết phân bố cho rằng các từ có nghĩa giống nhau thường xuyên xuất hiện cùng nhau.

- Phân rã giá trị đơn lẻ.

LSA (Latent Semantic Analysis) là một phương pháp phân tích ngữ nghĩa, trong đó các từ trong văn bản được tái tạo thành nhiều phần khác nhau, mỗi phần thể hiện cách diễn đạt khác nhau nhưng vẫn giữ nguyên ý nghĩa Ví dụ, câu “Hôm nay tôi không khoẻ!” có thể được diễn đạt bằng nhiều cách tương tự như “Hôm nay tôi cảm thấy mệt!” Thuật toán LSA phân chia các từ trong văn bản thành một bảng, phản ánh những ý nghĩa tiềm ẩn của chúng trong văn bản gốc.

1.5.2.2 Ý tưởng áp dụng thuật toán

LSA (Latent Semantic Analysis) là một thuật toán thuộc mô hình chủ đề, chuyên phân loại topic bằng cách phân tích suy biến ma trận văn bản đầu vào (A) Thuật toán này xác định không gian tuyến tính con của A, giữ lại hầu hết biến động của ma trận Cụ thể, LSA sử dụng kỹ thuật phân tích giá trị riêng (SVD - Singular Value Decomposition) để giảm kích thước ma trận thuật ngữ-tài liệu từ không gian N chiều xuống không gian K chiều, với K nhỏ hơn N, tạo ra không gian khái niệm mới.

Giả sử ma trận A biểu diễn mối quan hệ giữa tài liệu và từ khóa, với kích thước m×n Phân tích suy biến sẽ chuyển đổi ma trận A thành tích của ma trận suy biến trái U, ma trận đường chéo S và ma trận suy biến phải V, theo công thức đã được xác định.

Hình 3: Sơ đồ công thức LSA

Mỗi dòng của U sẽ biểu diễn phân phối của văn bản và mỗi dòng của V là phân phối của mỗi từ theo t topics ẩn.

- Các cột của U và V đại diện cho các topics.

Để xác định sự tương đồng giữa hai văn bản hoặc hai từ, chúng ta cần tính toán độ tương quan giữa các véc tơ dòng tương ứng trong ma trận U hoặc các véc tơ dòng tương ứng với từ trong ma trận V.

Phép phân tích này giảm được khá nhiều chiều đối với trường hợp bộ văn bản lớn Tuy nhiên nó vẫn tồn tại những nhược điểm đó là:

- Các tính toán hoàn toàn dựa trên phân tích ma trận.

- Các topic được xác định dựa trên các phép chiếu tuyến tính nên mối quan hệ giữa topic- document và topic-term là tuyến tính.

- Chi phí tính toán của mô hình rất tốn kém nếu kích thước dữ liệu lớn

TextRank là một thuật toán được phát triển dựa trên PageRank, nhằm xếp hạng các trang web của Google Thuật toán này gán giá trị cho từng thành phần trong một tập hợp văn bản liên kết, như trên World Wide Web, để đo lường tầm quan trọng tương đối của các liên kết TextRank có thể áp dụng cho bất kỳ tập hợp văn bản nào có trích dẫn và liên kết cụ thể, với giá trị mà nó gán cho thành phần E được gọi là PageRank của E, ký hiệu là PR(E).

Hình 4: Sơ đồ đáá́nh giáá́ giáá́ trị của thuật toáá́n PageRank

Giá trị PageRank được hình thành từ một thuật toán toán học dựa trên webgraph, trong đó các trang web được coi là các đỉnh và các đường link là các cạnh Thuật toán này xem xét các trang của các cơ quan có thẩm quyền như cnn.com và usa.gov để xác định giá trị xếp hạng, phản ánh tầm quan trọng của từng trang cụ thể Mỗi đường link trỏ tới trang web được coi là một sự hỗ trợ, góp phần làm tăng giá trị PageRank của trang đó.

Giá trị PageRank của một trang web được xác định theo cách đệ quy và phụ thuộc vào số lượng cũng như chất lượng của các trang có liên kết đến trang đó Cụ thể, nếu một trang nhận được nhiều liên kết từ các trang có PageRank cao, giá trị PageRank của nó cũng sẽ tăng theo Nhiều bài viết đã được công bố dựa trên nghiên cứu gốc của Page và Brin về hệ thống này.

Hình 5: Quy trình xử lý của TextRank

THIẾT KẾ VÀ XÂY DỰNG HỆ THỐNG

Phân tích hệ thống

2.1.1 Biểu đồ phân rã chức năng

Hệ thống tổng hợp & tóm tắt thông tin

Quản lý hệ thống Xử lý dữ liệu

Thay đổi thông Cập nhật thông Xoá & Sửa nội Cập nhật Thu thập dữ

Xử lý dữ liệu Tạo nội dung bài tin tin dung bài viết thành viên liệu viết

Hệ thống được chia thành hai phân vùng chính: quản lý hệ thống và xử lý dữ liệu Phân vùng quản lý hệ thống cho phép admin có quyền thay đổi, cập nhật, và xoá nội dung bài viết cũng như quản lý thành viên Các bài viết được xử lý tự động và lưu trữ trong cơ sở dữ liệu thông qua hệ thống xử lý dữ liệu Trong trường hợp cần đính chính, admin sẽ sử dụng quyền cập nhật bài viết Phân vùng xử lý dữ liệu thu thập bài viết từ nhiều nguồn báo khác nhau, sau đó phân tích và xử lý để tạo ra các bài viết tóm tắt bằng các thuật toán đã được đề xuất Quy trình này giúp giảm tải công việc cho người dùng và đảm bảo tính sẵn sàng của ứng dụng.

2.1.2 Biểu đồ Use Case tổng quát

Hình 7: Biểu đồ Use Case tổng quáá́t

Hệ thống website được xây dựng với ba loại người dùng: Quản trị viên, Người dùng và Khách Quản trị viên có quyền truy cập và thực thi tất cả các tính năng trong hệ thống Trong khi đó, Người dùng và Khách có Use Case tương tự, nhưng khi Khách đăng ký tài khoản, họ trở thành Người dùng và được hưởng các tính năng nâng cao hơn so với những tính năng cơ bản dành cho Khách.

2.1.3 Xác định actor và chức năng

1) Xáá́c định Actor và chức năng

STT Tác nhân Mô tả tác Chức năng nhân

1 Guest Là đối tượng Đăng kí, tìm kiếm bài viết, xem chưa có tài thông tin trang web. khoản trong hệ thống.

2 Amin là người hỗ trợ quản lý đăng nhập, tìm kiếm và quản lý người dùng Họ cũng giúp quản lý bình luận và đánh giá, đồng thời theo dõi các bài viết Ngoài ra, 2 Amin có khả năng thêm, xóa và sửa đổi thông tin trong hệ thống của website.

3 User Là đối tượng Đăng nhập, tìm kiếm bài viết, xem đã có tài thông tin trên website, bình luận về khoản trong bài viết. hệ thống

2.1.4 Biểu đồ Use case chi tiết

Hình 8: Biểu đồ UC User

Với mỗi Người dùng (User), thì đều có thể sử dụng các Use Case như đăng nhập, đăng xuất, quản lý thông tin cá nhân, và xem tin tức.

Hình 9: Biểu đồ UC Guest

Với người dùng là Khách (Guest), họ chỉ có thể sử dụng tính năng cơ bản là xem tin và đăng ký tài khoản trên website.

2.1.4.3 Biểu đồ UC quản lý tin tức

Hình 10: Biểu đồ UC quản lý tin tức

Chỉ có người dùng là Quản trị viên (Admin) mới có quyền quản lý bài viết nhằm việc thêm, sửa, xoá các bài viết đó, tuỳ theo trường hợp.

2.1.4.4 Biểu đồ UC quản lý User

Hình 11: Biểu đồ UC quản lý User

Chỉ có Quản trị viên (Admin) mới có quyền thay đổi thông tin người dùng trong cơ sở dữ liệu, nhằm bảo vệ tính toàn vẹn, sự sẵn sàng và bảo mật của hệ thống, đồng thời ngăn chặn lạm quyền.

2.1.5 Đặc tả các ca sử dụng

2) Use Case đăng ký của Guest

Brief Description Ngươi dung chưa co tai khoan muôn đăng ky

Pre-conditions Chưa co tai khoan

Basic Flows 1 Ngươi dung chon đăng ky tai khoan

2 Hê ̣thông hiên thi from đăng ki

3 Điên đây đu thông tin vao form Alternative Flows Nêu ngươi dung điên sai, thiêu thông tin hê ̣ thông se bao lôi va gưi lai form đăng ky

Post-conditions Nêu thưc hiêṇ đăng ky thanh công ngươi dung có tài khoản trong hê ̣thông website Special Requiements Chưa tồn tại username trên hệ thống

Brief Description Ngươi dung co tai khoan muôn đăng nhập

Basic Flows 1 Ngươi dung chon đăng nhập tai khoan

2 Hê ̣thông hiên thi from đăng nhập

3 Điên đây đu thông tin vao form Alternative Flows Nêu ngươi dung điên sai, thiêu thông tin hê ̣ thông se bao lôi va gưi lai form đăng nhập

Post-conditions Nêu thưc hiêṇ đăng nhập thanh công ngươi dung co thê đăng nhâp ̣ vao hê ̣thông website

Special Requiements Tồn tại người dùng

14 a) Use Case quên mâṭkhẩu

Use Case Quên mâṭkhâu

Brief Desecription Khi ngươi dung quên mâṭkhâu va muôn reset lai mâṭkhâu

Basic Flows Ngươi dung đa nhâp ̣ lai mâṭkhâu nhiêu lân không chinh xac

1 Chon muc “quên mâṭkhâu”

2 Hê ̣thông se hiên thi 1 form như sau + Tai khoan

3 Ngươi dung nhâp ̣ đung thông tin thi hê ̣ thông se gưi lai mâṭkhâu mơi qua sô điêṇ thoai.

Alternative Flows Nêu nhâp ̣ sai thông tin hê ̣thông se không thê gưi lai mâṭkhâu cho khach hang

Post-conditions Khach hang sư dung mâṭkhâu mơi

Brief Description Người sử dụng muốn thoát khỏi phiên làm việc

Basic Flows 1 Ngươi dung chon Đăng xuất

2 Hê ̣thông hiên thi yêu cầu đăng xuất

3 Người dùng đồng ý đăng xuất Alternative Flows Nêu ngươi dung không đồng ý, hê ̣thông se tiếp tục phiên làm việc.

Post-conditions Nêu thưc hiêṇ đăng xuất thanh công ngươi dung kết thúc phiên làm việc của mình.Special Requiements

5) Use Case quản lý thông tin

Use Case Quản lý thông tin

Brief Description Ngươi dung đã co tai khoan và muôn thay đổi thông tin.

Basic Flows 1 Ngươi dung chon Quản lý thông tin

2 Hê ̣thông hiên thi Menu Alternative Flows

Post-conditions Nêu thưc hiêṇ thay đổi thanh công ngươi dung co thê cập nhật thông tin mới vao hê ̣ thông.

Special Requiements Tồn tại thông tin trên hệ thống a) Use Case thay đổi mật khẩẩ̉u

Use Case Thay đổi mật khẩu

Brief Description Người dùng muốn thay đổi mật khẩu

Basic Flows 1 Ngươi dung chon thay đổi mật khẩu

2 Hê ̣thông hiên thi from thay đổi

3 Điên đây đu thông tin vao form Alternative Flows Nêu ngươi dung điên sai, thiêu thông tin hê ̣ thông se bao lôi va gưi lai form thay đổi

Sau khi thực hiện thay đổi, người dùng có thể đăng nhập vào hệ thống bằng mật khẩu mới Hệ thống sẽ cập nhật mật khẩu mới cho người dùng một cách thành công.

Special Requiements Tồn tại thông tin trên hệ thống b) Use Case thay đổi thông tin cáá́ nhân

Thay đổi thông tin cá nhânUser

Brief Description Người dùng có thông tin cá nhân cần thay đổi

Basic Flows 1 Ngươi dung chon thay đổi thông tin

2 Hê ̣thông hiên thi from thay đổi

3 Điên đây đu thông tin vao form Alternative Flows Nêu ngươi dung điên sai, thiêu thông tin hê ̣ thông se bao lôi va gưi lai form thay đổi

Post-conditions Nêu thưc hiêṇ thanh công, hệ thống sẽ cập nhật thông tin mới của người dùng Special Requiements Tồn tại thông tin trên hệ thống

6) Use Case xem tin tức

Use Case Xem tin tức

Brief Description Người dùng xem tin trên trang web

Basic Flows 1 Ngươi dung chon vào các mục bài viết

2 Hê ̣thông hiên thi bài viết

Post-conditions Người dùng sẽ xem được các bài viết

Special Requiements a) Use Case tìm kiếm

Brief Description Ngươi dung tim kiêm thông tin bài viết theo tiêu đề và các nhãn bài viết Pre-conditions

Người dùng nhập thông tin vào ô tìm kiếm và bấm nút tìm kiếm, hệ thống sẽ truy vấn cơ sở dữ liệu và hiển thị kết quả tìm kiếm Hệ thống cũng cho phép người dùng chỉ định tìm kiếm lại hoặc hủy thao tác tìm kiếm.

Post-conditions Nêu tim kiêm thanh công thi bài viết se đươc hiên thi

Special Requiements Không co b) Use Case bình luận

Brief Description Ngươi dung bình luận vào bài viết.

Basic Flows 1 Hê ̣thông se hiên thi 1 form để nhập nội dung bình luận

2 Ngươi dung nhâp ̣ thông tin trên form va bâm nut submit, hê ̣thông se lưu vào database các bình luận

Post-conditions Mỗi khi truy cập bài viết có bình luận, thì các bình luận sẽ được hiện thị Special Requiements

7) Use Case quản lý User

Use Case Quản lý User

Brief Description Admin quản lý các thông tin

Basic Flows 1 Admin chọn phần quản lý User

2 Hệ thống hiện thị menu Alternative Flows

Post-conditions Menu quản lý được hiển thị

Special Requiements Là tài khoản Admin a) Use Case reset mật khẩẩ̉u

Use Case Reset mật khẩu

Brief Description Admin reset mật khẩu cho User bị quên

Basic Flows 1 Admin chọn reset

Post-conditions User được reset về mật khẩu mặặ̆c định

Special Requiements Là tài khoản Admin

8) Use Case quản lý tài khoản

Use Case Quản lý tài khoản

Brief Description Admin quản lý các tài khoản trong cơ sở dữ liệu

Basic Flows 1 Admin chọn quản lý tài khoản

2 Admin chọn xoá tài khoản Alternative Flows

Post-conditions Khi tài khoản bị xoá, người dùng đó không thể đăng nhập được vào hệ thống

Special Requiements Là tài khoản Admin

9) Use Case quản lý bài viết

Use Case Quản lý bài viết

Brief Description Admin quản lý các bài viết trong cơ sở dữ liệu

Basic Flows 1 Admin chọn quản lý bài viết

2 Admin chọn bài viết cần thay đổi Alternative Flows

Post-conditions Các thông tin của bài viết và các hành động đối với bài viết được hiện thị

Special Requiements Là tài khoản Admin a) Use Case sưa thông tin bài viết

Use Case Sưa thông tin bài viết

Pre-conditions Admin co thê sưa thông tin bài viết

Basic Flows 1 Sau khi chon muc “Thông tin bài viết”

2 Chon biêu tương hinh “but chi” đê sưa

Thiết kế giao diện người dùng

Special requiements b) Use Case xoa bài viết

10) Use Case quản lý bình luận

2.2 Thiết kế giao diện ngườờ̀i dùng

Giao diện người dùng đóng vai trò quan trọng trong việc giúp người dùng tiếp cận và sử dụng kết quả từ mô hình Chúng tôi đã phát triển môi trường web dựa trên nền tảng PHP với Framework Laravel, mang lại giao diện tối ưu cho việc giao tiếp giữa Front-end và Back-end Điều này cũng giúp đội ngũ quản lý dễ dàng hơn trong việc kiểm duyệt và quản lý nội dung.

Xây dựng Use Case tổng quát và chi tiết cho từng đối tượng người dùng là rất quan trọng, nhằm đảm bảo các chức năng cơ bản và cho phép người dùng thực hiện thao tác một cách dễ dàng.

- Chức năng cơ bản cho người dùng: Xem và tìm kiếm các bài báo.

- Chức năng cơ bản cho người quản trị: Xem, sửa và xoá các bài báo.

Với mô hình Client – Server và theo thiết kế hệ thống như trên, website có

− Khách đã đăng ký tài khoản: Người dùng (User)

− Khách chưa đăng ký tài khoản: Khách (Guest)

− Người quản trị cấp cao nhất: Quản trị viên (Amin)

Nội dung sau khi xử lý sẽ được phân loại và trình bày trên trang web dựa trên các thẻ đã được gán trước đó, giúp các bài báo được sắp xếp vào các chỉ mục cụ thể đã được xác định.

Các bài viết sẽ được trình bày ngắn gọn có cấu trúc gồm:

− Tiêu đề (đính kèm là link bài gốc)

− Ảnh đại diện cho bài viết

− Nội dung bài viết (5 câu từ bài viết gốc)

− Thanh chức năng text to speech

2.2.4 Cấu trúc website thử nghiệm

2.2.4.2 Trang tin tức theo nhãn

Hình 13: Trang hiển thị thông tin theo nhãn

Hình 14: Trang thông tin chi tiết

2.3 Thiết kế hệ thống thu thập tin tức

Hình 15: Mô hình hệ thống thu thập thông tin

Hệ thống này đóng vai trò quan trọng trong việc đảm bảo hoạt động tự động và mượt mà cho hệ thống chính Để đáp ứng yêu cầu của một trang báo hoặc thông tin trực tuyến, thông tin đầu vào cần có độ chính xác, chất lượng và độ tin cậy cao Sau khi thu thập, thông tin này sẽ đạt đủ tiêu chuẩn để hệ thống tóm tắt có thể sử dụng hiệu quả.

Các nội dung được lấy từ các nguồn chính thống như: tuoitre.vn; VnExpress.vn; Vietnamnet.vn; laodong.vn; dantri.com.vn

2.3.1.1 Phân tích dữ liệu từ website:

Các nội dung của báo điện tử thường sẽ có cấu trúc như sau:

Mô tả bài báo Ảnh đại diện của bài báo Nội dung bài báo

Vì cấu trúc các báo tương tự nhau, việc thu thập thông tin diễn ra nhanh chóng và dễ dàng Tuy nhiên, điều này cũng dẫn đến lượng thông tin lớn, yêu cầu phải đảm bảo nội dung không bị trùng lặp.

Hình 16: Hình ảnh từ báá́o Tuổi trẻ

Hình 17: Hình ảnh từ báá́o VnExpress

2.3.1.2 Bóc tách dữ liệu từ mã nguồn của web: a) Xác định thành phần cần thu thập

- Ảnh đại diện của bài viết

- Nội dung bài viết b)Phân tích và bóc tách dữ liệu từ mã nguồn

Mỗi trang web có cấu trúc mã nguồn khác nhau dựa trên các thành phần đã liệt kê Trong tài liệu này, chúng tôi sẽ tập trung vào việc phân tích và bóc tách dữ liệu từ mã nguồn của trang tuoitre.vn, đặc biệt là liên kết bài viết.

Các bài viết sẽ được hiển thị trên trang chủ và các trang con với tiêu đề kèm theo liên kết bài viết sử dụng thẻ và thuộc tính href chứa đường dẫn đến bài viết Để thực hiện điều này, bạn cần sử dụng thư viện bs4 và requests của Python để xử lý các bước cần thiết.

- Bước 1: Gửi một request với tham số là link trang chủ

- Bước 2: Lấy nội dung mã nguồn của request bằng phương thức content của thư viện request.

- Bước 3: Sử dụng thư viện bs4 để định dạng lại cho nội dung mã nguồn lấy được từ request.

- Bước 4: Sử dụng phương thức findAll() của thư viện bs4 để có thể tìm kiếm được tất cả các thẻ

chứa link trỏ đến bài viết.

- Bước 5: Sử dụng phương thức find() của thư viện bs4 để tìm tất các link trỏ đến bài viết nằm trong thẻ .

# Nạp thư viện from bs4 import BeautifulSoup import requests

# Gửi request cho trang https://tuoitre.vn news = requests.get(‘https://tuoitre.vn’)

# Định dạng lại mã nguồn lấy được từ request soup = BeautifulSoup(news.content, "html.parser")

# Tìm tất cả các thẻ chứa tiêu đề titles = soup.findAll('h2', class_='title-name')

To extract all tags and obtain the href attributes that link to articles, use the following code: `links = [link.find('a').attrs["href"] for link in titles]` This method effectively retrieves the necessary links for further processing.

Các bài viết đều tuân theo một mẫu cố định, giúp xác định các thẻ chứa tiêu đề, thời gian đăng, mô tả, ảnh đại diện và nội dung bài viết Thư viện bs4 được sử dụng để tách các thành phần này từ mã nguồn và chuyển đổi chúng thành văn bản thuần để dễ dàng xử lý.

# Lấy tiêu đề bài viết title = soup.find("h1", class_="article-title").text

# Lấy ngày đăng bài viết date = soup.find("div", class_="date-time").text

# Lấy mô tả bài viết abstract = soup.find("h2", class_="sapo").text

# Lấy nội dung bài viết body = soup.find("div", id="main-detail-body").text

# Lấy ảnh đại diện bài viết image = body.img['src']

2.3.2 Bóc tách & Lọc dữ liệu về dạng chuẩn

Văn bản đầu vào thường có nhiều ký tự, dấu câu và khoảng trắng thừa, cùng với các từ viết tắt và chữ hoa, điều này có thể ảnh hưởng đến các bước xử lý sau Do đó, cần thiết phải chuẩn hóa văn bản bằng cách chuyển đổi tất cả chữ cái thành chữ thường và loại bỏ các khoảng trắng thừa.

Văn bản sẽ được tách ra từ các thẻ HTML nhờ thư viện bs4, giúp loại bỏ các thành phần dư thừa như tên thẻ và các yếu tố khác trong file HTML Kết quả là ta có được một văn bản nội dung bài báo hoàn chỉnh và rõ ràng.

2.2.1.2 Lọc dữ liệu về dạng chuẩn

Văn bản sẽ được làm sạch bằng cách loại bỏ các ký tự đặc biệt, ký tự xuống dòng và những ký tự không có ý nghĩa Quá trình này giúp văn bản giữ nguyên nội dung ban đầu mà không thay đổi nhiều Sau khi loại bỏ những ký tự không cần thiết, chúng ta sẽ tiến hành xử lý văn bản ở phần tiếp theo.

Thiết kế hệ thống xử lý và tóm tắt tin tức

Hình 18: Hệ thống xử lý và tóm tắt tin tức

Hệ thống sẽ khai thác dữ liệu từ hệ thống thu thập thông tin để làm nguồn đầu vào cho quá trình xử lý Quy trình xử lý sẽ được thực hiện theo các bước đã được xác định.

2.4.1 Tách câu trong văn bản Ở giai đoạn này, sử dụng thư viện NLTK đã giới thiệu ở trên để tách các câu trong văn bản ra với độ chính xác cao Hiện tại, nhóm đã sử dụng thêm thư viện Underthesea của tác giả việc cho việc tách câu, nhưng chưa đem lại hiệu quả cao trong vấn đề tách chiết câu dẫn đến kết quả thu được có thể sẽ có sai khác và nhiều rủi ro cho văn bản ở bước rút gọn Với mỗi câu tách được từ văn bản, nó sẽ được lưu lại trong một mảng và chờ được xử lý ở phần sau.

Mỗi câu được cấu thành từ các từ, và ý nghĩa của những từ này phụ thuộc vào ngữ cảnh Trong mô hình đồ án này, sản phẩm được xây dựng dựa trên các nghiên cứu và dữ liệu huấn luyện đã được cộng đồng đóng góp.

28 liệu huấn luyện đã được phát triển từ nội dung của các bài báo, giúp nhận diện ngữ nghĩa và đánh giá chính xác giá trị từ trong câu một cách khách quan.

2.4.3 Sử dụng kỹ thuật chuyển từ thành vector số thực Để phục vụ cho phương pháp tóm tắt ở bước tiếp theo, cần chuyển các câu văn (độ dài ngắn khác nhau) thành các vector số thực có độ dài cố định, sao cho vẫn phải đảm bảo được

Sự khác biệt về ý nghĩa giữa hai câu tương tự như độ sai khác giữa hai vector Mỗi đoạn văn mang một ngữ cảnh riêng, phụ thuộc vào đối tượng được đề cập Bằng cách chuyển đổi từ ngữ thành vector và tính tổng các vector, máy tính có thể hiểu tổng quan nội dung của bài viết từ dạng trừu tượng thành dạng số học Điều này cũng hỗ trợ cho các thuật toán tóm tắt văn bản trong dự án này hoạt động hiệu quả.

2.4.4 Xây dựng đoạn văn bản tóm tắt

Bằng cách áp dụng ba thuật toán để xử lý văn bản, chúng ta có thể thu được các đoạn văn có nội dung tương đồng Tuy nhiên, cần xác định mức độ giống nhau so với văn bản gốc để quyết định nội dung nào sẽ được sử dụng từ thuật toán tương ứng.

Việc này giúp lọc và loại bỏ các bài viết trùng lặp trên các trang khác nhau, từ đó tiết kiệm tài nguyên hệ thống và nâng cao hiệu quả xử lý nội dung.

Trong đồ án này, chúng tôi áp dụng thuật toán so sánh dựa vào độ tương đồng Cosine để phân tích các bài báo có nội dung nhỏ và không quá phức tạp Thuật toán này đo lường độ tương đồng giữa hai vector bằng cách tính cosine của góc giữa chúng, giúp xác định liệu hai văn bản có hướng đi tương tự hay không Chỉ số này sẽ cho biết mức độ sai khác giữa hai văn bản, từ đó cho phép lựa chọn văn bản tóm tắt phù hợp nhất cho người dùng Bên cạnh đó, các nguồn báo có nội dung tương đồng sẽ được loại bỏ để tránh trùng lặp Trong thực tế, nhiều bài báo có nội dung gần như giống nhau, vì vậy việc áp dụng phương pháp này là cần thiết để đảm bảo tính độc đáo của thông tin.

Trong quá trình hoạt động, đã phát hiện ra rằng nhiều bài báo có nội dung tương tự từ các nguồn khác nhau Các bài báo này sẽ được phân tích và tính toán để cung cấp số liệu, từ đó cho phép kiểm tra độ chính xác của việc so sánh.

Hình 20: Cáá́c bài báá́o có nội dung giống nhau từ nhiều nguồn kháá́c nhau

Sau khi loại bỏ thông tin trùng lặp, hệ thống sẽ tiến hành xử lý các dữ liệu còn lại Dưới đây là một số ví dụ về các bài báo được trích xuất từ các nguồn và được tóm tắt bởi hệ thống.

Hình 21: Bài báá́o trước khi xử lý

Hình 22: Bài báá́o được thu thập thông tin

Mỗi văn bản đầu vào khác nhau sẽ được rút gọn xuống còn 5 câu theo ba thuật toán K-mean clustering, LSA và TextRank Kết quả cho thấy, chỉ số rút gọn của văn bản sẽ khác nhau tùy thuộc vào từng thuật toán và văn bản cụ thể Cuối cùng, văn bản được chọn sẽ là văn bản có chỉ số cao nhất.

Cuối cùng, sau khi hoàn tất quá trình xử lý văn bản, tất cả thông tin liên quan sẽ được lưu trữ trong cơ sở dữ liệu, đảm bảo cung cấp dữ liệu cần thiết cho hoạt động của website.

Xây dựng hệ thống

Sau khi hoàn thiện thiết kế dựa trên các phân tích và lý thuyết, các hệ thống nhỏ được phát triển theo dạng modul Phương pháp này giúp việc nâng cấp, bảo trì và sửa chữa hệ thống trở nên dễ dàng hơn, đồng thời cho phép các modul hoạt động và triển khai độc lập với nhau.

2.5.1 Hệ thống giao diện sử dụng cho người dùng

Các thành phần cơ bản của website đã được phát triển hoàn thiện, đáp ứng các Use Case trong phân tích và thiết kế hệ thống Hệ thống được xây dựng dựa trên Framework Laravel, với nhiều tính năng đã được hoàn thiện và sẵn sàng sử dụng.

Các bài viết sẽ được sắp xếp theo thứ tự thời gian, với những bài mới nhất hiển thị ở trang chủ Ngoài ra, các bài viết cũng được phân loại theo các danh mục, giúp người dùng dễ dàng tìm kiếm nội dung phù hợp với sở thích của mình.

Hình 24: Trang hiển thị thông tin theo nhãn

Mỗi bài báo được gán nhãn phù hợp, giúp người dùng dễ dàng lựa chọn và tìm kiếm những nội dung phù hợp với sở thích của mình.

Hình 25: Trang bài viết website

Khi người dùng nhấp vào một liên kết bài viết, nội dung bài báo sẽ được hiển thị cùng với phiên bản báo nói, cho phép người dùng lựa chọn tốc độ đọc phù hợp.

Hình 26: Bình luận của ngườờ̀i dùng

Người dùng có thể để lại bình luận và đánh giá dưới mỗi bài viết, giúp website thu thập ý kiến đóng góp để phát triển và cải thiện trong tương lai.

Người dùng có thể truy cập dịch vụ cơ bản để xem và tìm kiếm thông tin Để bình luận hoặc nhận xét, người dùng cần đăng ký tài khoản trên website Ngoài ra, các User và Admin có thể đăng nhập theo từng nhóm đối tượng phù hợp Đặc biệt, Admin chỉ được phép đăng nhập từ máy localhost nhằm bảo vệ hệ thống khỏi các cuộc tấn công.

Hình 29: Trang chủ cho Admin

Hình 30: Trang quản lý của Admin

Hình 31: Trang quản lý ngườờ̀i dùng của Admin

Trang quản trị cung cấp các chức năng cho phép người dùng chỉnh sửa và xóa thông tin trên hệ thống, bao gồm bài viết và thông tin người dùng.

Hình 32: Tính năng tìm kiếm bài viết

Tính năng tìm kiếm bài viết cho phép người dùng lọc tất cả các giá trị từ tiêu đề và nội dung bài viết, giúp họ dễ dàng tìm thấy thông tin mà mình quan tâm.

Hình 33: Trang quản lý thông tin của ngườờ̀i dùng

Trang quản lý thông tin người dùng cho phép người dùng thay đổi các trường thông tin trong hồ sơ cá nhân của bản thân.

2.5.2 Hệ thống thu thập thông tin

Hệ thống thu thập thông tin hoạt động dựa trên việc cào dữ liệu, với nhiệm vụ thu thập thông tin định kỳ sau mỗi 10 phút Điều này giúp đảm bảo tính kịp thời và độ chính xác của nguồn tin.

Dưới đây là một số hình ảnh về hệ thống:

Hình 34: Hệ thống được khởi chạy

Hệ thống hiện tại chưa có giao diện người dùng (UI) và yêu cầu sử dụng dòng lệnh để khởi động Nó sẽ ghi lại nhật ký các phiên làm việc, bao gồm thời gian khởi chạy và kết thúc tiến trình, cùng với các ngoại lệ đã được loại bỏ Điều này giúp giám sát viên dễ dàng theo dõi và sửa chữa các lỗi có thể xảy ra.

Hình 35: File log trong quáá́ trình hoạt động 1

Hình 36: File log trong quáá́ trình hoạt động 2

Sau khi xảy ra các lỗi trong tiến trình, hệ thống sẽ tự động thu thập và ghi lại thông tin vào file log Điều này giúp người vận hành dễ dàng theo dõi và xử lý các ngoại lệ phát sinh trong quá trình vận hành.

Hình 37: File dữ liệu sau khi xử lý xong

2.5.3 Hệ thống tóm tắt văn bản

Hệ thống thu thập thông tin sẽ gửi dữ liệu bài báo dưới dạng tệp tin CSV, trong khi hệ thống tóm tắt văn bản sẽ đọc và chiết tách nội dung bài báo từ văn bản đó.

Các thông tin sẽ được chia thành các modul nhỏ hơn để tóm tắt văn bản Sau khi hoàn thành, các đoạn văn tóm tắt sẽ được đưa vào các trường đã được tạo sẵn trong tệp tin CSV trước đó Hình ảnh minh họa hoạt động của hệ thống cũng sẽ được cung cấp.

Hình 38: Log được ghi lại trên console

Các log này đóng vai trò quan trọng trong việc theo dõi hoạt động của hệ thống, giúp phát hiện và khắc phục lỗi một cách nhanh chóng, đảm bảo hệ thống luôn hoạt động ổn định.

Một số hình ảnh thực tế các bài báo sau khi xử lý

Sau một thời gian hoạt động, hệ thống đã khắc phục và sửa chữa các lỗi cơ bản Hệ thống cũng đã được thử nghiệm cho các thành viên trong nhóm nhằm đánh giá kết quả thực nghiệm, từ đó nhóm đã rút ra được một số kết luận quan trọng.

3.1 Kết quả chạy hệ thống giao diện ngườờ̀i dùng

Hệ thống có thể chạy 24/7 với các thông tin được cập nhật kịp thời, các trường hợp ngoại lệ sau khi đọc log đã được chỉnh sửa.

Xử lý trên giao diện người dùng cơ bản đạt được các mục tiêu đề ra, cho phép người dùng dễ dàng tương tác với hệ thống Các dạng người dùng được xác định trong quá trình thiết kế có thể sử dụng hệ thống một cách thuận tiện, với các thao tác đơn giản, giúp người sử dụng nhanh chóng làm quen và sử dụng hiệu quả.

3.1.2 Hệ thống Thu thập thông tin

Hệ thống có khả năng thu thập và lọc thông tin hiệu quả, giúp tóm tắt văn bản một cách chính xác và nhanh chóng Việc lọc trùng thông tin từ các nguồn báo khác nhau đảm bảo rằng người dùng không phải đọc lại những nội dung lặp lại, tiết kiệm thời gian và nâng cao trải nghiệm sử dụng.

3.1.3 Hệ thống Tóm tắt văn bản

Hệ thống cung cấp các bản tóm tắt với độ chính xác từ 70% đến 90%, tùy thuộc vào độ dài văn bản gốc, đảm bảo giữ lại nội dung chính của văn bản Ngoài ra, việc xử lý văn bản thành giọng nói thông qua API của Zalo mang lại kết quả ổn định, ít lỗi và giọng nói dễ nghe, giúp người dùng tiết kiệm thời gian đọc.

KẾT QUẢ THỰC NGHIỆM

Tiêu đề	Xây Dựng Ứng Dụng Website Tổng Hợp Và Tóm Tắt Tin Tức
Tác giả	Trần Cao Minh Bách, Vũ Thị Ánh, Trần Thị Dung
Người hướng dẫn	ThS. Lê Đức Thuận
Trường học	Học viện Kỹ thuật Mật mã
Chuyên ngành	Công nghệ thông tin
Thể loại	Đồ án môn học
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	114
Dung lượng	3,22 MB