1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ

95 75 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Áp Dụng Một Số Thuật Toán Học Máy Trong Nhận Dạng Tin Tuyển Dụng Giả
Tác giả Bùi Tiến Anh
Người hướng dẫn TS. Nguyễn Mạnh Thế
Trường học Trường Đại Học Kinh Tế Quốc Dân
Chuyên ngành Toán Kinh Tế
Thể loại luận văn thạc sĩ
Năm xuất bản 2020
Thành phố Hà Nội
Định dạng
Số trang 95
Dung lượng 1,01 MB

Cấu trúc

  • Bảng 3.7: Các lĩnh vực có nhu cầu tuyển dụng cao nhất

  • DANH MỤC CÁC CHỮ VIẾT TẮT

  • DANH SÁCH HÌNH ẢNH

  • DANH SÁCH BẢNG

  • TÓM TẮT KẾT QUẢ NGHIÊN CỨU LUẬN VĂN

  • LỜI MỞ ĐẦU

  • CHƯƠNG 1: TỔNG QUAN CÁC VẤN ĐỀ CÓ LIÊN QUAN ĐẾN ĐỀ TÀI

    • 1.1. Thực trạng lừa đảo và tin giả trên mạng Internet

      • 1.1.1. Tình trạng tin giả trên mạng Internet

      • 1.1.2. Tình trạng lừa đảo qua mạng

      • 1.1.3. Tình trạng đăng tin tuyển dụng giả

    • 1.2. Một số nghiên cứu có liên quan đến đề tài

      • Bảng 1.1: Kết quả nghiên cứu Phân tích trong nhận dạng tin tức giả

      • Bảng 1.2: Kết quả nghiên cứu “Phát hiện tin giả trên mạng xã hội”

  • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VỀ CÁC THUẬT TOÁN HỌC MÁY VÀ VẤN ĐỀ NHẬN DẠNG TIN GIẢ

    • 2.1. Tin giả và phát hiện tin giả

      • 2.1.1. Khái niệm tin giả

      • 2.1.2. Phát hiện và ngăn chặn tin giả

      • 2.1.3. Nhu cầu sử dụng công nghệ để phát hiện tin giả

    • 2.2. Giới thiệu chung về Học máy

      • 2.2.1. Khái niệm Học máy

      • 2.2.2. Lịch sử ra đời và phát triển của Học máy

      • 2.2.3. Tóm tắt mô hình Học máy

        • Hình 2.1: Tóm tắt mô hình Học máy

      • 2.2.4. Phân loại các bài toán của Học máy

    • 2.3. Một số kỹ thuật mã hóa trong Học máy

      • 2.1.1. Kỹ thuật chia cắt văn bản

      • 2.1.2. Kỹ thuật véc-tơ hóa từ vựng

      • 2.1.3. Kỹ thuật xử lý Dữ liệu phân loại

    • 2.4. Một số thuật toán Học máy phân loại

      • 2.4.1. Thuật toán Hồi quy Logistic

        • Hình 2.2: Đồ thị của hàm sigmoid

      • 2.4.2. Thuật toán Rừng ngẫu nhiên

        • Hình 2.3: Sơ đồ thuật toán cây quyết định

        • Hình 2.4: Mô hình thuật toán Rừng ngẫu nhiên

      • 2.4.3. Thuật toán K-Nearest Neighbor (KNN)

      • 2.4.4. Thuật toán SVM

        • Hình 2.5: Phân tích bài toán SVM

        • Hình 2.6: Mặt phân cách SVM

      • 2.4.5. Thuật toán MLP

        • Hình 2.7: Mô hình Mạng Nơ-ron tự nhiên

        • Hình 2.8: Mô hình MLP

        • Hình 2.9: Kỹ thuật tính toán trong các lớp layers MLP

        • Hình 2.10: Đồ thị của hàm đồng nhất

        • Hình 2.11: Đồ thị của hàm Tanh

        • Hình 2.12: Đồ thị của hàm ReLU

    • 2.5. Phương pháp đánh giá hiệu quả thuật toán

      • 2.5.1. Ma trận nhầm lẫn

        • Bảng 2.3: Ma trận nhầm lẫn

      • 2.5.2. Các điểm số phân loại

        • Hình 2.13: Điểm số ROC-AUC

  • CHƯƠNG 3: PHÂN TÍCH DỮ LIỆU VÀ ĐÁNH GIÁ KẾT QUẢ

    • 3.1. Giới thiệu về bộ dữ liệu và công cụ thực hành

      • 3.1.1. Bộ dữ liệu

        • Bảng 3.4: Các biến của bộ dữ liệu

      • 3.1.2. Công cụ thực hành

        • Bảng 3.5: Công cụ thực hành

    • 3.2. Mô tả quá trình phân tích dữ liệu

    • 3.3. Kết quả thống kê mô tả

      • Bảng 3.6: Các Quốc gia có nhu cầu tuyển dụng cao nhất

      • Biểu đồ 3.1: Các Quốc gia có nhu cầu tuyển dụng cao nhất

      • Biểu đồ 3.2: Các lĩnh vực có nhu cầu tuyển dụng cao nhất

      • Bảng 3.8: Các vị trí có nhu cầu tuyển dụng cao nhất

      • Biểu đồ 3.3: Các vị trí làm việc có nhu cầu tuyển dụng cao nhất

      • Bảng 3.9: Yêu cầu về bằng cấp tuyển dụng

      • Biểu đồ 3.4: Yêu cầu về bằng cấp tuyển dụng

      • Bảng 3.10: Yêu cầu về kinh nghiệm làm việc

      • Biểu đồ 3.5: Yêu cầu về kinh nghiệm làm việc

      • Bảng 3.11: Hình thức công việc

      • Biểu đồ 3.6: Các hình thức làm việc

      • Bảng 3.12: Độ dài đoạn tiêu đề công việc

      • Biểu đồ 3.7: Phân bố độ dài đoạn tiêu đề công việc

      • Biểu đồ 3.8: Độ dài tiêu đề và chất lượng tin

      • Bảng 3.13: Độ dài đoạn mô tả công việc

      • Biểu đồ 3.9: Phân bố độ dài các đoạn mô tả công việc

      • Biểu đồ 3.10: Độ dài đoạn mô tả công việc của tin thật và tin giả

      • Biểu đồ 3.11: Ma trận tương quan giữa các biến nhị phân

      • Bảng 3.14: Những từ xuất hiện nhiều nhất trong đoạn mô tả công việc

      • Bảng 3.15: Thống kê tin giả

    • 3.4. Kết quả áp dụng các thuật toán Học máy

      • 3.4.1. Kết quả áp dụng Logistic

      • 3.4.2. Kết quả áp dụng KNN

      • 3.4.3. Kết quả áp dụng Rừng ngẫu nhiên

      • 3.4.4. Kết quả áp dụng SVM

      • 3.4.5. Kết quả áp dụng MLP

    • 3.5. Lựa chọn mô hình Học máy phù hợp

      • Bảng 3.16: Tổng hợp kết quả phân tích

  • KẾT LUẬN

  • TÀI LIỆU THAM KHẢO

  • PHỤ LỤC

Nội dung

Hiện nay, thế giới đang ở trong thời đại của cuộc Cách mạng công nghiệp lần thứ tư. Xuất phát từ nền tảng công nghệ số hóa và khai thác dữ liệu, lan tỏa sang những ngành nghề khác như nông nghiệp, y tế, giáo dục, tài chính - ngân hàng, vận tải, xây dựng, bất động sản, năng lượng tái tạo,… cuộc CMCN lần thứ tư ảnh hưởng đến mọi mặt của nền kinh tế và đang từng bước thay đổi cuộc sống của con người. Đem lại rất nhiều tiện ích, tuy nhiên cuộc CMCN lần thứ tư cũng mang tới cho cho nhân loại một thách thức mới, đó là “tội phạm mạng”. Tội phạm mạng là những kẻ lợi dụng không gian mạng để thực hiện hành vi phạm tội, hướng đến nạn nhân là các cá nhân tổ chức có sử dụng mạng Internet. Không gian hoạt động của tội phạm mạng rất đa dạng, từ mạng xã hội, các trang thông tin điện tử đến các giao dịch điện tử,…Hiện nay các quốc gia đang gặp khó khăn khi đối phó với loại tội phạm này. Đại dịch Covid-19 bùng phát cướp đi việc làm của hàng trăm triệu người lao động trên thế giới. Áp lực kinh tế khiến cho nhiều người lao động phải tìm kiếm công việc mới trên các trang tuyển dụng trực tuyến và đó là cơ hội để tội phạm mạng hoạt động. Những kẻ lừa đảo thực hiện đăng tin tuyển dụng giả nhằm lôi kéo người lao động nộp hồ sơ, thông qua đó chiếm dụng thông tin cá nhân hoặc chiếm đoạt tài sản. Nhiều báo cáo về thiệt hại của các cá nhân về việc bị chiếm đoạt tài khoản ngân hàng hoặc lừa đảo phí môi giới việc làm. Tình trạng này nếu không được quản lý sẽ gây ảnh hưởng đến người dân và gây méo mó thị trường lao động. Do đó, cần có những giải pháp ngăn chặn tình trạng lừa đảo thông qua tin tuyển dụng. Học máy là một trong những đột phá của cuộc CMCN lần thứ tư với ứng dụng chủ yếu để nhận dạng các thực thể thay cho con người, ví dụ như nhận dạng khuôn mặt, thư rác hay tin giả…Việc vận dụng Học máy để nhận dạng các tin tuyển dụng giả là có cơ sở và rất hữu ích trong thời điểm này, có thể giúp cho người lao động giảm bớt rủi ro và thiệt hại từ tin giả. Với những lý do trên và thực tế trong quá trình nghiên cứu, tác giả lựa chọn đề tài “Áp dụng một số thuật toán Học máy trong nhận dạng tin tuyển dụng giả” cho luận văn thạc sĩ của mình.

TỔNG QUAN CÁC VẤN ĐỀ CÓ LIÊN QUAN ĐẾN ĐỀ TÀI

Thực trạng lừa đảo và tin giả trên mạng Internet

1.1.1 Tình trạng tin giả trên mạng Internet

Tin giả là thông tin được phát tán nhằm mục đích lừa đảo, gây thiệt hại cho cá nhân hoặc tổ chức, hoặc để thu lợi về tài chính và chính trị Loại tin này thường sử dụng ngôn từ giật gân, không chính xác và tiêu đề gây hiểu lầm để thu hút sự chú ý của độc giả.

Trong những năm gần đây, tin tức giả đã trở thành vấn đề gây bức xúc trong xã hội, đặc biệt là ảnh hưởng tiêu cực đến các nhân vật nổi tiếng Thế kỷ XXI chứng kiến sự bùng nổ của truyền thông và mạng xã hội, khiến cho việc phát tán tin tức giả diễn ra nhanh chóng và rộng rãi hơn bao giờ hết.

Tin giả gây ra nhiều hậu quả nghiêm trọng cho các kênh truyền thông, khi mà việc thu hút người xem để tăng doanh thu quảng cáo trở thành ưu tiên hàng đầu Việc xuất bản những câu chuyện sai lệch không chỉ thu hút người dùng mà còn mang lại lợi ích cho các nhà quảng cáo và cải thiện xếp hạng trang tin Sự dễ dàng trong việc kiếm tiền từ quảng cáo trực tuyến, cùng với sự phổ biến của mạng xã hội, đã dẫn đến sự lan rộng của tin giả, cạnh tranh với các nguồn tin chính thống Đặc biệt, các lực lượng thù địch từ chính phủ cũng tham gia vào việc tạo ra và tuyên truyền tin giả, nhất là trong thời điểm bầu cử.

Tin tức giả đã gây ra nhiều thiệt hại nghiêm trọng cho tổ chức và cá nhân trên toàn cầu Ví dụ, vào năm 2011, một báo cáo sai về việc phá sản của công ty mẹ hãng hàng không United Airlines đã khiến giá cổ phiếu giảm tới 76% Mặc dù giá cổ phiếu phục hồi sau khi thông tin được đính chính, nhưng giá đóng cửa của United Airlines vẫn thấp hơn 11,2% so với trước đó, cho thấy tác động tiêu cực kéo dài.

Năm 2017, nghiên cứu của Allcott và Gentzkow chỉ ra rằng tin tức giả đã lan truyền mạnh mẽ trong ba tháng trước cuộc bầu cử tổng thống Hoa Kỳ năm 2016, với 30 triệu tài khoản Facebook chia sẻ 115 thông tin giả ủng hộ Donald Trump và 7,6 triệu tài khoản với 41 thông tin giả ủng hộ Hillary Clinton Một phân tích từ BuzzFeed cũng cho thấy tin tức giả về cuộc bầu cử thu hút sự chú ý nhiều hơn trên Facebook so với các bài viết chính thống từ các cơ quan truyền thông lớn.

Nhiều câu chuyện bịa đặt đã xuất hiện xung quanh thiên tai, đặc biệt là trận động đất ở Nhật Bản năm 2011 và Bão Sandy năm 2012, gây ra sự hoang mang cho người dân.

Trong những năm gần đây, tình trạng tin giả tại Việt Nam đang gia tăng, ảnh hưởng tiêu cực đến cá nhân, tổ chức và doanh nghiệp Tin tức sai sự thật không chỉ làm giảm uy tín mà còn gây thiệt hại kinh tế lớn Một ví dụ điển hình là vào tháng 12/2019, thông tin sai lệch về Vinamilk nhập khẩu nguyên liệu sữa từ Trung Quốc đã khiến thương hiệu quốc gia này bị tổn hại nghiêm trọng, làm mất hàng nghìn tỷ đồng vốn hóa trên thị trường chứng khoán trong thời gian ngắn Hậu quả nặng nề nhất thuộc về Vinamilk, các nhà đầu tư và nền kinh tế Việt Nam.

Việc sử dụng tin giả trong quảng cáo có thể dẫn đến những hiểu lầm nghiêm trọng, như trường hợp máy lọc nước Unilever Pureit Vietnam khi tuyên bố rằng “nguồn nước đun sôi mà hầu hết người Việt đang sử dụng hàng ngày không an toàn” Họ trích dẫn thông tin từ Tổ chức Y tế Thế giới, cho rằng 200.000 người Việt Nam mắc bệnh ung thư mỗi năm do vệ sinh thực phẩm và nước uống Điều này đã khiến người tiêu dùng cảm thấy hoang mang và lo lắng về nguy cơ sức khỏe, mặc dù họ thường xem nguồn nước đun sôi là an toàn.

Vào tháng 10/2016, Hội Tiêu chuẩn và Bảo vệ người tiêu dùng Việt Nam (VINASTAS) đã công bố thông tin không chính xác về nước mắm, gây hoang mang cho người tiêu dùng và ảnh hưởng lớn đến uy tín ngành nước mắm Kết quả khảo sát cho thấy phần lớn mẫu nước mắm có chứa chất asen vượt ngưỡng cho phép, dẫn đến nhiều cơ quan báo chí đăng tải thông tin sai lệch Thông tin này nhanh chóng lan truyền trên mạng xã hội, gây lo ngại về sức khỏe cộng đồng khi sử dụng nước mắm truyền thống, và danh sách 67 loại nước mắm vượt ngưỡng asen được chia sẻ rộng rãi bởi nghệ sĩ, diễn viên và người tiêu dùng.

Từ ngày 12 đến 23/10/2019, mạng xã hội ghi nhận hơn 44.000 bài viết, 95.000 lượt chia sẻ, 108.000 thảo luận và 63.000 bình luận liên quan đến chất lượng nước mắm Đặc biệt, vào ngày 18/10, sau khi VINASTAS công bố kết quả khảo sát 150 mẫu nước mắm của 88 nhãn hiệu, có tới 42.275 thảo luận diễn ra trên mạng xã hội Trong khoảng thời gian này, 50 cơ quan báo chí đã đăng tải gần 560 tin bài, trong đó có 170 tin bài từ Báo Thanh Niên và VINASTAS chứa thông tin sai lệch về kết quả khảo sát, cùng với 390 tin bài từ Bộ Y tế và các cơ quan chức năng cung cấp thông tin chính xác.

Sự đa dạng và nguy hiểm của tin giả đang trở thành một vấn đề nghiêm trọng, thu hút sự chú ý không chỉ từ công chúng mà còn từ các nhà nghiên cứu.

1.1.2 Tình trạng lừa đảo qua mạng

Do ảnh hưởng của dịch Covid-19, người dân đã tăng cường sử dụng các ứng dụng trực tuyến để giao tiếp, học tập, kinh doanh và mua sắm, tạo cơ hội cho các đối tượng xấu lợi dụng để thực hiện hành vi lừa đảo trên không gian mạng, gây thiệt hại nghiêm trọng cho xã hội Tình trạng này diễn ra trên toàn cầu với nhiều hình thức lừa đảo khác nhau.

 Quảng cáo sai sự thật, thông tin sản phẩm quảng cáo được nâng lên quá cao so với chất lượng thật sự

 Lập tài khoản ngân hàng giả mạo nhằm chiếm đoạt tiền của ngân hàng thông qua sử dụng thẻ tín dụng

 Lập tài khoản mạng xã hội ảo giả danh tổ chức, cá nhân nhằm đánh cắp thông tin, chiếm đoạt tài sản

 Giả mạo các website nổi tiếng của ngân hàng, các tổ chức tài chính nhằm đánh cắp thông tin của khách hàng…

Giả mạo nhà tuyển dụng đang trở thành một vấn đề nghiêm trọng, khi nhiều đối tượng xấu đăng tin tuyển dụng giả để thu thập thông tin cá nhân của ứng viên Những thông tin này có thể bị lợi dụng cho các mục đích xấu hoặc thậm chí dẫn đến việc chiếm đoạt tài sản của người tìm việc.

1.1.3 Tình trạng đăng tin tuyển dụng giả

Tin tuyển dụng giả là những thông tin lừa đảo về nhu cầu tuyển dụng không có thật, thường được đăng tải trên Internet nhằm mục đích chiếm đoạt thông tin cá nhân và tiền của người lao động Tình trạng này gia tăng mạnh mẽ trong bối cảnh dịch Covid-19, khi hàng triệu người mất việc làm và tìm kiếm cơ hội mới Đại dịch đã làm thiệt hại nặng nề cho nền kinh tế toàn cầu, khiến hàng trăm triệu lao động, đặc biệt tại Việt Nam, Mỹ, Ấn Độ, và nhiều quốc gia khác, phải đối mặt với khó khăn Sự gia tăng nhu cầu tìm việc đã tạo điều kiện cho tin tuyển dụng giả phát triển, khiến người lao động cần cảnh giác hơn bao giờ hết.

Theo FBI, tội phạm mạng đang giả mạo nhà tuyển dụng thông qua việc tạo ra các trang web giả của các công ty nổi tiếng và đăng tin tuyển dụng giả trên các nền tảng việc làm trực tuyến Kể từ năm 2019, nhiều nạn nhân đã báo cáo các vụ lừa đảo này, với thiệt hại trung bình gần 3.000 USD mỗi người, cùng với những tổn hại về uy tín cá nhân.

Một số nghiên cứu có liên quan đến đề tài

Costel-Sergiu Atodiresei, Alexandru Tănăselea và Adrian Iftene (2018) nghiên cứu vấn đề phân loại người dùng trên mạng xã hội Twitter, nhằm xác định thông tin thật hay giả Nghiên cứu áp dụng thuật toán Nhận diện thực thể (NER) để đánh giá độ tin cậy của các tweet mới, phân tách văn bản thành các phần như danh từ và xác định tầm quan trọng tương đối của chúng trong ngữ cảnh, chủ đề và xã hội.

Mô hình phân tích kết hợp các tweet cần phân tích với dữ liệu lưu trữ trong cơ sở dữ liệu Mô hình này tìm kiếm các tweet tương tự từ các nguồn đáng tin cậy thông qua phân tách NER, cho phép xác định các tweet tương tự ngay cả khi thứ tự từ bị lộn xộn Khi tìm thấy các tweet tương tự, điểm số của tweet sẽ tăng lên, cho thấy khả năng chính xác của nó cao hơn.

Thuật toán đánh giá điểm số của người dùng, bắt đầu từ 0, cho rằng họ chưa nói thật Khi người dùng đăng nhiều tweet có thể xác minh qua nguồn tin đáng tin cậy, điểm tín nhiệm của họ sẽ tăng Kết quả của thuật toán bao gồm Điểm người dùng, Điểm Tweet và thông báo về độ chính xác của tweet, được phân loại là đúng, sai hoặc không thể xác minh.

Những điểm đạt được của bài nghiên cứu:

 Sử dụng thuật toán đơn giản và dễ hiểu để phân loại mục tiêu.

Những điểm còn hạn chế:

Độ chính xác của thông tin hiện tại chủ yếu dựa vào Twitter, do đó còn hạn chế Để có được đánh giá chính xác hơn, cần khai thác nhiều nguồn thông tin khác nhau.

Vasu Agarwal, H Parveen Sultana, Srijan Malhotra và Amitrajit Sarkar (2019) đã nghiên cứu các kỹ thuật trong Học máy, xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo để phân loại tin tức Mô hình của họ áp dụng các phương pháp như n-gram, véc-tơ đếm, TF-IDF và huấn luyện dữ liệu thông qua năm loại thuật toán nhằm xác định thuật toán hiệu quả nhất cho bộ dữ liệu các báo cáo tin tức Các chỉ số Precision, Recall và F1 được sử dụng để đánh giá hiệu suất của các mô hình.

Năm thuật toán được sử dụng bao gồm:

 Thuật toán Rừng ngẫu nhiên (Random Forest).

Bảng 1.1: Kết quả nghiên cứu Phân tích trong nhận dạng tin tức giả

Kết quả nghiên cứu cho thấy các thuật toán SVM, Logistic và Random Forest đạt điểm F1 tốt nhất là 60% Phân tích dữ liệu cho thấy tin tức kinh tế và chính trị Hoa Kỳ được phân loại chính xác, trong khi tin tức giả mạo đã được phát hiện Tuy nhiên, dự đoán về tin tức liên quan đến công nghệ vẫn chưa chính xác.

Những điểm đạt được của bài nghiên cứu:

 Sử dụng nhiều thuật toán khác nhau để giải quyết bài toán phân loại tin tức giả.

Những điểm còn hạn chế:

Điểm số hiện tại của các mô hình vẫn còn thấp, điều này khiến chúng chưa thể áp dụng hiệu quả vào thực tế Để cải thiện độ chính xác cho mô hình, việc mở rộng dữ liệu huấn luyện và tăng số lượng quan sát là cần thiết.

Nghiên cứu của Monther Aldwairi và Ali Alwahedi (2018) chỉ ra rằng hành động lừa đảo trên mạng xã hội thường liên quan đến việc tạo ra các tiêu đề gây tò mò, khuyến khích người đọc nhấp vào bài quảng cáo Đối với nhà cung cấp, số lượng cú nhấp chuột cao hơn đồng nghĩa với doanh thu lớn hơn, vì doanh số bán hàng phụ thuộc vào lưu lượng truy cập website Do đó, mặc dù độc giả có lo ngại về thông tin sai lệch, nhưng nhiều đơn vị bán hàng vẫn tỏ ra thờ ơ với vấn đề này.

Hiện nay, Google, Facebook, Twitter và nhiều công ty công nghệ đang nỗ lực giải quyết vấn đề tin tức giả mạo Tuy nhiên, những cố gắng này chưa đạt được kết quả do sự thiếu hợp tác từ các đơn vị bán hàng Vì vậy, nghiên cứu này tập trung vào việc sử dụng Học máy để phân biệt giữa tin tức giả và tin tức thật.

Để phát hiện tin tức giả mạo, các bước thực hiện bao gồm: đầu tiên, xác định cơ sở dữ liệu liên quan đến các cú nhấp chuột trên các trang mạng xã hội như Facebook, Forex và Reddit, sau đó thu thập thuộc tính và tạo tệp dữ liệu Tiếp theo, sử dụng script Python để tính toán các thuộc tính từ tiêu đề và nội dung của các trang web, đồng thời trích xuất các tính năng như từ khóa tiếng Ả Rập và tiếng Anh, tiêu đề bắt đầu bằng số, các từ viết hoa, dấu chấm hỏi và dấu chấm than, cũng như việc người dùng rời khỏi trang ngay lập tức Cuối cùng, áp dụng bốn loại thuật toán để đánh giá hiệu quả trên bộ dữ liệu tin tức đã phân loại, sử dụng các chỉ số Precision, Recall, F1 và ROC-AUC để xác định mô hình tốt nhất.

Bốn thuật toán được sử dụng bao gồm:

 Thuật toán Rừng ngẫu nhiên (Random Forest).

Bảng 1.2: Kết quả nghiên cứu “Phát hiện tin giả trên mạng xã hội”

Classifier Precision Recall F1 ROC-AUC

Kết quả phân loại được so sánh qua các chỉ số Precision, Recall, F1 và ROC-AUC Trong đó, phương pháp Logistic và Random Forest đạt điểm số F1 cao nhất là 99,3%, trong khi Bayes Net và Naïve Bayes có điểm số ROC-AUC tuyệt đối là 100% Đánh giá nghiên cứu cho thấy những ưu điểm nổi bật.

Bài nghiên cứu sử dụng nhiều thuật toán khác nhau cho điểm số khá cao. Hạn chế:

Số lượng mẫu sử dụng hiện tại còn hạn chế, do đó độ chính xác của mô hình có thể không phản ánh đúng hiệu quả của thuật toán Để đưa ra đánh giá chính xác hơn, cần tăng cường số lượng mẫu được sử dụng trong nghiên cứu.

Nguyễn Đình Chinh (2017) đã đề xuất một hệ thống giám sát và phân loại hành vi cho gia súc, đặc biệt là bò, dựa trên kỹ thuật mạng cảm biến không dây, trong đó mỗi con vật được xem như một nút mạng Hệ thống này cho phép người chăn nuôi theo dõi vật nuôi từ xa Điểm nổi bật của nghiên cứu là khả năng đo chuyển động và giám sát hành vi bò trên cả chân và cổ, khác với các nghiên cứu trước chỉ sử dụng một thiết bị duy nhất Phân loại hành vi được thực hiện thông qua hai thuật toán: cây quyết định và SVM.

Các thuật toán nhận diện và phân loại hành vi được huấn luyện dựa trên dữ liệu thực và được đánh giá hiệu năng qua dữ liệu kiểm tra Nghiên cứu cho thấy thuật toán SVM cho kết quả tốt hơn so với cây quyết định, và việc kết hợp dữ liệu gia tốc từ cả chân và cổ mang lại hiệu suất vượt trội.

Phạm Lê Minh (2019) đã giới thiệu một phương pháp mới hiệu quả trong việc so sánh và đánh giá hai kỹ thuật trích xuất đặc trưng gói tin mạng Kết quả cho thấy rằng phương pháp trích xuất từ header mang lại hiệu quả cao hơn so với phương pháp trích xuất từ payload, khi áp dụng cùng một tập dữ liệu đầu vào và sử dụng chung một thuật toán học máy để phát hiện và phân loại mã độc đã biết.

CƠ SỞ LÝ THUYẾT VỀ CÁC THUẬT TOÁN HỌC MÁY VÀ VẤN ĐỀ NHẬN DẠNG TIN GIẢ

Tin giả và phát hiện tin giả

Tin giả, hay còn gọi là tin rác hoặc tin tức giả mạo, là loại thông tin được phát tán với mục đích lừa dối, có thể xuất hiện trên các nền tảng truyền thông truyền thống như báo in và phát sóng, cũng như trên mạng xã hội.

2.1.2 Phát hiện và ngăn chặn tin giả

Hiện nay, các cơ quan chức năng và tổ chức an ninh khuyến cáo người dùng internet áp dụng một số giải pháp thủ công để phát hiện tin giả hiệu quả.

Khi đọc tin tức, hãy chú ý đến tiêu đề, vì những thông tin sai sự thật thường đi kèm với tiêu đề gây tò mò Nếu nội dung trong tiêu đề có vẻ khó tin, khả năng cao đó là tin giả.

Các đường dẫn giả mạo thường có hình thức tương tự như các trang web chính thống, với chỉ một vài thay đổi nhỏ để đánh lừa người dùng Nhiều trang tin giả tạo ra các liên kết gần giống với nguồn tin gốc, nhằm mục đích giả dạng và mô phỏng lại thông tin từ các nguồn đáng tin cậy.

[3] Tìm hiểu kỹ lưỡng nguồn thông tin: Đảm bảo thông tin đến từ một nguồn chính xác, tin cậy hoặc xác thực về danh tiếng

Cảnh giác với các định dạng bất thường là rất quan trọng, vì nhiều trang tin tức sai lệch thường có lỗi chính tả hoặc bố cục lộn xộn.

Khi tiếp cận thông tin, người đọc cần cân nhắc về hình ảnh, vì những câu chuyện sai lệch thường đi kèm với hình ảnh hoặc video đã bị chỉnh sửa Đôi khi, bức ảnh được xác thực nhưng bị đưa ra khỏi bối cảnh gốc, gây nhầm lẫn cho người xem Để đảm bảo tính chính xác, người đọc nên sử dụng tính năng tìm kiếm ảnh, xác minh nguồn gốc của hình ảnh và hiểu rõ bối cảnh liên quan.

Khi kiểm tra thông tin, cần chú ý đến ngày tháng trong các câu chuyện, vì chúng có thể chứa các mốc thời gian không chính xác hoặc sự kiện đã bị thay đổi.

Để đảm bảo thông tin chính xác, cần rà soát bằng chứng và kiểm tra nguồn gốc của tác giả Việc thiếu bằng chứng xác thực hoặc chỉ dựa vào ý kiến từ các chuyên gia không rõ danh tính có thể là dấu hiệu nhận biết tin giả.

Để xác định tính xác thực của thông tin, hãy đối chiếu với các báo cáo từ các nguồn tin đáng tin cậy Nếu không có nguồn chính thống nào tường thuật cùng một chủ đề, khả năng cao đây là tin giả Ngược lại, nếu nhiều nguồn tin uy tín cùng thảo luận về một câu chuyện, thì thông tin đó có khả năng là sự thật.

Để phân biệt tin tức thật và tin giả, người dùng internet cần cẩn trọng trong việc đánh giá nguồn tin Đôi khi, tin giả có thể bị nhầm lẫn với những câu nói đùa hoặc hài hước Do đó, việc đọc kỹ và xác định xem nguồn tin có phải là kênh hài hay không, cùng với việc xem xét chi tiết và giọng điệu của câu chuyện, là rất quan trọng để nhận biết những ngụ ý châm biếm có thể khiến người đọc cười.

Một số tin giả được phát tán có chủ đích, vì vậy người dùng cần suy nghĩ kỹ lưỡng về thông tin mình đọc Chỉ nên chia sẻ những tin tức mà họ nhận thức là đáng tin cậy để tránh lan truyền thông tin sai lệch.

Hành lang pháp lý để ngăn chặn tin giả tại Việt Nam đã được thiết lập thông qua Luật An ninh mạng, được Quốc hội thông qua vào năm 2018 Đây là yếu tố quan trọng đầu tiên trong việc bảo vệ thông tin và đảm bảo an toàn mạng.

Chính phủ đã ký ban hành Nghị định 15/2020/NĐ-CP ngày 03 tháng 02 năm

Nghị định 15/2020 quy định về xử phạt vi phạm hành chính trong lĩnh vực bưu chính, viễn thông, tần số vô tuyến điện, công nghệ thông tin và giao dịch điện tử, bao gồm hành vi vi phạm, hình thức và mức xử phạt, cũng như biện pháp khắc phục hậu quả Đặc biệt, Nghị định này nêu rõ mức xử phạt đối với việc phát tán thông tin giả mạo trên mạng xã hội, với mức phạt từ 10 đến 20 triệu đồng cho hành vi lợi dụng mạng xã hội để cung cấp, chia sẻ thông tin sai sự thật, xuyên tạc, vu khống hoặc xúc phạm danh dự cá nhân và tổ chức.

Hành vi cung cấp và chia sẻ thông tin bịa đặt gây hoang mang, kích động bạo lực và tội phạm sẽ bị xử phạt nghiêm khắc Ngoài ra, những hành vi lợi dụng mạng xã hội để cổ súy hủ tục, mê tín, hoặc chia sẻ thông tin không phù hợp với thuần phong mỹ tục dân tộc cũng phải chịu mức phạt tiền từ 10 đến 20 triệu đồng Các hành vi mô tả tỉ mỉ về chém giết, tai nạn, hoặc nội dung kinh dị, rùng rợn cũng nằm trong diện bị xử phạt.

2.1.3 Nhu cầu sử dụng công nghệ để phát hiện tin giả

Các quốc gia hiện nay không chỉ tập trung vào việc tuyên truyền và áp dụng hành lang pháp lý để ngăn chặn tin giả, mà còn ngày càng chú trọng đến việc sử dụng Trí tuệ nhân tạo (AI) để phát hiện và xử lý vấn đề này.

Giới thiệu chung về Học máy

Học máy, một nhánh của trí tuệ nhân tạo, tập trung vào việc phát triển các kỹ thuật cho phép hệ thống tự động học hỏi từ dữ liệu nhằm giải quyết các vấn đề cụ thể Chẳng hạn, các máy tính có khả năng tự động phân loại email thành thư rác hoặc không, và sắp xếp chúng vào các thư mục tương ứng.

Học máy và thống kê đều nghiên cứu phân tích dữ liệu, nhưng Học máy chú trọng vào sự phức tạp của các thuật toán tính toán Nhiều bài toán suy luận trong Học máy được coi là khó khăn, do đó, một phần quan trọng của lĩnh vực này là phát triển các thuật toán suy luận xấp xỉ có khả năng xử lý hiệu quả.

Học máy hiện nay được ứng dụng rộng rãi trong nhiều lĩnh vực như truy tìm dữ liệu, chẩn đoán y khoa, phát hiện thẻ tín dụng giả, nhận diện tin giả, phân tích thị trường chứng khoán, phân loại chuỗi DNA, nhận dạng tiếng nói và chữ viết, dịch tự động, chơi trò chơi và điều khiển rô-bốt.

2.2.2 Lịch sử ra đời và phát triển của Học máy

Một số cột mốc của Học máy:

Năm 1950, nhà bác học Alan Turing đã phát triển "Phép thử Turing" nhằm xác định trí thông minh thực sự của máy tính Để vượt qua bài kiểm tra này, máy tính cần phải có khả năng khiến con người tin rằng nó cũng là một con người.

Năm 1952, Arthur Samuel đã phát triển chương trình học máy đầu tiên, tập trung vào trò chơi cờ đam IBM đã cải tiến chương trình này, cho phép nó tự học và xây dựng các chiến lược để giành chiến thắng trong trò chơi.

 1957 - Frank Rosenblatt đã thiết kế mạng nơron (neural network) đầu tiên cho máy tính, trong đó mô phỏng quá trình suy nghĩ của bộ não con người.

Năm 1967, thuật toán "nearest neighbor" được phát triển, đánh dấu bước khởi đầu cho việc sử dụng nhận dạng mẫu cơ bản trong máy tính Thuật toán này cho phép vẽ ra lộ trình tối ưu cho người bán hàng, bắt đầu từ một thành phố ngẫu nhiên và đảm bảo đi qua tất cả các thành phố khác với quãng đường ngắn nhất.

 1979 - Sinh viên tại trường đại học Stanford đã phát minh ra giỏ hàng

“Stanford Cart” có thể điều hướng để tránh các chướng ngại vật trong một căn phòng.

Năm 1981, Gerald Dejong đã giới thiệu khái niệm Học Dựa Trên Giải Thích (Explanation Based Learning - EBL), trong đó máy tính sẽ phân tích dữ liệu huấn luyện để tạo ra một quy tắc chung, đồng thời loại bỏ các dữ liệu không quan trọng.

 1985 - Terry Sejnowski đã phát minh ra NetTalk, nó có thể học cách phát âm các từ giống như cách một đứa trẻ tập nói.

 1990s - Học máy đã dịch chuyển từ cách tiếp cận hướng kiến thức

Các nhà khoa học đang chuyển từ cách tiếp cận truyền thống sang cách tiếp cận dựa trên dữ liệu, nơi họ phát triển các chương trình máy tính để phân tích khối lượng lớn thông tin Qua đó, họ có thể rút ra kết luận và "học" từ những kết quả này, tạo ra những hiểu biết giá trị từ dữ liệu.

 1997 - Deep Blue của hãng IBM đã đánh bại nhà vô địch cờ vua thế giới.

Năm 2006, Geoffrey Hinton đã giới thiệu thuật ngữ “deep learning”, nhằm mô tả các thuật toán tiên tiến giúp máy tính có khả năng nhận diện và phân biệt các đối tượng cũng như văn bản trong hình ảnh và video.

Vào năm 2010, Microsoft Kinect đã ra mắt công nghệ theo dõi 20 hành vi của con người với tốc độ 30 lần mỗi giây, cho phép người dùng tương tác với máy tính thông qua các hành động và cử chỉ tự nhiên.

 2011 - Máy tính Watson của hãng IBM đã đánh bại các đối thủ là con người tại Jeopardy.

Vào năm 2011, Google Brain đã được phát triển, với mạng nơron sâu (deep neural network) có khả năng học hỏi để phát hiện và phân loại nhiều đối tượng tương tự như cách mà một con mèo thực hiện.

Năm 2012, X Lab của Google đã phát triển một thuật toán học máy có khả năng tự động quét các video trên YouTube để xác định nội dung có liên quan đến mèo.

Năm 2014, Facebook đã phát triển DeepFace, một phần mềm thuật toán có khả năng nhận dạng và xác minh danh tính cá nhân thông qua hình ảnh với độ chính xác tương đương như con người.

 2015 - Amazon ra mắt nền tảng Học máy riêng của mình.

 2015 - Microsoft tạo ra Distributed Học máy Toolkit, trong đó cho phép phân phối hiệu quả các vấn đề Học máy trên nhiều máy tính.

Vào năm 2015, hơn 3.000 nhà nghiên cứu trong lĩnh vực AI và Robotics, cùng với sự ủng hộ của các nhà khoa học nổi tiếng như Stephen Hawking, Elon Musk và Steve Wozniak, đã ký một bức thư ngỏ nhằm cảnh báo về mối nguy hiểm của vũ khí tự động Những vũ khí này có khả năng lựa chọn và tấn công mục tiêu mà không cần sự can thiệp của con người, điều này đặt ra nhiều lo ngại về an toàn và đạo đức.

Năm 2016, thuật toán trí tuệ nhân tạo AlphaGo của Google DeepMind đã đánh bại nhà vô địch trò chơi Cờ Vây, được coi là trò chơi phức tạp nhất thế giới, với tỷ số 4/5 trận thắng.

Một số kỹ thuật mã hóa trong Học máy

2.1.1 Kỹ thuật chia cắt văn bản

Mã thông báo (Tokenization) là phương pháp tiền xử lý, phân tách văn bản thành các từ, cụm từ, ký hiệu hoặc các yếu tố có ý nghĩa khác, nhằm phân tích các từ đơn lẻ trong câu một cách hiệu quả.

Ví dụ: Câu văn ngắn bằng tiếng anh sau đây: “He likes to read book and watch TV.”

Bằng phương pháp Mã thông báo, Ta chia câu văn thành các từ đơn lẻ như sau: {‘He’, ‘likes’, ‘to’, ‘read’, ‘book’, ‘and’, ‘watch’, ‘TV’}.

Văn bản bao gồm nhiều từ không chứa ý nghĩa quan trọng trong các thuật toán phân loại, chẳng hạn như { “a”, “about”, “above”, “across”, “after”,

Việc sử dụng các từ như “sau đó” và “lại” trong câu có thể gây khó khăn trong việc phân loại văn bản, dẫn đến giảm hiệu suất của mô hình Một trong những kỹ thuật phổ biến để xử lý vấn đề này là loại bỏ những từ không cần thiết khỏi các văn bản.

2.1.2 Kỹ thuật véc-tơ hóa từ vựng

Mô hình Túi đựng từ (Bag of Words) là một phương pháp phổ biến giúp xử lý các văn bản thành dạng vec-tơ số

Giả sử ta có hai câu văn ngắn:

(1) Michael likes to play football and watch football games too

(2) Michael likes to read books.

Ta thiết lập một danh sách các từ đã được sử dụng và gọi là “từ điển” với 11 từ là: {‘Michael’, ‘likes’, ‘to’, ‘play’, ‘read’, ‘football’, ‘books’, ‘and’, ‘watch’,

Mỗi câu được chuyển đổi thành một véc-tơ đặc trưng với 11 chiều, trong đó mỗi phần tử thể hiện số từ xuất hiện trong câu Kết quả là chúng ta có hai véc-tơ tương ứng với hai câu văn.

Trong câu văn đầu tiên có 10 từ, với chữ 'Michael' xuất hiện 1 lần, do đó phần tử đầu tiên là 1 Phần tử thứ hai tương ứng với số lần xuất hiện của từ 'football', là 2 Tuy nhiên, từ 'read' và 'book' không có mặt trong câu, nên phần tử thứ 5 và thứ 7 đều bằng 0.

Câu văn thứ hai gồm 5 từ: 'Michael', 'thích', 'đọc', 'sách', không có từ nào lặp lại Vì vậy, véc-tơ tương ứng có 5 phần tử giá trị 1 và 6 phần tử giá trị 0.

Mô hình Túi đựng từ có một số đặc điểm sau:

Từ điển thực tế chứa hàng trăm nghìn đến hàng triệu từ, dẫn đến việc véc-tơ đặc trưng thu được sẽ có chiều dài đáng kể.

Trong từ điển có nhiều từ không xuất hiện trong văn bản, dẫn đến việc các vector đặc trưng thường chứa nhiều phần tử bằng 0 Những vector này được gọi là véc-tơ thưa (sparse vector).

Nhược điểm chính của mô hình BoW là nó không lưu giữ thông tin về thứ tự của các từ, cũng như sự liên kết giữa các câu và đoạn văn trong văn bản.

2.1.3 Kỹ thuật xử lý Dữ liệu phân loại

Dữ liệu phân loại là dữ liệu mà giá trị của nó nằm trong một tập hợp các giá trị xác định và rời rạc

Trình độ học vấn của một cá nhân có thể bao gồm các bậc như Tốt nghiệp THPT, Tốt nghiệp Đại học, Thạc sĩ, hoặc Tiến Sĩ Bên cạnh đó, nhóm máu của mỗi người có thể thuộc các loại như A, B, O, hoặc AB Thời tiết trong một ngày có thể thay đổi với các trạng thái như nắng, mưa, hoặc nhiều mây.

Do tính rời rạc của các biến, việc áp dụng Học máy yêu cầu số hóa chúng thành các véc-tơ để máy có thể học hiệu quả Một trong những phương pháp phổ biến để thực hiện điều này là One-hot-Encoding.

Biến phân loại trong bộ số liệu "Yêu cầu học vấn" có 5 giá trị: "Không yêu cầu", "THPT", "Đại học", "Thạc sĩ", "Tiến sĩ" Phương pháp One-hot-Encoding sẽ phân tách biến này thành 5 biến độc lập tương ứng.

5 giá trị bao gồm “Không yêu cầu”, “THPT”, “Đại học”, “Thạc sĩ”, “Tiến sĩ” và giá trị của các biến này là nhị phân 0 hoặc 1.

Khi một công việc yêu cầu trình độ "Đại học", giá trị của biến "Đại học" sẽ là 1, trong khi các biến khác sẽ có giá trị 0, tạo thành véc-tơ mô tả công việc là [0,0,1,0,0] Ngược lại, nếu công việc không yêu cầu trình độ, véc-tơ mô tả sẽ là [1,0,0,0,0].

2.4 Một số thuật toán Học máy phân loại

Mục tiêu của bài viết là phân loại các tin đăng tuyển dụng để xác định xem chúng có phải là tin giả hay không Tác giả sẽ áp dụng một số thuật toán phân loại phổ biến và lựa chọn thuật toán đạt điểm số cao nhất để tích hợp vào mô hình.

2.4.1 Thuật toán Hồi quy Logistic

Hồi quy Logistic là thuật toán phân loại phổ biến nhất, ước lượng xác suất biến phụ thuộc thuộc về lớp nào Ví dụ, nó có thể xác định xác suất một tin tuyển dụng là giả Nếu xác suất ước lượng lớn hơn 0,5, mô hình sẽ dự đoán giá trị đó thuộc về lớp tương ứng.

1, ngược lại nếu xác xuất này nhỏ hơn 0,5 thì giá trị này sẽ thuộc về lớp 0.

Phương trình ước lượng của Hồi quy Logistic:

Hàm (.) là hàm sigmoid, giá trị đầu ra từ 0 đến 1 Hàm này được biểu diễn dưới đây:

Hình 2.2: Đồ thị của hàm sigmoid

Phương trình: Mô hình dự đoán với hàm hồi quy Logistic

 Hàm σ(t) < 0,5 khi t 0, vì vậy hàm Logistic dự đoán y=1 khi t dương, dự đoán y=0 khi t âm

Để xác định mô hình tối ưu, chúng ta cần huấn luyện mô hình và tìm véc-tơ θ nhằm tối đa hóa xác suất cho trường hợp y = 1 và tối thiểu hóa cho trường hợp y = 0 Khái niệm này được thể hiện qua hàm chi phí như trong phương trình dưới đây.

Hàm chi phí đối với một ví dụ đơn lẻ: log( ) khi y=1

Phương pháp đánh giá hiệu quả thuật toán

Để chọn ra mô hình học máy phù hợp cho bài toán, cần áp dụng nhiều thuật toán khác nhau Vấn đề then chốt là làm thế nào để đánh giá hiệu quả của mô hình một cách đáng tin cậy Do đó, việc xây dựng các tiêu chí đánh giá mô hình là rất cần thiết để lựa chọn được mô hình tối ưu.

Ma trận nhầm lẫn (Confusion maxtrix) được sử dụng đối với các bài toán phân loại, giúp thống kê kết quả phân loại

Ví dụ ma trận nhầm lẫn như sau:

Bảng 2.3: Ma trận nhầm lẫn

Phân loại dự đoán bởi Học máy Dương tính Âm tính

Phân lớp Dương tính TP FN thực sự Âm tính FP TN

Thông tin trong ma trận nhầm lẫn như sau:

TP (True positive hay Dương tính thật): Số lượng mẫu trên thực tế là dương tính và được dự đoán dương tính

FP(False positive hay Dương tính giả): Số lượng mẫu trên thực tế là âm tính nhưng được dự đoán là dương tính.

TN (True Nagative hay Âm tính thật): Số lượng mẫu trên thực tế là âm tính và được dự đoán là âm tính

FN (False Negative hay Âm tính giả): Số lượng mẫu trên thực tế là dương tính nhưng được dự đoán là âm tính.

Sai lầm loại I: Giống như FP, là trường hợp mẫu trên thực tế là âm tính nhưng được dự đoán là dương tính

Sai lầm loại II: Giống như FN, là trường hợp mẫu trên thực tế là dương tính nhưng được dự đoán là âm tính.

2.5.2 Các điểm số phân loại Độ chính xác của mô hình được tính toán như sau:

Precision: Bằng tổng số các mẫu được phân loại chính xác chia cho tổng số mẫu được phân loại vào lớp đó

Recall: Bằng tổng số các mẫu thuộc lớp Ci được phân loại chính xác chia cho tổng số mẫu của lớp Ci

F1: Tiêu chí đánh giá F1 là sự kết hợp của 2 tiêu chí là Precision và Recall:

Accuracy: Độ chính xác bằng tổng số mẫu được phân loại đúng chia cho tổng số mẫu.

AUC - ROC là phương pháp đánh giá hiệu suất của mô hình phân loại qua các ngưỡng khác nhau, đặc biệt trong bài toán phân loại nhị phân sử dụng hồi quy logistic Việc lựa chọn các ngưỡng phân loại từ 0 đến 1 ảnh hưởng trực tiếp đến khả năng phân loại của mô hình, do đó cần tính toán mức độ ảnh hưởng của các ngưỡng này AUC, viết tắt của Area Under The Curve, và ROC, viết tắt của Receiver Operating Characteristics, cùng nhau tạo thành một công cụ hữu ích: ROC thể hiện xác suất phân loại và AUC là diện tích dưới đường cong ROC, phản ánh độ chính xác của mô hình phân loại.

AUC-ROC, or Area Under the Receiver Operating Characteristic, measures the probability that a randomly selected positive sample is ranked higher than a randomly selected negative sample Mathematically, this can be expressed as AUC = P(score(x+) > score(x-)).

Hình 2.13: Điểm số ROC-AUC

Chỉ số AUC nằm trong khoảng từ 0 đến 1, với giá trị AUC cao hơn cho thấy mô hình phân loại chính xác hơn Một AUC trên 0,5 được coi là chấp nhận được, trong khi giá trị dưới 0,5 chỉ ra rằng mô hình không chính xác Đường cong ROC thể hiện mối quan hệ giữa tỷ lệ dương tính thực (TPR) và tỷ lệ dương tính giả (FPR) tại mỗi ngưỡng, trong đó TPR được đặt trên trục tung và FPR trên trục hoành.

Trong đó: TPR là tỷ lệ dương tính thật chính bằng chỉ số Recall:

FPR là tỷ lệ dương tính giả:

PHÂN TÍCH DỮ LIỆU VÀ ĐÁNH GIÁ KẾT QUẢ

Ngày đăng: 26/03/2022, 04:12

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[4] Peter Harrington (2012), Machine Leaning in Action, Published by Manning Publications, USA Sách, tạp chí
Tiêu đề: Machine Leaning in Action
Tác giả: Peter Harrington
Năm: 2012
[5] Trent Hauck (2014), Scikit-learn Cookbook, by Packt Publishing, USA Sách, tạp chí
Tiêu đề: Scikit-learn Cookbook
Tác giả: Trent Hauck
Năm: 2014
[7] VasuAgarwal, H.ParveenSultana, SrijanMalhotra, AmitrajitSarkar (2019), “Analysis in Identity of Fake News”, The International Conference on Recent Trends in Advanced computing, November 11-12, 2019 in Chennai, India Sách, tạp chí
Tiêu đề: Analysis in Identity of Fake News”, "TheInternational Conference on Recent Trends in Advancedcomputing
Tác giả: VasuAgarwal, H.ParveenSultana, SrijanMalhotra, AmitrajitSarkar
Năm: 2019
[8] Monther Aldwairi, Ali Alwahed (2018), “Detecting Fake News In Social Media networks”, The 9 th International Conference on Emerging Ubiquitous Systems and Pervasive Networks, November 5-8, 2018, Leuven, Belgium Sách, tạp chí
Tiêu đề: Detecting FakeNews In Social Media networks”, "The 9"th" International Conferenceon Emerging Ubiquitous Systems and Pervasive Networks
Tác giả: Monther Aldwairi, Ali Alwahed
Năm: 2018
[9] Andrew Ng (2018), “Setting up your ML application course” Sách, tạp chí
Tiêu đề: Setting up your ML application course
Tác giả: Andrew Ng
Năm: 2018
[10] Internet: https://medium.com/@kennymiyasato/ Link
[11] Internet: https://www.cims.nyu.edu/~munoz/files/ml_optimization.pdf[12] Internet: https://www.kaggle.com/ Link
[13] Internet:https://towardsdatascience.com/workflow-of-a-machine learning-project-ec1dba419b94 Link

HÌNH ẢNH LIÊN QUAN

• Điểm số của các mơ hình cịn thấp nên chưa thể áp dụng cho bài tốn thực tế. Do đĩ, cần mở rộng dữ liệu huấn luyện, tăng số quan sát để tăng độ chính xác cho mơ hình. - Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ
i ểm số của các mơ hình cịn thấp nên chưa thể áp dụng cho bài tốn thực tế. Do đĩ, cần mở rộng dữ liệu huấn luyện, tăng số quan sát để tăng độ chính xác cho mơ hình (Trang 22)
Bảng 1.2: Kết quả nghiên cứu “Phát hiện tin giả trên mạng xã hội” - Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ
Bảng 1.2 Kết quả nghiên cứu “Phát hiện tin giả trên mạng xã hội” (Trang 24)
2.2.3.Tĩm tắt mơ hình Học máy - Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ
2.2.3. Tĩm tắt mơ hình Học máy (Trang 32)
vào mơ hình. - Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ
v ào mơ hình (Trang 37)
Hình 2.3: Sơ đồ thuật tốn cây quyết định - Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ
Hình 2.3 Sơ đồ thuật tốn cây quyết định (Trang 39)
Hình 2.4: Mơ hình thuật tốn Rừng ngẫu nhiên - Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ
Hình 2.4 Mơ hình thuật tốn Rừng ngẫu nhiên (Trang 40)
Hình 2.5: Phân tích bài tốn SVM - Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ
Hình 2.5 Phân tích bài tốn SVM (Trang 44)
Với những điểm nằm gần mặt phân chia nhất như hình dưới đây: - Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ
i những điểm nằm gần mặt phân chia nhất như hình dưới đây: (Trang 45)
Hình 2.7: Mơ hình Mạng Nơ-ron tự nhiên - Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ
Hình 2.7 Mơ hình Mạng Nơ-ron tự nhiên (Trang 49)
Hình 2.8: Mơ hình MLP - Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ
Hình 2.8 Mơ hình MLP (Trang 50)
Hình 2.9: Kỹ thuật tính tốn trong các lớp layers MLP - Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ
Hình 2.9 Kỹ thuật tính tốn trong các lớp layers MLP (Trang 51)
Đồ thị của hàm đồng nhất được minh họa trong hình: - Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ
th ị của hàm đồng nhất được minh họa trong hình: (Trang 52)
Hình 2.12: Đồ thị của hàm ReLU - Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ
Hình 2.12 Đồ thị của hàm ReLU (Trang 53)
Bảng 3.4: Các biến của bộ dữ liệu ST - Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ
Bảng 3.4 Các biến của bộ dữ liệu ST (Trang 57)
Quan sát bảng, ta thấy Hoa Kỳ là nước cĩ nhu cầu tuyển dụng cao nhất với 7.183 vị trí, chiếm 58,72% tổng nhu cầu tuyển dụng trong bộ số liệu - Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ
uan sát bảng, ta thấy Hoa Kỳ là nước cĩ nhu cầu tuyển dụng cao nhất với 7.183 vị trí, chiếm 58,72% tổng nhu cầu tuyển dụng trong bộ số liệu (Trang 61)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w