GIỚI THIỆU ĐỀ TÀI
Tính cấp thiết của đề tài nghiên cứu
Ngày nay, mạng Internet ngày càng ảnh hưởng sâu rộng đến cuộc sống hiện đại, khiến an ninh mạng trở thành một lĩnh vực nghiên cứu quan trọng Các kỹ thuật bảo mật mạng, bao gồm phần mềm chống vi-rút, tường lửa và hệ thống phát hiện xâm nhập (IDS), đóng vai trò thiết yếu trong việc bảo vệ hệ thống khỏi các cuộc tấn công Trong đó, IDS là hệ thống chủ chốt, giám sát trạng thái của phần mềm và phần cứng trên mạng để đảm bảo an ninh mạng.
Hệ thống phát hiện xâm nhập (IDS) đầu tiên được giới thiệu vào năm 1980 và đã trải qua nhiều cải tiến qua các năm Tuy nhiên, nhiều IDS hiện tại vẫn gặp phải vấn đề với tỷ lệ báo động sai cao, dẫn đến việc tạo ra nhiều cảnh báo cho các mối đe dọa không đáng kể, gây áp lực cho các nhà phân tích bảo mật và có thể dẫn đến các cuộc tấn công nghiêm trọng Do đó, các nhà nghiên cứu đang nỗ lực phát triển IDS với tỷ lệ phát hiện cao hơn và giảm thiểu báo động sai Một thách thức lớn khác là khả năng phát hiện các cuộc tấn công chưa biết, do sự thay đổi nhanh chóng của môi trường mạng và sự xuất hiện liên tục của các biến thể tấn công mới, điều này đòi hỏi sự phát triển của IDS có khả năng phát hiện những mối đe dọa này.
Có hai loại phương pháp phân loại Hệ thống phát hiện xâm nhập (IDS): phương pháp dựa trên phát hiện và phương pháp dựa trên nguồn dữ liệu Phương pháp dựa trên phát hiện bao gồm phát hiện sử dụng sai và phát hiện bất thường Trong khi đó, phương pháp dựa trên nguồn dữ liệu được chia thành các phương thức dựa trên máy chủ và dựa trên mạng, như được mô tả trong Hình 1.1.
Hệ thống phát hiện xâm nhập (IDS) là công cụ giám sát lưu thông mạng, có thể là phần cứng hoặc phần mềm, giúp nhận diện hoạt động khả nghi và xâm nhập trái phép trong hệ thống mạng IDS cung cấp thông tin nhận diện và cảnh báo cho quản trị viên trong quá trình tấn công như FootPrinting, Scanning, và Sniffer Để nâng cao hiệu quả phát hiện, các nhà nghiên cứu đã tập trung vào việc phát triển IDS sử dụng phương pháp học máy, một kỹ thuật trí tuệ nhân tạo có khả năng khai thác thông tin từ dữ liệu lớn IDS dựa trên học máy có thể đạt được mức phát hiện cao khi được đào tạo với đủ dữ liệu và sử dụng các mô hình học máy có khả năng khái quát tốt để nhận diện các biến thể tấn công và các cuộc tấn công mới.
Chúng tôi nghiên cứu đề tài “ỨNG DỤNG MÁY HỌC ĐỂ NÂNG CAO HIỆU NĂNG CỦA CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG” nhằm xây dựng một hệ thống phát hiện xâm nhập có khả năng phát hiện các cuộc tấn công mới và hiện đại, trong bối cảnh nguồn lực tính toán hạn chế Luận văn thạc sĩ này thuộc chuyên ngành công nghệ thông tin.
Đối tượng và phạm vi nghiên cứu
1.2.1 Đối tượng nghiên cứu Đối tượng nghiên cứu của luận văn gồm: các kỹ thuật máy học, các tập dữ liệu sử dụng trong kiểm tra đánh giá và các chỉ số đánh giá hiệu năng của các IDS
Bài viết đề cập đến các kỹ thuật máy học bao gồm máy học đơn, máy học kết hợp và máy học sâu Các kỹ thuật máy học đơn được sử dụng như Cây quyết định (Decision Tree - DT), k láng giềng (k Nearest Neighbors - kNN), máy véc-tơ hỗ trợ (Support Vector Machines - SVM), Nạve Bayes (NB) và Hồi quy logistic (Logistic Regression) Trong khi đó, các kỹ thuật máy học kết hợp bao gồm Boosting, Bagging, Stacking, Random Forest và Voting Đối với kỹ thuật máy học sâu, bài viết giới thiệu các kiến trúc mạng nơ-ron như DenseLayer, BatchNormalization và LSTM, mỗi kiến trúc có những đặc điểm và ứng dụng riêng trong việc xử lý dữ liệu.
Các bộ kiểu tấn công áp dụng kỹ thuật máy học được huấn luyện, kiểm tra và đánh giá chất lượng dựa trên dữ liệu từ tập UNSW-NB15, một bộ dữ liệu hiện đại do Trung tâm An ninh mạng Úc phát triển vào năm 2015.
Bài viết này trình bày các kỹ thuật học máy, bao gồm các phương pháp học máy đơn như Cây quyết định (Decision Tree - DT), k láng giềng (k Nearest Neighbors - kNN), máy học véc-tơ hỗ trợ (Support Vector Machines - SVM), và Nạve Bayes (NB) Ngoài ra, bài viết cũng đề cập đến các kỹ thuật máy học sâu với các kiến trúc như DenseLayer, BatchNormalization và LSTM, cùng với các phương pháp kết hợp như Boosting, Bagging, Stacking và Voting Nghiên cứu tập trung vào tập dữ liệu UNSW-NB15, một tập dữ liệu phức tạp và mới, sử dụng công cụ WEKA (Waikato Environment for Knowledge Analysis) được phát triển bởi Đại học Waikato, New Zealand, để kiểm chứng kết quả thực nghiệm.
Mục đích của đề tài
Bài viết tập trung vào việc áp dụng các kỹ thuật học máy trong hệ thống phát hiện xâm nhập mạng, bao gồm các phương pháp học đơn, học sâu và kỹ thuật kết hợp Dựa trên kết quả thực nghiệm, nghiên cứu đánh giá và lựa chọn những kỹ thuật học máy hiệu quả nhất nhằm nâng cao hiệu suất của hệ thống phát hiện xâm nhập mạng.
Nhiệm vụ của luận văn
Bài luận văn này giới thiệu cơ sở lý thuyết về các kỹ thuật học máy trong nghiên cứu hệ thống phát hiện xâm nhập, đồng thời khảo sát các nghiên cứu hiện tại trong lĩnh vực này Chúng tôi đề xuất các mô hình triển khai các kỹ thuật học máy và đánh giá hiệu quả của chúng thông qua các kết quả thực nghiệm.
Phương pháp nghiên cứu
Phương pháp nghiên cứu bao gồm khảo sát, tổng hợp và phân tích thông tin cần thiết, cùng với việc tham khảo và đánh giá các nghiên cứu liên quan để tìm ra giải pháp cho vấn đề Việc xác định rõ đối tượng và phạm vi nghiên cứu là rất quan trọng, từ đó giúp xây dựng các mô hình tấn công nhằm phát hiện các dấu hiệu của tấn công mạng hiệu quả.
Phương pháp nghiên cứu phải dựa trên các tiêu chí sau đây:
Nghiên cứu gần đây trong và ngoài nước đã chỉ ra rằng việc áp dụng các kỹ thuật máy học cho hệ thống phát hiện xâm nhập mạng ngày càng trở nên quan trọng Chúng tôi cam kết đảm bảo rằng các nghiên cứu của mình luôn cập nhật và phù hợp với xu hướng mới nhất trong lĩnh vực này.
Để có cái nhìn đa dạng và toàn diện về vấn đề, đặc biệt là những kết quả và thành tựu trong quá khứ liên quan đến máy học cho phát hiện xâm nhập, chúng tôi đã tham khảo một số bài báo được xuất bản trước năm 2015 Mặc dù những tài liệu này đã cũ, nhưng chúng vẫn có nhiều giá trị về mặt học thuật.
Ý nghĩa khoa học và thực tiễn của luận văn
Luận văn này đặt nền tảng cho nghiên cứu về máy học trong phát hiện xâm nhập mạng, giúp chúng tôi nắm bắt kiến thức cơ bản về máy học Qua đó, chúng tôi sẽ có khả năng tìm hiểu và nghiên cứu các kỹ thuật tấn công mạng trong tương lai.
Kết quả đạt được có thể được tích hợp vào các hệ thống phát hiện xâm nhập như Snort (mã nguồn mở) nhằm nâng cao khả năng bảo vệ hệ thống từ bên trong và phát hiện, ngăn chặn các cuộc tấn công từ bên ngoài, đặc biệt là đối với những tấn công mới chưa biết hoặc các biến thể của các tấn công đã được biết đến.
Cấu trúc của luận văn
Ngoài phần mở đầu, mục lục, kết luận và tài liệu tham khảo, nội dung chính của luận văn được chia thành 5 chương, cụ thể như sau:
Chương 1: Giới thiệu về đề tài
Chương 2: Cơ sở lý thuyết giới thiệu các kỹ thuật máy học bao gồm các kỹ thuật học máy đơn, các kỹ thuật kết hợp và các kỹ thuật học sâu Giới thiệu về các tập dữ liệu, chỉ số đánh giá hiệu năng về máy học cho IDS
Chương 3: Đề xuất các giải pháp kỹ thuật học truyền thống, kỹ thuật học sâu và kỹ thuật kết hợp
Chương 4: Kết quả thực nghiệm được thực hiện dựa trên tập dữ liệu UNSW-
NB15 đánh giá kết quả thực nghiệm trên các giải pháp đã đề xuất
CƠ SỞ LÝ THUYẾT
Các kỹ thuật máy học
Học máy (Machine Learning - ML) là kỹ thuật phát triển các thuật toán giúp máy tính đánh giá hành vi dựa trên dữ liệu thực nghiệm như dữ liệu cảm biến hoặc cơ sở dữ liệu Chương trình học có thể sử dụng các mẫu dữ liệu để nhận diện các đặc điểm quan trọng, minh họa mối quan hệ giữa các biến quan sát Mục tiêu chính của học máy là tự động nhận diện các mẫu phức tạp và đưa ra quyết định thông minh dựa trên dữ liệu Học máy được chia thành các nhánh như học có giám sát, học nửa giám sát và học không giám sát.
Học có giám sát (Supervised learning) là phương pháp học sử dụng dữ liệu đã được gán nhãn trước, thường thông qua đánh giá chéo 10-fold Phương pháp này thích hợp cho các bài toán tấn công và phân loại, nơi kinh nghiệm được cung cấp rõ ràng dưới dạng đầu vào và đầu ra của hàm mục tiêu Hình 2.1 minh họa kỹ thuật học có giám sát.
Một số kỹ thuật học có giám sát phổ biến bao gồm máy véc-tơ hỗ trợ, cây quyết định, mạng thần kinh nhân tạo và lập trình di truyền Những phương pháp này được ứng dụng rộng rãi trong các lĩnh vực như phân loại, dự đoán và nhận diện mẫu, mang lại hiệu quả cao trong việc xử lý dữ liệu.
Kỹ thuật học nửa giám sát là phương pháp học máy kết hợp cả dữ liệu đã gán nhãn và chưa gán nhãn để đào tạo mô hình Phương pháp này thường sử dụng một lượng nhỏ dữ liệu có gán nhãn kết hợp với một lượng lớn dữ liệu chưa gán nhãn, giúp cải thiện độ chính xác và hiệu quả của quá trình học.
Tập huấn luyện h Dự đoán
Mô hình học có giám sát sử dụng một lượng lớn dữ liệu chưa gán nhãn kết hợp với một lượng nhỏ dữ liệu có gán nhãn để cải thiện độ chính xác Việc gán nhãn dữ liệu cho các bài toán học máy thường yêu cầu chuyên viên có kỹ năng, nhưng chi phí cho việc này là rất cao và không khả thi Do đó, áp dụng phương pháp kết hợp cả dữ liệu được gán nhãn và chưa gán nhãn mang lại hiệu quả cao hơn trong quá trình học máy.
Kỹ thuật học không giám sát là một phương pháp trong đó tập dữ liệu được trình bày dưới dạng D={(x1, x2, …, xn)}, với các vector đặc trưng của mẫu huấn luyện Nhiệm vụ của thuật toán là phân chia tập dữ liệu thành các nhóm con, mỗi nhóm chứa các vector đầu vào có đặc trưng tương tự Trong học không giám sát, số lớp phân loại không được xác định trước, và tùy thuộc vào tiêu chuẩn đánh giá độ tương tự giữa các mẫu, có thể tạo ra các lớp phân loại khác nhau.
Kỹ thuật máy học trong hệ thống phát hiện xâm nhập (IDS) bao gồm ba loại chính: kỹ thuật máy học đơn, kỹ thuật máy học kết hợp và kỹ thuật học sâu Hình 2.2 minh họa các thuật toán học máy phổ biến được áp dụng trong IDS.
Hình 2.2 Phân loại các thuật toán học máy
2.1.1 Các kỹ thuật máy học đơn
2.1.1.1 Máy véc-tơ hỗ trợ
Máy véc-tơ hỗ trợ (Support Vector Machines - SVM) là một thuật toán máy học dựa trên lý thuyết học thống kê do Vapnik đề xuất vào năm 1998 SVM giải quyết bài toán phân loại hai lớp, trong đó có n điểm trong không gian d chiều, mỗi điểm thuộc về một trong hai lớp ký hiệu là +1 hoặc -1 Mục tiêu của SVM là tìm một siêu phẳng (hyperplane) tối ưu để phân chia các điểm này, đảm bảo rằng các điểm cùng lớp nằm về một phía của siêu phẳng.
Xét tập dữ liệu mẫu có thể tách rời tuyến tính gồm các cặp {(x1, y1), (x2, y2), , (xn, yn)} với xi thuộc R^d và yi thuộc {±1} Siêu phẳng tối ưu sẽ phân chia tập dữ liệu này thành hai lớp riêng biệt với lề lớn nhất Mục tiêu là tìm siêu phẳng H: y = w.x + b = 0, cùng với hai siêu phẳng hỗ trợ H1 và H2 song song với H, đảm bảo rằng không có phần tử nào của tập mẫu nằm giữa các siêu phẳng này.
H 1 và H 2, khi đó: w.x + b ≥ +1 với y = +1 và w.x + b ≤ - 1 với y = - 1, kết hợp ta có y (w.x + b)
Khoảng cách của siêu phẳng H 1 và H 2 đến H là: ||𝑤|| √𝑤 1 2 + 𝑤 2 2 + ⋯ + 𝑤 𝑛 2
Ta cần tìm siêu phẳng H với lề lớn nhất, tức là giải bài toán tối ưu tìm min
Để tối ưu hóa các giá trị của w và b trong bài toán phân loại, ta cần thỏa mãn ràng buộc y (w.x + b) ≥ 1 Sau khi giải quyết bài toán này, việc phân loại một mẫu mới trở nên đơn giản, chỉ cần kiểm tra hàm dấu sign của biểu thức (w.x + b).
Giải pháp tìm siêu phẳng tối ưu có thể được mở rộng cho dữ liệu không tách rời tuyến tính bằng cách ánh xạ vào không gian có chiều cao hơn, thông qua các hàm nhân như: Polynomial, Laplacian, Sigmoid, và Gaussian.
2.1.1.2 Mạng nơ-ron nhân tạo
Mạng nơ-ron nhân tạo (ANN) là mô hình xử lý thông tin được thiết kế dựa trên hoạt động của hệ thống thần kinh sinh vật, với nhiều nơ-ron liên kết để xử lý dữ liệu Giống như bộ não con người, ANN học từ kinh nghiệm qua quá trình huấn luyện, cho phép nó lưu trữ tri thức và áp dụng vào việc dự đoán dữ liệu chưa biết.
ANN được huấn luyện hay được học theo 2 kỹ thuật cơ bản là học có giám sát và học không giám sát
Học có giám sát là quá trình huấn luyện mạng nơ-ron nhân tạo (ANN) được lặp đi lặp lại cho đến khi đầu ra đạt được giá trị mong muốn đã biết Kỹ thuật tiêu biểu cho phương pháp này là mạng nơ-ron lan truyền ngược (back-propagation).
Học không giám sát, hay còn gọi là tự tổ chức (Self-Organizing), là phương pháp học mà không sử dụng tri thức bên ngoài trong quá trình đào tạo Một ví dụ điển hình của mạng nơ-ron được huấn luyện theo kiểu này là Self-Organizing Map (SOM).
Quá trình học có giám sát của ANN được mô tả như sau:
2 So sánh output với giá trị mong muốn (desired value)
3 Nếu chưa đạt giá trị mong muốn thì chỉnh trọng số (weights) và tính lại output
Hình 2.3 Quá trình học có giám sát của ANN
Sau khi tính toán từ các giá trị đầu vào, ta nhận được đầu ra Y và giá trị mong muốn Z Sự chênh lệch giữa Y và Z được gọi là tham số delta (lỗi) và được tính bằng công thức delta = Z - Y Mục tiêu của quá trình học là giảm thiểu giá trị delta, với delta bằng 0 là kết quả lý tưởng, thông qua việc điều chỉnh trọng số của các dữ liệu đầu vào.
Hình 2.4 Giảm thiểu tham số delta bằng cách điều chỉnh trọng số
Tập dữ liệu sử dụng cho các IDS
Nhiệm vụ của học máy là trích xuất thông tin giá trị từ dữ liệu, vì vậy hiệu suất của nó phụ thuộc vào chất lượng dữ liệu đầu vào Hiểu dữ liệu là nền tảng cho phương pháp học máy, đặc biệt trong hệ thống phát hiện xâm nhập (IDS), nơi dữ liệu cần dễ dàng thu thập và phản ánh hành vi của máy chủ hoặc mạng Các kiểu dữ liệu phổ biến cho IDS bao gồm gói, luồng, phiên và nhật ký Việc xây dựng bộ dữ liệu là một quá trình phức tạp và tốn thời gian, nhưng một khi bộ dữ liệu điểm chuẩn được tạo ra, nó có thể được tái sử dụng nhiều lần bởi nhiều nhà nghiên cứu Sử dụng bộ dữ liệu điểm chuẩn không chỉ mang lại sự thuận tiện mà còn có hai lợi ích quan trọng khác.
(1) Các bộ dữ liệu điểm chuẩn có thẩm quyền và làm cho kết quả thử nghiệm trở nên thuyết phục hơn
Nhiều nghiên cứu đã được công bố dựa trên bộ dữ liệu điểm chuẩn chung, giúp so sánh kết quả của các nghiên cứu mới với những nghiên cứu trước đó.
Tập dữ liệu NSL-KDD, phát triển vào năm 2009, là phiên bản cải tiến của KDDCup99, nhằm khắc phục những hạn chế như bản ghi dư thừa, sự mất cân bằng trong số lượng ví dụ và đa dạng các lớp tấn công Mặc dù có những cải tiến, NSL-KDD vẫn kế thừa một số giới hạn cơ bản từ KDDCup99.
KDDCup99 có nhiều nhược điểm, đặc biệt là do tập dữ liệu này được phát triển vào năm 1999 trên hệ điều hành Solaris, vốn đã lỗi thời Sự khác biệt đáng kể giữa Solaris và các hệ điều hành hiện nay như Ubuntu, Windows và MAC khiến cho KDDCup99 trở nên kém phù hợp trong bối cảnh công nghệ hiện đại, khi mà Solaris gần như không còn thị phần.
Trình thu thập lưu lượng TCPdump trong tập dữ liệu KDD có khả năng bị quá tải, dẫn đến việc rơi các gói từ tải lưu lượng lớn Hơn nữa, có sự nhầm lẫn về phân phối tấn công trong các tập dữ liệu này, vì theo phân tích, thăm dò chỉ được coi là một cuộc tấn công khi số lần lặp vượt qua một ngưỡng nhất định, trong khi sự không nhất quán về nhãn đã được ghi nhận.
Sự xuất hiện của công nghệ mới như điện toán đám mây, mạng xã hội và Internet vạn vật đã làm biến đổi đáng kể hạ tầng mạng, đồng thời tạo ra những mối đe dọa mới.
KDDCup99 NSL-KDD ISCX2012 UNSW-NB15 Khác
Hai tập dữ liệu phổ biến là ISCX 2012 và UNSW-NB15 ISCX 2012, được phát triển bởi Trung tâm bảo mật thông tin xuất sắc (ISCX) tại Đại học New Brunswick vào năm 2012, bao gồm bảy ngày dữ liệu với nhãn mác bình thường hoặc tấn công Tuy nhiên, tập dữ liệu này chỉ cung cấp phân loại nhị phân mà không phân loại các loại tấn công cụ thể và hiện đã không còn khả dụng do trung tâm đã phát hành một tập dữ liệu mới mang tên CICIDS2017.
Tập dữ liệu UNSW-NB15, được phát triển bởi Trung tâm An ninh mạng (ACCS) của Úc, bao gồm chín loại tấn công như fuzzers, analysis, backdoors, DoS, exploits, generic, reconnaissance, shellcode và worms Tập dữ liệu này có 47 thuộc tính và hai nhãn, trong đó nhãn đầu tiên 'label' phân loại 0 là bình thường và 1 là cuộc tấn công.
‘attack_cat’, cung cấp loại tấn công [15].
Chỉ số đánh giá hiệu năng các IDS
Chỉ số đánh giá là số liệu định lượng dùng để đo lường hiệu suất của thuật toán máy học (ML) trên một tập dữ liệu cụ thể Nó cho phép so sánh và xác định mô hình nào hoạt động tốt hơn và mức độ chênh lệch giữa các mô hình.
TP i : Số lượng các ví dụ thuộc lớp c i được phân loại chính xác vào lớp c i
FP i : Số lượng các ví dụ không thuộc lớp c i bị phân loại nhầm vào lớp c i
TN i : Số lượng các ví dụ không thuộc lớp c i được phân loại (chính xác)
Số lượng ví dụ thuộc lớp c i bị phân loại sai vào các lớp khác được gọi là FN i Để đánh giá hiệu năng của các bộ kiểu tấn công, cần thực hiện việc đo lường và so sánh các chỉ số.
- Accuracy i = (TP i + TN i ) / (TP i + FP i + TN i + FN i )
- Sensitivity i = Recall i = TPR i = TP i / (TP i + FN i )
- Specificity i = TNR i = TN i / (TN i + FP i )
Nghiên cứu này chỉ ra rằng độ chính xác (Accuracy) và TPR là hai số liệu được sử dụng trong hơn 70% các nghiên cứu về hệ thống phát hiện xâm nhập (IDS) Độ chính xác cung cấp thông tin về khả năng dự đoán kết quả chính xác của thuật toán, cho thấy mức độ tin cậy của kết quả Trong khi đó, TPR đánh giá khả năng phát hiện và ngăn chặn các cuộc tấn công xâm nhập, điều này rất quan trọng vì mục tiêu chính của IDS là phát hiện các cuộc tấn công.
FPR, hay Tỷ lệ báo động sai (FAR), được sử dụng trong hơn 50% nghiên cứu và cung cấp thông tin về khả năng của thuật toán trong việc tạo ra báo động sai Chỉ số này rất quan trọng vì nó cho thấy mức độ công việc cần thiết để lọc bỏ các quan sát báo động sai sau khi hệ thống phát hiện xâm nhập (IDS) hoạt động, thường do một chuyên gia con người thực hiện.
Việc đánh giá chất lượng kiểu tấn công bằng Accuracy đã được nhiều học giả áp dụng, nhưng trong các bài toán phi tuyến, sự phân bố lớp thường không cân bằng Do đó, Accuracy không phải là chỉ số hiệu quả để đánh giá mô hình Thay vào đó, các thước đo toàn diện hơn như F-Measure, AUC và G-Means được khuyến nghị sử dụng để có cái nhìn chính xác hơn về hiệu suất của mô hình.
F-Measure là chỉ số thể hiện sự cân bằng giữa Precision và Recall, trong đó β là hệ số điều chỉnh thường được đặt bằng 1 Giá trị F-Measure cao cho thấy cả Precision và Recall đều đạt mức cao, phản ánh mối quan hệ hài hòa giữa hai chỉ số này.
Và chỉ số G-Means được tính là trung bình nhân của Sensitivity và Specificity:
ROC là một đường cong thể hiện xác suất, trong khi AUC (Area Under The Curve) phản ánh khả năng phân loại của mô hình AUC có thể được hiểu là xác suất mà một mẫu dương tính ngẫu nhiên sẽ có điểm số cao hơn một mẫu âm tính ngẫu nhiên, với AUC = P((score(x + ) > score(x - )) Chỉ số AUC càng cao thì độ chính xác của mô hình trong việc phân loại các lớp càng lớn Đường cong ROC thể hiện các cặp chỉ số (TPR, FPR) tại mỗi ngưỡng khác nhau.
TPR là trục tung và FPR là trục hoành.
Các nghiên cứu hiện nay về máy học cho IDS
Trong các nghiên cứu gần đây, sự phát triển của các hệ thống phát hiện dị thường dựa trên kỹ thuật máy học ngày càng gia tăng Nhiều nghiên cứu đã áp dụng các thuật toán máy học một giai đoạn như mạng nơ-ron nhân tạo (ANN), thuật toán di truyền (GA), máy véc-tơ hỗ trợ (SVM) và cây quyết định (DT) Tuy nhiên, các hệ thống lai và kết hợp đang được nhiều học giả trên thế giới nghiên cứu và áp dụng phổ biến hơn.
2.4.1 Các nghiên cứu trong nước
Các tác giả Hoàng Ngọc Thanh, Trần Văn Lăng, và Hoàng Tùng (2016) đã đề xuất xây dựng bộ kiểu tấn công lai đa tầng dựa trên kiến trúc mô hình phân đa lớp One-vs-Rest, trong đó dữ liệu được lọc qua các thuật toán như SVM và ANN Mỗi tầng thuật toán chuyên dụng phân tích một loại tấn công tương ứng, và nghiên cứu cho thấy mô hình đa lớp mang lại kết quả tốt hơn so với mô hình đơn lớp.
Trong bài viết của mình, Tô Trọng Tín và Trần Văn Lăng đã đề xuất các giải pháp học sâu nhằm cải thiện khả năng phát hiện tấn công mạng, được công bố trên Tạp chí Khoa học và Công nghệ số 1 vào ngày 01/02/2018 Họ đã áp dụng các mạng thần kinh sâu như Multilayer Perceptron (MLP) và Recurrent Neural Network (RNN) trên tập dữ liệu KDD99 để đánh giá độ chính xác, độ lỗi kiểu tấn công và ma trận hỗn loạn Kết quả cho thấy hiệu quả phát hiện tấn công đạt 98,2% với MLP và 99,04% với RNN, vượt trội so với 92,6% của SVM và 88,46% của Nạve Bayes.
2.4.2 Một số nghiên cứu ngoài nước
- Với kỹ thuật kết hợp đồng nhất:
Syarif, Zaluska, Prugel - Bennett và Wills đã áp dụng các phương pháp Bagging, Boosting và Stacking để cải thiện độ chính xác trong phát hiện xâm nhập, với mục tiêu giảm tỷ lệ dương tính giả FPR cho tập dữ liệu NSL-KDD Họ sử dụng bốn thuật toán phân loại truyền thống: Nạve Bayes, J48, JRip và iBK, cùng với các kết hợp không đồng nhất qua chiến lược xếp chồng để thực hiện phân loại cấp độ meta Kết quả nghiên cứu cho thấy họ đạt được độ chính xác trên 99% trong việc phát hiện các xâm nhập đã biết, tuy nhiên, tỷ lệ chính xác đối với các loại xâm nhập mới chỉ đạt 60% Việc áp dụng các kết hợp đồng nhất từ Bagging và Boosting không mang lại sự cải thiện đáng kể về độ chính xác, trong khi các kết hợp không đồng nhất thông qua xếp chồng đã làm giảm tỷ lệ dương tính giả FPR đến 46,84%.
- Với kỹ thuật kết hợp không đồng nhất:
Meng và Kwok [21] đã tiến hành thử nghiệm với các bộ phân loại đơn lẻ và kết hợp, bao gồm J45, KNN và SVM, nhằm phân loại tập dữ liệu đánh giá phát hiện xâm nhập DARPA.
1998 Họ phát hiện ra rằng một nhóm gồm cả ba phân loại, dựa trên biểu quyết đa số, thực hiện vượt trội tất cả các kết hợp khác
Xuejun Gu và các cộng sự đã chứng minh hiệu quả của mạng nơ-ron học sâu trong việc xử lý dữ liệu phi tuyến thời gian thực Nghiên cứu thực nghiệm đã áp dụng ba mô hình học sâu khác nhau để đánh giá khả năng của chúng trong lĩnh vực này.
1) Multilayer - Perceptrons (MLP); 2) Mạng nơ-ron tái phát (RNN) và 3) Mạng nơ-ron tích chập (CNN); trong đó mô hình MLP và RNN là rất hiệu quả trong việc phân tích chuỗi dữ liệu tuần tự, liên tục và mang nhiều đặc trưng dữ liệu [23]
2.4.3 Một số nhận xét và các tồn tại cần nghiên cứu
Mặc dù có nhiều phương pháp phát hiện xâm nhập sử dụng kỹ thuật máy học, hệ thống đa chuyên gia vẫn là một lĩnh vực nghiên cứu quan trọng Các vấn đề phân loại mẫu thường được giải quyết bằng cách áp dụng các kỹ thuật kết hợp Nhiều nghiên cứu đã chứng minh rằng các phương pháp này đã thành công trong nhiều lĩnh vực khác nhau Có nhiều cách tiếp cận để triển khai phân loại, bao gồm các phương pháp giảm phương sai như Bagging và Boosting, cũng như các phương pháp giảm độ lệch.
Hệ thống dựa trên biểu quyết là một trong những phương pháp kết hợp phân loại phổ biến, cho phép sửa chữa các lỗi do một trình phân loại gây ra nhờ vào quyết định chính xác từ các phân loại khác Để nâng cao độ chính xác tổng thể, có thể ước lượng độ tin cậy của từng bộ phân loại trong một kết hợp và áp dụng trọng số cho các quyết định Các hệ thống này thường được gọi là các kết hợp biểu quyết đa số có trọng số, trong đó quyết định cuối cùng là sự kết hợp của các bộ phân loại cơ sở có trọng số.
Tổng quan về các tài liệu liên quan đã nêu bật hai loại chính của hệ thống nhiều phân loại:
- Các kết hợp đồng nhất hoặc các hệ thống dựa trên một phương pháp phân loại duy nhất
- Kết hợp không đồng nhất hoặc các hệ thống dựa trên hai hoặc nhiều cách tiếp cận phân loại khác nhau
Việc triển khai các bộ phân loại kết hợp trong xây dựng IDS cho thấy sự phân phối gần như đồng đều giữa các kết hợp đồng nhất và không đồng nhất Sử dụng các kết hợp đồng nhất đã chứng minh là một nền tảng hiệu quả cho nghiên cứu trong nhiều năm qua Tuy nhiên, phân tích song song các nghiên cứu liên quan cho thấy việc thực hiện các kết hợp không đồng nhất trong IDS vẫn còn nhiều thiếu sót Do đó, việc tìm ra sự kết hợp tối ưu của nhiều thuật toán là một thách thức quan trọng trong tương lai.
KDDCup99 và tập dữ liệu NSL-KDD là hai bộ dữ liệu phổ biến trong lĩnh vực phát hiện xâm nhập, mặc dù đã gần 20 năm tuổi Việc tiếp tục sử dụng chúng có thể dẫn đến sự lỗi thời trong các hệ thống phát hiện xâm nhập (IDS), trong khi các cuộc tấn công đang ngày càng tinh vi và phát triển song song với công nghệ và hành vi người dùng mới Để đảm bảo hiệu quả của công cụ bảo mật mạng, việc sử dụng các tập dữ liệu mới, như UNSW-NB15 và CICIDS2017, để phản ánh môi trường hiện tại về phần mềm và phần cứng là vô cùng cần thiết.
Ba chỉ số chính được sử dụng phổ biến để đánh giá hiệu suất của các Hệ thống phát hiện xâm nhập (IDS) là Độ chính xác, Tỷ lệ phát hiện dương tính (TPR) và Tỷ lệ phát hiện âm tính (FPR) Những chỉ số này cung cấp thông tin quan trọng liên quan đến chức năng của IDS Để nâng cao hiệu quả trong quá trình đánh giá, có thể kết hợp các chỉ số này với F-Measure và G-Mean.
Means, AUC, … Điều này đặc biệt phù hợp với các nguồn dữ liệu mất cân bằng
(imbalanced data) trong các IDS
Bài toán ứng dụng kỹ thuật máy học trong hệ thống phát hiện xâm nhập mạng đang gặp phải một số thách thức cần được giải quyết, dựa trên các nhận xét từ các nghiên cứu của các tác giả trong và ngoài nước.
1) Việc sử dụng các kỹ thuật máy học kết hợp và lai giúp cải thiện chất lượng phân lớp so với các kỹ thuật máy học đơn Tuy nhiên chưa có sự so sánh, đánh giá kỹ thuật nào là hiệu quả hơn với cùng một tập dữ liệu huấn luyện và kiểm tra duy nhất, đặc biệt là các kỹ thuật học sâu
2) Các tập dữ liệu được nhiều học giả sử dụng đã quá cũ, không phù hợp với các hệ thống phát hiện xâm nhập đương đại gồm nhiều mẫu tấn công mới và tấn công tổng hợp
CÁC GIẢI PHÁP ĐỀ XUẤT
Sử dụng các kỹ thuật học truyền thống
Trong nghiên cứu về kỹ thuật học truyền thống, chúng tôi áp dụng 6 thuật toán máy học đơn từ công cụ khai thác dữ liệu Weka, bao gồm: Cây quyết định, Naive Bayes, Hồi quy logistic, Máy véc-tơ hỗ trợ, Mạng nơ-ron và k láng giềng gần nhất Mô hình thực nghiệm cho các kỹ thuật này được trình bày chi tiết trong Hình 3.1.
Theo đó, tập dữ liệu huấn luyện (gồm 175.341 bản ghi) của bộ dữ liệu UNSW-
NB15 được sử dụng để huấn luyện các thuật toán máy học đơn trong quá trình xây dựng mô hình Sau khi hoàn tất huấn luyện, các mô hình sẽ được kiểm tra và đánh giá thông qua tập dữ liệu kiểm tra gồm 82.332 bản ghi từ bộ dữ liệu UNSW-NB15 Tập dữ liệu kiểm tra này chứa dữ liệu chưa được dán nhãn và bao gồm cả các kiểu tấn công chưa từng được biết đến.
The performance of individual machine learning models is evaluated using the F-Measure metric to identify the best model for each type of attack, including Reconnaissance, Shellcode, Exploit, Fuzzers, Worm, DoS, Backdoor, Analysis, and Generic.
Sử dụng các kỹ thuật học sâu
Chúng tôi sử dụng WekaDeeplearning4j, một công cụ mạnh mẽ để đào tạo và kiểm tra các mô hình học sâu, được tích hợp sẵn trong Weka.
Công cụ của chúng tôi nhằm mục đích làm cho học sâu trở nên dễ tiếp cận hơn, không cần người dùng phải viết mã, thông qua giao diện đồ họa (GUI) của Weka.
Xây d ự ng và đ ánh giá mô hình C ậ p nh ậ t c ơ s ở tri th ứ c
Decision Tree Nạve Bayes Logistic Regression SVM kNN Neural Network
Tập dữ li ệ u hu ấ n luy ệ n T ậ p d ữ li ệ u ki ể m tra
Mô hình IDS sử dụng kỹ thuật học truyền thống cho phép người dùng thực hiện các thử nghiệm dễ dàng thông qua giao diện người dùng (GUI) với bốn bước cơ bản: tải dữ liệu ở định dạng tệp Thuộc tính - Quan hệ (ARFF), cấu hình kiến trúc mạng thần kinh, chọn giao thức thử nghiệm và chạy thử nghiệm.
Các lớp mạng nơ-ron trong công cụ WekaDeeplearning4j được sử dụng để xây dựng các kiến trúc trong thí nghiệm gồm:
- DenseLayer: tất cả các đơn vị được kết nối với tất cả các đơn vị của lớp cha của nó
- BatchNormalization: áp dụng chiến lược chuẩn hóa hàng loạt phổ biến trên các kích hoạt của lớp cha
- LSTM: sử dụng phương pháp tiếp cận trí nhớ ngắn hạn - dài hạn
- OutputLayer: tạo đầu ra phân loại / hồi quy
Các dự báo mạng nơ-ron trong gói Weka là các đối tượng phân loại tiêu chuẩn, cho phép người dùng triển khai và sử dụng chúng tương tự như các mô hình dự đoán khác được tạo ra từ các thuật toán học trong Weka.
Hình 3 2 Mô hình IDS sử dụng kỹ thuật học sâu dùng trong thử nghiệm
Sử dụng các kỹ thuật kết hợp
Chúng tôi đề xuất sử dụng cả 2 kỹ thuật kết hợp: kỹ thuật kết hợp đồng nhất và kỹ thuật kết hợp không đồng nhất
Xây d ự ng và đ ánh giá mô hình
T ậ p d ữ li ệ u hu ấ n luy ệ n T ậ p d ữ li ệ u kiểm tra
3.3.1 Kỹ thuật kết hợp đồng nhất
Các kỹ thuật kết hợp đồng nhất được đề xuất bao gồm Bagging, Boosting, Stacking, Voting và Random Forest Trong các phương pháp kết hợp này (ngoại trừ Random Forest), các bộ kiểu cơ sở được sử dụng lần lượt là Cây quyết định (DT), Nạve Bayes (NB), Hồi quy logistic (LR), Máy véc-tơ hỗ trợ (SVM), Cây ngẫu nhiên (RT) và k láng giềng gần nhất (KNN).
Kỹ thuật Stacking kết hợp các bộ phân loại cơ sở với các kỹ thuật máy học ở mức 0, trong khi bộ phân loại meta ở mức 1 áp dụng nhiều kỹ thuật khác nhau để tìm ra phương pháp hiệu quả nhất Kết quả thực nghiệm với 6 kỹ thuật máy học ở mức 1 cho thấy, kỹ thuật k láng giềng gần nhất, với k bằng số kiểu tấn công cộng 1, đạt hiệu suất tốt nhất Đây cũng là kỹ thuật chính được áp dụng cho kiểu tấn công meta trong Stacking.
Mô hình IDS sử dụng kỹ thuật kết hợp đồng nhất trong thử nghiệm, trong đó thuật ngữ Random Tree (RT) chỉ các cây được xây dựng ngẫu nhiên, không liên quan đến học máy Tuy nhiên, trong khung máy học Weka, thuật ngữ này ám chỉ các cây quyết định được tạo ra dựa trên một tập hợp con các thuộc tính ngẫu nhiên.
3.3.2 Kỹ thuật kết hợp không đồng nhất
Các kỹ thuật kết hợp không đồng nhất được đề xuất bao gồm Stacking và Voting Trong phương pháp kết hợp này, các bộ phân loại cơ sở được sử dụng là Cây quyết định.
Xây d ự ng và đ ánh giá mô hình
Decision Tree Nạve Bayes Logistic Regression SVM kNN Random Tree
(DT), Nạve Bayes (NB), Hồi quy logistic (LR), Máy véc-tơ hỗ trợ (SVM), Cây ngẫu nhiên (RT) và k láng giềng gần nhất (KNN)
Kỹ thuật Stacking sử dụng các bộ phân loại cơ sở ở mức 0 kết hợp với bộ phân loại meta ở mức 1, áp dụng các kỹ thuật máy học khác nhau để tối ưu hóa kết quả Kết quả thực nghiệm cho thấy, trong số 6 kỹ thuật máy học ở mức 1, kỹ thuật k láng giềng gần nhất (KNN) với k = số kiểu tấn công + 1 đạt hiệu suất tốt nhất Kỹ thuật KNN này cũng được áp dụng liên tục cho bộ kiểu tấn công meta trong Stacking.
Kỹ thuật kết hợp không đồng nhất sử dụng phương pháp Voting, cho phép kết hợp các bộ phân loại từ sáu kỹ thuật máy học: DT, NB, LR, SVM, RT và KNN Mỗi kỹ thuật sẽ có số lượng bộ phân loại thành phần bằng nhau, ví dụ như 10 bộ phân loại cho mỗi kỹ thuật, dẫn đến tổng cộng 60 bộ phân loại cho cả sáu kỹ thuật Quyết định phân loại cuối cùng của bộ phân loại kết hợp được xác định dựa trên cơ chế bình bầu từ các bộ phân loại thành phần.
Hình 3.4 Mô hình IDS sử dụng kỹ thuật Voting dùng trong thử nghiệm
Tập kiểm tra UNSW - NB15
Khác với phương pháp Voting, kỹ thuật Stacking sử dụng đầu ra của các bộ phân loại cơ sở làm đầu vào cho bộ phân loại meta Kết quả cuối cùng được xác định bởi bộ phân loại meta, sau khi nó được đào tạo dựa trên dữ liệu đầu ra của các bộ phân loại cơ sở Quy trình huấn luyện bao gồm việc chia tập dữ liệu thành hai phần: phần đầu tiên để huấn luyện các bộ phân loại cơ sở, và phần thứ hai để áp lên đầu vào của các bộ phân loại này, từ đó tạo ra dữ liệu đầu vào cho bộ phân loại meta.
Kỹ thuật Stacking trong kết hợp đồng nhất không chỉ sử dụng các bộ kiểu tấn công cơ sở với các kỹ thuật máy học ở mức 0, mà còn áp dụng các kỹ thuật khác nhau cho bộ phân loại meta ở mức 1 để xác định phương pháp hiệu quả nhất Kết quả từ thực nghiệm với 6 kỹ thuật máy học ở mức 1 cho thấy, kỹ thuật k láng giềng gần nhất, với k = số kiểu tấn công + 1, đạt kết quả tốt nhất Đây cũng là kỹ thuật được sử dụng liên tục cho bộ kiểu tấn công meta trong kỹ thuật Stacking.
Hình 3.5 Mô hình IDS sử dụng kỹ thuật Stacking dùng trong thử nghiệm
Kết quả phân loại SVM
Tập kiểm tra UNSW - NB15
KẾT QUẢ THỬ NGHIỆM
Môi trường thực nghiệm
Các chương trình và thuật toán trong thử nghiệm được phát triển bằng ngôn ngữ lập trình Java, sử dụng thư viện và khung làm việc máy học Weka do Đại học Waikato, New Zealand cung cấp.
We utilized the WEKA tool on the Waikato Environment for Knowledge Analysis Version 3.8.3, installed on a Windows 10 Pro system equipped with dual Intel® Xeon® Silver 4108 CPUs running at 1.8GHz, 32GB of RAM, and a 1TB hard drive.
Ngôn ngữ lập trình Java trên nền tảng Eclipse IDE for Java Developers Version: 2019 - 09 R (4.13.0) Build id: 20190917 - 1200
Chúng tôi áp dụng cây quyết định dựa trên thuật toán J48 (mã nguồn mở của C4.5) trong kỹ thuật máy học, kết hợp với các phương pháp như Bagging, Boosting và Stacking Các bộ phân lớp cơ sở bao gồm Cây quyết định (DT), Nạve Bayes (NB), Hồi quy logistic (LR), Máy véc-tơ hỗ trợ (SVM), Cây ngẫu nhiên (RT) và k láng giềng gần nhất (KNN) Đặc biệt, trong kỹ thuật Stacking, bên cạnh các bộ phân lớp cơ sở, bộ phân lớp meta ở mức 1 cũng sử dụng các kỹ thuật máy học khác nhau nhằm tìm ra phương pháp hiệu quả nhất Kết quả thực nghiệm cho thấy kỹ thuật k láng giềng gần nhất, với k bằng số kiểu tấn công cộng 1, mang lại kết quả tối ưu và được áp dụng xuyên suốt cho bộ phân lớp meta trong Stacking.
Tập dữ liệu
Tập dữ liệu UNSW-NB15, được phát triển bởi Trung tâm An ninh mạng (ACCS) Úc vào năm 2015, là nguồn dữ liệu chính để huấn luyện và kiểm tra các kiểu tấn công trong thử nghiệm Tập dữ liệu này được tạo ra bằng công cụ IXIA, bao gồm 9 loại tấn công khác nhau và 49 thuộc tính, giúp phân tích hành vi bình thường và các cuộc tấn công hiện đại.
Tập dữ liệu UNSW-NB15 bao gồm 2.540.044 bản ghi, với các thuộc tính được chia thành sáu nhóm chính: thuộc tính Flow, thuộc tính cơ bản, thuộc tính nội dung, thuộc tính thời gian, thuộc tính được tạo bổ sung và thuộc tính được gắn nhãn Các thuộc tính được tạo bổ sung được phân loại thành hai nhóm con: thuộc tính mục đích chung và thuộc tính kết nối Đối tượng địa lý từ 36 đến 40 được gọi là đối tượng địa lý chung, trong khi các thuộc tính từ 41 đến 47 được xem là thuộc tính kết nối.
The UNSW-NB15 dataset categorizes intrusion attack types into nine distinct labels: Reconnaissance, Shellcode, Exploit, Fuzzers, Worm, DoS, Backdoor, Analysis, and Generic, as illustrated in Figure 4.1.
Hình 4.1 Thống kê các kiểu tấn công trong tập dữ liệu UNSW-NB15
Tập dữ liệu UNSW-NB15 được lựa chọn cho các thử nghiệm do sở hữu nhiều ưu điểm nổi bật so với các tập dữ liệu khác thường được sử dụng trong nghiên cứu của các học giả.
Bài viết này đề cập đến bốn điểm chính: đầu tiên, nó phản ánh các hành vi hiện đại và các hoạt động tấn công tổng hợp đương đại; thứ hai, phân bố xác suất của các tập dữ liệu huấn luyện và kiểm tra là tương tự; thứ ba, nó bao gồm các thuộc tính từ payload và header của các gói nhằm thể hiện hiệu quả của các gói tin mạng; cuối cùng, nó nhấn mạnh sự phức tạp trong việc đánh giá tập dữ liệu UNSW-NB15 đối với các hệ thống tấn công hiện tại.
Normal Analysis Backdoor DoS Exploits
Fuzzers Generic Reconnaissance Shellcode Worms cho thấy rằng tập dữ liệu này chứa các mẫu phức tạp, cho phép đánh giá hiệu quả và đáng tin cậy các phương pháp tấn công hiện tại và mới.
Dữ liệu UNSW-NB15 vẫn còn mới mẻ và chưa được nhiều học giả áp dụng trong các nghiên cứu, dẫn đến hạn chế trong việc so sánh kết quả với các nghiên cứu khác.
Tập dữ liệu UNSW-NB15 bao gồm hai phần: tập kiểm tra với 82.332 bản ghi và tập huấn luyện với 175.341 bản ghi, chứa tất cả các loại tấn công cùng với lưu lượng thông thường Cả hai tập dữ liệu đều có 45 thuộc tính, như được trình bày trong Bảng 4.1 và Bảng 4.2 Lưu ý rằng thuộc tính đầu tiên (id) không được liệt kê trong danh sách thuộc tính đầy đủ của tập dữ liệu.
Trung tâm An ninh mạng Úc đã loại bỏ các thuộc tính scrip, sport, dstip, stime và ltime trong tập dữ liệu huấn luyện và kiểm tra UNSW-NB15 do không cần thiết.
Bảng 4.1 Bảng mô tả thông tin tập dữ liệu UNSW-NB15 [15]
Số TT Tên thuộc tính
Kiểu dữ liệu Số TT Tên thuộc tính Kiểu dữ liệu
1 id Integer 16 trans_depth Integer
2 dsport Integer 17 res_bdy_len Integer
10 sloss Integer 25 is_sm_ips_ports Binary
11 dloss Integer 26 ct_state_ttl Integer
12 service Nominal 27 ct_flw_http_mthd Integer
13 sload Float 28 is_ftp_login Binary
14 dload Float 29 ct_ftp_cmd Integer
15 spkts Integer 30 ct_srv_src Integer
31 dpkts Integer 38 ct_srv_dst Integer
32 swin Integer 39 ct_dst_ltm Integer
33 dwin Integer 40 ct_src_ ltm Integer
34 stcpb Integer 41 ct_src_dport_ltm Integer
35 dtcpb Integer 42 ct_dst_sport_ltm Integer
36 smeansz Integer 43 ct_dst_src_ltm Integer
37 dmeansz Integer 44 attack_cat Nominal
Bảng 4.2 Thông tin của Tập dữ liệu huấn luyện và Tập kiểm tra
Loại tấn công Tập dữ liệu huấn luyện Tập kiểm tra
Số bản ghi Tỷ lệ Số bản ghi Tỷ lệ
Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là bước quan trọng quyết định khả năng áp dụng của mô hình phân lớp trong quá trình phân loại kiểu tấn công Quá trình này giúp cải thiện độ chính xác, hiệu quả và khả năng mở rộng của mô hình Để thực hiện tiền xử lý, cần nắm rõ dạng dữ liệu và thuộc tính mô tả của nó, thường bao gồm bốn giai đoạn chính: làm sạch, tích hợp, biến đổi và thu giảm dữ liệu Khái quát hóa dữ liệu lên mức khái niệm cao hơn là cần thiết, đặc biệt với các thuộc tính liên tục và rời rạc, giúp cô đọng dữ liệu học nguyên thủy và giảm thiểu thao tác vào/ra trong quá trình học Đối với tập dữ liệu UNSW-NB15, chúng tôi đã thực hiện các bước làm sạch và biến đổi dữ liệu.
Sử dụng các kỹ thuật học truyền thống
Chúng tôi áp dụng 6 kỹ thuật học truyền thống, bao gồm Cây quyết định, Naive Bayes, K láng giềng gần nhất, Hồi quy logistic, Máy véc-tơ hỗ trợ và Mạng nơ-ron Kết quả đạt được sẽ được trình bày chi tiết trong các phần tiếp theo.
4.4.1 Thuật toán Cây quyết định
Tập dữ liệu huấn luyện trong tập dữ liệu UNSW-NB15 sau giai đoạn tiền xử lý dữ liệu gồm 175.341 bản ghi và 189 thuộc tính
Với kiểu tấn công sử dụng thuật toán Cây quyết định (DT) trên
- Trường hợp sử dụng đánh giá chéo k-fold:
Việc huấn luyện và kiểm tra mô hình được thực hiện trên cùng một tập dữ liệu thông qua phương pháp đánh giá chéo 10-fold, như đã nêu trong phụ lục 1.1 Thời gian để xây dựng mô hình là 4.623,02 giây, và kết quả kiểm tra, đánh giá được trình bày trong Bảng 4.3.
Kết quả cho thấy kiểu tấn công Generic đạt hiệu suất tốt nhất với các chỉ số Precision, Recall, F-Measure và AUC lần lượt là 99,70%, 98,30%, 99,00% và 99,60% Kiểu tấn công Normal cũng có kết quả ấn tượng với tất cả bốn chỉ số đều trên 92,00% Trong khi đó, kiểu tấn công Fuzzers đạt 91,50% và Exploits đạt 94,30% trên chỉ số AUC Nhìn chung, các kiểu tấn công của mô hình này đều có hiệu suất tương đối cao, với tỷ lệ đúng của kiểu tấn công Correctly Classified Instance đạt 82%.
Bảng 4.3 Kết quả các kiểu tấn công sử dụng Cây quyết định với 10-fold
Kiểu tấn công Corectly Classified Instance 82.85 %
- Trường hợp sử dụng tập dữ liệu kiểm tra để đánh giá:
Tập dữ liệu kiểm tra trong UNSW-NB15, sau khi được tiền xử lý, bao gồm 82.332 bản ghi và 189 thuộc tính Các kiểu tấn công đã được huấn luyện sử dụng tập dữ liệu này được đánh giá trên tập dữ liệu kiểm tra, với kết quả chi tiết được trình bày trong Bảng 4.4.
Kết quả cho thấy kiểu tấn công Generic đạt hiệu suất tốt nhất với chỉ số Precision là 99,00%, trong khi đó kiểu tấn công Exploits cũng có kết quả đáng chú ý.
Recall và AUC lần lượt đạt 87,30% và 92,00% cho kiểu tấn công Normal, với chỉ số F-Measure cao nhất là 81,10% Ngược lại, các kiểu tấn công Analysis và Backdoor có kết quả rất thấp, chỉ đạt từ 00,00% đến 00,10% cho tất cả các chỉ số đánh giá.
Bảng 4.4 Kết quả kiểu tấn công thuật toán cây quyết định trên Tập kiểm tra
Kiểu tấn công Corectly Classified Instance 61.65 %
Tương tự như trên, tập dữ liệu huấn luyện trong tập dữ liệu UNSW-NB15 sau giai đoạn tiền xử lý dữ liệu gồm 175.341 bản ghi và 189 thuộc tính
Với kiểu tấn cơng sử dụng thuật tốn Nạve Bayes trên WEKA
- Trường hợp sử dụng đánh giá chéo k-fold:
Việc huấn luyện và kiểm tra được thực hiện trên cùng một tập dữ liệu thông qua phương pháp đánh giá chéo 10-fold, với thời gian xây dựng mô hình là 71,89 giây Kết quả kiểm tra và đánh giá được trình bày trong Bảng 4.5.
The Generic attack type achieved the best results across all four evaluation metrics, with scores of 95.20%, 97.70%, 96.40%, and 98.70% In contrast, the Normal attack type recorded scores of 90% and 92.30% for Precision and AUC, respectively However, the Reconnaissance, DoS, and Worms attack types demonstrated significantly lower performance in terms of Precision, Recall, and F-Measure.
Bảng 4.5 Kết quả kiểu tấn cơng sử dụng Nạve Bayes với 10-fold
Kiểu tấn công Corectly Classified Instance 54.30%
- Trường hợp sử dụng tập dữ liệu kiểm tra để đánh giá:
Tập dữ liệu kiểm tra trong UNSW-NB15 bao gồm 82.332 bản ghi và 189 thuộc tính sau khi đã trải qua giai đoạn tiền xử lý Các bộ kiểu tấn công được huấn luyện trên tập dữ liệu này đã được kiểm tra và đánh giá, với kết quả được trình bày chi tiết trong Bảng 4.6.
The Generic attack type achieved impressive results, exceeding 92.70% across all metrics, including Precision, Recall, F-Measure, and AUC The Normal attack type also demonstrated strong performance, particularly with a Precision score of 92.10% However, the attack types categorized as DoS, Worms, Analysis, and Reconnaissance showed significantly lower results across all evaluation metrics.
Bảng 4.6 Kết quả kiểu tấn cơng sử dụng Nạve Bayes với Tập kiểm tra
Kiểu tấn công Corectly Classified Instance 50.59 %
4.4.3 Thuật toán k láng giềng gần nhất
Tập dữ liệu huấn luyện trong tập dữ liệu UNSW-NB15 sau giai đoạn tiền xử lý dữ liệu gồm 175.341 bản ghi và 189 thuộc tính
Với kiểu tấn công sử dụng thuật toán IBk (KNN) trên WEKA
- Trường hợp sử dụng đánh giá chéo k-fold:
Trong trường hợp huấn luyện và kiểm tra được thực hiện trên cùng một tập dữ liệu, phương pháp đánh giá chéo 10-fold đã được áp dụng (tham khảo phụ lục 1.3) Thời gian để xây dựng mô hình là 17.079,82 giây, và kết quả kiểm tra, đánh giá được trình bày trong Bảng 4.7.
Kết quả cho thấy, kiểu tấn công Generic đạt hiệu suất cao nhất với 4 chỉ số đánh giá lần lượt là 99,70%, 97,90%, 98,80% và 99,0% Mô hình này thể hiện kết quả khá tốt cho nhiều kiểu tấn công khác nhau.
Bảng 4.7 Kết quả kiểu tấn công sử dụng KNN với 10-fold
Kiểu tấn công Corectly Classified Instance 77.08 %
- Trường hợp sử dụng tập dữ liệu kiểm tra để đánh giá
Tập dữ liệu kiểm tra của UNSW-NB15, sau quá trình tiền xử lý, bao gồm 82.332 bản ghi và 189 thuộc tính Các kiểu tấn công đã được huấn luyện bằng tập dữ liệu này được kiểm tra và đánh giá trên tập dữ liệu kiểm tra, với kết quả được trình bày chi tiết trong Bảng 4.8.
Kết quả cho thấy kiểu tấn công Generic đạt hiệu suất cao nhất với các chỉ số đánh giá lần lượt là 99,80%, 96,40%, 98,10% và 98,70% Trong khi đó, kiểu tấn công Normal nổi bật với chỉ số Precision và AUC, đạt 92,60% và 95,10% Các kiểu tấn công Exploits và Reconnaissance cũng ghi nhận kết quả ấn tượng với chỉ số AUC đạt 90,80%.
Bảng 4.8 Kết quả kiểu tấn công sử dụng KNN với Tập kiểm tra
Kiểu tấn công Corectly Classified Instance 72.28%
4.4.4 Thuật toán Hồi quy logistic
Tập dữ liệu huấn luyện trong tập dữ liệu UNSW-NB15 sau giai đoạn tiền xử lý dữ liệu gồm 175.341 bản ghi và 189 thuộc tính
Với kiểu tấn công sử dụng thuật toán Logistic trên WEKA
- Trường hợp sử dụng đánh giá chéo k-fold:
Việc huấn luyện và kiểm tra được tiến hành trên cùng một tập dữ liệu thông qua phương pháp đánh giá chéo 10-fold, theo như tham khảo ở phụ lục 1.4 Thời gian để xây dựng mô hình là 1.738,89 giây, và kết quả kiểm tra cùng với đánh giá được trình bày trong Bảng 4.9.
Sử dụng kỹ thuật học sâu
Các lớp mạng nơ-ron ẩn được sử dụng để xây dựng các kiến trúc trong thí nghiệm kỹ thuật học sâu gồm:
- DenseLayer: với kiến trúc này, tất cả các đơn vị được kết nối với tất cả các đơn vị của lớp cha của nó
- BatchNormalization: với kiến trúc này, chiến lược chuẩn hóa hàng loạt phổ biến trên các kích hoạt của lớp cha được áp dụng
- LSTM: sử dụng phương pháp tiếp cận trí nhớ ngắn hạn - dài hạn
Trong nghiên cứu này, chúng tôi đã tiến hành so sánh và đánh giá ba kiến trúc khác nhau: DenseLayer kết hợp với OutputLayer, BatchNormalization kết hợp với OutputLayer, và LSTM kết hợp với OutputLayer Kết quả của từng kiến trúc sẽ được trình bày trong phần tiếp theo.
4.5.1 Kiến trúc lớp ẩn dùng BatchNormalization
Tập dữ liệu huấn luyện trong tập dữ liệu UNSW-NB15 sau giai đoạn tiền xử lý dữ liệu gồm 175.341 bản ghi và 189 thuộc tính
Với lớp mạng nơ-ron ẩn dùng BatchNormalization trên WEKA
- Trường hợp sử dụng đánh giá chéo k-fold:
Việc huấn luyện và kiểm tra mô hình được thực hiện trên cùng một tập dữ liệu thông qua phương pháp đánh giá chéo 10-fold, như đã trình bày trong phụ lục 2.1 Thời gian để xây dựng mô hình là 17.502,23 giây, và kết quả kiểm tra cũng như đánh giá được tóm tắt trong Bảng 4.17.
Với kết quả này, kiểu tấn công Generic cho kết quả cao cả trên 4 chỉ số đánh giá lần lượt là 91,90%, 94,50%, 93,20% và 98,20% Tuy nhiên kiểu tấn công
Shellcode và Worm cho kết quả thấp chỉ bằng 00,00%
Bảng 4.17 Kết quả kiểu tấn công kiến trúc BatchNormalization với 10-fold
Kiểu tấn công Corectly Classified Instance 71,70%
- Trường hợp sử dụng tập dữ liệu kiểm tra để đánh giá:
Sau giai đoạn tiền xử lý dữ liệu, tập kiểm tra trong bộ dữ liệu UNSW-NB15 bao gồm 82.332 bản ghi và 189 thuộc tính Kết quả sau khi huấn luyện được kiểm tra lại với tập dữ liệu này, như được trình bày trong Bảng 4.18.
Bảng4.18 Kết quả kiểu tấn công với BatchNormalization với Tập kiểm tra
Kiểu tấn công Corectly Classified Instance 53,69%
4.5.2 Kiến trúc lớp ẩn dùng DenseLayer
Tập dữ liệu huấn luyện trong tập dữ liệu UNSW-NB15 sau giai đoạn tiền xử lý dữ liệu gồm 175.341 bản ghi và 189 thuộc tính
Với lớp mạng nơ-ron ẩn dùng Denselayer trên WEKA
- Trường hợp sử dụng đánh giá chéo k-fold:
Việc huấn luyện và kiểm tra được thực hiện trên cùng một tập dữ liệu thông qua phương pháp đánh giá chéo 10-fold, như đã nêu trong phụ lục 2.2 Thời gian để xây dựng mô hình là 7.895,32 giây, và kết quả kiểm tra cũng như đánh giá được trình bày trong Bảng 4.19.
Với kết quả này, Kiểu tấn công Normal cho kết quả cao nhất tại Precision đạt
The Generic attack type achieved impressive results with Recall, F-Measure, and AUC scores of 98.00%, 91.40%, and 97.30%, respectively In contrast, the Backdoor, Analysis, Shellcode, Reconnaissance, and DoS attack types recorded a disappointing 0.00% across Precision, Recall, and F-Measure metrics.
Bảng 4.19 Kết quả kiểu tấn công DenseLayer với 10-fold
Kiểu tấn công Corectly Classified Instance 77,10%
Precision Recall F-Measure ROC Area
- Trường hợp sử dụng tập dữ liệu kiểm tra để đánh giá:
Sau giai đoạn tiền xử lý dữ liệu, tập kiểm tra trong tập dữ liệu UNSW-NB15 bao gồm 82.332 bản ghi và 189 thuộc tính Kết quả huấn luyện đã được kiểm tra lại bằng cách sử dụng tập kiểm tra này, và kết quả được trình bày trong bảng.
The Normal attack method achieved the highest Precision score of 96.50% Meanwhile, the Generic attack method excelled in three key metrics, with Recall, F-Measure, and AUC scores of 96.30%, 92.50%, and 96.80%, respectively.
Bảng 4.20 Kết quả kiểu tấn công DenseLayer với Tập kiểm tra
Kiểu tấn công Corectly Classified Instance 68,96%
Precision Recall F-Measure ROC Area
4.5.3 Kiến trúc lớp ẩn dùng LSTM
Tập dữ liệu huấn luyện trong tập dữ liệu UNSW-NB15 sau giai đoạn tiền xử lý dữ liệu gồm 175.341 bản ghi và 189 thuộc tính
Với lớp mạng nơ-ron ẩn dùng LSTM trên WEKA
- Trường hợp sử dụng đánh giá chéo k-fold:
Trong trường hợp huấn luyện và kiểm tra được thực hiện trên cùng một tập dữ liệu, phương pháp đánh giá chéo 10-fold được áp dụng (xem phụ lục 2.3) Thời gian để xây dựng mô hình là 6.021,36 giây, và kết quả kiểm tra cùng với đánh giá được trình bày trong Bảng 4.21.
The Generic attack type achieved the highest results across all three metrics, with Precision at 96.20%, F-Measure at 94.10%, and AUC at 98.50% In contrast, the Exploits attack type excelled in Recall, recording a score of 95.10% Meanwhile, the Backdoor, Analysis, Shellcode, Worms, and DoS attack types yielded the lowest results.
Bảng 4.21 Kết quả kiểu tấn công LSTM với 10-fold
Kiểu tấn công Corectly Classified Instance 71,70%
- Trường hợp sử dụng tập dữ liệu kiểm tra để đánh giá:
Tập kiểm tra sau giai đoạn tiền xử lý dữ liệu Tập dữ liệu kiểm tra gồm 82.332 bản ghi và 189 thuộc tính Với kết quả như Bảng 4.22
The Generic attack method achieved the highest results across three metrics: Precision at 100%, F-Measure at 76.30%, and AUC at 95.70% In contrast, the Exploits attack method excelled in Recall with a score of 96.90% Meanwhile, the Backdoor, Analysis, Shellcode, Worms, Reconnaissance, and DoS attack methods recorded the lowest performance, each scoring 00.00%.
Bảng 4.22 Kết quả kiểu tấn công kiến trúc LSTM với Tập kiểm tra
Kiểu tấn công Corectly Classified Instance 57,71%
Dựa trên các kết quả từ các cuộc tấn công sử dụng kỹ thuật học sâu, chúng tôi đã tổng hợp và so sánh hiệu suất của từng kỹ thuật thông qua chỉ số F-Measure, và kết quả đạt được như sau:
- Trường hợp sử dụng đánh giá chéo 10-fold
Bảng 4.23 Đánh giá F-Measure các kỹ thuật máy học sâu với 10-fold
Theo Bảng 4.23, kiến trúc lớp ẩn sử dụng LSTM đạt hiệu quả cao nhất đối với hai kiểu tấn công là Exploits và Generic, trong khi các kiểu tấn công còn lại có kết quả tốt nhất khi áp dụng kiến trúc lớp ẩn với BatchNormalization.
Kết luận cho thấy kỹ thuật máy học sâu với kiến trúc lớp ẩn sử dụng BatchNormalization mang lại hiệu quả cao nhất khi đối phó với nhiều loại tấn công trên tập huấn luyện thông qua phương pháp 10-fold.
- Trường hợp sử dụng tập kiểm tra để đánh giá
Bảng 4.24 Đánh giá F-Measure các kỹ thuật máy học sâu với Tập kiểm tra.
Theo Bảng 4.24, các kiểu tấn công Backdoor, Analysis, Reconnaissance, Exploits, và DoS đạt kết quả cao nhất với kiến trúc lớp ẩn sử dụng BatchNormalization Trong khi đó, kiến trúc lớp ẩn dùng LSTM cho kết quả tốt nhất với kiểu tấn công Normal và Generic Đặc biệt, kiểu tấn công Fuzzers cho kết quả tốt nhất khi áp dụng kiến trúc lớp ẩn dùng DenseLayer.
Kết luận cho thấy rằng việc áp dụng kỹ thuật máy học sâu với kiến trúc lớp ẩn và sử dụng BatchNormalization mang lại hiệu quả cao nhất khi đối phó với nhiều loại tấn công trên tập kiểm tra.
Qua kết quả trình bày ở trên với kỹ thuật học sâu, chúng tôi có một số nhận xét như sau:
- Kỹ thuật học sâu không cho kết quả tốt trên các tập dữ liệu có kích thước và số chiều không lớn như tập dữ liệu UNSW-NB15
- Việc thực thi kỹ thuật học sâu có nhiều tham số phức tạp, việc tối ưu các tham số để cho kết quả tốt nhất vẫn còn để ngõ
Sử dụng kỹ thuật kết hợp
4.6.1 Kỹ thuật kết hợp đồng nhất
4.6.1.1 Kỹ thuật kết hợp Boosting
Tập dữ liệu huấn luyện trong tập dữ liệu UNSW-NB15 sau giai đoạn tiền xử lý dữ liệu gồm 175.341 bản ghi và 189 thuộc tính
Với kiểu tấn công sử dụng thuật toán Boosting trên WEKA chúng tôi sử dụng kết hợp từng bộ phân loại cơ sở như Bảng 4.25 (tham khảo phục lục 3.1)
Bảng 4.25 Các bộ phân loại cơ sở sử dụng với kết hợp đồng nhất Boosting
STT Bộ phân loại cơ sở
+ Trường hợp sử dụng đánh giá chéo 10-fold:
- Thời gian huấn luyện: Thời gian huấn luyện cho từng mô hình sử dụng các bộ phân loại cơ sở khác nhau được trình bày ở Bảng 4.26
Bảng 4.26 Bảng thời gian của kỹ thuật kết hợp đồng nhất Boosting
Bộ phân loại cơ sở Thời gian Corectly Classified Instance
Chỉ số Precision là một tiêu chí quan trọng để đánh giá hiệu quả của các bộ phân loại trong việc phát hiện các kiểu tấn công Nó thể hiện tỷ lệ dự đoán chính xác trên tổng số dự đoán, như được thể hiện trong Bảng 4.27.
Bảng 4.27 Chỉ số Precision khi sử dụng kết hợp đồng nhất Boosting với 10-fold
DT NB LR RT SVM KNN
Fuzzers 75,80% 46,70% 53,20% 26,30% 59,20% 61,10% Shellcode 66,70% 03,10% 00,00% 11,50% 57,30% 50,30% Reconnaissance 90,40% 04,30% 61,10% 60,00% 65,70% 65,00% Exploits 62,10% 70,30% 58,80% 59,70% 59,60% 59,70% DoS 52,20% 18,60% 36,70% 26,80% 20,70% 21,10% Worms 60,50% 00,60% 62,50% 50,00% 41,20% 37,50% Generic 99,50% 96,60% 99,20% 99,80% 99,80% 99,70%
Chỉ số Recall là một chỉ số quan trọng trong việc đánh giá hiệu quả của các bộ phân loại, thể hiện tỷ lệ dự đoán đúng so với tổng số tấn công có trong tập dữ liệu cho từng loại tấn công Các kết quả cụ thể được trình bày chi tiết trong Bảng 4.28.
Bảng 4.28 Chỉ số Recall kết hợp đồng nhất Boosting với 10-fold
DT NB LR RT SVM KNN
- Chỉ số F-Measure: Chỉ số đánh giá F-Measure cho từng kiểu tấn công sử dụng các bộ phân loại cơ sở khác nhau được trình bày ở Bảng 4.29
Bảng 4.29 Chỉ số F-Measure kết hợp đồng nhất Boosting với 10-fold
DT NB LR RT SVM KNN
- Chỉ số AUC: Chỉ số đánh giá AUC cho từng kiểu tấn công sử dụng các bộ phân loại cơ sở khác nhau được trình bày ở Bảng 4.30
Bảng 4.30 Chỉ số AUC kết hợp đồng nhất Boosting với 10-fold
DT NB LR RT SVM KNN
Dựa trên kết quả từ Bảng 4.29, chỉ số F-Measure cho thấy kỹ thuật Boosting kết hợp với thuật toán cây quyết định đạt hiệu quả tối ưu nhất trong việc đánh giá các kiểu tấn công.
+ Trường hợp sử dụng tập dữ liệu kiểm tra để đánh giá:
Tập kiểm tra trong tập dữ liệu UNSW-NB15 sau giai đoạn tiền xử lý dữ liệu tập dữ liệu kiểm tra gồm 82.332 bản ghi và 189 thuộc tính
Sau khi hoàn thành quá trình huấn luyện, chúng tôi đã sử dụng tập kiểm tra để đánh giá lại các chỉ số như Precision, Recall, F-Measure và AUC Kết quả được trình bày chi tiết trong Bảng 4.31, Bảng 32, Bảng 4.33 và Bảng 4.34.
Bảng 4.31 Chỉ số Precision kết hợp đồng nhất Boosting với Tập kiểm tra
DT NB LR RT SVM KNN
Bảng 4.32 Chỉ số Recall kết hợp đồng nhất Boosting với Tập kiểm tra
DT NB LR RT SVM KNN
Bảng 4.33 Chỉ số F-Measure kết hợp đồng nhất Boosting với Tập kiểm tra
DT NB LR RT SVM KNN
Bảng 4.34 Chỉ số AUC kết hợp đồng nhất Boosting với Tập kiểm tra
DT NB LR RT SVM KNN
Dựa vào kết quả từ Bảng 33, chỉ số F-Measure cho thấy kỹ thuật Boosting kết hợp với thuật toán cây ngẫu nhiên RT đạt hiệu quả cao nhất trong việc đánh giá các kiểu tấn công.
Dựa trên kết quả của kỹ thuật Boosting kết hợp với phương pháp đánh giá chéo 10-fold và việc sử dụng tập kiểm tra riêng, chúng tôi đã xác định được kết quả tối ưu cho từng trường hợp, như được trình bày trong Bảng 4.35 và Bảng 4.36.
Bảng 4.35 Kết quả kiểu tấn công kết hợp đồng nhất Boosting với 10-fold
Kiểu tấn công Bộ phân loại cơ sở Precision Recall F-Measure AUC
Bảng 4.36 Kết quả kiểu tấn công kết hợp đồng nhất Boosting với Tập kiểm tra
Kiểu tấn công Bộ phân loại cơ sở Precision Recall F-Measure AUC
Qua kết quả đạt được, chúng tôi có một số nhận xét:
Đánh giá chéo 10-fold mang lại kết quả tốt hơn so với việc sử dụng tập kiểm tra riêng Điều này cho thấy rằng tập kiểm tra chứa nhiều mẫu phức tạp, phản ánh các kiểu tấn công tổng hợp hiện đại.
Việc áp dụng đánh giá chéo 10-fold có thể dẫn đến hiện tượng quá khớp dữ liệu (overfitting), đặc biệt là với thuật toán cây quyết định, khi nó thể hiện tốt trong đánh giá này nhưng lại kém hiệu quả hơn so với cây ngẫu nhiên RT khi sử dụng tập kiểm tra riêng Điều này cho thấy rằng cây ngẫu nhiên thực chất là một phiên bản cải tiến của cây quyết định, giúp giảm thiểu vấn đề quá khớp dữ liệu.
Thuật toán Boosting thường tốn nhiều thời gian tính toán hơn so với các kỹ thuật học truyền thống Nguyên nhân chính là do quá trình phân loại được thực hiện thông qua sự kết hợp của nhiều mô hình tấn công, thay vì chỉ một thuật toán đơn lẻ.
4.6.1.2 Kỹ thuật kết hợp Bagging
Tập dữ liệu huấn luyện trong tập dữ liệu UNSW-NB15 sau giai đoạn tiền xử lý dữ liệu gồm 175.341 bản ghi và 189 thuộc tính
Với kiểu tấn công sử dụng thuật toán Bagging trên WEKA chúng tôi sử dụng kết hợp từng bộ phân loại cơ sở như Bảng 4.37 (tham khảo phục lục 3.2)
Bảng 4.37 Các bộ phân loại cơ sở sử dụng kết hợp không đồng nhất Bagging
STT Bộ phân loại cơ sở
+ Trường hợp sử dụng đánh giá chéo 10-fold:
- Thời gian huấn luyện: Thời gian huấn luyện cho từng mô hình sử dụng các bộ phân loại cơ sở khác nhau được trình bày ở Bảng 4.38
Bảng 4.38 Bảng thời gian và kết quả kỹ thuật kết hợp đồng nhất Bagging
Bộ phân loại cơ sở Thời gian Corectly Classified Instance
Chỉ số Precision đánh giá tỷ lệ dự đoán chính xác trong tổng số dự đoán khi phát hiện các kiểu tấn công, sử dụng các bộ phân loại cơ sở khác nhau, được trình bày trong Bảng 4.39.
Bảng 4.39 Chỉ số Precision kết hợp đồng nhất Bagging với 10-fold
DT NB LR RT SVM KNN
Chỉ số Recall đánh giá tỷ lệ dự đoán chính xác trên tổng số tấn công trong tập dữ liệu cho từng loại tấn công, sử dụng các bộ phân loại khác nhau, như được thể hiện trong Bảng 4.40.
Bảng 4.40 Chỉ số Recall kết hợp đồng nhất Bagging với 10-fold
DT NB LR RT SVM KNN
- Chỉ số F-Measure: Chỉ số đánh giá F-Measure cho từng kiểu tấn công sử dụng các bộ phân loại cơ sở khác nhau được trình bày ở Bảng 4.41
Bảng 4.41 Chỉ số F-Measure kết hợp đồng nhất Bagging với 10-fold
DT NB LR RT SVM KNN
- Chỉ số AUC: Chỉ số đánh giá AUC cho từng kiểu tấn công sử dụng các bộ phân loại cơ sở khác nhau được trình bày ở Bảng 4.42
Bảng 4.42 Chỉ số AUC kết hợp đồng nhất Bagging với 10-fold
DT NB LR RT SVM KNN
Dựa trên kết quả từ Bảng 4.41, chỉ số F-Measure cho thấy rằng việc áp dụng kỹ thuật Bagging kết hợp với thuật toán cây quyết định mang lại hiệu quả cao nhất trong việc đánh giá các kiểu tấn công.
+ Trường hợp sử dụng tập dữ liệu kiểm tra để đánh giá:
Tập kiểm tra trong tập dữ liệu UNSW-NB15 sau giai đoạn tiền xử lý dữ liệu tập dữ liệu kiểm tra gồm 82.332 bản ghi và 189 thuộc tính
Sau khi hoàn tất quá trình huấn luyện, chúng tôi đã sử dụng tập kiểm tra để đánh giá lại mô hình, với các chỉ số Precision, Recall, F-Measure và AUC được trình bày chi tiết trong Bảng 4.43, Bảng 4.44, Bảng 4.45 và Bảng 4.46.
Bảng 4.43 Chỉ số Precision kết hợp đồng nhất Bagging với Tập kiểm tra
DT NB LR RT SVM KNN
Bảng 4.44 Chỉ số Recall kết hợp đồng nhất Bagging với Tập kiểm tra
DT NB LR RT SVM KNN
Worms 20,50% 20,50% 06,80% 02,30% 11,40% 04,50% Generic 97,30 96,00% 96,30% 96,10% 96,40% 96,50% Bảng 4.45 Chỉ số F-Measure kết hợp đồng nhất Bagging với Tập kiểm tra
DT NB LR RT SVM KNN
Bảng 4.46 Chỉ số AUC kết hợp đồng nhất Bagging với Tập kiểm tra
DT NB LR RT SVM KNN
Dựa trên kết quả ở Bảng 45, chỉ số F-Measure với kỹ thuật Bagging cho thấy hiệu quả cao trên các thuật toán khác nhau Cụ thể, thuật toán KNN đạt kết quả tốt nhất trong các kiểu tấn công Shellcode, Reconnaissance, DoS và Generic Thuật toán RT thể hiện hiệu quả nổi bật trong hai kiểu tấn công Normal và Exploits, trong khi thuật toán LR mang lại kết quả khả quan trong các kiểu tấn công Analysis và Fuzzers Cuối cùng, thuật toán NB cho thấy hiệu suất tốt nhất trong kiểu tấn công Backdoor.
Dựa trên kết quả từ kỹ thuật Bagging kết hợp với đánh giá chéo 10-fold và tập kiểm tra riêng, chúng tôi đã xác định kết quả tốt nhất cho từng trường hợp, được trình bày trong Bảng 4.47 và Bảng 4.48.
Bảng 4.47 Kết quả kiểu tấn công kết hợp đồng nhất Bagging với 10-fold
Kiểu tấn công Bộ phân loại cơ sở Precision Recall F-Measure AUC
Bảng 4.48 Kết quả kiểu tấn công kết hợp đồng nhất Bagging với Tập kiểm tra
Kiểu tấn công Bộ phân loại cơ sở Precision Recall F-Measure AUC
Qua kết quả đạt được, chúng tôi có một số nhận xét:
Tổng hợp kết quả
4.7.1 Đánh giá các thuật toán sử dụng đánh giá chéo 10-fold
4.7.1.1 Kiểu tấn công Normal (phát hiện tấn công)
Chất lượng của kiểu tấn công Normal đối với các thuật toán trình bày trong Bảng 4.79 được đánh giá dựa trên Tập huấn luyện 10-fold Kết quả cho thấy, kỹ thuật kết hợp đồng nhất với thuật toán Random Forest đạt được chỉ số F-Measure cao nhất.
Bảng 4.79 Chất lượng kiểu tấn công Normal với 10-fold
Chỉ số đánh giá Precision Recall F-Measure AUC
Kỹ thuật học truyền thống
Kỹ thuật kết hợp đồng nhất
Kỹ thuật kết hợp không đồng nhất
Chất lượng của kiểu tấn công Backdoor đối với các thuật toán được trình bày trong Bảng 4.80, với Tập huấn luyện sử dụng phương pháp 10-fold, cho thấy rằng kỹ thuật kết hợp đồng nhất với thuật toán Stacking đạt kết quả cao nhất, với chỉ số F-Measure là 33,00%.
Bảng 4.80 Chất lượng kiểu tấn công Backdoor với 10-fold
Chỉ số đánh giá Precision Recall F-Measure AUC
Kỹ thuật học truyền thống
Kỹ thuật kết hợp đồng nhất
Kỹ thuật kết hợp không đồng nhất
Chất lượng của kiểu tấn công Analysis được đánh giá qua các thuật toán trong Bảng 4.81, sử dụng phương pháp huấn luyện 10-fold Kết quả cho thấy, chỉ số F-Measure đạt cao nhất là 38,30% khi áp dụng kỹ thuật kết hợp đồng nhất thuật toán Stacking.
Bảng 4.81 Chất lượng kiểu tấn công Analysis với 10-fold
Chỉ số đánh giá Precision Recall F-Measure AUC
Kỹ thuật học truyền thống
Kỹ thuật kết hợp đồng nhất
Kỹ thuật kết hợp không đồng nhất
Chất lượng tấn công của Fuzzers đối với các thuật toán được trình bày trong Bảng 4.82, sử dụng Tập huấn luyện 10-fold Kết quả cho thấy kỹ thuật kết hợp đồng nhất với thuật toán Bagging đạt hiệu suất tốt nhất, với chỉ số F-Measure là 76,30%.
Bảng 4.82 Chất lượng kiểu tấn công Fuzzers với 10-fold
Chỉ số đánh giá Precision Recall F-Measure AUC
Kỹ thuật học truyền thống
Kỹ thuật kết hợp đồng nhất
Kỹ thuật kết hợp không đồng nhất
Chất lượng của kiểu tấn công Shellcode đối với các thuật toán được trình bày trong Bảng 4.83 cho thấy kết quả ấn tượng khi áp dụng phương pháp huấn luyện 10-fold Đặc biệt, kỹ thuật kết hợp đồng nhất thuật toán Bagging đạt được chỉ số F-Measure cao nhất là 68,90%.
Bảng 4.83 Chất lượng kiểu tấn công Shellcode với 10-fold
Chỉ số đánh giá Precision Recall F-Measure AUC
Kỹ thuật học truyền thống
Kỹ thuật kết hợp đồng nhất
Kỹ thuật kết hợp không đồng nhất
Chất lượng kiểu tấn công Reconnaissance của các thuật toán được trình bày trong Bảng 4.84 với Tập huấn luyện 10-fold cho thấy rằng kỹ thuật kết hợp đồng nhất với thuật toán Bagging đạt chỉ số F-Measure là 82,40% Trong khi đó, kỹ thuật học sâu với kiến trúc lớp ẩn sử dụng DenseLayer chỉ đạt kết quả 00,00%.
Bảng 4.84 Chất lượng kiểu tấn công Reconnaissance với 10-fold
Chỉ số đánh giá Precision Recall F-Measure AUC
Kỹ thuật học truyền thống
Kỹ thuật kết hợp đồng nhất
Kỹ thuật kết hợp không đồng nhất
Chất lượng của các kiểu tấn công Exploits đối với các thuật toán được trình bày trong Bảng 4.85, với việc sử dụng Tập huấn luyện 10-fold Kỹ thuật kết hợp đồng nhất thuật toán Voting đạt kết quả cao nhất với chỉ số F-Measure là 98,50%.
Bảng 4.85 Chất lượng kiểu tấn công Exploits với 10-fold
Chỉ số đánh giá Precision Recall F-Measure AUC
Kỹ thuật học truyền thống
Kỹ thuật kết hợp đồng nhất
Kỹ thuật kết hợp không đồng nhất
Chất lượng kiểu tấn công Worms cho các thuật toán được trình bày trong Bảng 4.86 với Tập huấn luyện 10-fold cho thấy rằng kỹ thuật kết hợp đồng nhất giữa hai thuật toán Boosting và Voting đạt kết quả F-Measure bằng nhau là 60,20% Trong khi đó, thuật toán mạng nơ-ron trong kỹ thuật học truyền thống cũng được đề cập.
SVM và trong kỹ thuật học sâu với kiến trúc lớp ẩn dùng LSTM và DenseLayer cho kết quả chỉ bằng 00,00%
Bảng 4.86 Chất lượng kiểu tấn công Worms với 10-fold
Chỉ số đánh giá Precision Recall F-Measure AUC
Kỹ thuật học truyền thống
Kỹ thuật kết hợp đồng nhất
Kỹ thuật kết hợp không đồng nhất
Chất lượng kiểu tấn công Generic cho các thuật toán được trình bày trong Bảng 4.87 sử dụng tập huấn luyện 10-fold Tất cả các thuật toán đều đạt chỉ số F-Measure trên 91,00%, với kết quả cao nhất lên đến 99,00%.
Bảng 4.87 Chất lượng kiểu tấn công Generic với 10-fold
Chỉ số đánh giá Precision Recall F-Measure AUC
Kỹ thuật học truyền thống
Kỹ thuật kết hợp đồng nhất
Kỹ thuật kết hợp không đồng nhất
Chất lượng kiểu tấn công DoS của các thuật toán được trình bày trong Bảng 4.88 cho thấy rằng kỹ thuật kết hợp đồng nhất với thuật toán Stacking đạt kết quả cao nhất với chỉ số F-Measure là 44,40% Ngược lại, kiến trúc lớp ẩn sử dụng LSTM trong kỹ thuật học sâu chỉ đạt kết quả bằng 00,00%.
Bảng 4.88 Chất lượng kiểu tấn công DoS với 10-fold
Chỉ số đánh giá Precision Recall F-Measure AUC
Kỹ thuật học truyền thống
Kỹ thuật kết hợp đồng nhất
Kỹ thuật kết hợp không đồng nhất
4.7.2 Đánh giá các thuật toán sử dụng Tập kiểm tra
Chất lượng kiểu tấn công Normal cho các thuật toán được trình bày trong Bảng 4.89 với Tập kiểm tra cho thấy hiệu quả của kỹ thuật kết hợp không đồng nhất.
Boosting cho kết quả cao nhất trên chỉ số F-Measure là 91,50% Nhìn chung tất cả các kỹ thuật học máy đều cho kết quả cao
Bảng 4.89 Chất lượng kiểu tấn công Normal trên Tập kiểm tra
Chỉ số đánh giá Precision Recall F-Measure AUC
Kỹ thuật học truyền thống
Kỹ thuật kết hợp đồng nhất
Kỹ thuật kết hợp không đồng nhất
Chất lượng của kiểu tấn công Backdoor đối với các thuật toán được trình bày trong Bảng 4.90 với Tập kiểm tra cho thấy kỹ thuật kết hợp đồng nhất với thuật toán Boosting đạt kết quả cao nhất với chỉ số F-Measure là 14,70% Tuy nhiên, nhìn chung, tất cả các thuật toán đều cho kết quả rất thấp khi áp dụng kiểu tấn công này.
Bảng 4.90 Chất lượng kiểu tấn công Backdoor trên Tập kiểm tra
Chỉ số đánh giá Precision Recall F-Measure AUC
Kỹ thuật học truyền thống
Kỹ thuật kết hợp đồng nhất
Kỹ thuật kết hợp không đồng nhất
Chất lượng kiểu tấn công Analysis cho các thuật toán trong Tập kiểm tra cho thấy kỹ thuật kết hợp đồng nhất với thuật toán Boosting đạt kết quả cao nhất với chỉ số F-Measure là 25,50% Tuy nhiên, đối với kiểu tấn công này, các kỹ thuật khác đều cho kết quả rất thấp.
Bảng 4.91 Chất lượng kiểu tấn công Analysis trên Tập kiểm tra
Chỉ số đánh giá Precision Recall F-Measure AUC
Kỹ thuật học truyền thống
Kỹ thuật kết hợp đồng nhất
Kỹ thuật kết hợp không đồng nhất
Chất lượng của các kiểu tấn công Fuzzers đối với các thuật toán được thể hiện trong Bảng 4.92 với Tập kiểm tra Kỹ thuật kết hợp đồng nhất với thuật toán Boosting đạt kết quả cao nhất, với chỉ số F-Measure là 67,90%.
Bảng 4.92 Chất lượng kiểu tấn công Fuzzers trên Tập kiểm tra
Chỉ số đánh giá Precision Recall F-Measure AUC
Kỹ thuật học truyền thống
Kỹ thuật kết hợp đồng nhất
Kỹ thuật kết hợp không đồng nhất
Chất lượng kiểu tấn công Shellcode được trình bày trong Bảng 4.93 cho thấy kỹ thuật kết hợp đồng nhất với thuật toán Boosting đạt kết quả cao nhất với chỉ số F-Measure là 48,60% Ngược lại, các kỹ thuật học sâu cùng với các thuật toán SVM, Logistic và Mạng nơ-ron sử dụng kỹ thuật học truyền thống chỉ đạt kết quả 00,00%.
Bảng 4.93 Chất lượng kiểu tấn công Shellcode trên Tập kiểm tra
Chỉ số đánh giá Precision Recall F-Measure AUC
Kỹ thuật học truyền thống
Kỹ thuật kết hợp đồng nhất
Kỹ thuật kết hợp không đồng nhất