Đồ án tốt nghiệp Công nghệ kỹ thuật máy tính: Nghiên cứu phương pháp tấn công dựa trên mạng đối nghịch tạo sinh nhắm vào học liên kết trong điện toán biên cho hệ thống IOT

Mô hình này sau đó có thể được sử dụng để tạo ra các mẫu giả tạo giống các Client lành tính và hình thành một cuộc tấn công suy luận Inference attack – một kỹ thuật khai thác dữ liệu tro

GIỚI THIỆU

TỔNG QUAN

Trong thời đại công nghệ hiện nay, Machine Learning (học máy) đóng vai trò quan trọng trong việc nâng cao quy trình công nghiệp và chuyên nghiệp Các ứng dụng này sử dụng khả năng phân loại và xử lý hình ảnh, cũng như các mô hình hồi quy để đạt được hiệu quả thực tế Sự phát triển của trí tuệ nhân tạo (AI) đòi hỏi một lượng dữ liệu lớn để cải thiện kết quả, nhưng việc thu thập dữ liệu từ nhiều nguồn khác nhau có thể gây ra lo ngại về quyền riêng tư và không tuân thủ các quy định bảo vệ dữ liệu như GDPR Để giải quyết vấn đề này, học tập liên kết (Federated Learning - FL) đã trở thành một giải pháp thay thế hiệu quả, cho phép đào tạo mô hình cục bộ tại cơ sở của khách hàng mà không tiết lộ dữ liệu nhạy cảm Chỉ các tham số mô hình được gửi đến máy chủ trung tâm để tổng hợp, tạo ra mô hình toàn cục mà vẫn bảo vệ quyền riêng tư của người dùng Phương pháp tổng hợp phổ biến nhất là FedAvg, giúp gói gọn kiến thức từ từng khách hàng mà không làm lộ thông tin cá nhân.

Mặc dù phương pháp này thu hút và giải quyết vấn đề bảo mật dữ liệu trong nhiều trường hợp, nhưng vẫn tồn tại những hạn chế liên quan đến an ninh của hệ thống.

Cụ thể, vì client hoàn toàn kiểm soát dữ liệu của họ và mô hình họ nhận được, nên họ có khả

Việc thay đổi các thành phần như tham số mô hình (trọng số và độ lệch) và nhãn dữ liệu, chẳng hạn bằng cách sử dụng dữ liệu giả, có thể tạo ra những rủi ro bảo mật nghiêm trọng Thêm vào đó, do các mô hình cục bộ và toàn cục được trao đổi qua mạng, kẻ tấn công có thể chặn liên lạc và thực hiện các cuộc tấn công suy luận, từ đó thu thập thông tin nhạy cảm Điều này cho phép một máy khách bị xâm nhập can thiệp vào quá trình học tập của hệ thống liên kết, dẫn đến các hành động độc hại như các cuộc tấn công cửa sau và Byzantine.

Các máy khách bị nhiễm phần mềm độc hại có thể gửi thông tin sai lệch hoặc thực hiện hành động bất thường, dẫn đến các cuộc tấn công như đầu độc dữ liệu hoặc đầu độc mô hình Những cuộc tấn công này xảy ra khi dữ liệu riêng tư hoặc tham số mô hình bị thay đổi.

GAN là các mạng thần kinh được huấn luyện theo cách đối kháng, chủ yếu phục vụ cho nhiệm vụ tạo hình ảnh Mặc dù đã được điều chỉnh cho nhiều tình huống khác nhau, việc tạo hình ảnh vẫn là một lĩnh vực nghiên cứu tích cực với các kiến trúc và kỹ thuật mới, như tạo ra con người và hình ảnh có độ phân giải cao Trong các hệ thống liên kết, GAN được áp dụng cho cả hai trường hợp lành tính và ác ý.

Mô hình toàn cục có thể là một GAN được đào tạo để tạo hình ảnh liên kết, sau đó bị lạm dụng bởi người dùng độc hại để sao chép vào bộ phân biệt (Discriminator) nhằm tạo ra mô hình GAN mới Mô hình này có khả năng tạo ra các mẫu giả giống với các Client lành tính, dẫn đến một cuộc tấn công suy luận (Inference attack) - một kỹ thuật khai thác dữ liệu mà kẻ tấn công thu thập thông tin từ dữ liệu đã biết mà không cần truy cập trực tiếp vào cơ sở dữ liệu chứa thông tin đó.

Gần đây, hiệu suất tối ưu hóa trong Học tập liên kết ngày càng được chú trọng Một nghiên cứu đã giới thiệu phương pháp học máy liên kết được tối ưu hóa cho các mạng biên với tài nguyên hạn chế, mang tên AdaptSFL (Adaptive Split Federated Learning) Framework này nhằm tăng tốc quá trình SFL trong các hệ thống điện toán biên với nguồn tài nguyên hạn chế Bên cạnh đó, nghiên cứu cũng tập trung vào việc tăng cường bảo mật IoT chống lại các cuộc tấn công DDoS thông qua học tập liên kết, đề xuất các phương pháp hiệu quả để cải thiện an ninh mạng.

Mã hóa tự động sâu cải tiến (Deep autoencoder) là một mô hình mạng thần kinh sâu giúp nén và chuyển đổi dữ liệu, nhằm giảm kích thước dữ liệu và nâng cao hiệu suất cũng như tính ổn định của mô hình Nghiên cứu này đã khám phá các cơ chế tấn công ngộ độc trong học tập liên kết, với các kết quả thực nghiệm cho thấy hai mô hình tấn công phổ biến là lật nhãn (Label flipping) và cửa sau (Backdoor) có tác động đáng kể đến quá trình huấn luyện mô hình học máy Mặc dù các bài báo liên quan đã áp dụng và thử nghiệm các phương pháp bảo mật cho hệ thống học tập liên kết, nhưng chưa có nghiên cứu nào thực hiện trên các hệ thống IoT học tập liên kết với những hạn chế về sức mạnh thiết bị.

Trong đề tài này chúng tôi thực hiện cuộc tấn công đảo nhãn dựa trên nghiên cứu

Flower là một framework học liên kết toàn diện, khác biệt với các nền tảng hiện có, cho phép thực hiện thí nghiệm học liên kết quy mô lớn trên các thiết bị không đồng nhất Dự án mã nguồn mở này rất phù hợp cho nghiên cứu và khám phá, với khả năng mở rộng mạnh mẽ để hỗ trợ nhiều Client không đồng nhất Mục tiêu chính của Flower là cung cấp một framework chung để thực hiện các nghiên cứu khác nhau và cho phép chạy các thử nghiệm trên một số lượng lớn thiết bị không đồng nhất.

Chúng tôi đã tiến hành đánh giá các mô hình tấn công và tạo dữ liệu trên hệ thống Federated Learning sử dụng thiết bị IoT như board Raspberry Pi Thông qua việc triển khai chiến lược tấn công đầu độc bằng cách lật nhãn, kết quả thực nghiệm cho thấy mô hình tấn công này rất hiệu quả trong môi trường học tập liên kết IoT với tài nguyên hạn chế.

MỤC TIÊU

Mục tiêu nghiên cứu là phát triển một framework edge computing thông minh sử dụng học tập liên kết nhằm giải quyết các thách thức an ninh và quyền riêng tư trong IoT, đặc biệt là vấn đề tấn công đầu độc Nghiên cứu giới thiệu hai đóng góp chính: phương pháp tạo dữ liệu độc hại Data_Gen và mô hình tấn công đầu độc PoisonGAN, được đánh giá qua các thử nghiệm chiến lược tấn công Ngoài ra, nghiên cứu còn thực hiện chiến lược tấn công trên hệ thống học liên kết cho IoT, với kết quả cho thấy mô hình tấn công có khả năng đe dọa tính toàn vẹn của học tập liên kết.

PHƯƠNG PHÁP NGHIÊN CỨU

− Phương pháp phân tích – tổng hợp thông tin

− Phương pháp thử nghiệm phần cứng thực tế.

ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU

− Phương pháp đào tạo Học tập liên kết – Federated Learning

− Mạng đối nghịch tạo sinh - Generative Adversarial Networks

− Phương pháp tấn công đầu độc – Data Poisoning

− Hệ thống IoT và Raspberry Pi 4

− Phạm vi về phương pháp tấn công

• Mô hình GAN: Phát triển và sử dụng mô hình GAN để tạo ra dữ liệu độc hại nhằm lật nhãn trong hệ thống FL

• Mục tiêu tấn công: Tấn công nhằm làm suy giảm hiệu suất của mô hình toàn cục trong FL

− Phạm vi về quá trình thực nghiệm

• Thiết lập thí nghiệm: Thiết lập một môi trường thử nghiệm với một số lượng hạn chế các Client (Raspberry Pi 4) tham gia vào hệ thống FL

Thời gian thực hiện thí nghiệm là yếu tố quan trọng để đảm bảo kết quả có thể được phân tích và đánh giá một cách khoa học Việc tiến hành các thí nghiệm trong một khoảng thời gian nhất định giúp đảm bảo tính chính xác và độ tin cậy của dữ liệu thu thập được.

− Phạm vi về đánh giá và phân tích

Để đánh giá hiệu quả của cuộc tấn công trong mô hình học máy, cần sử dụng các chỉ số hiệu suất như độ chính xác và tỷ lệ lật nhãn Những thông số này giúp xác định mức độ thành công của các phương pháp tấn công và ảnh hưởng của chúng đến kết quả của mô hình.

Phương pháp đánh giá hiệu quả hệ thống FL được thực hiện thông qua việc so sánh các thông số trong những trường hợp cụ thể Điều này giúp xác định mức độ ảnh hưởng của cuộc tấn công đầu độc cũng như mức tiêu thụ tài nguyên của hệ thống.

BỐ CỤC ĐỒ ÁN

Nội dung của báo cáo bao gồm 5 chương:

Giới thiệu về tình hình nghiên cứu thực tế, mục tiêu của đề tài cũng như bố cục của đồ án

− CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

Mô tả về các thiết bị, công cụ hỗ trợ, phương pháp nghiên cứu và thiết kế của đề tài

− CHƯƠNG 3: THIẾT KẾ VÀ TRIỂN KHAI

Mô tả kiến trúc tổng quan, quy trình triển khai và các thuật toán được sử dụng trong hệ thống

− CHƯƠNG 4: KIỂM TRA KẾT QUẢ VÀ ĐÁNH GIÁ

Trình bày kết quả của quá trình thiết kế và đưa ra nhận xét dựa trên yêu cầu thiết kế

Chương 5: Kết luận và Hướng phát triển đưa ra những nhận xét về kết quả đạt được so với mục tiêu của đồ án, từ đó đề xuất các hướng phát triển nhằm giải quyết các vấn đề hiện tại và mở rộng quy mô của dự án.

CƠ SỞ LÍ THUYẾT

HỌC TẬP LIÊN KẾT – FEDERATED LEARNING

Học tập liên kết là phương pháp đảo ngược cách tiếp cận truyền thống trong học máy, cho phép thực hiện học máy trên dữ liệu phân tán Thay vì chuyển dữ liệu về nơi huấn luyện, phương pháp này di chuyển quá trình huấn luyện đến vị trí của dữ liệu.

• Học (máy) tập trung: di chuyển dữ liệu vào tính toán

• Học (máy) liên kết: di chuyển tính toán vào dữ liệu

Hình 2.1 Học tập liên kết trong hệ thống edge computing [23]

Việc áp dụng máy học và các phương pháp khoa học dữ liệu trong những lĩnh vực mới đã mở ra cơ hội đào tạo các mô hình AI y tế bằng cách kết hợp dữ liệu từ nhiều bệnh viện khác nhau Điều này không chỉ cho phép xây dựng các ứng dụng mới nâng cao quyền riêng tư, như nhắn tin an toàn với AI tích hợp, mà còn giúp phát hiện nhiều lĩnh vực có thể được đổi mới nhờ vào việc truy cập vào lượng lớn dữ liệu mà trước đây không thể tiếp cận.

2.1.1 Quá trình học tập liên kết

Quá trình đầu tiên trong việc xây dựng mô hình là khởi tạo mô hình toàn cục trên máy chủ Bước này tương tự như phương pháp học tập trung cổ điển, trong đó các tham số mô hình được khởi tạo một cách ngẫu nhiên hoặc từ một điểm kiểm tra đã được lưu trữ trước đó.

Hình 2.2 Khởi tạo mô hình toàn cục [34]

• Quá trình thứ hai: Gửi mô hình tới một số client/thiết bị biên được kết nối (nút Client)

Tiếp theo, các tham số của mô hình toàn cục được gửi đến các nút Client kết nối, như điện thoại thông minh hoặc máy chủ tại các tổ chức, nhằm đảm bảo rằng mỗi nút bắt đầu quá trình huấn luyện cục bộ với cùng một bộ tham số Thông thường, chỉ một số ít nút được kết nối tham gia thay vì tất cả, do thực tế là không phải tất cả các nút Client đều có thể tham gia vào quá trình huấn luyện vì lý do kết nối mạng hoặc quyết định từ phía Client, chẳng hạn như tạm ngưng khi chưa thu thập đủ dữ liệu huấn luyện hoặc thiếu tài nguyên.

Hình 2.3 Gửi mô hình toàn cục [34]

• Quá trình thứ ba: Huấn luyện mô hình cục bộ trên dữ liệu của từng Client/thiết bị biên (nút Client)

Tất cả các nút Client đã chọn hiện có phiên bản mới nhất của các tham số mô hình toàn cục và sẽ bắt đầu quá trình đào tạo cục bộ Mỗi nút sử dụng tập dữ liệu cục bộ riêng để huấn luyện mô hình của mình, nhưng không tiến hành huấn luyện cho đến khi hội tụ hoàn toàn Thay vào đó, họ chỉ thực hiện đào tạo trong một khoảng thời gian ngắn, có thể chỉ là vài epoch hoặc thậm chí chỉ một vài bước (mini-batchs).

Hình 2.4 Đào tạo về dữ liệu cục bộ [34]

• Quá trình thứ tư: Gửi lại bản cập nhật mô hình cho máy chủ

Sau khi hoàn tất đào tạo cục bộ, mỗi nút máy khách sở hữu một phiên bản khác nhau của các tham số mô hình do sự khác biệt trong tập dữ liệu cục bộ mà chúng sử dụng Các nút này sẽ gửi các bản cập nhật mô hình trở lại máy chủ, có thể bao gồm toàn bộ tham số mô hình hoặc chỉ là độ dốc tích lũy từ quá trình đào tạo cục bộ.

Hình 2.5 Gửi thông tin cập nhật về mô hình [34]

• Quá trình thứ năm: Tổng hợp các cập nhật mô hình thành mô hình toàn cục mới

Máy chủ nhận cập nhật mô hình từ các nút Client đã chọn, ví dụ như 100 nút Client, dẫn đến việc có 100 phiên bản khác nhau của mô hình toàn cục, mỗi phiên bản được huấn luyện trên dữ liệu cục bộ của từng client Để tạo ra một mô hình duy nhất, cần tổng hợp tất cả các bản cập nhật từ các nút máy khách, quá trình này gọi là tổng hợp Một phương pháp phổ biến để thực hiện việc này là tính trung bình liên kết (Federated Averaging - FedAvg), trong đó 100 bản cập nhật mô hình được tính trung bình Cần phải thực hiện trung bình có trọng số dựa trên số lượng mẫu mà mỗi Client sử dụng để đào tạo, nhằm đảm bảo rằng mỗi mẫu dữ liệu có cùng "tác động" đến mô hình toàn cục.

Mỗi mẫu trong 10 mẫu sẽ tác động đến mô hình toàn cục gấp 10 lần so với mỗi mẫu trong 100 mẫu, nếu không tính trung bình có trọng số.

Hình 2.6 Cập nhật mô hình tổng hợp [34]

• Quá trình lặp lại: Lặp lại các quá trình trên cho đến khi mô hình hội tụ

Quá trình thứ hai đến thứ năm trong học máy được gọi là vòng học tập liên kết Trong đó, các tham số mô hình toàn cục được gửi đến các nút Client tham gia Các nút Client sẽ tiến hành huấn luyện dữ liệu cục bộ của mình và sau đó gửi các mô hình đã được cập nhật trở lại máy chủ Cuối cùng, máy chủ sẽ tổng hợp các bản cập nhật mô hình để tạo ra phiên bản mới của mô hình toàn cục.

Trong một vòng duy nhất, mỗi nút Client chỉ thực hiện huấn luyện trong thời gian ngắn, dẫn đến việc sau quá trình tổng hợp, chúng ta có được một mô hình đã được huấn luyện trên dữ liệu của tất cả các nút Client nhưng chỉ trong khoảng thời gian hạn chế Để đạt được một mô hình hoàn chỉnh và hiệu quả trên dữ liệu từ tất cả các nút Client, cần lặp lại quy trình huấn luyện này nhiều lần.

Quá trình đánh giá liên kết (Federated evaluation) cho phép mô hình được đánh giá trên dữ liệu phân tán mà không cần chuyển dữ liệu đến một điểm trung tâm, tương tự như trong quá trình huấn luyện Đây là một phần thiết yếu của hầu hết các hệ thống học liên kết, cung cấp các chỉ số và thông tin quan trọng về hiệu suất của mô hình trên dữ liệu phân tán, từ đó giúp cải thiện và tối ưu hóa quá trình huấn luyện và triển khai mô hình.

Quá trình đánh giá liên kết giúp xác định hiệu suất của mô hình trên dữ liệu đa dạng từ nhiều nguồn, đảm bảo tính đa dạng và biểu diễn chính xác của mô hình trong nhiều điều kiện và ngữ cảnh khác nhau.

THƯ VIỆN FLOWER

Flower là thư viện mã nguồn mở tối ưu cho học liên kết, cung cấp công cụ và giao diện lập trình thân thiện giúp triển khai ứng dụng học máy dễ dàng Thư viện này hỗ trợ đa dạng thiết bị và môi trường, từ di động đến hệ thống phân tán lớn, mang lại nhiều ưu điểm nổi bật so với các công cụ khác Flower chính là lựa chọn lý tưởng cho những ai muốn phát triển ứng dụng học liên kết hiệu quả.

2.2.1 Một framework thống nhất quá trình học liên kết, phân tích và đánh giá

Flower mang đến giải pháp toàn diện cho học liên kết, tích hợp liền mạch các công cụ phân tích và đánh giá Phương pháp này giúp quản lý và tối ưu hóa hiệu quả của toàn bộ vòng đời học liên kết, từ giai đoạn huấn luyện mô hình đến giai đoạn đánh giá cuối cùng.

Flower nổi bật với khả năng mở rộng vượt trội, cho phép hỗ trợ các hệ thống thực tế với hàng triệu khách hàng Nhiều nhà nghiên cứu đã tận dụng Flower để thực hiện các dự án với quy mô lớn, phục vụ hàng chục triệu người dùng Trên toàn cầu, nhiều tổ chức lớn đã tin tưởng sử dụng Flower cho các mục đích nghiên cứu và học tập, như thể hiện trong Hình 2.7.

Hình 2.7 Một trong những tổ chức lớn trên thế giới sử dụng FLOWER

2.2.3 Không phụ thuộc vào framework học máy

Flower tương thích với hầu hết các khung học máy hiện có và đang phát triển, bao gồm Keras, PyTorch và Raw NumPy Dù bạn yêu thích công cụ nào, Flower đều hỗ trợ tốt và đảm bảo tính tương thích cao.

2.2.4 Hỗ trợ đa dạng thiết bị

Flower hỗ trợ nghiên cứu trên đa dạng máy chủ và thiết bị, bao gồm di động, với khả năng tương thích trên các nền tảng như AWS, GCP, Azure, Android, iOS, Raspberry Pi và Nvidia Jetson Một nghiên cứu gần đây đã chỉ ra tiềm năng của việc huấn luyện học liên kết trên các thiết bị di động và nhúng thông qua thư viện Flower Nghiên cứu này cũng nhấn mạnh tầm quan trọng của việc hỗ trợ huấn luyện trên nhiều thiết bị, đồng thời cho thấy Flower có thể được sử dụng để đánh giá và tối ưu hóa các thuật toán học liên kết.

2.2.5 Hỗ trợ từ lĩnh vực nghiên cứu đến sản xuất

Flower hỗ trợ biến ý tưởng từ các dự án nghiên cứu thành quy trình sản xuất quy mô lớn mà không cần người dùng có trình độ kỹ thuật cao hay cơ sở hạ tầng phức tạp.

Flower có khả năng tương thích với nhiều hệ điều hành và nền tảng phần cứng khác nhau, giúp nó hoạt động hiệu quả trong môi trường các thiết bị biên không đồng nhất.

Servers can operate on Windows, while clients are compatible with various platforms and operating systems, including Linux on Raspberry Pi and Android on mobile devices.

Flower là một công cụ dễ sử dụng và phát triển thành các hệ thống thông minh, tiên tiến Chỉ cần 20 dòng mã Python, bạn có thể xây dựng một hệ thống học liên kết hoàn chỉnh Ngoài ra, các ví dụ mã nguồn sẽ hỗ trợ người dùng dễ dàng bắt đầu với khung học máy mà họ yêu thích.

Board Raspberry Pi 4

Raspberry Pi 4, với kích thước nhỏ gọn và khả năng thích ứng cao, ngày càng trở nên phổ biến nhờ tính thân thiện với người dùng Thiết bị này có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực công nghệ hiện đại, đặc biệt là trong trí tuệ nhân tạo (AI) và học máy (Machine Learning).

Mặc dù có kích thước nhỏ gọn, các Board Raspberry Pi được trang bị đầy đủ tính năng mạnh mẽ như Wifi, Bluetooth, CPU, RAM, hỗ trợ thẻ SD và khả năng tương thích với nhiều thiết bị ngoại vi nhờ vào kết nối đa dạng Raspberry Pi 4, với nhiều cải tiến so với các phiên bản trước, mang lại hiệu suất xử lý vượt trội.

Raspberry Pi 4, với bộ nhớ RAM lên đến 8GB, có khả năng xử lý mạnh mẽ, cho phép nó chạy nhiều dự án phức tạp So với các máy tính chuyên dụng, Raspberry Pi 4 vẫn chứng tỏ được sức mạnh và tính linh hoạt trong việc thực hiện các nhiệm vụ đa dạng.

Trong những năm gần đây, các nhà nghiên cứu đã khám phá các kỹ thuật và công nghệ để phát triển các mô hình học máy trên Raspberry Pi Qua các thực nghiệm và phân tích, Raspberry Pi 4 đã được chứng minh là nền tảng lý tưởng cho việc xây dựng các mô hình AI - Machine Learning nhờ vào khả năng xử lý mạnh mẽ, tính linh hoạt và khả năng tiếp cận các khung học máy hiệu quả Bài viết cung cấp cái nhìn sâu sắc về các tài nguyên và kỹ thuật cần thiết để phát triển hệ thống AI trên phần cứng với yêu cầu về xử lý tốt, dung lượng lưu trữ lớn và chi phí hợp lý.

THIẾT KẾ VÀ TRIỂN KHAI

THIẾT KẾ THỬ NGHIỆM

Flower cho phép thực hiện toàn bộ quá trình học liên kết từ huấn luyện đến phân tích và đánh giá kết quả trên một thiết bị duy nhất Chúng tôi đã thử nghiệm trên các nền tảng huấn luyện trực tuyến như Kaggle và Google Colab để đạt được kết quả mong muốn Flower cung cấp công cụ cho các thử nghiệm học liên kết quy mô lớn, bao gồm các kịch bản với nhiều thiết bị không đồng nhất Nghiên cứu cho thấy Flower có khả năng thực hiện thử nghiệm với quy mô lên tới 15 triệu máy khách chỉ với một cặp GPU cao cấp, và các thử nghiệm này có thể được chuyển giao liền mạch sang các thiết bị thực tế để kiểm tra các phần khác của thiết kế.

Sau khi thành công trong các thử nghiệm trên nền tảng Kaggle và Google Colab, chúng tôi đã sử dụng tính linh hoạt của Flower để chuyển các thử nghiệm sang các thiết bị phần cứng IoT như bo mạch Raspberry Pi 4 Hệ thống học liên kết trên phần cứng IoT được thiết kế nhằm khai thác tính năng hỗ trợ đa nền tảng và đa thiết bị của Flower, cho phép sử dụng các thiết bị xung quanh, bao gồm cả máy tính cá nhân, để thực hiện các thử nghiệm hiệu quả.

Hình 3.1 Mô tả thiết kế hệ thống học liên kết trên phần cứng IoT

Cuối cùng, chúng tôi đã cài đặt các công cụ và thư viện cần thiết để hỗ trợ đo đạc và khảo sát trên phần cứng, thu thập kết quả và tiến hành phân tích Các kết quả cùng với phương pháp thực hiện khảo sát sẽ được trình bày chi tiết trong mục 4.1.4 và phần Phụ Lục của báo cáo.

THUẬT TOÁN TẤN CÔNG TẠO DỮ LIỆU ĐỘC HẠI

Trong phần này, chúng ta sẽ mô tả thuật toán tạo dữ liệu độc hại (Data_Gen) và cách thức hoạt động của mô hình tạo sinh này Tiếp theo, chúng ta sẽ trình bày cấu trúc của mô hình tấn công tạo dữ liệu độc hại tương ứng, được gọi là PoisonGAN.

3.2.1 Tạo Dữ Liệu Độc Hại bằng GAN Điểm chính để xây dựng tấn công đảo nhãn (Label-flipping) là người tấn công A có thể thu thập được một phần dữ liệu của các mẫu huấn luyện thực tế cho một số lớp Tuy nhiên, trong học tập liên kết, dữ liệu của tất cả các thành viên được huấn luyện bí mật ở phía cục bộ (Local) và không thể được nhìn thấy bởi kẻ tấn công, do đó việc triển khai tấn công đầu độc trở nên khó khăn hơn trong điều kiện giả định rằng kẻ tấn công không sở hữu các phân phối của các mẫu huấn luyện thực tế Để giải quyết vấn đề này, chúng tôi trình bày một thuật toán tạo dữ liệu độc hại (Data_Gen) dựa trên mạng đối nghịch (GAN) để tạo ra dữ liệu độc hại Dpoison từ dữ liệu huấn luyện của các nạn nhân V khác Nguyên tắc của GAN là xây dựng một trò chơi đối nghịch giữa một bộ tạo G và một bộ phân biệt D, trong đó D được huấn luyện trên các mẫu thực và mẫu được tạo ra đồng thời từ G, từ đó buộc bộ tạo G tạo ra các mẫu gần giống với các mẫu thực Vì kẻ tấn công không có đặc quyền truy cập vào dữ liệu huấn luyện của các thành viên khác, nên anh ta không thể thu thập được các mẫu thực tế để huấn luyện một mô hình GAN trong trường hợp của học tập liên kết

Hình 3.2 Cấu trúc của mô hình GAN sử dụng trong việc tạo data độc hại

Input: Global model parameter G t; Number batch of noise samples B noise

Initiallize generator G and discriminator D, loss function and criterion for round in num rounds communication do

Set parameter of G t to D for epoch in local epochs do for batch in B noise do

Generate a batch of random noise samples B noise for noise in B noise do

The generator G takes noise and generates x fake

Send generated sample x fake to D to classifer if x fake is targeted class y m then

Assign attacker-chosen label y n to (x fake, y m )

Add (x fake, y n ) to D poison else

Update G based on Eq.1 end end end end

Các tham số của mô hình toàn cục được chia sẻ giữa máy chủ trung tâm và các máy khách, cho phép cập nhật tham số mạng của bộ phân biệt D Việc thay thế các tham số mạng của D bằng các tham số mô hình toàn cục tương đương với việc huấn luyện trực tiếp D trên dữ liệu mục tiêu, giúp bộ tạo G dễ dàng tạo ra các mẫu giả mạo tương tự dữ liệu này Hình 3.2 mô tả cấu trúc của mô hình GAN trong thuật toán tạo dữ liệu độc hại, trong đó bộ phân biệt D là bản sao của mô hình toàn cục và được cập nhật qua các vòng giao tiếp Quá trình học tập liên kết liên tục thúc đẩy sự hội tụ của mô hình toàn cục, trong khi bộ phân biệt D được cập nhật đồng bộ thông qua các tham số mô hình toàn cục Bộ tạo G sử dụng nhiễu Znoise làm đầu vào để tạo ra các mẫu cụ thể, với mục tiêu phân loại các chữ số từ 0 đến 9 trong tập dữ liệu MNIST Hàm mất mát cho bộ tạo dữ liệu và bộ phân biệt được thể hiện trong Eq.1 và Eq.2.

L D (θ d , θ g ) = E x ∼ p( x real ) [log(D(x))] + E Ζ ∼ p ( Znoise ) [log(1 − D(G( Ζ )))] (Eq.2)

Trong Eq.2, cơ chế của hàm mất mát này sẽ bao gồm 2 phases:

Mục tiêu của giai đoạn này là đào tạo một mô hình Discriminator với khả năng phân loại tối ưu Mô hình D(𝑥) dự đoán xác suất cho dữ liệu đầu vào, cụ thể là xác suất mà Discriminator xác định mẫu 𝑥 là mẫu thật từ dữ liệu huấn luyện Hai thành phần chính trong quá trình này đóng vai trò quan trọng trong việc cải thiện hiệu suất phân loại.

Kỳ vọng E được tính bằng cách lấy trung bình của tất cả dữ liệu, thể hiện qua công thức E x ∼ p( x real ) [log(D(x))] Trong đó, log(D(x)) là logarithm của đầu ra từ bộ phân biệt khi đầu vào là mẫu thật, với x ∼ p( x real ) đại diện cho phân phối của dữ liệu thật.

Bộ phân biệt nhằm tối đa hóa giá trị phân phối xác suất của các điểm dữ liệu đầu vào, với mục tiêu gán xác suất cao cho các mẫu thật.

Kỳ vọng của logarithm của 1−D(G(z)) được thể hiện qua công thức EΖ ∼ p(Znoise ) [log(1 − D(G(Ζ)))], trong đó G(z) là mẫu được tạo ra bởi bộ sinh từ nhiễu z Mục tiêu của bộ phân biệt là tối đa hóa giá trị này, tức là gán xác suất thấp cho các mẫu giả do bộ sinh tạo ra.

Mục tiêu của giai đoạn này là cải thiện khả năng tạo dữ liệu của Generator (G) để các mẫu được sinh ra ngày càng giống với dữ liệu thật Tập trung vào việc tối ưu hóa G(z) sao cho xác suất dự đoán từ Discriminator (D) đối với nó gần bằng 1, tức là ảnh giả được tạo ra giống ảnh thật nhất Điều này có nghĩa là D(G(z)) cần phải lớn nhất có thể Để đạt được điều này, mục tiêu tối ưu là tối thiểu hóa [log(1 – D(G(z)))] Tuy nhiên, trong thực tế, phương trình này có thể không cung cấp đủ gradient cho G trong giai đoạn đầu huấn luyện, khi G còn yếu và D có thể loại bỏ các mẫu không giống dữ liệu huấn luyện Trong trường hợp này, log(1 - D(G(z))) dễ bị bão hòa Thay vì tối thiểu hóa log(1 - D(G(z))), chúng ta có thể tối đa hóa log D(G(z)), phương pháp này không chỉ dẫn đến cùng một điểm cố định trong động lực học của G và D mà còn cung cấp gradient mạnh hơn trong giai đoạn đầu của quá trình huấn luyện.

Initiallize generator G and discriminator D, loss function and criterion for round in num rounds communication do

Set parameter G t to L t if the user is Attacker then

Copy L t parameter to D for epoch in local epochs do

Using Data_Gen in algorithm 1 generate poison data D poison for batch b poison in D poison do

Poisoning local mopdel by training with D poison

Scale up the poison update: L 𝑡+1 𝑝 = S×L 𝑡+1 𝑝 end end else

Running local training algorithm to update local parameters: L t+1 end

Upload the local update L t+1 (including L 𝑡+1 𝑝 ) to the central server S end

Kẻ tấn công A tham gia vào giao thức học tập liên kết như một client thông thường, với mục tiêu học tập đồng bộ, bao gồm cấu trúc mạng nơ-ron và nhãn huấn luyện giống nhau Chúng tôi sử dụng tấn công đảo nhãn để minh họa thuật toán Data_Gen mà chúng tôi đề xuất, trong đó kẻ tấn công A cố gắng tạo ra các mẫu thuộc về ít nhất một lớp huấn luyện, cụ thể là lớp số 2 Trong mỗi vòng giao tiếp t, kẻ tấn công A tải xuống cập nhật của mô hình toàn cầu Gt và sao chép vào bộ phân biệt D Sau đó, A huấn luyện mô hình tạo G và cập nhật theo đầu ra của D Bộ tạo G nhận đầu vào là nhiễu ngẫu nhiên để tạo dữ liệu giả x fake, gửi đến bộ phân biệt D Nếu D phân loại mẫu giả x fake vào lớp mục tiêu, mẫu đó được chấp nhận và lưu trữ Cuối cùng, kẻ tấn công gán nhãn yn cho mẫu xn được tạo, và qua việc lặp lại các bước này, Data_Gen sẽ tạo ra dữ liệu huấn luyện độc hại Dpoison chứa mẫu mục tiêu.

Chúng tôi đã chọn 22 nhãn (x fake, y n) và mô tả chính thức về Data_Gen được trình bày trong Algorithm 1 Bộ tạo G có khả năng tạo ra một lượng lớn mẫu x fake giả tương tự như mẫu x ban đầu, miễn là kẻ tấn công tiếp tục tham gia vào giao thức học liên kết.

Theo thuật toán Data_Gen mà chúng tôi đề xuất, kẻ tấn công có thể xây dựng một cuộc tấn công đầu độc bằng cách huấn luyện mô hình cục bộ trên dữ liệu đã bị đầu độc và gửi cập nhật lên máy chủ trung tâm Tuy nhiên, phương pháp này không hiệu quả trong bối cảnh học tập liên kết do các cập nhật từ các client lành tính làm giảm khả năng đầu độc Để cải thiện hiệu suất của mô hình tấn công, chúng tôi giới thiệu hệ số tỷ lệ S nhằm mở rộng sự thay đổi gradient của mô hình cục bộ, đảm bảo rằng các cập nhật độc hại có ảnh hưởng đáng kể hơn trong quá trình trung bình hóa mô hình toàn cầu, từ đó tăng cường tác động của chúng lên mô hình tổng thể.

Cơ chế mở rộng quy mô ở trên có hiệu quả trong kịch bản học tập liên kết vì:

1 Quy trình đào tạo cục bộ của người tham gia là ẩn danh đối với máy chủ trung tâm Do đó, không thể xác minh tính xác thực của một bản cập nhật cục bộ nhất định;

2 Đối với dữ liệu đào tạo là non - IID trong học tập liên kết [32] dẫn đến việc cập nhật cục bộ của những người tham gia là rất khác nhau;

3 Giao thức tổng hợp an toàn [33] được sử dụng trong việc truyền tham số sẽ ngăn máy chủ trung tâm kiểm tra bản cập nhật của từng người tham gia vào mô hình toàn cầu

Trong bài viết này, chúng tôi giới thiệu mô hình PoisonGAN, một cuộc tấn công độc hại trong học liên kết với hai người tham gia: kẻ tấn công A và nạn nhân V Hình 3.3 minh họa cấu trúc của mô hình này, trong đó A và V hợp tác để huấn luyện một mô hình chung trên các tập dữ liệu độc lập Khi tải mô hình toàn cầu, A bí mật thay thế bộ phân biệt D của mô hình GAN bằng mô hình toàn cầu và sử dụng bộ tạo G để tạo ra các mẫu giả x fake thuộc lớp mục tiêu trong dữ liệu của V A sau đó gán nhãn sai cho các mẫu x fake và huấn luyện mô hình cục bộ của mình trên tập dữ liệu bị nhiễm độc D poison.

Cuối cùng, kẻ tấn công mở rộng sự thay đổi của mô hình cục bộ L 𝑝

KIỂM TRA KẾT QUẢ VÀ ĐÁNH GIÁ

Tiêu đề	Nghiên Cứu Phương Pháp Tấn Công Dựa Trên Mạng Đối Nghịch Tạo Sinh Nhắm Vào Học Liên Kết Trong Điện Toán Biên Cho Hệ Thống IOT
Tác giả	Chung Triệu Long, Võ Hoàng Đình Kha
Người hướng dẫn	PGS. TS. Võ Minh Huân
Trường học	Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành	Công Nghệ Kỹ Thuật Máy Tính
Thể loại	Đồ Án Tốt Nghiệp
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	58
Dung lượng	3,36 MB