TỔNG QUAN VỀ ĐIỆN TOÁN ĐÁM MÂY
Điện toán đám mây là gì?
Điện toán đám mây (Cloud Computing) là việc cung cấp tài nguyên máy tính qua Internet, cho phép người dùng truy cập linh hoạt theo nhu cầu sử dụng Tài nguyên này bao gồm phần mềm, phần cứng, hạ tầng mạng, máy chủ, và các mạng lưới máy chủ quy mô lớn, mang lại sự tiện lợi và hiệu quả cho người dùng.
Hình 1.1: Mô hình điện toán đám mây
Các mô hình dịch vụ của điện toán đám mây
Hiện nay, các công ty cung cấp dịch vụ điện toán đám mây cung cấp các dịch vụ của họ theo ba mô hình cơ bản:
Infrastructure as a Service (IaaS): Dịch vụ cơ sở hạ tầng
Platform as a Service (PaaS): Dịch vụ nền tảng
Software as a Service (SaaS): Dịch vụ phần mềm
Hình 2.2:Mô hình dịch vụ
Dịch vụ cơ sở hạ tầng (IaaS)
Dịch vụ cơ sở hạ tầng (IaaS) cung cấp hạ tầng ảo tự động cho người dùng, cho phép họ sử dụng tài nguyên theo nhu cầu Nhà cung cấp triển khai hạ tầng ảo trên hệ thống phân tán, đảm bảo chất lượng dịch vụ và tính năng của IaaS, vượt trội hơn so với việc cho thuê máy chủ hay thiết bị mạng Chi phí dịch vụ được tính dựa trên chức năng và tài nguyên sử dụng thực tế Các đặc trưng nổi bật bao gồm cung cấp tài nguyên điện toán như máy chủ, thiết bị mạng, bộ nhớ, CPU, và không gian lưu trữ; chi phí linh hoạt theo nhu cầu; khả năng chia sẻ tài nguyên giữa nhiều người dùng; và tính linh hoạt trong xử lý lỗi cũng như quản lý phần cứng.
Kiến trúc dịch vụ cơ sở hạ tầng cho phép thực hiện yêu cầu từ người sử dụng một cách song song, tối ưu hóa việc chia sẻ tài nguyên để đáp ứng nhanh chóng Nó cũng có khả năng truy cập vào nhiều kho dữ liệu khác nhau nhằm thỏa mãn nhu cầu của khách hàng Để đảm bảo dịch vụ không bị gián đoạn, IaaS cần duy trì hiệu suất và hiệu quả chi phí, đồng thời giữ các điều khiển trung tâm và khả năng mở rộng tài nguyên.
Có 03 thành phần chính trong kiến trúc của hệ thống đám mây Đó là: cloud manager, cluster manager và computer manager
Cloud manager là nền tảng quản lý đám mây, cho phép người dùng đăng ký tài khoản, quản lý tài nguyên và truy cập dữ liệu Nó đảm bảo có đủ tài nguyên để đáp ứng nhu cầu của khách hàng và phối hợp với cluster manager để thực hiện các yêu cầu Ngoài ra, cloud manager cũng áp dụng các quy định trên nền tảng đám mây theo yêu cầu của người dùng.
Cluster manager là người điều hành các máy thông qua mạng, nhận lệnh và truy vấn từ người dùng Nó truy cập tài nguyên từ cloud manager để xác định tài nguyên phù hợp với yêu cầu của người sử dụng và thực hiện việc truy cập vào các tài nguyên đó.
Quản lý máy tính hợp tác với hypervisor trên mỗi hệ thống trong một cụm, nhằm đáp ứng các yêu cầu từ quản lý cụm Quản lý cụm cung cấp thông tin về trạng thái tài nguyên đang sử dụng và tài nguyên sẵn có.
Lỗi trong IaaS
Lỗi trong IaaS được phân loại theo vị trí xuất hiện và module chức năng Các lỗi này có thể phát sinh từ phần cứng vật lý, trong máy chủ ảo hóa, hoặc bên trong các máy ảo.
Lỗi trong điện toán đám mây có các khái niệm như sau:
Fault là một tình trạng bất thường xảy ra trong một hoặc nhiều thành phần của hệ thống Một fault có thể ảnh hưởng đến khả năng hoạt động của hệ thống, khiến nó không thực thi theo thiết kế ban đầu.
Lỗi (Error) là sự không khớp giữa lý thuyết và thực tế của một thành phần trong hệ thống khi được triển khai Một lỗi có thể dẫn đến việc hệ thống không hoạt động theo thiết kế ban đầu.
Failure: là trạng thái của hệ thống thực thi không đúng như thiết kế ban đầu
Một cách hiểu khác cụ thể hơn, lỗi trên điện toán đám mây có thể là các loại lỗi:
Lỗi mạng (Network fault): lỗi liên quan tới mạng lưới như: bị cô lập mạng, mất gói, gói tin lỗi, đích đến mất kết nối, lỗi kết nối…
Lỗi do phần cứng: Loại lỗi do các thiết bị phần cứng của máy chủ gây ra như: lỗi nguồn, lỗi CPU, lỗi RAM, HDD, storage, CPU fan, mainboard,
Lỗi truyền tải media: lỗi do media bị lỗi trong quá trình truyền hoặc nhận
Lỗi bộ xử lý: lỗi xảy ra trong bộ xử lý vì hệ điều hành bị lỗi
Lỗi tiến trình: Một lỗi do hết tài nguyên hoặc lỗi của phần mềm
Lỗi dịch vụ hết hạn xảy ra khi thời gian phục vụ của một tài nguyên kết thúc trong khi ứng dụng vẫn đang sử dụng nó Lỗi này có thể phát sinh trong quá trình tính toán trên hệ thống và được phân loại thành các loại như lỗi bỏ sót, lỗi định thời và lỗi trả lời.
Còn có thể phân loại lỗi dựa vào thời gian như:
Lỗi lâu dài xảy ra do các nguyên nhân như đứt dây mạng, mất nguồn điện hoặc thảm họa, và có đặc điểm dễ tái tạo Những lỗi này có thể gây ra hậu quả nghiêm trọng cho hệ thống, làm cho một phần của hệ thống hoạt động không đúng như mong đợi.
Những lỗi gián đoạn là những vấn đề hiếm gặp trong hệ thống, thường không được phát hiện trong quá trình thử nghiệm Chúng thường chỉ xuất hiện khi hệ thống hoạt động dưới tải nặng.
Vì vậy khó dự đoán sự thiệt hại của những lỗi này có thể gây ra
Lỗi tạm thời là những sự cố phát sinh do các vấn đề có sẵn từ trước Tuy nhiên, những lỗi này có thể được khắc phục bằng cách khôi phục hệ thống về trạng thái trước đó, chẳng hạn như thông qua việc khởi động lại phần mềm hoặc gửi thông báo.
Nghiên cứu về phương pháp nhận dạng lỗi cho ĐTĐM đã được thực hiện dựa trên các khái niệm và phân loại lỗi, bao gồm việc áp dụng phương pháp phân lớp (classification) và phương pháp suy luận (inference).
Vấn đề kháng lỗi trong điện toán đám mây
Để tăng cường độ tin cậy cho hệ thống, có hai phương pháp chính: xây dựng hệ thống hoàn hảo và phát triển khả năng kháng lỗi Hệ thống hoàn hảo tập trung vào việc ngăn chặn lỗi thông qua thiết kế tối ưu, đảm bảo các thành phần hoạt động chính xác và thay thế ngay khi phát hiện bất thường Ngược lại, kháng lỗi là phương pháp xử lý hậu quả của lỗi, nhằm duy trì hoạt động của các thành phần mặc dù có sự cố xảy ra Để thực hiện kháng lỗi hiệu quả, cần thiết lập cơ chế dự phòng (redundancy) và cho phép các thành phần như phần cứng, phần mềm, vi xử lý, cảm biến, bus, và nguồn hoạt động song song.
Do vậy, hệ thống sẽ trở nên phức tạp hơn và tốn nhiều chi phí hơn
Kháng lỗi là một vấn đề nghiên cứu quan trọng trong điện toán đám mây Hệ thống điện toán đám mây có khả năng chịu lỗi giúp duy trì thời gian hoạt động cao và đảm bảo hiệu suất tốt ngay cả khi gặp sự cố.
Có hai hướng chính trong nghiên cứu về kháng lỗi là:
Kháng lỗi bị động (reactive fault tolerance) là kỹ thuật nhằm giảm thiểu tác động của lỗi trong quá trình thực thi ứng dụng hoặc cung cấp dịch vụ Các phương pháp phổ biến trong chính sách này bao gồm Check pointing/Restart, Nhân bản (Replication), Gán lại tác vụ (Task Resubmission), và Quản lý lỗi do người dùng định nghĩa (User defined exception Handling).
Kỹ thuật Check pointing/Restart cho phép hệ thống khởi động lại từ trạng thái gần nhất của điểm kiểm tra khi có một tác vụ bị lỗi.
Kỹ thuật nhân bản (Replication) là phương pháp phổ biến trong việc kháng lỗi, cho phép duy trì nhiều bản sao của hệ thống hoặc đối tượng Trong quy trình này, yêu cầu từ khách hàng sẽ được chuyển đến một trong các bản sao đã được tạo ra Hiện nay, có nhiều công cụ hỗ trợ kỹ thuật này, bao gồm HA Proxy, Hadoop và Amazon EC2.
Kỹ thuật Task Resubmission là một phương pháp phổ biến trong hệ thống luồng công việc cho khoa học, cho phép khởi động lại tác vụ khi phát hiện lỗi Tác vụ có thể được thực thi lại trên cùng một tài nguyên hiện tại hoặc chuyển sang tài nguyên khác.
Quản lý lỗi do người dùng định nghĩa cho phép người dùng xác định cách xử lý cho một số trường hợp lỗi trong quy trình làm việc cụ thể Phương pháp này nhằm mục đích che giấu lỗi trong suốt quá trình thực hiện tác vụ, đảm bảo rằng luồng công việc diễn ra một cách mượt mà và hiệu quả.
Kháng lỗi chủ động (proactive fault tolerance) là phương pháp giữ cho ứng dụng hoặc dịch vụ hoạt động đúng cách bằng cách ngăn chặn các lỗi tiềm ẩn.
Có 2 kỹ thuật cho chính sách này là Preemptive migration [8] và Software Rejuvenation [9]:
Di trú ưu tiên là quá trình theo dõi và phân tích ứng dụng liên tục thông qua hệ thống giám sát Dựa trên thông tin phản hồi, hệ thống có khả năng dự đoán các lỗi có thể xảy ra và sẽ tự động di chuyển ứng dụng đến một vị trí an toàn hơn nếu cần thiết.
Phục hồi phần mềm là một kỹ thuật thiết kế hệ thống cho phép khởi động lại định kỳ, giúp loại bỏ các trạng thái trước đó Khi hệ thống được khởi động lại, các lỗi tồn tại sẽ không còn, đảm bảo hiệu suất hoạt động tốt hơn.
Thách thức trong việc kháng lỗi trong điện toán đám mây
Để thực hiện kháng lỗi trong điện toán đám mây, cần phải phân tích cẩn thận do sự phức tạp của hệ thống và độ tin cậy của các phương pháp kháng lỗi.
Hệ thống điện toán đám mây bao gồm nhiều công nghệ đa dạng, chẳng hạn như ảo hóa máy chủ với các sản phẩm từ Vmware và KVM, cùng với ảo hóa mạng như Openvswitch Để đảm bảo tính ổn định và tương thích, phương pháp kháng lỗi cần phải hoạt động hiệu quả với các công nghệ này.
Hướng phát triển mới của việc kháng lỗi phải kết hợp với thuật toán lập lịch dòng công việc có sẵn trong hệ thống điện toán đám mây
Phương pháp nào đáng tin cậy để đánh giá hiệu quả của các phương pháp kháng lỗi trong điện toán đám mây
Đảm bảo được độ tin cậy và sẵn sàng đáp ứng cho nhiều nhà cung cấp dịch vụ với nhiều phần mềm khác nhau
Tự động kháng lỗi phải đồng bộ giữa các đám mây khác
Giải pháp kháng lỗi tự động thể hiện của một ứng dụng chạy trên nhiều máy ảo khác nhau.
Tham số đo lường các phương pháp kháng lỗi cho điện toán đám mây
Các phương pháp và thuật toán kháng lỗi trong điện toán đám mây thường tập trung vào các tham số quan trọng như thông lượng, thời gian phản hồi, khả năng mở rộng, hiệu năng, khả năng sẵn sàng, độ khả dụng, độ tin cậy, độ an toàn và chi phí kết hợp.
Thông lượng (throughput): nó định nghĩa số lượng tác vụ đã được hoàn thành
Hệ thống tốt thì thông lượng càng có giá trị cao
Thời gian phản hồi: thời gian phản hồi, đáp ứng của thuật toán, giá trị này càng thấp càng tốt
Khả năng mở rộng: Số lượng node trong hệ thống mà thuật toán kháng lỗi còn có thể hoạt động tốt
Hiệu năng của hệ thống là yếu tố quan trọng cần được xem xét khi áp dụng thuật toán, nhằm đảm bảo rằng hiệu suất được cải thiện một cách hợp lý về chi phí.
Độ sẵn sàng: độ sẵn sàng của hệ thống là một yếu tố ảnh hưởng đến độ tin cậy
Độ khả dụng: khả năng kết hợp với các sản phẩm khác một cách hiệu quả và dễ dàng
Độ tin cậy: xem xét khả năng đạt được kết quả chính xác hoặc chấp nhận được trong một khoảng thời gian
Phí tổn kết hợp, hay overhead associated, là chi phí phát sinh trong quá trình thực hiện các tác vụ và tiến trình của thuật toán Những phí tổn này có thể đến từ việc di chuyển dữ liệu, các tiến trình nội tại và hoạt động của bộ xử lý Để một thuật toán kháng lỗi đạt hiệu quả, chi phí này cần phải được giữ ở mức thấp.
Kết luận Chương 1
Chương này tổng quan các định nghĩa về lỗi, kiến trúc dịch vụ cơ sở hạ tầng điện toán đám mây, cũng như quy trình nhận dạng và kháng lỗi Những kiến thức này tạo nền tảng vững chắc để nghiên cứu, phân tích và ứng dụng các thuật toán khác nhằm giải quyết hiệu quả các vấn đề đặt ra.
CÁC CÔNG TRÌNH LIÊN QUAN
Khả năng kháng lỗi và phục hồi trong điện toán đám mây là yếu tố then chốt để đảm bảo hệ thống hoạt động chính xác và liên tục Mặc dù đã có nhiều nghiên cứu trong lĩnh vực này, nhưng việc ảo hóa và cung cấp dịch vụ qua internet vẫn tạo ra nhiều thách thức Để nâng cao độ tin cậy của dịch vụ đám mây, nhiều phương pháp kháng lỗi đã được đề xuất, trong đó có việc áp dụng máy ảo dự phòng cho các ứng dụng Mục tiêu chính là đảm bảo rằng tất cả dịch vụ đám mây có thể hoạt động liên tục ngay cả khi một máy vật lý gặp sự cố Remus là một dịch vụ khả dụng cao, cho phép hệ thống tiếp tục hoạt động trên một máy vật lý thay thế chỉ với vài giây thời gian chết, mặc dù nó chỉ cung cấp cơ chế sao chép máy ảo không đồng bộ cho một máy ảo cá nhân.
Trong môi trường điện toán đám mây, việc đảm bảo độ tin cậy dịch vụ và giảm tiêu thụ tài nguyên là rất quan trọng Các phương pháp hiện tại, như cơ chế sao chép, chỉ phù hợp cho nhiệm vụ quan trọng do chi phí cao Để giảm chi phí thực hiện, các phương pháp mới đã được giới thiệu nhằm xác định các phần quan trọng của nhiệm vụ phức tạp Những phương pháp này đánh giá giá trị ý nghĩa của từng tiểu nhiệm vụ và xếp hạng chúng để tối ưu hóa sự dư thừa Cơ chế kháng lỗi chủ động, như điểm kiểm tra, cho phép dự đoán và xử lý sự cố trước khi xảy ra Tuy nhiên, lưu lượng điểm kiểm tra có thể gây tắc nghẽn trong mạng trung tâm dữ liệu Để khắc phục, các phương pháp mới đã được đề xuất nhằm giảm thiểu việc sử dụng tài nguyên mạng và lưu trữ, đồng thời đảm bảo độ tin cậy dịch vụ Một số cơ chế trạm kiểm soát phối hợp đã được phát triển để tối ưu hóa hiệu suất và giảm thiểu tổn thất do lỗi Các giải pháp linh hoạt, như cung cấp độ tin cậy theo yêu cầu, cho phép tối ưu hóa mức độ tin cậy dựa trên nhu cầu của người dùng và tài nguyên có sẵn trong trung tâm dữ liệu.
Trong nghiên cứu của Yuqiang Luo, logic mờ được chứng minh là một phương pháp hiệu quả trong việc phân tích và tổng hợp thông tin mạng, đồng thời hỗ trợ các luật điều khiển phi tuyến cho các hệ thống phức tạp Nghiên cứu mở ra nhiều hướng đi mới, bao gồm hệ thống nối mạng hai chiều (2D), hệ thống điều khiển mạng không dây (WNCS), chất lượng dịch vụ (QoS) của hệ thống nối mạng, điều khiển truy cập mờ trong hệ thống mạng mở, và bộ điều khiển thông minh trong hệ thống nối mạng.
Ying Jiang, J.H đã đề xuất một mô hình dự đoán lỗi trong điện toán đám mây, kết hợp với các tính năng đặc thù của công nghệ này Mô hình sử dụng thuật toán C4.5 được cải tiến nhằm phát hiện lỗi hiệu quả trong điện toán đám mây Dự đoán lỗi được phân tích dựa trên bốn tiêu chí chính: tầng cung cấp dịch vụ (SaaS, PaaS, IaaS), giai đoạn cung cấp dịch vụ, phạm vi ảnh hưởng của lỗi và nguồn gốc gây ra lỗi.
Massimo Ficco đã đề xuất một phương pháp tiếp cận meta-heuristic để phân bổ tài nguyên điện toán đám mây, dựa trên mô hình tối ưu hóa sinh thái san hô lấy cảm hứng sinh học Phương pháp này sử dụng lý thuyết trò chơi cổ điển để tối ưu hóa chiến lược cấp phát tài nguyên, đảm bảo các mục tiêu của nhà cung cấp dịch vụ và yêu cầu của khách hàng Thuật toán tiến hóa được xây dựng dựa trên quan sát cấu trúc và sinh sản của rặng san hô, mô phỏng các yêu cầu liên tục về tài nguyên và kích hoạt các quy trình thay đổi kích cỡ, sao chép và di chuyển Nó cũng khai thác tính cạnh tranh giữa người dùng chiến lược và nhà cung cấp dịch vụ nhằm tối đa hóa doanh thu, từ đó tạo ra các giải pháp cân bằng tối ưu cho các bên liên quan Kết quả thực nghiệm cho thấy phương pháp kết hợp này không chỉ mang lại giải pháp thỏa đáng về tính thích ứng và đàn hồi mà còn cải thiện đáng kể hiệu suất về thời gian hội tụ, đặc biệt trong các vấn đề quy mô lớn với nhiều máy móc và máy ảo.
Yang Guo đã đề xuất một thuật toán điều chỉnh tự động máy ảo cho ứng dụng hosting trên điện toán đám mây, nhằm giảm thiểu số lượng máy chủ vật lý bằng cách đóng gói máy ảo vào các máy vật lý Thuật toán Shadow sử dụng hệ thống hàng đợi ảo đặc biệt để tạo ra giải pháp tối ưu cho việc điều chỉnh tự động máy ảo và đóng gói VM-to-PM Thuật toán này hoạt động liên tục mà không cần phải giải quyết lại vấn đề tối ưu hóa từ đầu, đồng thời tự động điều chỉnh theo sự thay đổi trong nhu cầu ứng dụng.
Trong nghiên cứu của PGS.TS Trần Công Hùng và Th.Sĩ Bùi Thanh Khiết đăng trên Tạp chí ICCASA 2016, các tác giả đã đề xuất giải pháp cho các máy ảo nhằm cân bằng các mục tiêu của nhà cung cấp dịch vụ và khách hàng dựa trên lý thuyết trò chơi Ý tưởng chính là áp dụng thuật toán meta-heuristic Ant Colony Optimization (ACO) dựa trên trạng thái cân bằng Nash.
Nghiên cứu về khả năng kháng lỗi trong điện toán đám mây đã chỉ ra rằng việc kết hợp phản hồi lỗi từ các chính sách kiểm soát lỗi chủ động và bị động có thể cải thiện đáng kể mô hình kháng lỗi Để xây dựng hệ thống Dịch vụ cơ sở hạ tầng điện toán đám mây hiệu quả hơn, cần đáp ứng các yêu cầu về băng thông, độ trễ và xác suất lỗi Mô hình điện toán đám mây cần được nghiên cứu để phát hiện lỗi một cách nhanh chóng, từ đó cung cấp phản hồi kịp thời nhằm ngăn chặn lỗi xảy ra, đảm bảo tính toàn vẹn dữ liệu và tối ưu hóa lưu trữ, đặc biệt khi khối lượng dữ liệu trên đám mây rất lớn.
MÔ HÌNH KHÁNG LỖI TRÊN ĐIỆN TOÁN ĐÁM MÂY DỊCH VỤ CƠ SỞ HẠ TẦNG
Mô hình hệ thống
Điện toán đám mây cung cấp tài nguyên cho ứng dụng của khách hàng, với thành phần giám sát hoạt động theo vòng lặp MAPE-K để theo dõi mức độ sử dụng tài nguyên Bộ giám sát thu thập dữ liệu về tình trạng sử dụng tài nguyên và chuyển đến bộ phận điều chỉnh tự động, từ đó đưa ra các lệnh phù hợp, chẳng hạn như đánh giá nguy cơ lỗi của máy vật lý và quyết định di dời các máy ảo sang máy khác nếu cần thiết Để đánh giá QoS cho từng ứng dụng đa tầng, chúng tôi áp dụng Mạng hàng đợi theo tầng (LQN).
Hình 3.1: Kiến trúc hệ thống
Nghiên cứu này sử dụng mô hình LQN để cung cấp các chỉ số hiệu suất quan trọng như thông lượng, trạng thái ổn định và thời gian đáp ứng Đầu vào cho mô hình LQN bao gồm tài nguyên phần cứng, cường độ công việc của khách hàng và nhu cầu dịch vụ của khách hàng đối với các thành phần trong từng giai đoạn.
Logic mờ và điều khiển mờ
Lý thuyết tập mờ (Fuzzy set theory) được giáo sư Lofti A Zadeh giới thiệu vào năm 1965 tại trường đại học California, Mỹ, đã nhanh chóng phát triển nhờ vào những nghiên cứu của nhiều nhà khoa học Năm 1972, giáo sư Terano và Asai khởi xướng nghiên cứu hệ thống điều khiển mờ tại Nhật Bản, và vào năm 1980, hãng Smith Co bắt đầu áp dụng điều khiển mờ cho lò hơi Từ những năm đầu thập kỷ 90 cho đến nay, hệ thống điều khiển mờ và mạng nơron đã thu hút sự quan tâm lớn từ các nhà khoa học, kỹ sư và sinh viên trong nhiều lĩnh vực, được ứng dụng rộng rãi trong sản xuất và đời sống Tập mờ và logic mờ đã trở thành nền tảng cho việc xử lý thông tin không chắc chắn.
“không đầy đủ” về đối tượng để điều khiển đầy đủ về đối tượng một cách chính xác
Trong những năm gần đây, lý thuyết tập mờ đã được ứng dụng rộng rãi trong nhiều lĩnh vực như điều khiển nhiệt độ, giao thông vận tải và y học Vi mạch mờ đầu tiên được chế tạo vào năm 1986 bởi Masaki Togai và Hiroyuki Watanabe, và hiện nay nhiều hãng như Omron, Motorola và Hitachi – America đã phát triển các chip mờ tiên tiến Kỹ thuật điều khiển mờ đã mang lại nhiều sản phẩm công nghiệp thành công tại Nhật Bản, nhờ vào khả năng áp dụng hiệu quả trong các quá trình chưa xác định rõ hoặc thiếu thông tin Điều khiển mờ tích hợp kinh nghiệm của các chuyên gia, cho phép điều khiển mà không cần hiểu biết sâu về các thông số hệ thống Với tính linh hoạt và kết quả khả quan trong nghiên cứu, điều khiển mờ đã trở thành một phương pháp nổi bật trong điều khiển học kỹ thuật hiện đại.
Hệ điều khiển logic mờ tích hợp kiến thức chuyên gia vào các bộ điều khiển, thiết lập mối quan hệ giữa đầu vào và đầu ra thông qua luật điều khiển mờ (như if-then) dựa trên biến ngôn ngữ Luật if-then là cấu trúc điều khiển dạng nếu – thì, sử dụng từ ngữ đặc trưng bởi các hàm liên thuộc liên tục Các luật mờ và thiết bị suy luận mờ là công cụ thiết yếu trong thiết kế bộ điều khiển, tận dụng kinh nghiệm của các chuyên gia.
So với các giải pháp kỹ thuật trước đây trong việc tổng hợp các hệ thống điều khiển, phương pháp tổng hợp hệ thống bằng điều khiển mờ mang lại nhiều ưu điểm nổi bật.
Khối lượng công việc thiết kế giảm đi nhiều do không cần sử dụng mô hình đối tượng trong việc tổng hợp hệ thống
Bộ điều khiển mờ dễ hiểu hơn so với các bộ điều khiển khác (cả về kỹ thuật) và dễ dàng thay đổi
Bài toán thiết kế phức tạp có thể được giải quyết hiệu quả bằng cách sử dụng bộ điều khiển mờ, giúp giảm thiểu khối lượng tính toán và hạ giá thành sản phẩm.
Trong nhiều trường hợp bộ điều khiển mờ làm việc ổn định hơn, bền vững hơn, khả năng chống nhiễu cao hơn và chất lượng điều khiển cao hơn
Ngày nay, sự phát triển nhanh chóng của công nghệ thông tin và lý thuyết điều khiển đã thúc đẩy sự đa dạng trong các hệ điều khiển mờ Tuy nhiên, việc tổng hợp một bộ điều khiển mờ một cách chặt chẽ và ứng dụng cho các đối tượng cụ thể nhằm nâng cao chất lượng điều khiển vẫn là mối quan tâm lớn của nhiều nhà nghiên cứu.
3.2.2 Sơ đồ khối bộ điều khiển mờ
Cấu trúc chung của một bộ điều khiển mờ gồm có 4 khối: Khối mờ hóa, khối hợp thành, khối luật mờ và khối giải mờ (Hình 3.2)
Bộ điều khiển mờ gồm một khối mờ hóa, có nhiệm vụ chuyển đổi mỗi giá trị rõ của biến ngôn ngữ đầu vào thành một véc tơ, với số phần tử tương ứng bằng số tập mờ đầu vào.
Khối luật mờ và khối hợp thành là thành phần quan trọng trong hệ điều khiển mờ, giúp mô phỏng suy nghĩ và suy đoán của con người nhằm đạt được mục tiêu điều khiển mong muốn.
Trong điều khiển logic mờ, việc lựa chọn các biến trạng thái và biến điều khiển phụ thuộc nhiều vào kinh nghiệm của chuyên gia và các kỹ năng cần thiết Các biến đầu vào của bộ điều khiển logic mờ thường bao gồm sai lệch trạng thái, đạo hàm sai lệch và tích phân sai lệch.
Khi thiết kế hệ điều khiển logic mờ, số lượng các tập mờ là yếu tố quan trọng cần xem xét Trong miền giá trị, có thể lựa chọn từ 3 đến 9 tập mờ, thường được chia thành các tập gối lên nhau Số lượng các tập mờ đầu vào sẽ xác định số lượng lớn nhất các luật điều khiển mờ trong hệ thống.
Khối hợp thành có nhiệm vụ chuyển đổi tập mờ đầu vào từ tập cơ sở U thành tập mờ đầu ra trong tập cơ sở V, dựa trên các luật mờ do người thiết kế xây dựng Nói cách khác, khối hợp thành thực hiện quá trình ánh xạ giữa các tập mờ này theo các quy tắc đã được định sẵn.
Các nguyên lý logic mờ được áp dụng trong khối hợp thành để tổ hợp các luật mờ If-then, cho phép gán tập mờ A’ (trong U) tới tập mờ B’ (trong V) Những luật mờ này được diễn giải thành các quan hệ mờ trong không gian nền UxV Việc sử dụng quy tắc Max-Min là cần thiết trong quá trình này.
“*”được thay thế bằng cách lấy cực tiểu Khi dùng quy tắc Max-Prod thì dấu
“*”được thực hiện bằng phép nhân bình thường
Các luật mờ cơ bản, bao gồm các quy tắc if-then, được xây dựng dựa trên các biến ngôn ngữ và thể hiện mối quan hệ giữa đầu vào và đầu ra của hệ thống Những luật này đóng vai trò quan trọng trong việc điều khiển logic mờ, cho phép suy luận và đưa ra các phản ứng hiệu quả.
Giải mờ là quá trình gán một tập mờ B’ trong không gian V thuộc R với một giá trị rõ y* trong V Điều này cho phép xác định một điểm cụ thể trong V, nơi mà tập mờ B’ được thể hiện rõ nhất.
Giải thuật toán tối ưu bầy đàn (PSO)
Giải thuật tối ưu hóa theo bầy đàn (Particle Swarm Optimization - PSO) là một phương pháp tối ưu hóa ngẫu nhiên được phát triển bởi Eberhart và Kennedy, dựa trên hành vi của các bầy chim và đàn cá Khác với giải thuật di truyền, PSO tìm kiếm giải pháp tối ưu thông qua việc cập nhật các thế hệ mà không sử dụng các thao tác tiến hóa như lai ghép hay đột biến.
Năm 1987, Reynolds đã nghiên cứu chuyển động của các bầy đàn như bầy chim và đàn cá, từ đó đưa ra ba quy luật cơ bản: Tách biệt, Sắp hàng và Liên kết Dựa trên nghiên cứu này, Eberhart và Kennedy đã bổ sung thêm giả thuyết về việc tìm về tổ của bầy đàn, bao gồm hai quy luật chính: Tất cả các phần tử trong bầy đàn đều có xu hướng di chuyển về tổ, và mỗi phần tử ghi nhớ vị trí gần tổ nhất mà nó đã đạt được.
Hai nhà nghiên cứu đã giả thuyết về cách thức tìm mồi của bầy đàn trong không gian, nơi các thành viên trong bầy đều nắm thông tin về khoảng cách đến thức ăn và lưu giữ vị trí gần nhất mà chúng đã đạt được Để tìm thức ăn hiệu quả, phương pháp tốt nhất là theo sau những con đầu đàn, tức là những con gần chỗ thức ăn nhất Dựa trên kịch bản này, họ đã đề xuất thuật toán PSO để giải quyết các bài toán tối ưu.
Trong thuật toán Tối ưu hóa Bầy đàn (PSO), mỗi giải pháp đơn được biểu thị dưới dạng một phần tử (particle) với hai tham số chính: vị trí hiện tại (present[]) và vận tốc (v[]) Các tham số này là hai vectơ trong không gian R^n, trong đó n là số chiều của bài toán Mỗi phần tử có một giá trị thích nghi (fitness value) được đánh giá qua hàm đo độ thích nghi (fitness function) Tại thời điểm khởi đầu, vị trí của các phần tử trong bầy đàn được khởi tạo ngẫu nhiên hoặc dựa trên tri thức có sẵn về bài toán Trong quá trình di chuyển, mỗi phần tử được ảnh hưởng bởi hai thông tin quan trọng: pBest, vị trí tốt nhất mà phần tử đạt được trong quá khứ, và gBest, vị trí tốt nhất của cả bầy đàn Theo nguyên lý của Eberhart và Kennedy, các phần tử trong PSO sẽ khám phá không gian bài toán bằng cách theo dõi các phần tử có độ thích nghi cao nhất Sau mỗi khoảng thời gian, vận tốc và vị trí của mỗi phần tử được cập nhật theo các công thức đã được định nghĩa.
+ c2 Rand() * (gbest[] — present[]) (3.1) present [ ] = pe sent [ ] + V [ ] (3.2)
Trong đó, rand() là một số ngẫu nhiên trong khoảng ( 0 , 1 ) ; c 1 , c 2 là các hệ số học, chúng thường được chọn là c1= c2 = 2
Một số điều kiện dừng phổ biến của thuật toán bao gồm: số lần cập nhật, số lần cập nhật bầy đàn không cải thiện kết quả, và số lần cập nhật với sự thay đổi nhỏ hơn một ngưỡng nhất định Điều kiện dừng cũng có thể được xác định từ bài toán cụ thể Phiên bản ban đầu của PSO được gọi là phiên bản “tốt nhất toàn cục” (global best), trong đó vận tốc của mỗi phần tử chỉ bị ảnh hưởng bởi vị trí tốt nhất mà nó đã đạt được và vị trí tốt nhất của cả bầy Các cải tiến của PSO đã đưa vào yếu tố “cục bộ”, cho phép vận tốc của mỗi phần tử còn bị tác động bởi vị trí tốt nhất trong số những hàng xóm của nó, được gọi là lbest Công thức cập nhật vận tốc được định nghĩa như sau: v[ ] = v[ ] + c1 rand()*(pbest[] — presen[]).
+ c 2 rand()* (gbest[]] — present[]) (3.3) + c3.rand() * (lbest[] — present[])
Nghiên cứu của M Clerc cho thấy rằng việc sử dụng yếu tố cục bộ, hay còn gọi là phiên bản “tốt nhất cục bộ” của PSO, thường mang lại hiệu quả cao hơn so với việc sử dụng yếu tố toàn cục hoặc kết hợp cả hai Để đảm bảo tính đồng nhất trong việc áp dụng PSO, các nhà nghiên cứu đã thống nhất phiên bản PSO chuẩn, hiện nay là Standard PSO 2011 (SPSO-11).
Xây dựng mô hình bài toán dựa trên lý thuyết logic mờ và thuật toán PSO
3.4.1 Thành phần dự đoán lỗi dựa trên logic mờ
Các thông số liên quan đến PM như tải, nhiệt độ
Luật mờ cho thông số tải:
Tải của hệ thống được tính:
Hình 3.3: Luật mờ cho thông số tải Công thức cho tải khi giá trị Low
Công thức cho tải khi giá trị Medium
Công thức cho tải khi giá trị High
Luật mờ cho thông số nhiệt độ:
Jialei Liu [29] đề xuất: temp (t|A, ω, 𝑡 , 𝑡 ) 𝑒 nếu 0 ≤ t ≤ 𝑡 ,
Hình 3.4: Luật mờ cho thông số nhiệt độ Công thức cho nhiệt độ khi giá trị Low
Công thức cho nhiệt độ khi giá trị Medium
Công thức cho nhiệt độ khi giá trị High
Tập luật: Từ tri thức và kinh nghiệm thực tế của các chuyên gia, chọn bộ luật như sau [28]:
Luật Tiền đề của luật Tiên đoán lỗi load temperature [0,1]
3.4.2 Mô hình cấp phát máy ảo
Trong một hệ thống điện toán đám mây với M máy vật lý, công nghệ ảo hóa cho phép triển khai nhiều máy ảo trên từng máy vật lý Hệ thống này cung cấp tài nguyên máy ảo cho các ứng dụng đa tầng A = {A₁, A₂, …, Aₙ} Một vector phân bổ tài nguyên 𝚽 = {𝚽₁, 𝚽₂, …, 𝚽ₙ} xác định số lượng bản sao máy ảo được phân bổ cho từng ứng dụng trên tất cả các máy chủ vật lý Chiến lược cấp phát máy ảo cho mỗi ứng dụng Aᵢ (∀ i ∈ {1, 2, …, n}) được thể hiện bằng ma trận 𝚽ᵢ không âm, với k hàng cho mỗi tầng và m cột cho mỗi máy vật lý.
Trong hệ thống ảo hóa, 𝐯 𝐤𝐦 𝐢 > 𝟎 đại diện cho số lượng máy ảo được phân bổ cho ứng dụng thứ 𝐢 ở tầng thứ 𝐤 trên máy vật lý thứ 𝐦 Để duy trì hiệu suất tối ưu, cần đảm bảo việc sử dụng tài nguyên của máy chủ vật lý được phân phối đồng đều giữa các máy ảo Khi các máy ảo được phân bố hợp lý, hệ thống sẽ đạt trạng thái cân bằng Để đánh giá hiệu suất sử dụng tài nguyên của một máy vật lý, có thể áp dụng công thức thích hợp.
- ℎ là hiệu suất sử dụng tài nguyên của máy vật lý 𝑖
- 𝑐 , 𝑐 lần lượt là số lượng CPU đã sử dụng và số lượng CPU tổng của máy vật lý 𝑖
- 𝑟 , 𝑟 lần lượt là số lượng RAM đã sử dụng và số lượng RAM tổng của máy vật lý 𝑖
- 𝑑 , 𝑑lần lượt là số lượng DISK đã sử dụng và số lượng DISK tổng của máy vật lý 𝑖
Mức độ cân bằng phân phối tài nguyên của hệ thống được đo bằng công thức sau:
Để tối đa hóa lợi nhuận, các nhà cung cấp dịch vụ cần khai thác hiệu suất của máy vật lý một cách tối đa, tránh lãng phí tài nguyên Công thức tính lãng phí tài nguyên của máy vật lý thứ i trong hệ thống là một yếu tố quan trọng để đánh giá hiệu quả hoạt động Giá trị trung bình của hiệu suất được biểu diễn bằng V = ∑ ( ).
- 𝑐 , 𝑐 lần lượt là số lượng CPU chưa sử dụng và số lượng CPU tổng của máy vật lý 𝑖
- 𝑟 , 𝑟 lần lượt là số lượng RAM chưa sử dụng và số lượng RAM tổng của máy vật lý 𝑖
- 𝑑 , 𝑑 lần lượt là số lượng DISK chưa sử dụng và số lượng DISK tổng của máy vật lý 𝑖
Mức độ tổng tài nguyên chưa khai thác của hệ thống được tính như sau:
Để thể hiện sự đánh đổi giữa cân bằng tải và độ lãng phí tài nguyên, hàm lợi ích cho người chơi thứ i khi được phục vụ máy ảo được biểu diễn bằng công thức 𝑊 = ∑ 𝑤 (3.14).
Việc điều chỉnh tự động tài nguyên có thể được coi như một trò chơi, trong đó khách hàng đóng vai trò là những người chơi Mỗi người chơi có khả năng thay đổi chiến lược phân bổ tài nguyên bằng cách điều chỉnh di trú máy ảo từ máy vật lý y sang máy vật lý z, nhằm tối ưu hóa hiệu suất và tài nguyên Công thức F = τV + (1 − τ)W (∀ τ ∈ [0,1]) mô tả mối quan hệ giữa các yếu tố trong quá trình này.
(3.16) trong đó, v − 1 là hành động điều chỉnh bớt một máy ảo và v + 1 là hành động thêm một máy ảo
Trong trò chơi này, hàm lợi ích đóng vai trò quan trọng trong quyết định chiến lược và kết quả cuối cùng của người chơi Mỗi người chơi sẽ lựa chọn chiến lược nhằm tối đa hóa lợi ích của mình, dẫn đến việc xác định hàm mục tiêu rõ ràng.
Điểm cân bằng Nash trong trò chơi được định nghĩa là chiến lược mà không có người chơi nào có thể tăng lợi nhuận khi các người chơi khác giữ nguyên chiến lược của mình Khi chiến lược của người chơi thứ i là tối ưu, ký hiệu là p∗, và các người chơi khác cũng có chiến lược tối ưu ký hiệu là p∗, thì cân bằng Nash của chiến lược p∗ sẽ tuân theo điều kiện nhất định.
𝐹 (𝑝 ∗ , 𝑝 ∗ ) ≥ 𝐹 (𝑝 ∗ , 𝑝 ) (3.18) Trong môi trường hệ thống đa tầng, có thể điểm cân bằng sẽ không ổn định
Việc tìm kiếm hiệu quả Pareto trong cân bằng Nash là một thách thức lớn, thường được giải quyết thông qua các thuật toán metaheuristic Các phương án gán máy ảo vào máy vật lý khả thi được xác định bằng thuật toán tối ưu đàn kiến Từ những phương án khả thi này, phương án tối ưu nhất sẽ được lựa chọn dựa trên điều kiện cân bằng Nash Thuật toán sẽ dừng lại theo các điều kiện đã được nêu trong tài liệu [27].
Để áp dụng thuật toán tối ưu bầy (PSO) giải quyết vấn đề di trú máy ảo, cần thiết kế lại sơ đồ mã hóa và hàm lợi ích cho phù hợp Trong một hệ thống với 5 máy chủ vật lý, giả sử có 3 ứng dụng A = {A1, A2, A3}, mỗi ứng dụng được triển khai trên 3 tầng như thể hiện trong Hình 3.5.
Ứng dụng đa tầng 𝐴 được triển khai trên 6 máy ảo, trong đó tầng Tier 1 gồm 2 máy ảo tại máy vật lý PM1 và PM2; tầng Tier 2 có 2 máy ảo tại máy vật lý PM2 và PM4; và tầng Tier 3 được thiết lập với 2 máy ảo tại máy vật lý PM3 và PM5.
Ứng dụng đa tầng 𝐴 được triển khai trên 5 máy ảo, trong đó tầng Tier1 bao gồm 2 máy ảo tại máy vật lý PM3 và PM5, tầng Tier2 cũng có 2 máy ảo tại máy vật lý PM3 và PM5, và tầng Tier3 được triển khai với 1 máy ảo tại máy vật lý PM2.
Ứng dụng đa tầng 𝐴 được triển khai trên 4 máy ảo, trong đó tầng Tier1 bao gồm 1 máy ảo tại máy vật lý PM4, tầng Tier2 có 1 máy ảo tại máy vật lý PM1, và tầng Tier3 được phân bổ với 2 máy ảo tại máy vật lý PM1 và PM4.
Mô hình triển khai hệ thống máy ảo cho các ứng dụng đa tầng, như được minh họa trong Hình 3.5, cho phép xây dựng chiến lược triển khai máy ảo cụ thể cho từng ứng dụng Chiến lược này được thể hiện qua công thức (3.10), giúp tối ưu hóa hiệu suất và quản lý tài nguyên một cách hiệu quả.
//Khởi tạo chiến lược triển khai VMΦ = {Φ , Φ , … , Φ }
//Hàm Cost() được tính theo công thức
Thông qua mỗi bước thuật toán ở trên có thể tìm ra được các chiến lược có thể cấp phát cho yêu cầu người dùng như sau:
0 0 0 1 0Với mỗi bước của thuật toán có thể tìm ra giải pháp điều chỉnh di dời tài nguyên tốt dựa trên việc tính toán hàm mục tiêu ở công thức (3.18).
MÔ PHỎNG VÀ ĐÁNH GIÁ
Môi trường giả lập
Môi trường xây dựng thuật toán và thực nghiệm viết trên phần mềm NetBeans IDE 8.2, công cụ CloudSim 3.0 toolkit, ngôn ngữ Java
Chúng tôi đã mô phỏng một trung tâm dữ liệu với 50 máy chủ vật lý có cấu hình không đồng nhất, trong đó triển khai 30 ứng dụng khác nhau, mỗi ứng dụng được cài đặt trên một máy chủ riêng biệt.
Chúng tôi thực hiện đánh giá thuật toán với 3 đến 15 máy ảo trong khoảng thời gian t = 1000, dựa trên tình huống di trú máy ảo liên quan đến trạng thái lỗi của máy vật lý Để đánh giá thời gian chạy của thuật toán, chúng tôi điều chỉnh thông số 𝜀 và số lượng cá thể trong đàn – SWARM, từ đó chọn thông số phù hợp nhằm đánh giá hiệu quả của thuật toán dựa trên mức độ cân bằng phân phối tài nguyên hệ thống theo công thức (3.11) và mức độ tổng tài nguyên chưa khai thác (tài nguyên lãng phí) của hệ thống theo công thức (3.13).
Kết quả
Trong nghiên cứu này, chúng tôi tập trung vào việc đánh giá chất lượng dịch vụ của ứng dụng và chi phí thuê dịch vụ Để kiểm tra hiệu quả của thuật toán, chúng tôi thực hiện thí nghiệm trên các ứng dụng được phân bổ tài nguyên ngẫu nhiên, sau đó áp dụng thuật toán PSO để tự động tạo ra các chiến lược phân bổ tài nguyên dựa trên hàm mục tiêu và lựa chọn chiến lược tối ưu Kết quả của thuật toán PSO phụ thuộc vào các tham số như ε, số lượng cá thể trong đàn, và hệ số đánh đổi giữa chất lượng dịch vụ và chi phí thuê máy ảo.
Chọn giá trị ε phù hợp theo yêu cầu của người dùng về hướng xử lý và lưu trữ dữ liệu Thực nghiệm được thực hiện trên 50 máy chủ vật lý với 30 ứng dụng phục vụ, mỗi ứng dụng có 3 tầng Với ε trong khoảng từ 0.01 đến 0.09, số vòng lặp và thời gian thực thi của thuật toán được đo lường Kết quả cho thấy, lỗi xảy ra đồng thời trên 4 máy vật lý tại bất kỳ thời điểm nào là lớn nhất, vượt quá 200 lần, trong khi số lỗi xảy ra đồng thời trên 10 máy vật lý lại thấp nhất, chỉ khoảng 15 lần.
Hình 4.1 cho thấy tần số xuất hiện lỗi của 50 máy vật lý trong thời gian t 00 Hình 4.2 chỉ ra rằng khi giá trị epsilon nhỏ, thời gian thực thi và số lượng vòng lặp lớn, ngược lại, khi epsilon lớn, thời gian thực thi và số lượng vòng lặp giảm Đặc biệt, tại giá trị epsilon = 0.04, thời gian thực thi ổn định.
Hình 4.2 Thời gian thực thi theo 𝜀 ∈ [0.01; 0.09]
Hình 4.3 Thời gian thực thi theo số lượng cá thể trong bầy 𝑆𝑊𝐴𝑅𝑀 ∈ [10; 90]
Hình 4.4 Đánh giá mức độ hiệu quả của thuật toán với cấu hình thuật toán có 10 cá thể SWARM#10 và 90 cá thể SWARM#90
Khi chọn epsilon = 0.04 và tăng số lượng bầy từ 10 đến 90 cá thể, thời gian thực thi tăng lên khi số lượng bầy lớn hơn Hình 4.4 minh họa sự so sánh tổng thể giữa SWARM#10 và SWARM#90.
Đánh giá, so sánh với thuật toán PFTSA trên cùng bộ dữ liệu [30]:
Hình 4.5 Mức cân bằng tải của hệ thống trong thời gian t = 1000
Hình 4.6 Tổng tài nguyên lãng phí của hệ thống trong thời gian t = 1000
Hình 4.7 Thời gian thực hiện thuật toán PSOVM và PFTSA
Trong các kết quả đo kiểm chuẩn, thuật toán PSOVM cho thấy mức cân bằng tải hệ thống tốt hơn so với PFTSA, mặc dù thời gian thực hiện của PSOVM kém hơn Độ lãng phí tài nguyên giữa hai thuật toán gần như tương đương Điều này cho thấy hiệu quả của các thuật toán không chỉ phụ thuộc vào tham số điều khiển và thiết kế di chuyển máy ảo, mà còn vào đặc điểm riêng của từng thuật toán PSOVM nổi bật với khả năng xác định chiến lược di dời dựa trên vị trí, vận tốc của các phần tử và giá trị tối ưu của bầy, trong khi PFTSA sử dụng yếu tố ngẫu nhiên để xác định chiến lược di chuyển, nhằm tăng khả năng tìm kiếm giải pháp tối ưu.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Kết quả đạt được
Trong luận văn, tôi đã đề xuất một mô hình kháng lỗi sử dụng logic mờ và thuật toán PSOVM trong điện toán đám mây Mô hình này cung cấp các chiến lược phân bổ tài nguyên cho các máy chủ vật lý, đồng thời xác định chiến lược tối ưu để cân bằng tải và giảm thiểu lãng phí tài nguyên hệ thống.
Trong phần thực nghiệm chúng tôi trình bày các thông số ảnh hướng đến hiệu quả của thuật toán, thông qua điều chỉnh các thông số như 𝜀, 𝑠𝑤𝑎𝑟𝑚𝑠𝑖𝑧𝑒, …
Những vấn đề còn tồn tại
Thuật toán PSO được phát triển để giải quyết các bài toán tối ưu với dữ liệu đầu vào lớn Tuy nhiên, do cấu hình máy thực hiện mô phỏng còn hạn chế, bộ dữ liệu đầu vào chưa đủ lớn, điều này ảnh hưởng đến hiệu quả của thuật toán trong quá trình thực thi Hiện tại, chương trình vẫn chỉ mang tính chất mô phỏng và chưa trở thành một ứng dụng cụ thể.
Hướng phát triển
Tiếp tục nghiên cứu sâu hơn về thuật toán PSO, xây dựng hàm mục tiêu tốt hơn
Nghiên cứu một số thuật toán để so sánh và đánh giá tính chính xác và mức độ hiệu quả giữa các thuật toán
DANH MỤC TÀI LIỆU THAM KHẢO
[1] Isermann, R.: ‘Fault-Diagnosis Applications’, Springer, 2011
[2] Li, Y., and Lan, Z.: ‘FREM: a fast restart mechanism for general checkpoint/restart’, Computers, IEEE Transactions on, 2011, 60, (5), pp 639-652
[3] Luo, Y., and Manivannan, D.: ‘Theoretical and experimental evaluation of communication-induced checkpointing protocols in and families’, Performance Evaluation, 2011, 68, (5), pp 429-445
[4] Marzouk, S., and Jmaiel, M.: ‘A survey on software checkpointing and mobility techniques in distributed systems’, Concurrency and Computation: Practice and Experience, 2011, 23, (11), pp 1196-1212
[5] Yuan, D., Yang, Y., Liu, X., and Chen, J.: ‘A data placement strategy in scientific cloud workflows’, Future Generation Computer Systems, 2010, 26, (8), pp 1200-1214
[6] Ghemawat, S., Gobioff, H., and Leung, S.-T.: ‘The Google file system’, in Editor (Ed.)^(Eds.): ‘Book The Google file system’ (ACM, 2003, edn.), pp 29-43
[7] Liu, H., Jin, H., Liao, X., Yu, C., and Xu, C.-Z.: ‘Live virtual machine migration via asynchronous replication and state synchronization’, parallel and distributed Systems, IEEE Transactions on, 2011, 22, (12), pp 1986-1999
[8] Bala, A., and Chana, I.: ‘Fault Tolerance-Challenges,Techniques and Implementation in Cloud Computing’, ,International Journal of Computer Science Issues, 2012, 9, (1)
[9] Armbrust, M., Fox, A., and Griffit, R.: ‘A view of cloud computing’, Communications of the ACM, 2010, 53
[10] B Cully, G Lefebvre, D Meyer, A Karollil, M Feeley, N.C Hutchinson, and
A Warfield, "Remus: High availability via asynchronous virtual machine replication," Proc the 5th USENIX Symposium on Networked Systems Design and Implementation (NSDI'08), pp 161-174, 2008
[11] G Jung, K Joshi, M Hiltunen, R Schlichting, and C Pu, "Performance and availability aware regeneration for cloud based multitier applications," Proc the 40th IEEE/IFIP Dependable Systems and Networks (DSN'10), pp 497-506, 2010
[12] A Nagarajan, F Mueller, C Engelmann, and S Scott, "Proactive fault tolerance for HPC with Xen virtualization," Proc the 21th International Conference Supercomputing (ICS'07), pp 23-32, 2007
[13] Í Goiri, F Julia, J Guitart, and J Torres, "Checkpoint-based fault tolerant infrastructure for virtualized service providers," Proc IEEE/IFIP Network Operations and Management Symposium (NOMS'10), pp 455-462, 2010
[14] A Zhou, S Wang, Z Zheng, C Hsu, M Lyu, and F Yang, "On cloud service reliability enhancement with optimal resource usage," IEEE Transactions on Cloud Computing, 99, vol.PP, pp 1-1, 2014
In their 2011 paper presented at the 22nd IEEE International Symposium on Parallel and Distributed Processing, Liu et al propose an optimal checkpoint/restart model designed for large-scale high-performance computing systems The model aims to enhance system reliability and efficiency by minimizing downtime and resource usage during failures This research contributes significantly to the field of high-performance computing, providing valuable insights into effective fault tolerance strategies.
[16] M Zhang, H Jin, X Shi, and S Wu 2010, "Virtcft: A transparent vmlevel fault-tolerant system for virtual clusters," Proc the 16th IEEE International Conference Parallel and Distributed Systems (ICPADS'10), pp 147-154, 2010
[17] N Limrungsi, J Zhao, Y Xiang, T Lan, H Huang, and S Subramaniam,
"Providing reliability as an elastic service in cloud computing," Proc IEEE International Conference on Communications (ICC'12), pp 2912-2917, 2012
[18] Burke, P.J.: ‘The output of a queuing system’, Operations research, 1956, 4,
[19] Ying Jiang, J.H., Jiaman Ding, Yingli Liu ‘Method of Fault Detection in Cloud Computing Systems ’, International Journal of Grid Distribution Computing,
[20] Ficco, M., Esposito, C., Palmieri, F., and Castiglione, A.: ‘A coral-reefs and game theory-based approach for optimizing elastic cloud resource allocation’, Future Generation Computer Systems, 2018, 78, pp 343-352
[21] Guo, Y., Stolyar, A., and Walid, A.: ‘Online VM Auto-Scaling Algorithms for Application Hosting in a Cloud’, IEEE Transactions on Cloud Computing, 2018
[22] Khiet Thanh Bui, Tran Vu Pham, & Hung Cong Tran ( 2016), “A Load Balancing Game Approach for VM Provision Cloud Computing Based on Ant