Đặt vấn đề
Ngày nay, công nghệ trí tuệ nhân tạo đã giúp chúng ta dễ dàng thu thập và phân tích dữ liệu cảm biến, từ đó tạo ra những thông tin hữu ích.
Trong hệ thống điện, việc chia nhỏ bộ dữ liệu thành các nhóm lớn như nhà máy điện, máy phát điện, trạm biến áp và đường dây là cần thiết để đảm bảo an toàn Mặc dù hạ tầng đã có sẵn, nhưng chưa có ứng dụng phân tích dữ liệu nào trong lĩnh vực này Để duy trì cung cấp điện liên tục, bảo trì đường dây trung thế 22kV là rất quan trọng Các nghiên cứu trước đã chỉ ra rằng bảo vệ thiết bị dựa vào việc so sánh các đại lượng vật lý như dòng điện, điện áp và nhiệt độ với ngưỡng định trước Tuy nhiên, việc bảo trì định kỳ có thể bỏ sót các lỗi nhỏ, như trường hợp trạm Gỗ Thành Phố 3×25kVA, nơi sự cố không được phát hiện cho đến khi có thông báo từ người dân Để khắc phục điều này, nghiên cứu này đề xuất sử dụng dữ liệu phát tuyến 22kV từ chương trình Apmatter làm dữ liệu chuẩn và phân nhóm để đánh giá trạng thái bất thường, từ đó gửi cảnh báo cho người vận hành.
Đề tài “Phân nhóm dữ liệu đường dây 22kV tuyến 471 Mỹ Tho để đánh giá trạng thái bất thường” được lựa chọn cho luận văn Thạc sỹ nhằm phân tích và đánh giá tình trạng hoạt động của hệ thống điện.
Nghiên cứu tổng quan
Tìm kiếm giải pháp tối ưu để đảm bảo cung cấp điện liên tục là yếu tố quan trọng, nhất là trong môi trường điện cạnh tranh, nơi mọi giai đoạn từ phát điện, truyền tải đến phân phối đều phải đối mặt với sự cạnh tranh.
Các kết quả nghiên cứu trong và ngoài nước:
Tình hình nghiên cứu trong nước:
Nhiều nghiên cứu trong nước đã thảo luận về tiêu chí đánh giá chất lượng hệ thống điện năng dựa trên các đặc tính như điện áp, độ lệch pha, dòng điện và tổng trở Tuy nhiên, việc đánh giá thường chỉ dựa vào giá trị đo được tại một thời điểm mà không xem xét sự thay đổi của các đại lượng theo thời gian Các luật thiết kế hiện tại cũng chưa tính đến sự biến đổi của từng đối tượng cụ thể Nhờ sự phát triển của công nghệ phân tích dữ liệu và trí tuệ nhân tạo, một số nghiên cứu gần đây đã áp dụng vào hệ thống điện để phân tích dữ liệu, từ đó xem xét sự thay đổi theo thời gian cho từng đối tượng cụ thể.
Tình hình nghiên cứu ngoài nước:
Các nghiên cứu quốc tế về đánh giá sự kiện bất thường chủ yếu dựa trên dữ liệu từ máy trạm viễn thông, nhưng việc áp dụng vào hệ thống điện vẫn còn hạn chế và chủ yếu tập trung vào ổn định chất lượng hệ thống điện Mặc dù có tiềm năng, việc ứng dụng các kỹ thuật phân tích dữ liệu trong hệ thống điện vẫn chưa phổ biến, với phần lớn các ứng dụng hiện tại chỉ tập trung vào việc dự đoán phụ tải hoặc nhận diện lỗi trong hệ thống.
[12]-[13] Việc áp dụng các kỹ thuật học không giám sát để đánh giá cho một đối tượng cụ thể vẫn chưa được đề cập chi tiết.
Mục đích, nhiệm vụ và giới hạn của đề tài
Mục đích của nghiên cứu này là phân nhóm dữ liệu nhằm phục vụ cho việc phân tích dữ liệu bất thường, từ đó đánh giá và phân tích tình trạng vận hành của đường dây 22kV tuyến 471.
Mỹ Tho Từ đó, tìm ra phương án vận hành thích hợp
Nghiên cứu các lý thuyết xác suất dùng để phân nhóm dữ liệu đánh giá tình trạng vận hành, độ tin cậy của hệ thống điện
Thu thập dữ liệu của đường dây 22kV phát tuyến 471 Mỹ Tho và dữ liệu phụ tải cần thiết cho việc nghiên cứu
Vận dụng lý thuyết xác suất, đánh giá tình trạng vận hành của trạm biến áp 110kV Mỹ Tho
Xây dựng chương trình phân nhóm dữ liệu để phân tích các dữ liệu bất thường dựa trên các thuật toán phân nhóm clustering
Đề tài này giới hạn trong việc phân tích dữ liệu nội bộ đã được thu thập sẵn do điều kiện thời gian và nghiên cứu, không bao gồm việc thu thập liên tục từ các thiết bị đo Mục tiêu là đề xuất phương án vận hành phù hợp cho phát tuyến 22kV của trạm 110kV Mỹ Tho và xây dựng chương trình đánh giá tình trạng vận hành nhằm hỗ trợ công tác vận hành hiệu quả.
Phạm vi nghiên cứu
Nghiên cứu tập trung vào đường dây 22kV phát tuyến 471 Mỹ Tho thuộc trạm biến áp 110kV Mỹ Tho, với dữ liệu chỉ liên quan đến phát tuyến này mà không xem xét các yếu tố khác của đường dây.
4 Đề tài chưa xét tới sự thay đổi của các đại lượng vật lý theo từng thời điểm trong ngày.
Phương pháp nghiên cứu
Phương pháp nghiên cứu được sử dụng trong nghiên cứu này:
Thu thập các tài liệu, số liệu và sơ đồ có liên quan để phục vụ cho nghiên cứu trong chương trình Appmeter
Giải thuật PCA: PRINCIPAL COMPONENT ANALYSIS
Giải thuật chuẩn hóa dữ liệu
Phân nhóm dữ liệu với các thuật toán K-mean, Mean-shift và Spectrial clustering
Điểm mới của luận văn
Các nghiên cứu trước đây về phân tích trạng thái hệ thống cung cấp điện thường chỉ dựa vào một hoặc một vài đặc trưng, dẫn đến việc khó phát hiện các lỗi bảo trì nhỏ Ví dụ, sự cố mất điện vào ngày 23/05/2018 do rắn bò lên FCO tại trụ 49 tuyến 473 Mỹ Tho 2 đã làm bật máy cắt tại trạm 110kV Mỹ Tho 2, nhưng không làm bật Recloser D40 tại trụ 20 Hệ thống điện có nhiều thông số cần giám sát, tuy nhiên nếu mỗi thiết bị chỉ giám sát một hoặc một vài thông số thì số lượng thiết bị sẽ tăng lên và trở nên khó quản lý Hơn nữa, các thiết bị điện thường được thiết lập với ngưỡng tác động hoặc bảo vệ cố định, không thể điều chỉnh theo sự thay đổi trong quá trình điều khiển và vận hành của hệ thống.
Nhiều nghiên cứu trước đây đã áp dụng các thuật toán phân loại để dự đoán tình trạng hoạt động của hệ thống, chẳng hạn như việc rút trích đặc trưng từ các thông số hệ thống và sử dụng thuật toán One class SVM cho nhiệm vụ phân loại và dự đoán Tuy nhiên, quá trình phân loại này chỉ xác định được liệu mẫu có bất thường hay không mà không cung cấp thông tin chi tiết hơn.
Việc không thể hiện rõ sự bất thường của mẫu gây khó khăn cho kỹ sư trong quá trình vận hành do họ chưa đánh giá được mức độ cấp bách của hệ thống Đề tài này áp dụng thuật toán phân loại kết hợp với clustering để giải quyết vấn đề giám sát và dự đoán hệ thống Phương pháp giám sát truyền thống không thể rút ra đặc trưng từ toàn bộ thông số mà chỉ dựa vào một số thông số nhất định như dòng điện, điện áp, hệ số công suất và tổng trở Với hệ thống truyền tải điện có nhiều thông số quyết định, đề tài đã sử dụng thuật toán để tổng hợp đặc trưng, chứa đựng thông tin hữu ích từ tất cả các giá trị Kết quả chẩn đoán giúp đánh giá mức độ cấp bách của vấn đề, từ đó đưa ra hướng khắc phục hợp lý Đây là phương pháp học không giám sát, không cần nhãn để đánh giá hệ thống, cho phép thích nghi với nhiều loại đối tượng khác nhau Sự cập nhật dữ liệu liên tục giúp thuật toán học theo quá trình vận hành, từ đó phân nhóm dữ liệu để phát hiện trạng thái bất thường nhẹ, hỗ trợ trong việc lập kế hoạch bảo trì sớm hơn mà không phụ thuộc vào lịch trình cố định.
Giá trị thực tiễn của luận văn
Đề tài thu thập bộ dữ liệu cho đường dây 22kV tuyến 471 Mỹ Tho để phục vụ học tập và nghiên cứu, gồm:
Bộ dữ liệu đường dây 22kV từ chương trình Appmeter bao gồm 29 cột số liệu được thu thập theo từng giờ, ngày, tháng và năm Dữ liệu này có thể được truy xuất từ nhiều tháng trước và là thông tin chính xác để Điện lực Mỹ Tho báo cáo cho Công ty Điện lực Tiền Giang và Tổng công ty Điện lực miền Nam Đề tài áp dụng thuật toán rút kết đặc trưng để hỗ trợ phân tích hệ thống, giúp bộ phận quản lý vận hành phát hiện và điều chỉnh kịp thời, từ đó tránh gây sự cố cho lưới điện Kết quả phát hiện cho thấy mức độ ổn định của hệ thống, góp phần nâng cao hiệu quả quản lý.
Hệ thống tự lọc theo thời gian giúp điều chỉnh phù hợp với điều kiện vận hành, từ đó ngăn chặn các sự cố như mất điện hoặc nguy cơ gây hại cho thiết bị điện Điều này đảm bảo an toàn cho hệ thống truyền tải và cung cấp điện.
Ứng dụng của chương trình tại Điện lực Mỹ Tho
Cán bộ kỹ thuật tại Điện lực Mỹ Tho đã theo dõi các thông số từ chương trình Appmeter và phát hiện những bất thường trong dữ liệu năm 2017 Để ngăn chặn sự cố, Điện lực Mỹ Tho đã thông báo cho Phòng Điều Độ - Công ty Điện lực Tiền Giang, yêu cầu nhân viên trực ban trạm 110kV Mỹ Tho theo dõi chặt chẽ thông số vận hành của tuyến 471 Mỹ Tho và đưa ra biện pháp xử lý kịp thời.
Phần mềm thu thập dữ liệu APPMETER
Hệ thống đọc thông số vận hành trạm 110kV là giải pháp tự động hóa, cho phép truy xuất số liệu từ công tơ điện tử, tối ưu hóa cơ sở hạ tầng hiện có để phục vụ quản lý kinh doanh và vận hành lưới điện Ứng dụng được cài đặt trên các máy client, giúp theo dõi hoạt động và lập báo cáo hiệu quả Chương trình bao gồm nhiều module để đáp ứng nhu cầu sử dụng.
Module Theo dõi vận hành trạm
Module Phân quyền người dùng
Module Đồng bộ dữ liệu
Module Lập lịch tự động lấy số liệu
Module In ấn và kết xuất dữ liệu
- Theo dõi giám sát sự cố
2.1.2 Các chức năng chung của hệ thống
2.1.2.1 Đăng nhập Để sử dụng hết các chức năng của hệ thống, bạn cần phải đăng nhập để hệ thống biết bạn là ai, bạn được phép sử dụng các chức năng nào và các tài nguyên nào của hệ thống Khi bắt đầu chạy chương trình màn hình đăng nhập sẽ hiển thị, bạn lần lượt
Để đăng nhập, bạn cần chọn đơn vị, nhập tên đăng nhập và mật khẩu vào các ô tương ứng, sau đó nhấn nút đăng nhập Đừng quên đánh dấu vào ô "Ghi nhớ đăng nhập" để lưu thông tin cho lần truy cập sau.
Hình 2 1: Đăng nhập hệ thống
Lưu ý: Mật khẩu phân biệt ký tự hoa thường
Chức năng này dùng để phân quyền sử dụng cho người dùng:
Đăng nhập bằng quyền admin
Chọn tab hệ thống sau đó chọn chức năng phân quyền người dùng
2.1.2.3 Quản lý thông tin người dùng:
Thông tin người dùng bao gồm đơn vị trực thuộc, họ tên, tên đăng nhập và mật khẩu Quản trị viên có quyền thay đổi thông tin của người dùng hoặc thêm người dùng mới vào hệ thống.
Bấm vào nút thêm người dùng;
Điền các thông tin người dùng vào các ô tương ứng: o Đơn vị: đơn vị người dùng đang làm việc o Họ tên: họ tên người dùng
Để đăng nhập vào hệ thống, người dùng cần cung cấp tên đăng nhập và mật khẩu Khi thay đổi mật khẩu, hãy nhập mật khẩu mới và xác nhận lại bằng cách nhập lại mật khẩu mới vừa tạo.
Bấm nút Lưu người dùng để lưu lại người dùng vừa mới nhập
Hình 2 2: Thêm người dùng b Sửa thông tin người dùng
Nhấn nút sửa người dùng
Cập nhật lại các thông tin người dùng cần sửa
Bấm nút lưu người dùng để cập nhật lại thông tin người dùng
Hình 2 3: Cập nhật thông tin người dùng c Phân quyền người dùng
Phân quyền chức năng : Chức năng phân quyền chức năng người dùng để hạn chế người dùng được sử dụng những chức năng của chương trình
Để phân quyền chức năng cho người dùng, trước tiên, bạn cần đăng nhập vào chương trình bằng tài khoản admin Tiếp theo, mở chức năng phân quyền người dùng, chọn đơn vị và người dùng cần phân quyền Sau đó, xác định các chức năng tương ứng với người dùng và quyền thao tác dữ liệu cho mỗi chức năng Cuối cùng, bấm nút Cập nhật quyền để hoàn tất quá trình.
Hình 2 4: Phân quyền người dùng
Chức năng phân quyền dữ liệu người dùng giúp hạn chế nguồn dữ liệu mà người dùng có thể tương tác, chỉnh sửa và thay đổi, nhằm bảo vệ thông tin và tăng cường an ninh dữ liệu.
Để phân quyền dữ liệu cho người dùng, trước tiên bạn cần đăng nhập vào chương trình bằng tài khoản admin Sau đó, mở chức năng phân quyền người dùng và chọn Tab Phân quyền dữ liệu Tiếp theo, lựa chọn đơn vị và người dùng cần phân quyền, sau đó chọn các dữ liệu tương ứng với người dùng đó Cuối cùng, hãy bấm nút Cập nhật quyền để hoàn tất quá trình phân quyền.
Hình 2 5: Phân quyền chức năng
Chức năng phân quyền tổn thất được thiết lập nhằm hạn chế nguồn dữ liệu mà người dùng có quyền tương tác, chỉnh sửa và thay đổi trong quá trình xử lý tổn thất.
Để phân quyền tổn thất cho người dùng, trước tiên, bạn cần đăng nhập vào chương trình bằng tài khoản admin Sau đó, mở chức năng phân quyền người dùng và chọn Tab Phân quyền tổn thất Tiếp theo, hãy chọn đơn vị và người dùng cần phân quyền, sau đó lựa chọn các đối tượng tổn thất tương ứng với người dùng đó Cuối cùng, bấm nút Cập nhật quyền để hoàn tất quá trình phân quyền.
Hình 2 6: Phân quyền thay đổi dữ liệu
2.1.2.4 Lập lịch tự động lấy số liệu
Cho phép người dùng lập lịch đọc cho từng điểm đo với các tùy chọn như:
Kiểu đọc: đọc Current values, đọc tham số tức thời, đọc load profile
Thời điểm bắt đầu: thời gian bắt đầu đọc
Ngày bắt đầu: ngày bắt đầu đọc
Ngày kết thúc: ngày kết thúc đọc
Kiểu lặp: hàng giờ, hàng phút, hàng ngày… Để lập lịch tự động:
Chọn trạm cần lập lịch
Cập nhật các thông tin lập lịch
Lập lịch đọc mới cho điểm đo
14 o Để lập lịch mới cho điểm đo, người dùng chọn dòng trống ở trên cùng của bảng dữ liệu và điền các thông tin tương ứng với từng cột
Để thêm lịch mới cho các điểm đo, người dùng cần cập nhật lịch đọc tự động bằng cách nhấn vào ô dữ liệu cần chỉnh sửa và điền thông tin mới.
Để xóa lịch đọc tự động, bạn chỉ cần chọn lịch đọc cần xóa và nhấn nút delete Sau đó, một hộp thoại xác nhận sẽ hiện ra để bạn xác nhận việc xóa lịch đọc này.
- Chọn Yes để xác nhận việc xóa
- Chọn No để hủy việc xóa
Hình 2 9: Xóa lịch đọc dữ liệu
Bấm cập nhật để lưu lại những thay đổi đã thực hiện xuống các trạm
Hình 2 10: Tải thông tin cài đặt xuống các trạm đo
Chức năng này dùng để điều chỉnh nội dung xuất của báo cáo khi cần kết xuất dữ liệu
Ý nghĩa các cột : o Nội dung: nội dung của dòng dữ liệu
Để thêm mới nội dung trong Excel, trước tiên bạn cần xác định vị trí để xuất dữ liệu, tương ứng với vị trí cần thêm dữ liệu Bạn cũng cần chọn kiểu chữ (font) và cỡ chữ cho nội dung Khi xác định nội dung cần thêm, hãy quyết định xem đó có phải là một dòng mới hay không Ngoài ra, bạn có thể chỉ định vị trí của nội dung (footer) nằm phía dưới hay phía trên bảng dữ liệu Các tùy chọn định dạng như in đậm (bold), in nghiêng (italic) và gạch dưới (underline) cũng có thể được áp dụng, cùng với việc canh lề (align) cho nội dung Để hoàn tất việc thêm mới, hãy chọn dòng thêm mới, nhập đầy đủ thông tin từ trái qua phải và nhấn tab cho đến cột cuối cùng của dòng.
Hình 2 11: Thêm nội dung mới
Để cập nhật nội dung, hãy chọn dòng cần chỉnh sửa, thực hiện thay đổi và sau đó chọn một dòng khác để hoàn tất Để xóa nội dung, chỉ cần chọn dòng cần xóa và nhấn nút delete.
Hình 2 12: Cập nhật và xóa nội dung
2.1.2.6 Quản lý chỉnh báo cáo
Chức năng này dùng để khai báo các tính chất và đối tượng phục vụ cho từng báo cáo
Để thêm báo cáo mới, bạn cần chọn chức năng điều chỉnh báo cáo, sau đó click vào dòng đầu tiên của lưới trong mục thông tin báo cáo Tiếp theo, hãy nhập tên báo cáo và tên file xuất ra báo cáo để hoàn tất quá trình.
Hình 2 13: Quản lý thông tin báo cáo
Các gói thư viện
Trong thống kê và phân tích dữ liệu, tiền xử lý dữ liệu là bước quan trọng để cải thiện hiệu suất của các thuật toán phân tích Khi dữ liệu có số chiều lớn, việc mô tả trong không gian hai hoặc ba chiều trở nên khó khăn, do đó cần áp dụng các phương pháp giảm chiều Chức năng chính của việc này là giảm thiểu sai sót và loại bỏ sự dư thừa trong tập dữ liệu.
PCA là một trong những phương pháp có thể giải quyết các vấn đề đó, nhưng hơn thế nữa, PCA còn có những đặc tính sau:
Giúp giảm số chiều của dữ liệu từ không gian nhiều chiều về không gian ít chiều hơn
PCA tạo ra một không gian mới với ít chiều hơn, thay vì giữ lại các trục tọa độ của không gian cũ, nhưng vẫn đảm bảo khả năng biểu diễn dữ liệu tương đương, giữ nguyên độ biến thiên của dữ liệu trên mỗi chiều mới.
Trong không gian mới, các trục tọa độ được hình thành từ tổ hợp tuyến tính của không gian cũ, cho thấy rằng PCA tạo ra các đặc trưng mới dựa trên những đặc trưng đã quan sát Điều thú vị là các đặc trưng mới này vẫn bảo toàn thông tin quan trọng từ bộ dữ liệu ban đầu.
Trong môi trường mới, những liên kết tiềm ẩn của dữ liệu có thể được phát hiện dễ dàng hơn, trong khi ở không gian cũ, chúng thường khó nhận thấy hoặc không rõ ràng.
Mục tiêu chính của PCA là xác định một không gian mới với số chiều nhỏ hơn không gian ban đầu Trong không gian mới này, các trục tọa độ được thiết kế để tối đa hóa độ biến thiên của dữ liệu trên mỗi trục.
Minh họa PCA: phép chiếu lên các trục tọa độ khác nhau có thể cho cách nhìn rất khác nhau về cùng một dữ liệu
Khi nhìn từ bên hông, hình dáng của con lạc đà trở nên rõ ràng và dễ nhận biết hơn, trong khi từ phía trước, việc xác định nó là lạc đà trở nên khó khăn.
Một ví dụ thuyết phục hơn được minh họa trong hình sau:
Tìm các trục tọa độ mới sao cho dữ liệu có độ biến thiên cao nhất
Trong không gian 3 chiều, tập dữ liệu ban đầu (điểm màu xanh) không thể hiện rõ mức độ biến thiên của dữ liệu qua 3 trục màu đen Do đó, PCA sẽ xác định hệ trục tọa độ mới (hệ trục màu đỏ) để tối ưu hóa việc biểu diễn dữ liệu Sau khi tìm ra không gian mới, dữ liệu sẽ được chuyển đổi để phản ánh tốt hơn các đặc điểm của nó.
Không gian này đã được biểu diễn qua 25 bài hát, cho thấy rõ ràng rằng hình bên phải chỉ cần 2 trục tọa độ nhưng lại thể hiện tốt hơn sự biến thiên của dữ liệu so với hệ trục 3 chiều ban đầu.
Một điểm quan trọng của PCA là các trục tọa độ trong không gian mới luôn đảm bảo tính trực giao, bất chấp việc các trục trong không gian ban đầu có thể không trực giao.
Các bước của PCA lần lượt như sau: a Tiền xử lí
Dữ liệu ban đầu có thể chứa những giá trị thay đổi bất thường, như trong feature 1 (cột 1 của X) có giá trị dao động trong khoảng (0, 1), trong khi feature 2 lại biến thiên trong đoạn khác.
Để chuẩn hóa giá trị trên các cột của ma trận X trong PCA, cần thực hiện bước tiền xử lý Hai phương pháp tiền xử lý phổ biến cho PCA là PCA Centered và PCA Normed.
Centered PCA mang tất cả các feature (các cột của X) về cùng một gốc tọa độ:
Trong đó n là số dòng của X, g j là giá trị trung bình của cột thứ j của X, được tính như trên
Normed PCA mang tất cả các feature về cùng một gốc tọa độ, đồng thời chuẩn hóa về cùng một quãng standard-deviation bằng 1:
Trong đó σ j là độ lệch chuẩn (standard deviation) của cột thứ j trong X
Thông thường Normed PCA hay được dùng Sau bước tiền xử lí, ma trận X̂ sẽ là đầu vào cho bước tiếp theo b Xây dựng không gian mới
Tính ma trận hiệp phương sai (covariance) của các feature trong X̂:
Do là tích của ma trận X ̂với chuyển vị của nó nên V ∈ R P×P là ma trận positive semidefinite kích thước P × P Hơn nữa V có p trị riêng λ i ≥ 0, i = 1 … p
PCA xác định trị riêng và vector riêng tương ứng của ma trận V, sắp xếp theo thứ tự giảm dần của trị riêng Giả sử có p trị riêng của V là λ1 ≥ λ2 ≥ ≥ λP và p vector riêng tương ứng là u1, u2, , up.
Các trục trong không gian mới được xác định bởi các vector riêng u i, và các vector này hoàn toàn độc lập tuyến tính, tức là chúng trực giao với nhau Việc chuyển dữ liệu từ không gian ban đầu sang không gian mới là cần thiết để tối ưu hóa quá trình phân tích và xử lý dữ liệu.
Thông thường, không gian mới không được xây dựng từ tất cả p vector riêng, mà chủ yếu chỉ từ k vector riêng đầu tiên, với k nhỏ hơn p Việc chọn các vector đầu tiên và xác định giá trị k tối ưu sẽ được thảo luận trong phần cuối của bài viết.
U = [u 1 |u 2 | … |u k ] ∈ R p×k (2.8) Khi đó tọa độ các điểm trong hệ tọa độ mới là
Ta đã kết thúc giải thuật PCA d Cơ sở toán học của PCA
Mục tiêu của PCA là tìm trục cho không gian mới sao cho nó biểu diễn tốt nhất mức độ biến thiên của dữ liệu
Giả sử có ma trận X ∈ R m×n
PCA (Phân tích thành phần chính) nhằm mục đích tìm kiếm một không gian mới có số chiều nhỏ hơn m, trong đó x i ∈ R m là các điểm trong không gian ban đầu, để biểu diễn tốt n điểm trong tập dữ liệu X.
Hình sau minh họa trọn vẹn ý tưởng của PCA
Hình 2 201: Minh họa phép chiếu dựa trên nguyên tắc PCA
Trong hình trên, gọi α ∈ R m , ‖α‖ = 1 là một trục trong không gian mới cần tìm Khi đó tọa độ của x i trên trục α chính là tích vô hướng φ i = α T x i
Giới thiệu
Để phát triển một hệ thống giám sát và phát hiện sự kiện bất thường trong hệ thống điện, cần có một bộ dữ liệu chuẩn cho quá trình đào tạo Dữ liệu này có thể được thu thập từ hệ thống giám sát hiện có tại các trạm điện Các mẫu dữ liệu thu được ngay sau khi hệ thống được cài đặt sẽ được coi là mẫu bình thường để huấn luyện Sau giai đoạn huấn luyện, các tín hiệu đo lường tại thời điểm cụ thể sẽ được sử dụng để tiến hành đánh giá hiệu quả của hệ thống.
Quá trình đào tạo
Để xây dựng một hệ thống hiệu quả, việc đầu tiên là chuẩn bị bộ dữ liệu chất lượng và lựa chọn các thuật toán phù hợp với loại dữ liệu và mẫu phân loại mà chúng ta đang sử dụng.
Hình 3 1: Sơ đồ khối quá trình huấn luyện
Để tối ưu hóa quá trình đào tạo, việc lấy dữ liệu từ các file Excel là rất quan trọng Quá trình này bao gồm việc loại bỏ các giá trị không cần thiết và kết nối dữ liệu thành một ma trận, giúp dễ dàng hơn trong việc xử lý và phân tích sau này.
Chạy thuật toán đào tạo
Tiền xử lý: tiền xử lý dữ liệu với các thuật toán chuẩn hóa “StandardScaler”, và thuật toán giảm chiều dữ liệu “PCA”
Để xử lý lượng dữ liệu thừa, việc sử dụng PCA (Phân tích thành phần chính) là cần thiết nhằm giảm dữ liệu và dễ dàng hiển thị trên mặt phẳng hai chiều Quá trình chuẩn hóa dữ liệu là rất quan trọng, vì các đại lượng vật lý khác nhau có thể ảnh hưởng đến kết quả phân tích Bằng cách đồng nhất các đại lượng, chúng ta có thể tối ưu hóa quá trình đào tạo và phân loại, từ đó đạt được độ chính xác cao hơn trong các phân tích.
Hình 3.2 minh họa dữ liệu trước và sau khi chuẩn hóa Việc giảm chiều dữ liệu là cần thiết để đơn giản hóa và giảm dung lượng tập dữ liệu, loại bỏ các thành phần không cần thiết, từ đó giảm tải cho phần cứng và rút ngắn thời gian đào tạo cũng như phân loại hệ thống Hệ thống áp dụng thuật toán phân tích thành phần chính (PCA) để giảm chiều dữ liệu, giữ lại 2 thành phần (n_components = 2) Đánh giá lượng thông tin được giữ lại với số lượng thành phần này được thể hiện trong hình bên dưới.
Hình 3 3: Đồ thị thể hiện lượng thông tin được giữ lại với n thành phần
Khi sử dụng n_components = 2 trong thuật toán PCA, lượng thông tin được giữ lại đạt 0.99999733, cho phép bảo toàn gần như toàn bộ thông tin trong bộ dữ liệu Điều này cho thấy việc giảm chiều dữ liệu với hai thành phần chính là hiệu quả trong việc duy trì các thông tin cần thiết.
Đào tạo hệ thống: Đào tạo dữ liệu với các thuật toán Mean-shift và Spectral- clustering:
Hình 3 4 : Đồ thị thể hiện trung tâm cụm của các thuật toán K-means, mean-shift và spectral-clustering Như vậy, dựa vào hình 3.4 có thể thấy:
K-means là phương pháp phân nhóm dữ liệu dựa trên mật độ tập trung, phụ thuộc vào số lượng cụm ban đầu và vị trí của các trung tâm cụm.
Khi sử dụng 48 cụm khởi tạo ban đầu, nếu các phân cụm được hình thành chỉ nằm ở một phía và không có phân cụm nào thuộc về khối dữ liệu nhỏ, chúng sẽ được gộp lại với khối dữ liệu lớn Tuy nhiên, điều này không phù hợp với nhiều trường hợp khác nhau.
Mean-shift không yêu cầu khởi tạo các trung tâm cụm mà sử dụng cửa sổ quan hệ với các mẫu lân cận Thông số quan trọng cần thiết lập là độ rộng của cửa sổ tương quan; nếu giá trị này lớn, phương pháp sẽ gần giống với K-means Do không phụ thuộc vào số lượng và vị trí của các trung tâm phân cụm ban đầu, Mean-shift có khả năng tách biệt các cụm có số lượng mẫu rất nhỏ, thường là những trường hợp bất thường hoặc khác biệt lớn Các dữ liệu cách xa nhau sẽ tạo ra trọng số liên hệ thấp, từ đó cho phép phân cụm một cách dễ dàng và chính xác hơn.
Phương pháp phân cụm spectral dựa vào mối liên kết giữa các mẫu để xác định sự tương quan của chúng Các liên kết này cho phép tách biệt các cụm con dựa trên độ dài của chúng, tạo thành một mạng lưới kết nối chằng chịt Những mẫu gần nhau sẽ hình thành các đường kết nối, trong khi các mẫu xa hơn sẽ không tạo ra liên kết hoặc có trọng số thấp, dẫn đến việc hình thành các khối con riêng biệt Từ những khối con này, có thể áp dụng các thuật toán như k-means để thực hiện phân cụm một cách hiệu quả.
Chúng tôi đã chọn thuật toán Mean-shift và Spectral-clustering vì chúng có khả năng phân nhóm tốt hơn và phù hợp hơn so với thuật toán K-means cho bộ dữ liệu này.
Quá trình kiểm tra bộ phân loại
Hình 3 5: Sơ đồ khối quá trình phân loại
Để phân loại dữ liệu, trước tiên cần thu thập các mẫu từ các thiết bị, sau đó đọc và gửi các mẫu này về Các tín hiệu thu thập được sẽ được tính toán và kiểm tra tính hợp lệ trước khi tiến hành phân loại.
Tiền xử lý dữ liệu là bước quan trọng để hệ thống phân loại chính xác, trong đó các giá trị cần phân loại phải được xử lý đồng bộ với cách tiền xử lý của bộ dữ liệu đào tạo trước đó Điều này đảm bảo sự tương đồng và nhất quán giữa dữ liệu đào tạo và dữ liệu phân loại, giúp nâng cao hiệu quả của quá trình phân loại.
Phân loại dữ liệu là quá trình nhận dạng mẫu đã được tiền xử lý, nhằm xác định xem mẫu đó thuộc về cụm nào trong các cụm đã được phân nhóm trước trong quá trình đào tạo.
Kết luận cho thấy rằng một điểm nằm quá xa tâm của một phân cụm sẽ được coi là hiện tượng bất thường, vì khoảng cách xa này đồng nghĩa với sự giảm sút mức độ tương đồng với cụm Ngoài ra, nếu một mẫu gần các phân cụm có số lượng mẫu quá nhỏ, nó cũng được xem là bất thường Các phân cụm nhỏ này thường là những trường hợp hiếm gặp trong ô dữ liệu và có thể chỉ tồn tại trong một khoảng thời gian ngắn.
Tiền xử lý Phân Loại Đưa ra kết luận
Giới thiệu về phát tuyến 471 Mỹ Tho
4.1.1 Đặc điểm vị trí của phát tuyến 471 Mỹ Tho
Phát tuyến điện từ trạm qua đường Ấp Bắc và Đinh Bộ Lĩnh, tiếp tục dọc theo Quốc lộ 50 đến vị trí đo ghi ranh giới DC15 Khu vực được cấp điện bao gồm Phường 5 và Phường 7.
3, Phường 8, Phường 9 và xã Tân Mỹ Chánh thành phố Mỹ Tho
- 135 máy biến áp lớn,nhỏ
4.1.2 Sơ đồ nối điện chính của phát tuyến 471 Mỹ Tho
Hình 4 1: Sơ đồ nối điện phát tuyến 471 Mỹ Tho
4.1.3 Các thiết bị trong trên đường dây 22kV phát tuyến 471 Mỹ Tho và thông số kỹ thuật
Thông số phát tuyến 22kV
Cho phép theo dõi các thông số phát tuyến 22kV theo thời gian
Các chỉ số được cài đặt để theo dõi gồm :
Dòng điện phía phát tuyến (Ia, Ib, Ic)
Hệ số công suất (Cos φ)
Công suất phản kháng (Q) Để hiển thị báo cáo theo dõi các phát tuyến 22kV:
Chọn đơn vị: đơn vị có máy biến áp cần theo dõi
Ngày: chọn ngày cần theo dõi
Máy biến áp: chọn máy biến áp cần theo dõi
Bấm nút tải lại để hiển thị
Các giá trị max, min của của công suất tác dụng và công suất phản kháng được đánh dấu bằng các màu được chọn ở trên
Phía 110kV, 22kV của MBA và các phát tuyến 22kV dùng đồng hồ Multimet để đo các thông số U, I, S, P, Q, f, cos φ
Các thông số trên được máy tính tự động cập nhật mỗi giờ một lần thông qua chương trình Appmeter
Các bước lấy dữ liệu từ chương trình AppMeter
Bước 1: Lựa chọn mục “Thông số vận hành” như hình 4.2
Hình 4 3: Lựa chọn mục “Thông số vận hành”
Bước 2: Chọn “Thông số điểm đo”
Hình 4 4: Chọn “Thông số điểm đo”
Bước 3: Chọn “Điểm đo”, thời gian cần đo
Hình 4 5: Chọn “Điểm đo”, thời gian cần đo
Bước 4: Nhấn “Tải lại (F5)” để thực hiện lấy thông số điểm đo
Hình 4 6: Tải lại để thực hiện lấy thông số điểm đo
Bước 5: Nhấn nút “Xuất BC thông số phụ tải” để xuất dữ liệu
Bước 6: Nhấn phím tắt xuất file báo cáo
Hình 4 8: Xuất file báo cáo
Bước 7: Lưu file cần báo cáo
Hình 4 9: Lưu file báo cáo.
Ý nghĩa của các giá trị vật lý, và sự bất thường của chúng
Hệ thống điện được mô tả qua các thông số cơ bản như dòng điện, điện áp và hệ số công suất Dòng điện là đại diện cho tổng công suất tải và đóng vai trò quan trọng trong hệ thống truyền tải điện, ảnh hưởng đến thông số đường dây Hệ số công suất phản ánh tính chất tải, với các tải gây ra công suất phản kháng lớn làm giảm hiệu suất, dẫn đến việc tiêu hao năng lượng mà không tạo ra công hữu ích Điện áp cần được ổn định, vì sự biến động có thể gây nguy hiểm cho thiết bị sử dụng điện Việc nắm vững các thông số này giúp đưa ra quyết định hợp lý và phù hợp với tình hình thực tế.
Bảng 4 1: Các mẫu bình thường của hệ thống
(kV) UC (kV) IA (A) IB (A) IC (A) Cos
4.3.1 Sự bất thường của các thông số hệ thống
Bảng 4 2:Các mẫu bất thường của hệ thống.
(kV) UC (kV) IA (A) IB (A) IC (A) Cos
Các mẫu bất thường thường chứa một hoặc nhiều giá trị khác biệt so với các mẫu còn lại, cho thấy những giá trị này không xuất hiện trong lịch sử truyền tải điện của hệ thống hoặc chỉ xuất hiện với tần suất rất thấp Do đó, những mẫu này có thể được thu thập để phân tích.
Trong quá trình hệ thống gặp sự cố hoặc được ngắt để bảo trì, chúng ta có thể phân tích và dự đoán sự ổn định của hệ thống thông qua các thông số bất thường Các mẫu bất thường, như trong bảng 4.2, cho thấy giá trị dòng điện và hệ số công suất bằng không, thường xuất hiện khi ngừng cung cấp điện Tuy nhiên, nếu trong quá trình vận hành, hệ thống xảy ra bất thường như sụt áp, quá dòng hoặc giảm sâu hệ số công suất, thì các thông số này sẽ bị thay đổi Những sự bất thường này có thể xảy ra trên một pha, hai pha hoặc tất cả các pha, với mức độ thấp, cao hoặc mất toàn bộ pha.
4.3.2 Những giá trị mang tính quyết định đến sự bất thường của dữ liệu
Các giá trị cơ bản của nguồn điện bao gồm dòng điện, điện áp và hệ số công suất, từ đó giúp tính toán các giá trị tổng quan khác Những giá trị này được mô hình hóa để đại diện cho các tham số đo lường khó khăn trong việc đo trực tiếp Chúng chỉ là những phép tính cơ bản và thuật toán nhằm thể hiện rõ tính chất của nguồn điện.
Trong hệ thống điện, hệ số công suất có biên độ thay đổi ít và phụ thuộc vào tính chất của tải Tải cảm làm giảm hệ số công suất, đặc biệt trong giai đoạn khởi động, nhưng ảnh hưởng này thường ngắn và không đáng kể nhờ vào hệ thống tụ bù Điện áp là thông số ổn định, chỉ thay đổi khi có sự cố về biến áp, ổn áp, tải hoặc đường dây Hiện tượng quá áp và sụt áp xảy ra khi tải lớn hoặc trong quá trình khởi động động cơ, cũng như do chập mạch hay vấn đề biến áp Độ sụt áp trong truyền tải điện còn phụ thuộc vào điện trở, độ dài và kích thước đường dây, với điện áp đầu nguồn luôn lớn hơn điện áp cuối nguồn, tỷ lệ thuận với độ dài đường dây và tổng công suất tải.
Điện là yếu tố quan trọng nhất trong hệ thống, vì nó thể hiện đặc tính và công suất của tải Các hiện tượng bất thường như quá dòng do ngắn mạch hay tổng tải quá lớn, cũng như mất dòng do hở mạch, thường liên quan đến đại lượng này Giá trị dòng điện không chỉ giúp lựa chọn các thông số của đường dây và khí cụ điện mà còn quan trọng trong việc dự đoán ổn định của hệ thống Do đó, dòng điện quyết định rõ ràng tình trạng hoạt động của toàn bộ hệ thống.
Thí nghiệm với dữ liệu đã thu
4.4.1 Đào tạo hệ thống Để dự đoán được tình trạng ổn định của hệ thống dựa vào các dữ liệu thu được trong quá trình vận hành chúng ta cần rút kết được đặc tính của chúng với các thuật toán xử lý và phân loại
Bảng 4 3: Các thông số mô tả cho sự tương quan giữa dữ liệu sau khi tiền xử lý
STT UA(kV) UB(kV) UC(kV) IA
Bảng 4 4: Các mẫu sau khi tiền xử lý (x là trục ngang, y là trục đứng)
Bảng 4.3 trình bày các giá trị lựa chọn ở rìa của các khối dữ liệu, cho thấy sự tương quan giữa các thông số và hệ trục mới sau khi thực hiện chuẩn hóa và giảm chiều Bảng 4.4 cung cấp tọa độ của các mẫu sau quá trình này, được minh họa trong hình 4.10.
Hình 4 10: Sự tương quan giữa các thông số và các trục toạ độ sau khi tiền xử lý (với các điểm 1, 2, 3, 4 tương ứng với STT trong bảng 4.3 và 4.4)
Dựa vào bảng thông số và hình ảnh, chúng ta nhận thấy sự phân bố dữ liệu xung quanh gốc tọa độ Dữ liệu có những giá trị cực cao và thấp, như tổng công suất 370069440.6 và hệ số công suất 0.79 Nếu không tiến hành chuẩn hóa, các trục tọa độ sẽ rất lớn, dẫn đến việc hệ số công suất không thể hiện đúng bản chất, trong khi tổng công suất lại không mang nhiều ý nghĩa trong phân tích và chẩn đoán hệ thống.
Dựa vào hình 4.10 và bảng 4.3, có thể nhận thấy rằng các điểm 1 và 3 thể hiện sự thay đổi đáng kể của giá trị điện áp, cho thấy trục đứng chủ yếu phản ánh biến động của điện áp Trong khi đó, điểm số 2 và số 5 cho thấy sự thay đổi rõ rệt của giá trị dòng điện; mặc dù điểm số 5 có điện áp thấp hơn điểm số 2, nhưng tọa độ trên trục y của điểm số 5 lại cao hơn, cho thấy giá trị dòng điện có xu hướng tăng từ dưới góc trái lên trên góc phải Cuối cùng, điểm số 4 có giá trị dòng điện và điện áp trung bình, nhưng lại lệch sang phía phải, với hệ số công suất thấp làm cho vị trí của điểm số 4 không nằm ở trung tâm mà lệch sang một bên.
Như vậy, dựa vào các đặc điểm đó có thể thấy:
- Trục x (trục nằm ngang) được quyết định bởi giá trị dòng điện và hệ số công suất
- Trục y (trục đứng) được quyết định bởi điện áp và dòng điện
Sự tương quan giữa các thông số cơ bản như dòng điện, điện áp và hệ số công suất chủ yếu ảnh hưởng đến vị trí trên các trục tọa độ Cụ thể, khi dòng điện giảm và điện áp tăng, mẫu sẽ dịch chuyển lên phía góc phải của tọa độ Ngược lại, nếu dòng điện tăng và hệ số công suất cũng cao, mẫu sẽ lệch về phía dưới góc trái của trục tọa độ.
Chạy thuật toán đào tạo với các thuật toán đã chọn
Hình 4 11: Kết quả đào tạo với các thuật toán K-means, Mean-shift và
Thuật toán Mean-shift và Spectral-clustering cho kết quả phân nhóm tốt hơn so với K-means, khi phân chia thành 3 khối dữ liệu nhỏ, cho thấy khả năng phân nhóm phù hợp hơn với bộ dữ liệu này Trong khi K-means chỉ phân nhóm thành 2 khối, gồm 1 khối chính và 1 khối nhỏ bên rìa, thì Mean-shift và Spectral-clustering dựa vào hàm một độ và liên kết giữa các cấu trúc để tạo ra 3 khối dữ liệu nhỏ K-means chỉ dựa vào tính tương đồng của dữ liệu, dẫn đến việc tạo thành 1 khối dữ liệu lớn, bao gồm 3 dữ liệu nhỏ mà hai thuật toán kia đã phân tách.
4.4.2 Kiểm tra bộ phân loại với dữ liệu mới
Sau khi hoàn tất quá trình đào tạo, hệ thống sẽ trải qua kiểm tra với một mẫu ngẫu nhiên để đánh giá tính chính xác và độ tin cậy Đây là các bước cần thiết để thực hiện phân loại và chẩn đoán khi hệ thống được áp dụng trong thực tế.
Tiền xử lý là bước quan trọng trong việc phân loại mẫu, trong đó đặc tính của mẫu cần phân loại và bộ dữ liệu được chuẩn hóa Hai mẫu được lựa chọn từ bộ dữ liệu và mẫu kiểm tra phải có sự tương đồng, thể hiện qua vị trí gần nhau Điều này được minh họa rõ ràng trong bảng 4.5 và hình 4.12.
Bảng 4 5: Mẫu cần phân loại và mẫu của bộ dữ liệu tại cùng một vị trí
STT UA(kV) UB(kV) UC(kV) IA
Hình 4 12: Mẫu kiểm tra sau khi tiền xử lý
Mẫu kiểm tra sau khi được tiền xử lý sẽ giữ nguyên tính chất và vị trí tương tự như mẫu trong bộ dữ liệu, nhờ vào quá trình chuẩn hóa và giảm chiều đồng nhất Mẫu cần phân loại đã kế thừa các phương pháp giảm chiều và chuẩn hóa áp dụng trên bộ dữ liệu, tạo ra sự tương đồng nhất quán giữa mẫu phân loại và dữ liệu gốc.
Phân loại với kết quả đã đào tạo:
Hình 4 13: Phân loại mẫu với kết quả đào tạo
Dữ liệu cần phân loại được đưa vào hệ thống để phân tích và phân cụm Mẫu kiểm tra nếu nằm gần một trung tâm cụm và trong vùng phân bố của dữ liệu đào tạo cho thấy sự tương đồng lớn với các mẫu dữ liệu khác, do đó được coi là bình thường Ngược lại, nếu mẫu nằm gần trung tâm cụm có mật độ phân bố dữ liệu thấp, nó sẽ được xem là bất thường.
66 thường, vì các mẫu gần đó là những trường hợp bất thường và ít xảy ra trong quá trình vận hành
Kết luận cho thấy rằng để xác định mẫu kiểm tra thuộc về cụm nào, ta cần tính khoảng cách từ mẫu đến trung tâm của các cụm; mẫu sẽ thuộc về cụm có khoảng cách nhỏ nhất Nếu khoảng cách từ mẫu đến cụm lớn hơn 3, mẫu đó sẽ được coi là bất thường Điều này cho thấy rằng những mẫu nằm xa trung tâm của các cụm có sự khác biệt lớn về độ tương đồng so với các mẫu khác, từ đó thể hiện tính bất thường của chúng.
Hình 4 14: kết quả phân loại với thuật toán Meanshift với mẫu bình thường (a) và mẫu bất thường (b), (c)
Phân loại mẫu với phần mềm
Bước 1: khởi động phần mềm nhập mẫu cần phân loại:
Hình 4 15: khởi động phần mềm
Bước 2: chọn dữ liệu: bấm vào nút Browse, duy chuyển tới nơi chứa dữ liệu, chọn các file dữ liệu cho quá trình đào tạo
Hình 4 16: Lấy dữ liệu đào tạo
Bước 3: Chọn thuật toán chuẩn hóa và phân nhóm bằng cách nhấn nút TEST Nếu cần, hãy thiết lập các thông số; nếu không, có thể để trống các ô không cần thay đổi, phần mềm sẽ tự động sử dụng giá trị mặc định.
Hình 4 17: Chọn thuật toán chuẩn hóa
Bước 5: xem kết quả phân loại và đánh giá
Hình 4 18: Kết quả quá trình phân loại.
Thí nghiệm trên các mẫu thử trong bảng 4.2
- Mẫu bất thường số 1: là sự cố làm bật máy cắt 471Mỹ Tho vào lúc 10 giờ 57 phút đến
11 giờ 09 phút ngày 02/02/2017 Nguyên nhân sự cố do rắn bò tại trụ 158 tuyến 471
Mỹ Tho làm ngắn mạch 3 pha
Hình 4 199: Mẫu bất thường số 1
Vào lúc 07 giờ 55 phút đến 08 giờ 03 phút ngày 10/03/2017, sự cố bất thường xảy ra tại máy cắt 471 Mỹ Tho, nguyên nhân do diều vướng vào đường dây khoảng trụ 94/1 – 94/2.
Hình 4 20: Mẫu bất thường số 2
Vào lúc 12 giờ 06 phút đến 12 giờ 12 phút ngày 18/03/2017, đã xảy ra sự cố bất thường số 3 tại tuyến 471 Mỹ Tho, khiến máy cắt D11 bị bật Nguyên nhân của sự cố này là do thiếu bù, dẫn đến sụt điện áp và làm cho máy cắt D11 hoạt động không ổn định.
Hình 4 21: Mẫu bất thường số 3
- Mẫu bất thường số 4: sự cố làm bật máy cắt D11 tuyến 471 Mỹ Tho lúc 14 giờ 50 đến
Vào lúc 14 giờ 57 phút ngày 24/05/2017, sự cố xảy ra do công suất phản kháng tại khu công nghiệp Tân Mỹ Chánh phát ngược lên lưới, dẫn đến hiện tượng quá bù và tăng điện áp, làm cho máy cắt D11 bật.
Hình 4 22: Mẫu bất thường số 4
Vào lúc 13 giờ 03 đến 13 giờ 33 phút ngày 22/09/2017, đã xảy ra sự cố bất thường số 5 tại máy cắt 471 Mỹ Tho Nguyên nhân của sự cố là do nổ 02 chống sét van (LA 18kV-10kA) tại trạm Ngân Hàng Á Châu (1x320kVA).
Hình 4 23: Mẫu bất thường số 5