Dự báo nhu cầu phụ tải điện năng dùng mạng neural Dự báo nhu cầu phụ tải điện năng dùng mạng neural Dự báo nhu cầu phụ tải điện năng dùng mạng neural Dự báo nhu cầu phụ tải điện năng dùng mạng neural
TỔNG QUAN
Giới thiệu
Dự báo nhu cầu phụ tải điện năng trong ngành quản lý năng lượng đóng vai trò quan trọng, ảnh hưởng trực tiếp đến đời sống của người dân và các ngành kinh tế Việc dự báo này không chỉ đảm bảo an toàn và tiết kiệm cho hệ thống điện mà còn quyết định đến chiến lược phát triển của hệ thống.
Các phương pháp dự báo phụ tải truyền thống thường không thể phản ánh chính xác quá trình thực tế do dữ liệu không đầy đủ và sai số lớn Không có phương trình nào với các tham số đã biết, dẫn đến việc phải sử dụng các phương pháp gần đúng, làm giảm độ chính xác Những phương pháp này chỉ hiệu quả khi dữ liệu có mối quan hệ tuyến tính, không thể mô tả các mối quan hệ phi tuyến và phức tạp giữa phụ tải và các tham số liên quan Để khắc phục nhược điểm này, các nhà khoa học đã áp dụng các kỹ thuật dự báo hiện đại như logic mờ, mạng nơ ron và phân tích wavelet, ngày càng được ưa chuộng nhờ vào độ chính xác cao trong kết quả dự báo.
Gần đây, mạng Nơ-ron nhân tạo đã chứng minh nhiều ưu điểm vượt trội nhờ vào tính rõ ràng, hiệu quả và dễ thực hiện Dự báo nhu cầu phụ tải điện năng là một trong những ứng dụng thành công nhất của công nghệ này trong hệ thống điện Do đó, nghiên cứu về dự báo phụ tải điện sử dụng kỹ thuật mạng Nơ-ron nhân tạo được thực hiện trong đề tài này.
1.1.2 Tính cấp thiết của đề tài
Dự báo phụ tải ngắn hạn là việc dự đoán nhu cầu điện năng theo giờ trong khoảng thời gian từ 1 giờ đến vài ngày tới, và việc phát triển phương pháp dự báo này là rất cần thiết cho quản lý hệ thống điện Trong số các thuật toán được đề xuất, mạng Nơ-ron nhân tạo (ANN) nổi bật với tính rõ ràng, dễ thực hiện, chính xác và hiệu quả, khiến nó trở thành một trong những ứng dụng thành công nhất trong dự báo phụ tải điện Do đó, nghiên cứu ứng dụng các phương pháp khác nhau của mạng Nơ-ron để dự báo phụ tải điện năng là một vấn đề quan trọng cần được xem xét.
Kết quả nghiên cứu trong nước và ngoài nước:
+ Năm 2012, bài báo: “Short – term load forecasting Using Artificial Neural Network” - Muhammad Buhari, Member, IAENG and Sanusi Sani Adamu
Mô hình dự báo phụ tải được phát triển bằng cách sử dụng công cụ ANN trong Matlab R2008b, với cấu trúc mạng và quá trình huấn luyện đạt được độ chính xác cao Sau khi huấn luyện với dữ liệu từ các công ty điện lực, mô hình đã tối ưu hóa trọng số và ngưỡng Độ chính xác của dự báo được xác nhận qua việc so sánh kết quả mô phỏng với dữ liệu thực tế từ các công ty điện lực, và nhiều cấu trúc mạng đã được thử nghiệm để tìm ra sai số tốt nhất.
Bài báo “Ứng dụng về mạng Nơ-ron để dự báo phụ tải tỉnh Gia Lai” của tác giả Phạm Anh Cường và Phan Văn Hiền trình bày một mô hình mạng Nơ-ron truyền thẳng với một lớp ra và một lớp ẩn Mô hình này được huấn luyện bằng thuật toán lan truyền ngược, sử dụng hàm kích hoạt tansig cho lớp ẩn và hàm đồng nhất purelin cho lớp ra Với 24 Nơ-ron ở đầu ra và 23 Nơ-ron trong lớp ẩn, mạng đã đáp ứng yêu cầu dự báo phụ tải điện tại tỉnh Gia Lai với sai số dự báo chỉ 2.46%, thấp hơn mức sai số cho phép là 5%.
Mục tiêu đề tài
1.2.1 Mục tiêu và nhiệm vụ đề tài
1.2.1.1 Mục tiêu của đề tài
Mục tiêu của nghiên cứu là ứng dụng mạng Nơ-ron nhân tạo để dự báo phụ tải điện năng, đặc biệt trong giai đoạn ngắn Đề tài sẽ đề xuất các phương pháp dự báo nhu cầu tiêu thụ điện, xây dựng đường cong phụ tải cho khu vực nghiên cứu, đồng thời xem xét các yếu tố như nhu cầu tiêu thụ trong năm qua Nghiên cứu sẽ khảo sát phương pháp dự báo phụ tải sử dụng mạng Nơ-ron, trình bày tính năng hoạt động của mạng này và thực hiện mô phỏng bằng phần mềm MATLAB với dữ liệu điện tiêu thụ của tỉnh Tiền Giang từ 2012 đến 2017.
Nghiên cứu phương pháp dự báo phụ tải sử dụng kỹ thuật mạng Nơ-ron, đặc biệt là mạng Nơ-ron hồi quy (RNN) với thuật toán LSTM Cấu trúc mạng Nơ-ron này được thiết kế nhằm nâng cao độ chính xác trong dự báo phụ tải.
- Nghiên cứu giải thuật lập trình và xây dựng phần mềm dự báo phụ tải cho tỉnh Tiền Giang
Dựa trên kết quả dự báo phụ tải, tỉnh có thể chủ động trong việc xây dựng chính sách năng lượng, quản lý hệ thống lưới điện, và lập kế hoạch cung cấp năng lượng một cách hiệu quả.
Nghiên cứu những ứng dụng của mạng Nơ - ron nhân tạo trong dự báo
Nghiên cứu các thuật toán tối ƣu để giải bài toán dự báo phụ tải
Thiết kế chương trình dự báo phụ tải.
Giới hạn đề tài
Tập trung nghiên cứu phụ tải điện tỉnh Tiền Giang, số liệu dự báo là lƣợng điện năng tiêu thụ của tỉnh giai đoạn 2012 đến 2017
Sử dụng phần mềm MATLAB để thiết kế chương trình dự báo mà cụ thể là sử dụng mạng Nơ - ron hồi quy (RNN) với thuật toán LSTM.
Phương pháp nghiên cứu
Nghiên cứu ứng dụng mạng Nơ-ron nhân tạo trong dự báo phụ tải là một lĩnh vực quan trọng, bao gồm việc tham khảo và tổng hợp các bài báo liên quan Bài viết đề xuất giải thuật nhằm giải quyết bài toán dự báo, đồng thời so sánh độ chính xác của các giải thuật đã nghiên cứu để rút ra kết luận hiệu quả.
Sử dụng phần mềm MATLAB để mô phỏng chương trình dự báo phụ tải.
Nội dung đề tài
Đề tài “Dự báo nhu cầu phụ tải điện năng dùng mạng Nơ ron” bao gồm các chương sau:
Chương I: Tổng quan: Chương này trình bày tổng quan sơ bộ về các yêu cầu của cuốn báo cáo nhƣ đặt vấn đề, mục tiêu, giới hạn và nội dung đề tài
Chương II: Tổng quan về dự báo phụ tải: Chương này trình bày về tổng quan về dự báo phụ tải và các phương pháp dự báo đã thực hiện
Chương III: Tổng quan về mạng Nơ - ron nhân tạo ANN: Chương này trình bày tổng quan về mạng ANN và các phương pháp huấn luyện mạng
Chương IV: Giải thuật dự báo đề xuất: Chương này trình bày tổng quan về mạng Nơ - ron hồi quy - RNN, thuật toán LSTM và ứng dụng trong dự báo phụ tải
Chương V: Chương trình mô phỏng: Chương này trình bày nội dung mô phỏng bằng phần mềm Matlab dùng thuật toán LSTM với dữ liệu thực Kết quả thực nghiệm và so sánh với dữ liệu kiểm tra
Chương VI: Kết luận và hướng phát triển: Kết luận chung về ưu điểm so với dự báo truyền thống và hạn chế của đề tài
TỔNG QUAN VỀ DỰ BÁO PHỤ TẢI
Tổng quan về dự báo
Dự báo là sự kết hợp giữa khoa học và nghệ thuật, nhằm tiên đoán các sự kiện tương lai thông qua phân tích dữ liệu đã thu thập Quá trình dự báo dựa vào việc thu thập và xử lý số liệu từ quá khứ và hiện tại để xác định xu hướng tương lai, sử dụng các mô hình toán học phù hợp Nhiệm vụ chính của dự báo là xác định các tham số của mô hình, giúp mô tả mối quan hệ giữa các đại lượng cần dự báo và các yếu tố liên quan Các tính chất của mô hình dự báo được nghiên cứu dựa trên giả định rằng nó áp dụng để dự đoán một quá trình từ mô hình giải tích.
2.1.2 Đặc điểm của dự báo
Dù áp dụng phương pháp nào, không thể xác định tương lai một cách chắc chắn do tính không chính xác của dự báo Luôn có yếu tố không chắc chắn cho đến khi sự kiện thực tế xảy ra.
Do đó, luôn tồn tại những điểm mù trong các dự báo, khiến cho việc dự đoán chính xác tương lai trở nên khó khăn Nói cách khác, không phải mọi điều đều có thể dự báo nếu chúng ta thiếu kiến thức về vấn đề cần phân tích.
Dự báo và lập kế hoạch là hai giai đoạn quan trọng trong quản lý, có mối liên hệ chặt chẽ với nhau Khi dự báo dựa trên các luận cứ khoa học, nó sẽ cung cấp nền tảng vững chắc cho việc xây dựng các kế hoạch phát triển hiệu quả Dự báo đóng vai trò quan trọng trong việc giải quyết các vấn đề cơ bản trong quá trình quản lý.
- Xác định xu thế cho sự phát triển
- Đề xuất các yếu tố cụ thể quyết định các xu thế ấy
Xác định quy luật và đặc điểm phát triển là rất quan trọng, đặc biệt trong ngành năng lượng, nơi dự báo có tác động lớn đến các lĩnh vực kinh tế khác và đời sống của người dân Nếu dự báo về khả năng cung cấp năng lượng không chính xác hoặc sai lệch quá nhiều, sẽ gây ra những hạn chế nghiêm trọng cho sự phát triển kinh tế.
Tùy thuộc vào yêu cầu cụ thể, việc lựa chọn tầm dự báo là rất quan trọng Đối với việc xây dựng kế hoạch hoặc chiến lược phát triển, cần thực hiện dự báo dài hạn hoặc trung hạn Ngược lại, để phục vụ cho công việc vận hành, dự báo ngắn hạn là cần thiết.
- Dự báo điều độ: dự báo theo giờ hoặc vài phút
- Dự báo ngắn hạn: dự báo theo ngày, vài ngày hoặc tháng
- Dự báo trung hạn: thời gian dự báo theo năm, khoảng từ 5 – 7 năm
- Dự báo dài hạn: thời gian dự báo theo năm, khoảng 10 – 20 năm
2.1.3 Các phương pháp dự báo
Hiện nay, có nhiều phương pháp dự báo phổ biến trên thế giới, bao gồm tiên đoán, ngoại suy xu hướng, ý kiến chuyên gia, mô phỏng (mô hình hóa), ma trận tác động qua lại, kịch bản, cây quyết định và dự báo tổng hợp.
Việc lựa chọn phương pháp dự báo phù hợp rất quan trọng và phụ thuộc vào lĩnh vực hoạt động cụ thể Trong các lĩnh vực dự báo liên quan đến hiện tượng tự nhiên, các phương pháp định lượng như mô hình hóa và phương pháp kịch bản thường được ưa chuộng Tuy nhiên, mỗi ngành sẽ có những phương pháp dự báo khác nhau Bài viết này sẽ tập trung vào hai phương pháp dự báo chính: dự báo theo chuỗi thời gian và dự báo theo phương pháp tương quan.
Dự báo theo chuỗi thời gian là quá trình xác định quy luật biến đổi của một đại lượng dự báo dựa vào các giá trị trong quá khứ của chính đại lượng đó.
= a 0 + a 1 Y(t-1) + a 2 Y(t-2) + a 3 Y(t-3)… a n Y(t-n) (1) Trong đó: Ŷ(t): là giá trị đại lƣợng cần dự báo tại thời điểm t
Y(t-1), Y(t-2)…Y(t-n) : các giá trị của đại lƣợng trong quá khứ a 0 , a 1 , … a n : các thông số của mô hình dự báo cần tìm
Dự báo theo phương pháp tương quan là tìm quy luật thay đổi của đại lượng cần dự báo phụ thuộc vào các đại lƣợng liên quan
Mô hình toán học : Ŷ(t) = f(a 1 , a 2 , a n , A 0 , A 1 , A 2 , , A n ) = A 0 + a 1 A 1 + a 2 A 2 + a 3 A 3 +…+ a n A n (2) Trong đó : Ŷ(t) : là giá trị cần dự báo
A 1 , A 2 , … A n : giá trị của các đại lƣợng liên quan a 1 , a 2 , …a n : thông số của mô hình dự báo cần tìm
Việc xác định giá trị cho các thông số mô hình dự báo trong cả hai phương pháp chủ yếu dựa trên nguyên tắc bình phương cực tiểu.
Y (3) Đối với phương pháp dự báo theo chuỗi thời gian:
(4) Đối với phương pháp dự báo tương quan:
Giá trị thực của đại lượng cần dự báo được ký hiệu là Yi Để xác định các thông số của mô hình dự báo, ta cần đạo hàm phương trình theo các thông số đó Bằng cách giải hệ n phương trình, ta sẽ xác định được n thông số cho mô hình dự báo.
Các phương pháp dự báo phụ tải điện
2.2.1 Phương pháp dự báo truyền thống
2.2.1.1 Phương pháp hệ số đàn hồi
Phương pháp này giúp xác định mối tương quan giữa nhu cầu tiêu thụ điện và tăng trưởng kinh tế, thông qua hệ số đàn hồi giữa nhu cầu điện với GDP, tăng trưởng công nghiệp, thương mại và hệ số tiết kiệm năng lượng Mối tương quan này được thể hiện rõ ràng qua hệ số đàn hồi.
- αET là hệ số đàn hồi
A% và Y% thể hiện sự tăng trưởng của điện năng, công suất và tăng trưởng kinh tế, phản ánh hệ số đàn hồi giữa nhu cầu điện và GDP, cũng như sự phát triển trong các lĩnh vực công nghiệp và thương mại.
- A là điện năng, công suất
- Y là số liệu tăng trưởng kinh tế (hệ số đàn hồi giữa nhu cầu điện và GDP, tăng trưởng công nghiệp, thương mại, hệ số tiết kiệm năng lượng )
Các hệ số đàn hồi được xác định theo từng ngành kinh tế, toàn quốc và từng miền lãnh thổ Dự báo nhu cầu điện năng toàn quốc được thực hiện bằng phương pháp từ dưới lên (Bottom-up), dựa trên dự báo nhu cầu điện năng cho các ngành kinh tế, khu vực dân dụng và các vùng lãnh thổ.
1.2.1.2 Phương pháp tính tương quan-xu thế:
Phương pháp này xác định mối tương quan giữa nhu cầu tiêu thụ điện và các yếu tố ảnh hưởng như tăng trưởng kinh tế, giá điện, thời tiết, và tỷ giá Quy trình thực hiện trên nền Excel bắt đầu bằng việc dự báo đồ thị phụ tải theo giờ cho từng miền Để so sánh, ta đối chiếu các biểu đồ ngày trong quá khứ với biểu đồ ngày hiện tại D nhằm tìm ra biểu đồ có hình dạng tương đồng nhất Việc so sánh này được thực hiện tự động thông qua các hàm trong Excel.
Correl (array1, array2)Với thuật toán sau:
- X là công suất phụ tải 24 giờ thực tế của ngày D - i;
- x là công suất trung bình 24 giờ thực tế của ngày D - i;
y là công suất trung bình 24 giờ dự báo của ngày D;
- Y là công suất phụ tải 24 giờ dự báo của ngày D
Hàm Correl được sử dụng để xác định mức độ tương quan giữa hai biến mảng X và Y, với giá trị gần 1 cho thấy sự tương đồng cao giữa chúng Khi so sánh dữ liệu của 21 ngày trước với ngày hiện tại D, ta có thể xác định ngày D - i có hình dạng phụ tải tương tự nhất Đối với từng miền, hàm xu thế sẽ được áp dụng để dự báo công suất phụ tải cho 4 giờ tiếp theo (từ giờ H đến giờ H + 3) bằng cách sử dụng hàm FORECAST với cú pháp lệnh tương ứng.
- x là công suất phụ tải giờ H - 1;
- known_y's là công suất phụ tải 05 giờ quá khứ kể từ giờ H - 1 của ngày Di;
- known_x's là công suất phụ tải 05 giờ quá khứ kể từ giờ H - 1 của ngày D b) So sánh đồ thị phụ tải dự báo với đồ thị phụ tải quá khứ
Sau khi dự báo đồ thị phụ tải cho từng miền trong 04 giờ tới, tiến hành so sánh với đồ thị phụ tải quá khứ theo giá trị Correl từ cao đến thấp, bắt đầu từ các biểu đồ có dạng tương tự nhất Quá trình này nhằm xử lý các số liệu phụ tải quá khứ có thể bị sai do cắt tải hoặc lỗi SCADA, giúp hiệu chỉnh lại đồ thị phụ tải một cách chính xác hơn.
Sau khi so sánh đồ thị phụ tải dự báo với đồ thị phụ tải quá khứ và hiện tại, nếu hệ số Correl thấp hơn 0,9, cần điều chỉnh các kết quả tương ứng bằng hệ số chuyên gia hchuyen_gia, với giá trị quy định trong khoảng từ 0,9 đến 1,1.
2.2.1.2 Phương pháp tính trực tiếp
Phương pháp này nhằm xác định nhu cầu điện năng cho năm dự báo dựa trên tổng sản lượng kinh tế của các ngành và suất tiêu hao điện năng của từng sản phẩm Trong trường hợp không có suất tiêu hao, nhu cầu điện năng sẽ được xác định cho các trường hợp cụ thể như công suất điện trung bình cho hộ gia đình hoặc bệnh viện Ưu điểm của phương pháp này là khả năng cung cấp dự báo chính xác và phù hợp với từng lĩnh vực cụ thể.
Ngoài việc xác định tổng lượng điện năng dự báo, chúng ta cần nắm rõ tỷ lệ sử dụng điện trong các ngành kinh tế như công nghiệp, nông nghiệp và dân dụng Đồng thời, việc xác định nhu cầu điện ở các khu vực địa lý khác nhau cũng rất quan trọng Những thông tin này sẽ giúp đề xuất phương hướng điều chỉnh và quy hoạch hợp lý, đảm bảo sự cân đối trong việc sử dụng điện năng.
Việc xác định độ chính xác của phương pháp này gặp khó khăn do phụ thuộc vào dự báo tổng sản lượng của các ngành kinh tế quốc dân trong tương lai, cũng như suất tiêu hao điện năng của mỗi đơn vị sản phẩm được sản xuất.
Do đó, phương pháp này thường được áp dụng để dự báo nhu cầu điện năng cho thời gian ngắn và trung bình
Phương pháp dự báo nhu cầu sử dụng điện dựa trên ý kiến của các chuyên gia hàng đầu trong ngành điện năng Bằng cách lấy trung bình trọng số từ những ý kiến này, chúng ta có thể đưa ra dự báo chính xác hơn về nhu cầu điện năng trong nước Quy trình thu thập ý kiến được thực hiện qua nhiều bước cụ thể để đảm bảo tính chính xác và đáng tin cậy của thông tin.
Chuyên gia cho điểm theo từng tiêu chuẩn Mỗi tiêu chuẩn có một thang điểm thống nhất
Lấy trọng số của các ý kiến của hội đồng tƣ vấn để tổng hợp
Tuy nhiên phương pháp này chỉ mang tính chủ quan nên độ chính xác và độ tin cậy không cao
Phương pháp này phân tích mối quan hệ giữa nhu cầu tiêu thụ điện (công suất, điện năng) và các yếu tố ảnh hưởng như tăng trưởng kinh tế, giá điện, thời tiết, và tỷ giá Mối tương quan này được thể hiện thông qua hai loại phương trình khác nhau.
- Phương trình dạng tuyến tính: i n i i X a a
n là số thống kê quá khứ (số năm, tháng, tuần, ngày);
a0, ai là các hệ số;
Xi là số liệu quá khứ của các yếu tố ảnh hưởng quan trọng (tăng trưởng kinh tế, giá điện, thời tiết, tỷ giá…)
Y là hàm số điện năng, công suất của năm (tháng, tuần, ngày, giờ)
- Phương trình dạng phi tuyến : an n a a X X
n là số thống kê quá khứ (số năm, tháng, tuần, ngày)
a0, ai là các hệ số
Xi là số liệu quá khứ của các yếu tố ảnh hưởng quan trọng (tăng trưởng kinh tế, giá điện, thời tiết, tỷ giá…)
Y là hàm số điện năng, công suất của năm (tháng, tuần, ngày, giờ)
Dạng phương trình 2 có thể đưa về dạng phương trình 1 bằng cách lấy logarit
Việc lựa chọn hàm hồi quy được thực hiện bằng cách so sánh các hệ số tương quan; dạng phương trình có hệ số tương quan lớn hơn sẽ được ưu tiên chọn.
2.2.1.5 Phương pháp san bằng hàm mũ
Trong phương pháp này, mỗi toán tử được mô tả qua một hàm hồi quy, được gọi là hàm xu thế Các hệ số trong hàm hồi quy thường được xác định bằng phương pháp bình phương tối thiểu, giúp cung cấp các hệ số không đổi cho mô hình dự báo dựa trên dữ liệu quan sát trong quá khứ.
Mô hình dự báo này cho phép tính toán các giá trị tương lai với các hệ số hằng, tuy nhiên sẽ có một sai số nhất định tùy thuộc vào khoảng thời gian dự báo Sai số sẽ tăng lên khi tầm dự báo càng xa, và các số liệu gần đây sẽ ảnh hưởng nhiều hơn đến giá trị dự báo so với các số liệu từ quá khứ xa Điều này có nghĩa là tỉ trọng của các số liệu đối với giá trị dự báo sẽ giảm theo hàm mũ khi lùi về quá khứ.
Phương pháp này dựa trên nguyên tắc hiệu chỉnh các hệ số của toán tử dự báo theo phương pháp truy ứng
Giả thuyết có một chuỗi thời gian yt (t=1, 2…, n) và đƣợc mô tả bằng một đa thức bậc p:
Trong đó ai, t = 0,1…p là các hệ số của hàm dự báo, t là sai số của dự báo
TỔNG QUAN VỀ MẠNG NƠ - RON NHÂN TẠO (ANN)
Giới thiệu về mạng Nơ - ron nhân tạo
Mạng Nơ - ron nhân tạo, Artificial Neural Network (ANN) gọi tắt là mạng
Mạng nơ ron là mô hình xử lý thông tin được thiết kế dựa trên cách thức hoạt động của các hệ nơ-ron sinh học Nó bao gồm nhiều phần tử gọi là nơ ron, được kết nối qua các trọng số liên kết, hoạt động như một thể thống nhất để giải quyết các vấn đề cụ thể.
Mạng Nơ-ron nhân tạo được thiết kế cho các ứng dụng cụ thể như nhận dạng mẫu và phân loại dữ liệu, thông qua quá trình học từ tập mẫu huấn luyện Quá trình học này chủ yếu là việc điều chỉnh trọng số liên kết giữa các Nơ-ron.
Nghiên cứu về mạng thần kinh nhân tạo đã bắt đầu từ thập niên 1940, với công trình của McCulloch và Pitts vào năm 1944 về sự liên kết của các tế bào thần kinh Năm 1949, Hebb đã công bố nghiên cứu về tính thích nghi của mạng thần kinh Đến cuối những năm 1950, Rosenblatt giới thiệu mạng Perceptron, và vào năm 1985, mạng Hopfield được phát triển, tiếp theo là mạng lan truyền ngược.
Từ cuối thập niên 80, đầu thập niên 90 đến nay, mạng Nơ - ron đã khẳng định đƣợc vị trí của mình trong nhiều ứng dụng khác nhau:
Trong lĩnh vực hàng không và vũ trụ, công nghệ tiên tiến được ứng dụng để thiết kế máy bay không người lái, mô phỏng đường bay và phát triển hệ thống điều khiển máy bay Những ứng dụng này không chỉ nâng cao khả năng bay tự động mà còn giúp tìm kiếm lỗi và hư hỏng trong máy bay, đồng thời mô hình hóa các bộ phận của máy bay một cách chính xác.
- Ngân hàng: kiểm tra thẻ tín dụng, định giá độ tin cậy của đầu tƣ
- Trong hình sự: phát hiện và so sánh dấu vân tay, nhận biết tiếng nói
- Quốc phòng: điều khiển tên lửa, các thiết bị bay, hệ thống định vị nhƣ sonar, radar, các loại cảm biến mới
- Lĩnh vực điện: dự báo phụ tải, chế tạo chip trong các mạch tích hợp, chip phân tích, phương pháp điều khiển động cơ
- Trong y học: phân tích và phát hiện tế bào ung thư, lưu giữ thời gian nằm và ra viện của bệnh nhân
Trong sản xuất, việc kiểm tra và theo dõi quá trình sản xuất là rất quan trọng Các thử nghiệm phân tích giúp đánh giá chất lượng sản phẩm, trong khi phân loại sản phẩm đảm bảo tính đồng nhất Dự báo và lên kế hoạch là cần thiết để tối ưu hóa quy trình sản xuất và điều khiển hiệu quả.
Có khả năng tự thích nghi, tự học cao bằng cách tự tổ chức lại mạng lưới
Tổng quát hóa thành quy luật từ tập dữ liệu để xây dựng hệ thống luật dùng cho các phương pháp khác
Phù hợp với dạng dữ liệu số, có tính liên tục
Mạng chỉ có thể làm việc với những dữ liệu số
Để mạng đạt hiệu quả cao cần phải có dữ liệu mẫu đủ lớn (gồm tất cả các mẫu đặc trƣng)
Mạng chỉ có tính nội suy, khả năng ngoại suy kém
Mạng không thể đƣa ra cơ chế giải thích
Các giải thuật học của mạng chƣa đảm bảo hội tụ cần thiết.
Mạng nơron và mạng nơron lan truyền ngƣợc
3.2.1 Giới thiệu về mạng Nơron Đặc điểm bộ não người: hệ xử lý thông tin phức tạp, phi tuyến và song song, có khả năng học, ghi nhớ, tổng quát hóa, xử lý lỗi và có khoảng tế bào thần kinh
Tế bào thần kinh sinh học gồm: đầu dây thần kinh, thân tế bào, sợi thần kinh
Hình 3.1: Tế bào thần kinh
Tế bào thần kinh nhân tạo là mô hình toán học đơn giản mô phỏng bộ não con người Đặc điểm quan trọng của nó là cần được huấn luyện trước khi sử dụng Nghiên cứu trong lĩnh vực này đã bắt đầu từ những năm 1940, và hiện nay có nhiều mạng lưới cùng các thuật toán huấn luyện được công bố nhằm giải quyết các bài toán khác nhau.
Mạng thần kinh nhân tạo là hệ thống gồm các tế bào thần kinh được kết nối qua các liên kết, mỗi liên kết đi kèm với một trọng số Tín hiệu đầu vào và trọng số của các tế bào thần kinh tạo thành các vectơ, giúp xử lý thông tin hiệu quả.
Mạng nơron nhân tạo (Artificial Neural Network - ANN) là mô hình xử lý thông tin được thiết kế dựa trên cách thức hoạt động của các hệ nơron sinh học Nó bao gồm một số lượng lớn các nơron kết nối với nhau qua các trọng số liên kết, hoạt động như một thể thống nhất để giải quyết các vấn đề cụ thể, chẳng hạn như nhận dạng mẫu và phân loại.
Học máy là quá trình điều chỉnh trọng số liên kết giữa các nơron thông qua việc học từ tập mẫu huấn luyện, cho phép hệ thống xử lý 23 loại dữ liệu khác nhau.
Hình 3.2: Mạng thần kinh nhân tạo
Các thành phần cơ bản của một nơron nhân tạo bao gồm:
Tập các đầu vào: là các tín hiệu vào của nơron, các tín hiệu này thường được đưa vào dưới dạng một vector N chiều
Trong mạng nơron, mỗi liên kết được thể hiện bằng trọng số liên kết (Synaptic weight), ký hiệu là Wij, phản ánh mối quan hệ giữa tín hiệu đầu vào thứ j và nơron k Các trọng số này thường được khởi tạo ngẫu nhiên khi mạng được khởi tạo và sẽ được cập nhật liên tục trong quá trình học để cải thiện khả năng xử lý thông tin của mạng.
Bộ tổng (Summing function): thường dùng để tính tổng của tích các đầu vào với trọng số liên kết của nó
Ngưỡng (còn gọi là một độ lệch - bias): ngưỡng này thường được đưa vào nhờ một thành phần của hàm truyền
Hàm truyền (Transfer function) là một thành phần quan trọng trong mạng nơron, có chức năng giới hạn phạm vi đầu ra của mỗi nơron Hàm này nhận đầu vào từ kết quả của hàm tổng và ngưỡng, giúp điều chỉnh tín hiệu đầu ra một cách hiệu quả.
Đầu ra: là tín hiệu đầu ra của một nơron, với mỗi nơron sẽ có tối đa là một đầu ra
Xét về mặt toán học, cấu trúc của một nơron k, đƣợc mô tả bằng biểu thức sau:
Hàm xử lý ngõ vào:
Hàm xử lý ngõ ra _ Hàm kích hoạt: Y = a(f), bao gồm:
Hàm tuyến tính bão hòa
Hình 3.3: Một số hàm tác động
3.2.2 Một số kiểu mạng nơron
3.2.2.1 Mạng truyền thẳng một lớp
Hình 3.4: Mạng truyền thẳng một lớp
Là mạng chỉ gồm một lớp tế bào thần kinh xử lý Tín hiệu chỉ truyền theo một chiều từ ngõ vào đến ngõ ra
3.2.2.2 Mạng truyền thẳng nhiều lớp
Hình 3.5: Mạng truyền thẳng nhiều lớp
Là mạng gồm nhiều lớp tế bào thần kinh xử lý Tín hiệu chỉ truyền theo một chiều từ ngõ vào đến ngõ ra
3.2.2.3 Mạng hồi quy một lớp
Hình 3.6: Mạng hồi quy một lớp
Là mạng chỉ gồm một lớp trong đó có tín hiệu hồi tiếp từ ngõ ra trở về ngõ vào
3.2.2.4 Mạng hồi quy nhiều lớp
Hình 3.7: Mạng hồi quy nhiều lớp
Là mạng gồm nhiều lớp tế bào thần kinh xử lý Trong đó có tín hiệu hồi tiếp từ ngõ ra trở về ngõ vào.
Các phương pháp huấn luyện mạng thần kinh nhân tạo
Hình 3.8: Phân loại kiểu học
Hình 3.9: Học có giám sát
Học có giám sát là quá trình học tập có sự hướng dẫn của một giáo viên, tương tự như việc dạy trẻ em nhận biết chữ cái Trong quá trình này, giáo viên sẽ giới thiệu từng chữ cái, ví dụ như chữ "a", và giải thích cho học sinh biết đây là chữ "a" Sau khi học xong, giáo viên sẽ kiểm tra kiến thức bằng cách đưa ra một chữ cái khác, có thể viết khác một chút, và hỏi học sinh nhận diện chữ đó.
Học có giám sát yêu cầu biết trước số lớp cần phân loại Thuật toán phải xác định phương pháp phân lớp để mỗi vector đầu vào được phân loại chính xác vào lớp tương ứng.
Học củng cố, hay còn gọi là học thưởng-phạt, là sự kết hợp giữa hai mô hình học máy Phương pháp này hoạt động bằng cách sử dụng vector đầu vào để quan sát vector đầu ra do mạng tính toán Nếu kết quả đạt yêu cầu được xem là "tốt", mạng sẽ nhận được phần thưởng, dẫn đến việc tăng cường các trọng số kết nối Ngược lại, nếu kết quả không đạt yêu cầu, mạng sẽ bị phạt, với các trọng số kết nối không phù hợp sẽ bị giảm xuống.
Hình 3.11: Học không giám sát
Một số mạng Nơ - ron nhân tạo
Năm 1943, Maccalox cùng học trò Pet đã phát triển những lý thuyết cơ bản về bộ não con người, giới thiệu mô hình Nơ-ron như một đơn vị xử lý đơn giản, có khả năng tính toán giá trị đầu ra dựa trên giá trị đầu vào, hàm truyền và bộ trọng số.
Mô hình mạng Maccalox có điểm yếu là hàm truyền ngưỡng, trong đó mỗi nơ-ron xác định tổng trạng thái của các nơ-ron khác và so sánh với ngưỡng để xác định giá trị của mình, dẫn đến khó khăn trong quá trình huấn luyện mạng.
Với θ là ngƣỡng xác định giá trị y
Hopfield là người tiên phong trong việc phát triển mô hình toán học cho bộ nhớ trong mạng nơ-ron Mạng Hopfield được cấu tạo từ một lớp nơ-ron duy nhất, với số lượng nơ-ron tương đương với số đầu vào và đầu ra Các nơ-ron trong mạng này được kết nối với nhau thông qua các trọng số, và luật Hebb được sử dụng để lập trình cho mạng.
Hình 3.13: Mô hình mạng Hopfield
30 Ở trạng thái ban đầu trọng số đƣợc xác định nhƣ sau:
Trong đó i, j là hệ số tương ứng với Nơ - ron trước và sau x i k , x k j là phần tử thứ i và j của vector k
Thuật toán huấn luyện mạng Hopfield sử dụng p vòng lặp để xử lý tín hiệu đầu vào, sao cho giá trị đầu ra của mạng khớp với tín hiệu này Ở bước lặp đầu tiên (bước 0), giá trị đầu ra yi(0) tương ứng với tín hiệu đầu vào xi, với i từ 0 đến n-1.
Trạng thái mới của các Nơ ron:
Và giá trị mới đầu ra
) 1 ( p f s p y j j , trong đó f là hàm truyền dạng nấc nhƣ hình vẽ
Kiểm tra sự thay đổi của giá trị đầu ra trong bước tính toán cuối cùng Nếu có sự thay đổi, chuyển sang mục 2; nếu không, quá trình kết thúc và giá trị đầu ra sẽ lặp lại chính xác giá trị đầu vào.
Mạng Hemmin tạo từ 2 lớp, lớp đầu tiên và lớp thứ hai có cùng số Nơ - ron là m Ở trạng thái ban đầu trọng số đƣợc xác định nhƣ sau:
Tương tự như mạng Hopfild nhưng có 2 lớp, mạng Hemmin được trình bày nhƣ hình vẽ: x 1 x 2 x n neural 1 neural2 neural m y 1 y 2 y m neural 1 neural 2 neural n
Hình 3.14: Mô hình mạng Hemmin
Thuật toán huấn luyện mạng Hemmin
Cho tín hiệu bất kỳ dưới dạng vector vào vào đầu vào của mạng
Tính trạng thái của các Nơ - ron lớp đầu tiên:
Sau đó xác định tín hiệu đầu vào của Nơ - ron lớp thứ hai
( j j y y , với j = 0,…, m-1 Xác định trạng thái mới của Nơ - ron lớp thứ hai:
Trong đó f là hàm truyền dạng nấc nhƣ hình vẽ, giá trị f phải khá lớn để không xảy ra hiện tƣợng bão hòa
Kiểm tra xem giá trị đầu ra của nơ-ron lớp thứ hai có thay đổi trong bước tính toán cuối cùng hay không Nếu có sự thay đổi, chuyển sang mục 2; nếu không, quá trình kết thúc và giá trị đầu ra sẽ lặp lại chính xác giá trị đầu vào.
3.4.4 Mạng Function Link Net (FLN)
Mạng Function Link Net (FLN) được nghiên cứu và ứng dụng bởi Yoh Han Pao vào năm 1988 Cấu trúc của mạng này bao gồm một lớp duy nhất, cho phép xử lý thông tin một cách hiệu quả.
Nơ-ron có một ngõ ra và nhiều ngõ vào, với các ngõ vào được tạo ra từ dữ liệu thực tế và biến đổi qua các hàm bậc cao Mạng FLN tương tự như các mạng nơ-ron khác, nhưng FLN là một mô hình mạnh mẽ trong việc biểu diễn hàm phi tuyến giữa biến đầu ra và biến đầu vào Đặc biệt, FLN không yêu cầu lớp ẩn và có cấu trúc cơ bản như: x1, x2, x3, x1.2, x1.3, x1.2.3.
Hình 3.15: Mô hình mạng Function Link Net (FLN)
Luật học Perceptron, được giới thiệu bởi Frank Rosenblatt vào những năm 1950, thể hiện nguyên lý sửa sai thông qua thuật toán lan truyền ngược sai lệch Trong luật học này, hàm truyền được sử dụng là hàm ngưỡng tuyến tính (hardlim).
Hình 3.16: Mô hình mạng Perception trong Matlab
Mỗi đầu vào xi đƣợc nhân với trọng số wij thích hợp, tổng các tích đó và bias là đầu vào của hàm truyền hardlim
m j i i w net 1 với i = (1,…,n) (35) Đầu ra của mạng là 1 nếu đầu vào của hàm truyền lớn hơn hoặc bằng không, ngƣợc lại thì đầu ra của mạng bằng 0
Ví dụ: xét một Nơ - ron với hai đầu vào và một ngõ ra
Với trọng số: w1,1= 1; w1,2 =1, Bias: b= -1, giá trị đầu vào p1=2 và p2=0
Ta có giá trị của ngõ ra là :
Trong không gian hai chiều, đường thẳng L = wx + b = 0 chia mặt phẳng đồ thị thành hai vùng Đường thẳng này trực giao với ma trận trọng số, và sự thay đổi của bias sẽ xác định vị trí của vector đầu vào, khiến nó nằm bên trái đường thẳng.
L sẽ có kết quả bằng 0, ngược lại khi vector đầu vào nằm bên phải đường thẳng L sẽ có kết quả là 1
Đường thẳng L có khả năng được định hướng hoặc di chuyển để phân loại không gian đầu vào dựa trên giá trị trọng số w và bias.
Nếu Perceptron không có bias, đường phân cách sẽ luôn đi qua gốc tọa độ Việc thêm bias giúp giải quyết vấn đề khi hai ngõ vào nằm cùng vị trí với gốc tọa độ, cho phép điều chỉnh đường phân chia lên hoặc xuống so với gốc tọa độ.
Nhược điểm của mạng này là không phải lúc nào cũng tìm được bộ trọng số tối ưu cho bài toán phân loại Để khắc phục vấn đề này, ta có thể sử dụng mạng Perceptron nhiều lớp.
GIẢI THUẬT DỰ BÁO ĐỀ XUẤT
Giới thiệu mạng Nơ - ron hồi quy RNN – Recurrent Neural Networks
Mạng Nơ-ron hồi quy RNN là một loại mạng Nơ-ron nhân tạo phát triển từ những năm 1980, bao gồm các nút thần kinh đồng nhất kết nối một chiều với nhau Mỗi nút có giá trị kích hoạt và thời gian kích hoạt khác nhau, trong khi các kết nối giữa các nút có trọng số thực có thể điều chỉnh Các nút trong RNN được phân loại thành nút đầu vào (nhận dữ liệu), nút đầu ra (cung cấp kết quả) và nút ẩn (xử lý dữ liệu trong quá trình truyền tải từ đầu vào đến đầu ra).
Hình 4.1: Mô hình mạng Nơ - ron hồi quy RNN
Trong sơ đồ, một mạng thần kinh (A) nhận đầu vào là (Xt) và xuất ra giá trị (ht) Vòng lặp trong mạng cho phép thông tin được truyền từ bước này sang bước kế tiếp.
Các mạng thần kinh hồi quy thường gây khó hiểu do sự xuất hiện của các vòng lặp, nhưng thực chất chúng không khác gì so với mạng nơ-ron thông thường Một mạng lưới thần kinh hồi quy có thể được xem như nhiều bản sao của cùng một mạng, trong đó mỗi lần truyền tải thông điệp đến người kế nhiệm.
Mạng Nơ-ron hồi quy (RNN) là một mô hình sử dụng chuỗi thông tin, khác với các mạng nơ-ron truyền thống mà các đầu vào và đầu ra độc lập với nhau RNN cho phép các tác vụ thực hiện cho từng phần tử trong chuỗi, với đầu ra phụ thuộc vào các phép tính trước đó, giúp nó có khả năng nhớ thông tin đã tính toán Mặc dù lý thuyết cho phép sử dụng thông tin từ văn bản dài, thực tế RNN chỉ có thể nhớ một vài bước trước đó.
Hình 4.3: Mô hình tính toán mạng Nơ - ron hồi quy
Mô hình này mô tả cách triển khai nội dung của một RNN, trong đó việc triển khai được hiểu là việc vẽ ra một mạng nơ-ron chuỗi tuần tự Ví dụ, với câu gồm 4 chữ "Tôn sư trong đạo", mạng nơ-ron sẽ có 4 tầng nơ-ron tương ứng với mỗi chữ Quá trình tính toán bên trong RNN diễn ra theo cách này.
xt là đầu vào tại bước t Ví dụ, x1 là một vec-tơ tương ứng với từ thứ 2 của câu (sư)
Trạng thái ẩn tại bước t, ký hiệu là st, được tính toán dựa trên các trạng thái ẩn trước đó và đầu vào tại bước đó, với công thức st = f (Uxt + Wst−1) Hàm f thường là một hàm phi tuyến tính như tang hyperbolic (tanh) hoặc ReLu Để thực hiện phép toán cho phần tử ẩn đầu tiên, cần khởi tạo thêm s−1, thường giá trị khởi tạo này được gán bằng 0.
Trong bước t, ot đại diện cho đầu ra, cho phép dự đoán từ tiếp theo có khả năng xuất hiện trong câu Cụ thể, ot được tính toán thông qua hàm softmax(Vst), tạo ra một vec-tơ xác suất cho các từ trong danh sách từ vựng của chúng ta.
4.1.2 Ứng dụng của mạng Nơ - ron hồi quy RNN
Mạng nơ-ron hồi quy (RNN) được sử dụng rộng rãi trong xử lý ngôn ngữ tự nhiên (NLP) và nhận dạng chữ viết tay, mang lại nhiều thành công đáng kể Một số ứng dụng tiêu biểu của RNN trong các lĩnh vực này đã chứng minh hiệu quả của công nghệ.
- Mô hình hóa ngôn ngữ và sinh văn bản:
Mô hình ngôn ngữ cho phép dự đoán xác suất của từ xuất hiện sau một chuỗi từ trước đó, đồng thời ước lượng độ tương tự của các câu, giúp ứng dụng trong dịch máy Khả năng dự đoán từ tiếp theo cho phép xây dựng mô hình tự sinh từ, giúp máy tính tạo ra văn bản mới dựa trên tập mẫu và xác suất đầu ra của từng từ Tùy thuộc vào mô hình ngôn ngữ, có thể tạo ra nhiều văn bản khác nhau một cách thú vị Trong mô hình này, đầu vào là chuỗi từ (mô tả bằng vec-tơ one-hot) và đầu ra là chuỗi từ dự đoán, với việc gán ot = xt+1 để đầu ra tại bước t là từ tiếp theo của câu.
Dịch máy (Machine Translation) hoạt động tương tự như mô hình hóa ngôn ngữ, với đầu vào là chuỗi từ trong ngôn ngữ nguồn (ví dụ: tiếng Việt) và đầu ra là chuỗi từ trong ngôn ngữ đích (ví dụ: tiếng Anh) Điểm khác biệt là đầu ra chỉ được xử lý sau khi toàn bộ chuỗi đầu vào đã được xem xét, vì từ dịch đầu tiên cần có đủ thông tin từ đầu vào để có thể suy luận chính xác.
Hình 4.4: Ứng dụng RNN trong dịch máy (Machine Translation)
Nhận dạng giọng nói là quá trình dự đoán chuỗi ngữ âm từ một chuỗi tín hiệu âm thanh, kèm theo xác suất của từng ngữ âm.
Mạng nơ-ron hồi quy RNN được ứng dụng để tự động tạo mô tả cho các ảnh chưa được gán nhãn, mang lại những kết quả ấn tượng Các mô tả sinh ra từ công nghệ này thể hiện độ chính xác và chi tiết cao, như minh chứng bởi các ví dụ hình ảnh dưới đây.
Hình 4.5: Ứng dụng mô tả hình ảnh của mạng RNN
Huấn luyện mạng RNN tương tự như các mạng nơ-ron truyền thống, nhưng cần điều chỉnh thuật toán lan truyền ngược (backpropagation) Đạo hàm tại mỗi đầu ra không chỉ phụ thuộc vào các tính toán tại bước đó mà còn vào các bước trước, do các tham số trong mạng RNN được chia sẻ cho tất cả các bước Để tính đạo hàm tại t = 4, cần lan truyền ngược qua 3 bước trước và tổng hợp đạo hàm của chúng Phương pháp này được gọi là lan truyền ngược liên hồi (BPTT - Backpropagation Through Time).
RNN mở rộng
Trong suốt nhiều năm qua, các nhà nghiên cứu đã cải tiến và phát triển nhiều kiểu mạng Nơ-ron hồi quy (RNN) tinh vi nhằm khắc phục những hạn chế của mô hình RNN truyền thống Hai kiểu mạng Nơ-ron hồi quy RNN nổi bật đã được nghiên cứu và áp dụng là:
4.2.1 Mạng Nơ - ron hồi quy RNN 2 chiều Ở mô hình RNN 2 chiều (Bidirectional RNN), đầu ra tại bước t không những phụ thuộc vào các phần tử phía trước mà còn phụ thuộc cả vào các phần tử phía sau Ví dụ, để dự đoán từ còn thiếu trong câu, thì việc xem xét cả phần trước và phần sau của
Mô hình này bao gồm việc chồng hai mạng RNN ngược hướng lên nhau, cho phép tính toán đầu ra dựa vào cả hai trạng thái ẩn của các mạng RNN này Việc sử dụng 40 câu là cần thiết để đảm bảo tính chính xác và hiệu quả trong quá trình xử lý.
4.2.2 Mạng Nơ - ron hồi quy RNN (2 chiều) sâu
RNN sâu (Deep Bidirectional RNN) tương tự như RNN 2 chiều, nhưng khác biệt ở chỗ có nhiều tầng ẩn tại mỗi bước Việc này giúp nâng cao khả năng học tập, tuy nhiên yêu cầu một lượng dữ liệu huấn luyện lớn hơn.
Hình 4.7: Mạng RNN 2 chiều sâu
4.2.3 Mạng Long Short Term Memory (LSTM Networks)
Mạng Long Short Term Memory (LSTM) là một loại mạng nơ-ron hồi tiếp (RNN) đặc biệt, có khả năng học các phụ thuộc dài hạn Được giới thiệu bởi Hochreiter và Schmidhuber vào năm 1997, LSTM đã được tinh chỉnh và phổ biến rộng rãi trong các ứng dụng học máy.
41 nhiều người trong công việc ứng dụng sau này LSTM làm việc rất tốt trên nhiều vấn đề lớn, và hiện đang đƣợc sử dụng rộng rãi
LSTM được phát triển để giải quyết vấn đề phụ thuộc lâu dài trong dữ liệu Mạng này cho phép ghi nhớ thông tin trong thời gian dài, mang lại nhiều ứng dụng thực tiễn hữu ích.
Tất cả các mạng thần kinh hồi quy (RNN) đều bao gồm các mô-đun lặp lại, tạo thành một chuỗi Trong các RNN chuẩn, mô-đun lặp lại này thường có cấu trúc đơn giản, thường chỉ là một lớp duy nhất.
Hình 4.8: Mô đun lặp lại trong một tiêu chuẩn RNN chứa một lớp duy nhất
LSTM có cấu trúc tương tự như dây chuyền, nhưng mô-đun lặp lại của nó có cấu trúc khác biệt Thay vì chỉ sử dụng một lớp mạng thần kinh đơn, LSTM tích hợp nhiều tương tác đặc biệt giữa các lớp.
Hình 4.9: Mô đun lặp đi lặp lại trong một LSTM chứa bốn lớp tương tác
4.2.3.1 Ý tưởng cốt lõi của LSTM Điều cốt lõi của mạng LSTM là trạng thái tế bào (cell state) - chính đường chạy thông ngang phía trên của sơ đồ hình vẽ
Trạng thái tế bào hoạt động như một băng truyền, kết nối tất cả các nút mạng và chỉ tương tác một cách tuyến tính Nhờ vậy, thông tin có thể được truyền đi một cách dễ dàng và an toàn, không lo bị thay đổi.
Hình 4.10: Trạng thái tế bào
LSTM có khả năng điều chỉnh thông tin trong trạng thái tế bào bằng cách thêm hoặc loại bỏ dữ liệu cần thiết, nhờ vào các cổng (gate) được thiết lập một cách cẩn thận.
Các cổng là nơi sàng lọc thông tin đi qua nó, chúng đƣợc kết hợp bởi một tầng mạng sigmoid và một phép nhân
Tầng sigmoid cung cấp đầu ra trong khoảng [0, 1], thể hiện lượng thông tin được truyền qua Khi đầu ra là 0, điều đó có nghĩa là không có thông tin nào được truyền, trong khi đầu ra là 1 cho thấy tất cả thông tin đều được cho phép đi qua.
Một LSTM gồm có 3 cổng nhƣ vậy để duy trì và điều hành trạng thái của tế bào
Bước đầu tiên trong LSTM là xác định thông tin nào cần loại bỏ từ trạng thái tế bào Quyết định này được thực hiện bởi tầng cổng quên (forget gate layer) sử dụng hàm sigmoid, nhận đầu vào là ht−1 và xt Kết quả đầu ra là một giá trị trong khoảng [0,1] cho từng phần của trạng thái tế bào Ct−1, trong đó giá trị 1 cho biết thông tin sẽ được giữ lại hoàn toàn, trong khi giá trị 0 cho thấy thông tin sẽ bị loại bỏ hoàn toàn.
Mô hình ngôn ngữ dự đoán từ tiếp theo dựa trên các từ trước đó có thể lưu trữ thông tin về giới tính của nhân vật, giúp sử dụng đại từ nhân xưng chính xác Tuy nhiên, khi chuyển sang đề cập đến một nhân vật khác, thông tin về giới tính của nhân vật trước đó không còn cần thiết nữa.
Hình 4.12: Tầng cổng quên (forget gate layer)
Bước tiếp theo là xác định thông tin mới nào sẽ được lưu vào trạng thái tế bào, bao gồm hai phần Đầu tiên, ta sử dụng một tầng sigmoid gọi là "tầng cổng vào" để quyết định giá trị nào sẽ được cập nhật.