Đồ Án tốt nghiệp thiết kế hệ thống Điều khiển các thiết bị trong lớp học thông minh Ứng dụng nhận dạng tiếng nói

ĐẠI HỌC BÁCH KHOA HÀ NỘI TRƯỜNG ĐIỆN – ĐIỆN TỬĐỒ ÁN TỐT NGHIỆP Thiết kế hệ thống điều khiển các thiết bị trong lớp học thông minh ứng dụng nhận...  Nghiên cứu, thiết kế mô hình điều khi

TỔNG QUAN VỀ ĐỀ TÀI

Đặt vấn đề

Trong thời đại cách mạng công nghiệp 4.0, sự phát triển mạnh mẽ của công nghệ đã thúc đẩy sự phổ biến của các môi trường thông minh như nhà thông minh, trường học thông minh và thành phố thông minh.

Nhà thông minh sử dụng công nghệ Internet of Things (IoT) để kết nối và điều khiển các thiết bị gia dụng từ xa, mang lại tiện ích và an toàn vượt trội cho người sử dụng.

Trường học thông minh sử dụng công nghệ tiên tiến như trí tuệ nhân tạo (AI) và phần mềm quản lý học tập nhằm cá nhân hóa trải nghiệm giáo dục và tối ưu hóa quy trình giảng dạy.

Thành phố thông minh sử dụng dữ liệu và công nghệ để tối ưu hóa quản lý dịch vụ công cộng như giao thông, năng lượng và quản lý rác thải, nhằm nâng cao chất lượng sống cho cư dân.

Xu hướng này không chỉ nâng cao chất lượng cuộc sống mà còn bảo vệ môi trường và tiết kiệm tài nguyên Trí tuệ nhân tạo và tự động hóa đang đóng vai trò quan trọng trong việc phát triển và vận hành các môi trường thông minh, hứa hẹn mang lại nhiều lợi ích thiết thực trong tương lai.

Trong thực tế, các mô hình ứng dụng IoT đang ngày càng phổ biến ở Việt nam và trên thế giới Cụ thể:

Các trường học tại Hoa Kỳ đang tích cực tích hợp công nghệ IoT để cải thiện trải nghiệm học tập Cụ thể, nhiều trường đã sử dụng cảm biến để theo dõi và điều chỉnh nhiệt độ cũng như độ ẩm trong lớp học, từ đó tạo ra một môi trường học tập thoải mái hơn cho học sinh.

Trong lớp học thông minh ở Mỹ, học sinh và giáo viên sử dụng bảng tương tác thông minh cùng với thiết bị di động để nâng cao sự tương tác và hiệu quả trong việc truyền đạt kiến thức.

Singapore đang áp dụng công nghệ IoT để thu thập dữ liệu về tiến độ học tập của học sinh, từ đó điều chỉnh nội dung học tập phù hợp với nhu cầu cá nhân của từng học sinh Việc học tập cá nhân hóa này giúp nâng cao hiệu quả giáo dục và tạo điều kiện cho học sinh phát triển tối đa khả năng của mình.

Các công cụ phân tích dữ liệu được sử dụng để cá nhân hóa trải nghiệm học tập và nâng cao kết quả học tập Mô hình lớp học 4.0 tại Singapore được trang bị công nghệ hiện đại, bao gồm cảm biến và thiết bị kết nối, nhằm theo dõi tình trạng học tập và sức khỏe của học sinh.

Nhật Bản đang tích hợp robot và trí tuệ nhân tạo (AI) vào lớp học nhằm hỗ trợ giáo viên và phát triển các phương pháp giảng dạy mới Các robot có khả năng hướng dẫn học sinh, cung cấp thông tin và hỗ trợ trong việc dạy các kỹ năng xã hội, từ đó nâng cao chất lượng giáo dục.

Hình 1.2: Robot hỗ trợ học tập tại Nhật Bản

Nhiều trường học tại Hà Nội và thành phố Hồ Chí Minh đã áp dụng bảng thông minh và máy chiếu nhằm nâng cao chất lượng giảng dạy, giúp giáo viên trình bày bài học một cách dễ dàng và tạo sự tương tác với học sinh Đồng thời, một số trường cũng đang thử nghiệm ứng dụng IoT trong quản lý lớp học thông qua việc sử dụng cảm biến để theo dõi môi trường học tập và các thiết bị kết nối nhằm cải thiện điều kiện học tập.

Có những số liệu cụ thể chứng minh sự phát triển của ứng dụng của AI và IoT trong quản lý lớp học và cơ sở giáo dục:

- Ứng dụng AI và IoT trong giáo dục trên thế giới: o Thị trường AI trong giáo dục: Theo báo cáo của HolonIQ, thị trường

AI trong giáo dục dự kiến sẽ đạt khoảng 6 tỷ USD vào năm 2025, với tỷ lệ tăng trưởng hàng năm 39,8% từ 2020 đến 2025 Theo báo cáo của Deloitte, 62% các tổ chức giáo dục lớn đã triển khai hoặc đang thử nghiệm các giải pháp IoT để điều khiển và giám sát lớp học vào năm 2023, bao gồm cảm biến môi trường, hệ thống quản lý năng lượng và công nghệ giám sát lớp học.

Tại Việt Nam, việc ứng dụng AI trong giám sát lớp học đang ngày càng trở nên phổ biến, với khoảng 30% trường học tích hợp công nghệ này vào hệ thống quản lý để theo dõi hiệu suất học tập và hành vi của học sinh vào năm 2023 Bên cạnh đó, theo báo cáo từ Bộ Giáo dục và Đào tạo, khoảng 25% trường học ở các thành phố lớn đã triển khai giải pháp IoT nhằm giám sát môi trường lớp học và tài nguyên vào năm 2024.

Bảng 1.1: Tỷ lệ áp dụng AI và IoT trong điều khiển và giám sát lớp học tại các nước

Khu vực Tỷ lệ áp dụng AI (%) Tỷ lệ áp dụng IoT (%)

Lý do lựa chọn đề tài

Trong bối cảnh công nghệ phát triển nhanh chóng, việc ứng dụng công nghệ thông tin và tự động hóa trong giáo dục trở nên thiết yếu Lớp học thông minh với khả năng điều khiển thiết bị bằng giọng nói không chỉ mang lại tiện ích cho giáo viên và học sinh mà còn tạo ra môi trường học tập hiện đại, tương tác và hiệu quả Đề tài "Thiết kế hệ thống điều khiển các thiết bị trong lớp học thông minh ứng dụng nhận dạng tiếng nói" được chọn nhằm giải quyết những vấn đề thực tiễn trong giáo dục hiện nay.

Hệ thống điều khiển bằng giọng nói giúp giáo viên dễ dàng điều chỉnh thiết bị trong lớp học như máy chiếu, đèn và máy điều hòa mà không cần thao tác trực tiếp, từ đó giảm gián đoạn trong quá trình giảng dạy Việc này không chỉ tiết kiệm thời gian mà còn tăng cường sự tập trung của học sinh Hơn nữa, học sinh có thể tham gia điều khiển một số thiết bị, tạo ra sự tương tác và hứng thú trong học tập Khi học sinh cảm thấy có thể tham gia và tương tác với môi trường học, họ sẽ hứng thú hơn với bài học và dễ dàng tiếp thu kiến thức hơn.

Giám sát trạng thái thiết bị qua điện thoại giúp tối ưu hóa năng lượng trong lớp học, giảm lãng phí điện khi thiết bị không cần thiết vẫn hoạt động Đây là bước tiến quan trọng trong việc xây dựng lớp học thông minh, bảo vệ môi trường và giảm chi phí vận hành cho các trường học.

Công nghệ nhận dạng tiếng nói ngày càng phổ biến và ứng dụng rộng rãi trong nhiều lĩnh vực như gia đình, công nghiệp và giáo dục Nghiên cứu và phát triển hệ thống điều khiển thiết bị trong lớp học thông minh không chỉ mang lại ý nghĩa thực tiễn mà còn mở ra nhiều hướng nghiên cứu và ứng dụng mới Hệ thống này có thể được thiết kế để hỗ trợ học sinh khuyết tật, giúp họ tham gia vào các hoạt động học tập một cách dễ dàng hơn.

Việc chọn đề tài "Thiết kế hệ thống điều khiển các thiết bị trong lớp học thông minh ứng dụng nhận dạng tiếng nói" không chỉ mang lại tính ứng dụng cao mà còn nâng cao chất lượng giáo dục Đề tài này tạo ra môi trường học tập hiện đại và hiệu quả, đáp ứng nhu cầu thiết yếu của giáo dục hiện đại và mở ra nhiều cơ hội phát triển trong tương lai.

Dựa trên những lý do đã nêu, nhóm chúng tôi đã quyết định thực hiện đề tài “Thiết kế hệ thống điều khiển thiết bị trong lớp học thông minh sử dụng công nghệ nhận dạng tiếng nói.”

Mục tiêu, phạm vi nghiên cứu và ứng dụng của đề tài

Mục tiêu của đề tài:

Mô hình mô phỏng hệ thống lớp học thông minh được thiết kế để đáp ứng các yêu cầu điều khiển bằng tay, đồng thời hỗ trợ các kịch bản điều khiển tự động Hệ thống này không chỉ nâng cao trải nghiệm học tập mà còn tối ưu hóa quy trình giảng dạy, mang lại hiệu quả cao trong quản lý lớp học.

- Xây dựng ứng dụng giám sát, điều khiển các thiết bị trong mô hình

Xây dựng một hệ thống hoàn chỉnh cho phép nhận diện và thực hiện các lệnh điều khiển bằng giọng nói, nhằm quản lý hiệu quả các thiết bị trong lớp học như máy chiếu, đèn, máy điều hòa, rèm cửa và nhiều thiết bị khác.

Đảm bảo hệ thống hoạt động với độ chính xác cao và tốc độ phản hồi nhanh, đặc biệt là trong môi trường lớp học ồn ào với nhiều giọng nói khác nhau.

- Kết nối, ứng dụng mô hình nhận dạng tiếng nói để điều khiển.

- Nghiên cứu và phát triển công nghệ nhận diện giọng nói.

- Thiết kế và tích hợp hệ thống giám sát và điều khiển thiết bị.

- Kiểm thử và đánh giá hệ thống.

Dưới đây là bảng phân chia công việc của nhóm em để hoàn thành đồ án:

Bảng 1.2: Bảng phân công công việc của các thành viên thực hiện đồ án

Nội dung Đỗ Minh Đức Nguyễn Hồng Phong

Tìm hiểu về các mô hình

IoT và mô hình lớp

Tìm hiểu về hệ thống điều khiển các thiết bị trong lớp học.

Tìm hiểu về hệ thống điều khiển các thiết bị trong lớp học. học thông minh

- Thiết kế mạch nguyên lý và làm mạch in.

- Thiết kế, lập trình phần mềm ứng dụng điện thoại để điều khiển và giám sát.

- Lập trình thu âm tệp âm thanh của lệnh điều khiển trên điện thoại và xử lý dữ liệu sau nhận dạng.

- Lập trình chương trình cho MCU để xử lý dữ liệu và điều khiển.

- Tìm hiểu mô hình nhận dạng tiếng nói.

- Thu thập dữ liệu để huấn luyện mô hình.

- Xử lý nhận dạng dữ liệu tiếng nói thu được trên điện thoại thành lệnh điều khiển.

- Đưa kết quả nhận dạng về điện thoại để điều khiển.

Xây dựng mô hình, lắp ráp linh kiện, đi dây.

Xây dựng mô hình, lắp ráp linh kiện, đi dây. Đánh giá và kiểm thử

- Chạy thử nghiệm mô hình.

- Thử các kịch bản tự động đã cấu hình.

- Chạy thử nghiệm mô hình.

- Thử các kịch bản tự động đã cấu hình.

Để hoàn thiện đồ án, chúng em sẽ nghiên cứu các cơ sở lý thuyết liên quan đến mô hình lớp học thông minh, bao gồm nhận dạng tiếng nói và cách xây dựng ứng dụng điện thoại để giám sát và điều khiển Nội dung này sẽ được trình bày chi tiết trong chương 2: Cơ sở lý thuyết.

CƠ SỞ LÝ THUYẾT

Tổng quan về hệ thống lớp học thông minh

2.1.1 Mô hình IoT và các ứng dụng

IoT (Internet of Things) là mạng lưới các thiết bị vật lý, phương tiện và đồ dùng gia dụng được kết nối Internet, cho phép thu thập và chia sẻ dữ liệu Các thiết bị này thường được trang bị cảm biến và phần mềm, giúp chúng giao tiếp và tự động trao đổi thông tin Tính kết nối và khả năng tương tác giữa các thiết bị là điểm nổi bật của IoT, cho phép chúng tự động hoạt động và đưa ra quyết định dựa trên dữ liệu thu thập được IoT có ứng dụng đa dạng trong các lĩnh vực như nhà thông minh, y tế, nông nghiệp, sản xuất và quản lý năng lượng Những đặc điểm chính của IoT ảnh hưởng lớn đến cách thức triển khai và sử dụng công nghệ này.

- Kết nối liên tục: Các thiết bị IoT luôn kết nối với nhau và với internet, cho phép giao tiếp và trao đổi dữ liệu theo thời gian thực.

IoT mang lại tính tự động cho các thiết bị, cho phép chúng thực hiện hành động và đưa ra quyết định dựa trên dữ liệu thu thập mà không cần sự can thiệp của con người.

Các thiết bị IoT có khả năng giao tiếp và tương tác với nhau, hình thành một hệ thống kết nối liên tục và chặt chẽ.

Internet vạn vật (IoT) bao gồm nhiều thiết bị đa dạng, từ thiết bị thông minh trong gia đình đến hệ thống công nghiệp, tất cả đều có khả năng kết nối và chia sẻ dữ liệu hiệu quả.

IoT có tính mở rộng linh hoạt, cho phép dễ dàng tích hợp thêm các thiết bị và hệ thống mới mà không làm gián đoạn hoạt động của toàn bộ mạng lưới.

Các thiết bị IoT được trang bị cảm biến và phần mềm để thu thập và phân tích dữ liệu, từ đó hỗ trợ việc đưa ra quyết định dựa trên thông tin thu thập được.

Tính an toàn và bảo mật trong IoT là yếu tố quan trọng, đặc biệt khi đối mặt với kết nối liên tục và lượng dữ liệu khổng lồ Để bảo vệ dữ liệu và người dùng, cần triển khai các biện pháp bảo mật mạnh mẽ.

IoT có nhiều ứng dụng đa dạng trong các lĩnh vực như nhà thông minh, y tế, sản xuất, nông nghiệp, giao thông và năng lượng, giúp nâng cao hiệu suất và hiệu quả trong từng lĩnh vực này.

Chúng ta sử dụng các thiết bị IoT hàng ngày, với nhiều ví dụ quen thuộc như: máy lạnh thông minh, đèn LED điều khiển từ xa, và các thiết bị theo dõi sức khỏe Những công nghệ này không chỉ mang lại sự tiện lợi mà còn giúp cải thiện chất lượng cuộc sống.

Thiết bị nhà thông minh là những thiết bị điện tử tương tác, sử dụng kết nối không dây để nhận và thực hiện các hướng dẫn từ người dùng Các thiết bị này, như máy điều hòa không khí và hệ thống an ninh gia đình, có khả năng hoạt động tự động, giúp hỗ trợ và tối ưu hóa các công việc hàng ngày trong cuộc sống.

Có thể lập trình bộ điều chỉnh nhiệt thông minh để tự động điều chỉnh sang chế độ mát hơn trước khi chúng ta trở về nhà Bên cạnh đó, hệ thống camera an ninh cũng có thể gửi thông báo khi phát hiện có người đến cửa trong lúc chúng ta vắng mặt.

Công nghệ đeo được, như đồng hồ thông minh, là một ví dụ nổi bật của Internet of Things (IoT) Các thiết bị như Fitbit và Apple Watch không chỉ kết nối với điện thoại thông minh để chia sẻ dữ liệu mà còn thường xuyên kết nối với internet để theo dõi vị trí GPS.

Thiết bị y tế cá nhân, bao gồm máy điều hòa nhịp tim, là một phần quan trọng của IoT Những thiết bị này hỗ trợ theo dõi và chia sẻ dấu hiệu sinh tồn của bệnh nhân, đồng thời phát hiện sớm các vấn đề sức khỏe, giúp can thiệp kịp thời và nâng cao chất lượng chăm sóc sức khỏe.

Xe tự lái là những phương tiện kết nối sử dụng internet để chia sẻ thông tin theo thời gian thực Với các cảm biến được trang bị khắp xe, chúng có khả năng lập bản đồ môi trường xung quanh, truyền tải hình ảnh từ camera và phản hồi tín hiệu giao thông một cách hiệu quả.

Vậy có câu hỏi rằng: mô hình IoT hoạt động như thế nào?

Hệ thống IoT bao gồm các cảm biến và thiết bị giao tiếp với đám mây qua kết nối Dữ liệu được gửi lên đám mây sẽ được phần mềm xử lý để quyết định có thực hiện hành động nào hay không, chẳng hạn như điều chỉnh cảm biến hoặc thiết bị mà không cần sự can thiệp của người dùng hoặc gửi cảnh báo Một hệ thống IoT hoàn chỉnh bao gồm bốn yếu tố riêng biệt: cảm biến và thiết bị, kết nối, xử lý dữ liệu, và giao diện người dùng.

Tổng quan về mô hình nhận dạng tiếng nói

2.2.1 Lựa chọn mô hình nhận dạng tiếng nói

Nhận dạng tiếng nói, một nhánh của NLP (Xử lý ngôn ngữ tự nhiên), bao gồm nhiều lĩnh vực phát triển như chuyển đổi giọng nói thành văn bản, định danh giọng nói và dịch tiếng nói Trong bài viết này, nhóm chúng tôi tập trung vào ứng dụng chuyển đổi giọng nói thành văn bản, giúp chuyển đổi câu lệnh điều khiển qua âm thanh thành tín hiệu điều khiển gửi tới các thiết bị.

Hiện nay, thị trường nhận dạng tiếng nói đã chứng kiến sự phát triển mạnh mẽ với nhiều mô hình phổ biến, được ứng dụng rộng rãi trong các lĩnh vực như điện thoại, máy tính và robot Trong số đó, Google Speech to Text nổi bật với khả năng tích hợp trên các nền tảng di động và web, đáp ứng tốt các yêu cầu của người dùng Ngoài Google, còn có các dịch vụ khác như Amazon Transcribe và Microsoft Azure Speech to Text cũng đang phát triển mạnh mẽ trong lĩnh vực này.

Bảng 2.3: Bảng so sánh các mô hình chuyển đổi giọng nói thành văn bản phổ biến

Tiêu chí Google Speech-to-

Microsoft Azure Speech to Text Độ chính xác

Cao nhờ vào công nghệ Machine

Learning tiên tiến và Độ chính xác tốt, đặc biệt là trong môi trường ít tiếng ồn.

Rất cao, đặc biệt trong các ngữ cảnh doanh nghiệp và môi hỗ trợ nhiều ngữ điệu khác nhau. trường đa dạng.

Hỗ trợ hơn 120 ngôn ngữ và phương ngữ.

Hỗ trợ khoảng 31 ngôn ngữ và phương ngữ.

Hỗ trợ hơn 70 ngôn ngữ và phương ngữ.

Cho phép tùy chỉnh từ vựng và mô hình theo ngữ cảnh cụ thể.

Hỗ trợ tùy chỉnh từ vựng và từ điển cá nhân.

Cho phép tùy chỉnh từ vựng, mô hình ngữ cảnh và bộ lọc ngôn ngữ.

Nhanh, hỗ trợ xử lý thời gian thực.

Nhanh, hỗ trợ xử lý gần như thời gian thực.

Nhanh, hỗ trợ xử lý thời gian thực và gần như thời gian thực. Tích hợp

Dễ dàng tích hợp với các dịch vụ khác của Google và bên thứ ba.

Tích hợp tốt với các dịch vụ AWS và bên thứ ba.

Tích hợp mạnh mẽ với các dịch vụ của Microsoft và bên thứ ba.

Tuân thủ các tiêu chuẩn bảo mật cao, bao gồm mã hóa dữ liệu.

Tuân thủ các tiêu chuẩn bảo mật của AWS, bao gồm mã hóa dữ liệu.

Tuân thủ các tiêu chuẩn bảo mật của Microsoft, bao gồm mã hóa dữ liệu và GDPR.

Để ứng dụng vào đề tài của nhóm, các mô hình hiện tại không được công khai và không cho phép can thiệp Việc tích hợp nhận dạng tiếng nói vào mô hình lớp học thông minh chỉ cần một lượng nhỏ câu lệnh điều khiển, do đó cần thực hiện Fine Tuning với dữ liệu nhỏ từ mô hình nhận dạng mã nguồn mở Mặc dù các mô hình phổ biến, chúng không phù hợp với hệ thống đang triển khai Để tìm kiếm các mô hình nhận dạng tiếng nói mã nguồn mở cho phép fine tuning, có thể tham khảo 4 mô hình sau: Kaldi, DeepSpeech, Wav2Vec, và Whisper.

Bảng 2.4: Bảng so sánh các mô hình cho phép Fine Tuning

Whisper Kaldi DeepSpeech Wav2Vec

Cơ chế học Học giám sát Học giám sát Học giám sát Học không giám sát

Kiến trúc Transformer RNN, LSTM RNN, LSTM Transformer Đầu vào Âm thanh thô Âm thanh thô Âm thanh thô Âm thanh thô

Tiền xử lý âm thanh MFCC MFCC, PLP MFCC Log-Mel filterbanks

Ngôn ngữ lập trình Python C++ Python Python

Hugging Face Transformer PyTorch Tensor Flow Hugging Face

Tiếng Việt Có Không Có Có

Sau khi so sánh các mô hình hiện có, mô hình Whisper được xác định là phù hợp nhất cho việc nhận dạng tiếng Việt trong ngữ cảnh cụ thể Mô hình này có khả năng xử lý các câu lệnh điều khiển được gán nhãn sẵn, đáp ứng tốt yêu cầu của người dùng.

2.2.2 Tổng quan về mô hình Transformer Đầu tiên để có thể tiến hành Fine Tuning hệ thống, ta cần xem lịch sử phát triển của các cấu trúc mô hình nhận dạng tiếng nói, đây cũng có thể là phần giải đáp tại sao mô hình được lựa chọn là mô hình Whisper

Mô hình cơ bản nhất cho việc chuyển đổi giọng nói thành văn bản là Deep Neural Network (DNN), nhưng nó hoạt động độc lập với các từ trong câu Trong ngữ cảnh ngôn ngữ nói, các từ có mối quan hệ chặt chẽ với nhau để tạo ra ý nghĩa Do đó, Recurrent Neural Network (RNN) đã được phát triển để cải thiện khả năng hiểu ngữ cảnh.

RNN giúp giải quyết mối quan hệ giữa các từ trong câu thông qua trạng thái ẩn, cho phép lưu giữ thông tin qua các bước thời gian Tuy nhiên, khi xử lý các câu dài, RNN gặp khó khăn trong việc cập nhật trọng số, dẫn đến mất mát thông tin và tăng thời gian tính toán.

Do đó, Long Short Term Memory (LSTM) được nghiên cứu.

LSTM được phát triển để khắc phục vấn đề cập nhật trọng số của RNN khi xử lý chuỗi dài Mặc dù vậy, LSTM vẫn gặp hạn chế do tính tuần tự của nó, điều này khiến cho việc xử lý tập dữ liệu lớn trở nên tốn thời gian và làm giảm tốc độ huấn luyện của mô hình.

Transformer là mô hình mới nhất, đáp ứng và khắc phục đa số các nhược điểm của các mô hình trước đó.

Hình 2.4: Kiến trúc mô hình Transformer

Mô hình Transformer bao gồm hai phần chính: Encoder và Decoder Encoder xử lý dữ liệu đầu vào và tạo ra vector thông tin, trong khi Decoder chuyển đổi vector này thành đầu ra mong muốn Lớp Encoder hoạt động như một mạng nơ-ron Feedforward, với nhiều lớp Encoder khác nhau, cho phép huấn luyện và xử lý song song, giảm thiểu thời gian so với LSTM Đầu vào trải qua quá trình Positional Encoding, đánh số thứ tự vị trí của từ trong câu bằng hàm sin và cos, giúp xử lý câu dài hiệu quả hơn Điểm nổi bật của Transformer là cơ chế Attention, cụ thể là Self Attention và Multi-Head Attention, giúp khắc phục những hạn chế của các mô hình trước đó.

Self Attention hoạt động như một cơ chế tìm kiếm từ trong tập dữ liệu, tạo ra ba vector: Query, Key và Value Query là vector chứa thông tin của từ cần tìm, Key là vector biểu diễn thông tin các từ so sánh, và Value là vector thể hiện nội dung và ý nghĩa của từ Quá trình này được thực hiện bằng cách nhân ma trận biểu diễn từ đầu vào với ma trận trọng số tương ứng.

Multi-Head Attention là phương pháp biểu diễn mối quan hệ giữa các từ trong nhiều ngữ cảnh khác nhau Mỗi lần thực hiện Self Attention, mô hình sẽ học được một kiểu mẫu riêng biệt Khi học nhiều ngữ cảnh, số lượng Self Attention cũng tăng lên, tương ứng với từng chiều của các ma trận Query, Key và Value.

Các lớp Add & Normalization Layer giúp mô hình huấn luyện hội tụ nhanh hơn và giảm thiểu mất mát thông tin Trong lớp Decoder, chức năng của nó là giải mã các vector được mã hóa từ lớp Encoder thành đầu ra mong muốn, nhận thông tin từ các vector Key và Value Kiến trúc của lớp Decoder tương tự như Encoder, nhưng có thêm lớp Multi-Head Attention để học mối quan hệ giữa từ hiện tại và từ đầu vào.

Các lớp Masked Multi-Head Attention có chức năng là che đi các từ trong câu chưa được dùng đến trong quá trình huấn luyện và sử dụng.

Cuối cùng, mô hình sử dụng một lớp Fully Connected để chuyển đổi đầu ra thành ma trận có số chiều mong muốn, đồng thời áp dụng lớp Softmax để tính toán xác suất của từ xuất hiện tiếp theo, giúp mô hình đưa ra dự đoán chính xác hơn.

2.2.3 Tổng quan về mô hình Whisper

Whisper là hệ thống nhận dạng tiếng nói tiên tiến do OpenAI phát triển, được huấn luyện trên 680.000 giờ dữ liệu đa ngôn ngữ và đa tác vụ Quá trình huấn luyện kéo dài này với một tập dữ liệu lớn giúp nâng cao độ chính xác và khả năng hoạt động hiệu quả trong các môi trường ồn ào cũng như với nhiều ngôn ngữ khác nhau.

Hiện nay, Whisper đã ra mắt 5 mô hình khác nhau, cho phép người dùng sử dụng trực tiếp hoặc thực hiện Fine Tuning với dữ liệu của riêng họ, mang đến sự linh hoạt về dung lượng và tốc độ.

Bảng 2.5: Thông số các mô hình Whisper

Kích cỡ Tham số Tiếng Anh Các ngôn ngữ khác

Tiny 39 M Tiny.en Tiny 1 GB 32x

Base 74 M Base.en Base 1 GB 16x

Small 244 M Small.en Small 2 GB 6x

Các mô hình Whisper này khác nhau không phải về thời gian huấn luyện, mà dựa trên số lớp, số tham số có trong mô hình.

Bảng 2.6: Bảng so sánh số lượng tham số giữa các mô hình Whisper

Mô hình Số lớp Độ sâu Số head của Attention Trọng số

Tổng quan về ứng dụng Android trên điện thoại

2.3.1 Lựa chọn công cụ xây dựng ứng dụng điều khiển trên điện thoại

Trong quá trình phát triển ứng dụng di động, việc chọn công cụ phù hợp là yếu tố quyết định sự thành công của dự án Hiện nay, có nhiều công cụ hỗ trợ phát triển ứng dụng điện thoại, mỗi công cụ có những ưu điểm và hạn chế riêng Báo cáo này sẽ so sánh các công cụ phổ biến như Android Studio, Xcode, Flutter và Unity, nhằm giúp các nhà phát triển có cái nhìn toàn diện để lựa chọn công cụ phù hợp nhất.

Bảng 2.7: Bảng so sánh các phần mềm xây dựng ứng dụng trên điện thoại

Ngôn ngữ lập trình Java, Kotlin

Hệ điều hành hỗ trợ

Hỗ trợ nền tảng Android iOS, macOS (đa nền tảng)

Android, iOS, Web, Console, Desktop

Tích hợp IDE Có Có

Có (Với Visual Studio Code)

Hiệu suất ứng dụng Tốt Tốt Tốt Tốt

Giao diện người dùng (UI)

Native Native Tùy chỉnh với Flutter

Tùy chỉnh cao với Unity UI

Hỗ trợ thư viện và plugin Phong phú Phong phú Tốt Rất phong phú

Dễ dàng cài đặt Trung bình Phức tạp Trung bình Trung bình

Tài liệu Rất lớn Lớn Đang phát triển nhanh Lớn

Chi phí Miễn phí Miễn phí Miễn phí Miễn phí (có gói trả phí)

Dễ học Trung bình Khó Trung bình Khó

Sau khi tiến hành so sánh, Android Studio đã được chọn làm công cụ lập trình cho đề tài này Công cụ này đáp ứng tốt các tiêu chí về độ khó, sự hỗ trợ từ cộng đồng, và phù hợp với nền tảng mà chúng tôi đang hướng tới là Android.

2.3.2 Tổng quan về Android Studio

Android Studio là IDE (Môi trường Tích hợp Phát triển) do Google phát triển, chuyên dùng cho việc phát triển ứng dụng Android Nó cung cấp nhiều công cụ và tính năng hữu ích, giúp các nhà phát triển dễ dàng xây dựng và triển khai ứng dụng trên nền tảng Android.

Một số ưu điểm nổi bật của nó:

Bố cục của ứng dụng được thiết kế trực quan với giao diện thân thiện, cho phép người dùng dễ dàng tương tác Các nhà phát triển có thể thực hiện các thao tác kéo thả nhanh chóng, giúp quy trình phát triển ứng dụng trở nên đơn giản và hiệu quả hơn.

Chạy ứng dụng tức thì cho phép người dùng thử nghiệm ngay lập tức mà không cần tốn thời gian xây dựng APK và cài đặt, hỗ trợ hiệu quả cho các thay đổi trong quá trình phát triển.

Trình mô phỏng ứng dụng nhanh chóng cho phép nhà phát triển kiểm tra ứng dụng trên giao diện giống hệt như một chiếc điện thoại Android, giúp họ dễ dàng đánh giá cách ứng dụng hiển thị trên các thiết bị cài đặt.

- Chỉnh sửa mã code nhanh chóng nhờ các mã gợi ý trong thư viện nhằm tăng tốc độ viết mã cũng như độ chính xác.

- Instant Run giúp nhà phát triển thay đổi các ứng dụng đang chạy mà không cần thêm các thao tác xây dựng APK mới.

- Hỗ trợ kết nối Firebase giúp tạo các bản cập nhật trực tiếp và cung cấp kết nối cơ sở dữ liệu gốc được cập nhật liên tục.

- Có nhiều mẫu có sẵn giúp lập trình viên tạo mới ứng dụng đơn giản dựa vào công cụ wizard.

- Tích hợp tính năng dò và sửa lỗi nhanh chóng.

- Hỗ trợ tích hợp Maven và sử dụng kho lưu trữ Maven để quản lý các thư viện và phụ thuộc của dự án.

Sau khi tìm hiểu về ứng dụng Android và các khía cạnh thiết kế, phát triển, chúng ta sẽ khám phá Firebase - một công cụ quan trọng trong việc phát triển và quản lý ứng dụng Firebase cung cấp nhiều dịch vụ hữu ích như lưu trữ dữ liệu, xác thực người dùng và đồng bộ hóa dữ liệu theo thời gian thực Phần tiếp theo sẽ trình bày tổng quan về Firebase và vai trò của nó trong việc hỗ trợ phát triển ứng dụng Android cho hệ thống điều khiển trong lớp học thông minh.

Tổng quan về Firebase

Firebase là dịch vụ cơ sở dữ liệu đám mây mạnh mẽ của Google, giúp đơn giản hóa quá trình lập trình ứng dụng cho người dùng thông qua các thao tác dễ dàng với cơ sở dữ liệu.

Firebase cung cấp giao diện lập trình ứng dụng API đơn giản, giúp tăng số lượng người dùng và tối ưu hóa lợi nhuận Với tính năng đa năng và bảo mật vượt trội, Firebase hỗ trợ cả hai nền tảng Android và iOS, lý do chính khiến nhiều lập trình viên lựa chọn Firebase làm nền tảng hàng đầu để phát triển ứng dụng cho hàng triệu người dùng toàn cầu.

Hình 2.8: Tổng quan về Firebase

Gần một thập niên trước, Firebase được ra đời từ Envolve, một nền tảng đơn giản cung cấp API tích hợp tính năng chat cho website Ngoài ứng dụng nhắn tin trực tuyến, Envolve còn hỗ trợ truyền và đồng bộ hóa dữ liệu cho các ứng dụng khác như trò chơi trực tuyến Nhận thấy sự cần thiết, các nhà sáng lập đã tách biệt hệ thống nhắn tin trực tuyến và đồng bộ dữ liệu thời gian thực thành hai phần riêng biệt.

Năm 2012, Firebase được ra mắt với dịch vụ Backend as a Service, và vào năm 2014, Google đã mua lại Firebase, biến nó thành một dịch vụ đa chức năng được hàng triệu người sử dụng cho đến nay.

Chúng ta có thể tiết kiệm thời gian, chi phí và công sức trong việc xây dựng backend bằng cách sử dụng các API và SDK của Firebase, thay vì tự thiết kế, triển khai và quản lý server hay cơ sở dữ liệu.

2.4.2 Các nhóm sản phẩm/dịch vụ của Firebase

Firebase hiện cung cấp hơn 20 dịch vụ hỗ trợ cho các nhà phát triển ứng dụng web và di động, được chia thành ba nhóm chính: Build, Release & Monitor, và Engage Mỗi nhóm sản phẩm bao gồm nhiều công cụ và dịch vụ khác nhau, nhằm giải quyết các thách thức và nhu cầu phổ biến trong quá trình phát triển ứng dụng.

Nhóm sản phẩm Build của Firebase giúp tăng tốc độ phát triển ứng dụng bằng cách cung cấp cơ sở hạ tầng backend được quản lý hoàn toàn Người dùng không cần lo lắng về việc quản lý máy chủ hay cấu hình cơ sở dữ liệu, mà thay vào đó có thể tập trung vào việc phát triển ứng dụng với những giải pháp hiệu quả mà Firebase mang lại.

- Cloud Firestore: Một cơ sở dữ liệu NoSQL cloud có thể mở rộng để lưu trữ và truy vấn dữ liệu cho ứng dụng.

- Authentication: Một dịch vụ xác thực người dùng hỗ trợ nhiều phương thức đăng nhập khác nhau, như email, mật khẩu, số điện thoại, Google, Facebook, Twitter

Extensions là những gói mã nguồn mở được thiết kế để tự động hóa các tác vụ phát triển thông thường, bao gồm đồng bộ hóa dữ liệu giữa Cloud Firestore và BigQuery, tích hợp Algolia cho tìm kiếm, gửi email khi có sự kiện xảy ra, và xử lý thanh toán với Stripe.

Nhóm sản phẩm Release & Monitor giúp nâng cao chất lượng ứng dụng nhanh chóng và hiệu quả Bạn có thể dễ dàng kiểm tra, phân loại và khắc phục sự cố Tự tin phát hành tính năng mới và theo dõi hiệu suất, tính ổn định của ứng dụng với các giải pháp từ Firebase.

- Crashlytics: Một dịch vụ báo cáo sự cố giúp chúng ta xác định, ưu tiên và khắc phục các lỗi gây ra sự cố trong ứng dụng của bạn.

Dịch vụ giám sát hiệu suất giúp đo lường và cải thiện hiệu suất ứng dụng, bao gồm thời gian tải, thời gian phản hồi mạng, và mức tiêu thụ pin.

Firebase Analytics là một dịch vụ phân tích hành vi người dùng, giúp chúng ta hiểu rõ hơn về người dùng, hành vi của họ và lý do họ sử dụng ứng dụng của chúng ta.

Nhóm sản phẩm Engage giúp tăng cường sự tương tác của người dùng với các phân tích phong phú, thử nghiệm A/B và các chiến dịch tin nhắn.

Chúng ta có thể hiểu rõ hơn về người dùng để hỗ trợ và giữ chân họ tốt hơn.

Chúng ta có thể thực hiện các thí nghiệm để kiểm tra ý tưởng và khám phá thông tin mới, đồng thời tùy chỉnh ứng dụng cho các phân khúc người dùng khác nhau Firebase cung cấp nhiều giải pháp hỗ trợ cho quá trình này.

- Remote Config: Một dịch vụ cho phép thay đổi hành vi và giao diện của ứng dụng mà không cần phải phát hành phiên bản mới.

Cloud Messaging là dịch vụ cho phép gửi tin nhắn và thông báo đẩy đến người dùng, bao gồm thông báo về sự kiện, khuyến mãi và cập nhật tin tức.

A/B Testing là một dịch vụ cho phép người dùng thực hiện các thí nghiệm nhằm so sánh hiệu quả của những phiên bản khác nhau của ứng dụng Qua đó, người dùng có thể kiểm tra các yếu tố như màu sắc, văn bản, tính năng và nhiều khía cạnh khác để tối ưu hóa trải nghiệm người dùng.

2.4.3 Cách thức hoạt động của Firebase

Sau khi Google mua lại và phát triển, Firebase hiện nay bao gồm các hoạt động chính như:

Firebase Realtime Database cung cấp một cơ sở dữ liệu thời gian thực khi bạn đăng ký tài khoản, cho phép nhận dữ liệu dưới dạng JSON và đồng bộ hóa ngay lập tức đến mọi kết nối client Tất cả các client trong ứng dụng đa nền tảng đều sử dụng cùng một cơ sở dữ liệu, đảm bảo dữ liệu luôn được cập nhật mới nhất khi các lập trình viên phát triển ứng dụng Dữ liệu được truyền qua kết nối an toàn SSL với chứng nhận 2048 bit, và trong trường hợp mất mạng, dữ liệu sẽ được lưu lại ở local Khi có bất kỳ thay đổi nào, dữ liệu sẽ tự động được cập nhật lên Server của Firebase, đồng thời các dữ liệu cũ hơn ở local cũng sẽ được cập nhật để đảm bảo tính mới nhất.

THIẾT KẾ PHẦN CỨNG HỆ THỐNG

Khối MCU và truyền thông

Để xây dựng mô hình ứng dụng IoT cho phép điều khiển và giám sát thiết bị từ xa, cần sử dụng một khối MCU có khả năng kết nối mạng Hiện nay, có bốn công nghệ truyền thông không dây phổ biến trong các mô hình IoT, bao gồm Wifi, Bluetooth, Zigbee và Lora.

Bảng 3.8: Bảng so sánh các công nghệ truyền tin

Tiêu chí WiFi BLE ZigBee LoRa

2 - 15km (ngoài trời) Tốc độ truyền dữ liệu

Cao Thấp Thấp Rất thấp Độ phức tạp Cao Thấp Trung bình Trung bình

Thấp Trung bình Trung bình Ứng dụng phổ biến

Truyền dữ liệu tốc độ cao, kết nối Internet

Kết nối các thiết bị wearable, cảm biến nhỏ

Tự động hóa nhà, điều khiển công nghiệp

Giám sát từ xa, cảm biến nông nghiệp

Từ bảng sánh trên, công nghệ truyền tin WiFi được lựa chọn bởi:

Phạm vi phủ sóng của thiết bị đạt từ 50-100m, lý tưởng cho không gian lớp học Đồng thời, tốc độ truyền dữ liệu cao lên tới 1Gbps, đáp ứng nhu cầu truyền tải video, âm thanh và dữ liệu lớn một cách hiệu quả.

Lớp học tiêu thụ nhiều năng lượng nhưng vẫn duy trì nguồn điện ổn định, hỗ trợ đa dạng thiết bị và đảm bảo độ bảo mật cao.

Hệ thống mạng WiFi ngày càng trở nên phổ biến trong các lớp học, hỗ trợ hiệu quả cho việc giảng dạy và học tập của giáo viên cũng như học sinh Mặc dù chi phí lắp đặt cao, nhưng hệ thống này mang lại sự linh hoạt và độ tin cậy cao trong quá trình sử dụng.

Với công nghệ truyền thông WiFi, có một số loại MCU có thể được xem xét để sử dụng như: ESP8266, ESP32, Arduino Uno với Shield WiFi và Raspberry

Bảng 3.9: Bảng so sánh các dòng vi xử lý

Tiêu chí ESP8266 ESP32 Arduino Uno với Shield WiFi

Bộ vi xử lý 32-bit Tensilica

32-bit dual- core Tensilica Xtensa LX6

RAM 160 KB 520 KB 2 KB 264 KB

Flash 4 MB 4 MB 32 KB 2 MB

Cao (Shield WiFi: ~25 USD, Uno: ~20 USD)

Thấp (~6-10USD)Dựa trên các ưu điểm về hiệu suất, tính năng và giá cả phù hợp, ModuleESP32-WROOM-32 được lựa chọn.

Hình 3.17: ESP32 WROOM 32 và Pinout

- Điện áp sử dụng: 2.2V~3.6VDC

- Dòng điện sử dụng: ~90mA.

- 8 KBytes SRAM in RTC SLOW

- 8 KBytes SRAM in RTC FAST

- 1 Kbit of EFUSE, 256 bits MAC

Khối cảm biến

Hình 3.18: Module cảm biến ánh sáng LDR

- Kết nối 4 chân với 2 chân cấp nguồn (VCC và GND) và 2 chân tín hiệu ngõ ra (AO và DO).

- Hỗ trợ cả 2 dạng tín hiệu ra Analog và TTL Ngõ ra Analog 0 – 5V tỷ lệ thuận với cường độ ánh sáng, ngõ TTL tích cực mức thấp.

- Độ nhạy cao với ánh sáng được tùy chỉnh bằng biến trở

Cảm biến cường độ ánh sáng sử dụng bộ cảm biến photoresistor nhạy cảm, mang lại tín hiệu ổn định, rõ ràng và chính xác hơn so với quang trở độ nhạy tùy chỉnh Với thiết kế đơn giản nhưng hiệu quả, cảm biến này có độ tin cậy cao và độ nhiễu thấp nhờ vào mạch lọc tín hiệu trước khi so sánh với ngưỡng Ngoài ra, sản phẩm còn thân thiện với người dùng với khả năng hỗ trợ cả hai dạng tín hiệu ngõ ra số (0 và 1) và dạng analog.

3.2.2 Cảm biến nhiệt độ, độ ẩm và chất lượng không khí

Hình 3.19: Module cảm biến nhiệt độ, độ ẩm và CO2

- Điện áp hoạt động: 3.3 - 5 VDC.

- Độ chính xác đo CO2: ±30 ppm hoặc ±3% của giá trị đo được.

- Dải đo nhiệt độ: -40 đến 85 độ C.

- Độ chính xác đo nhiệt độ: ±0.2 độ C.

- Dải đo độ ẩm: 0 - 100% RH.

- Độ chính xác đo độ ẩm: ±2% RH.

Hình 3.20: Module cảm biến mưa

- Hoạt động dựa trên nguyên lý: Nước rơi vào board sẽ tạo ra môi trường dẫn điện.

- Dạng tín hiệu : TTL, đầu ra 100mA

- Điều chỉnh độ nhạy bằng biến trở.

- Sử dụng LM358 để chuyển AO –> DO

Khối cơ cấu chấp hành

3.3.1 Cửa sổ, cửa ra-vào

Cửa sổ và cửa ra vào trong mô hình được điều khiển bằng động cơ servo SG90, loại động cơ nhỏ gọn, phổ biến cho các mô hình nhỏ hoặc cơ cấu kéo nhẹ Động cơ servo SG90 có khả năng quay 180 độ với tốc độ phản ứng nhanh, tuy nhiên, cần lưu ý rằng bánh răng bằng nhựa có thể bị hư hại khi nâng tải nặng Động cơ RC Servo 9G tích hợp Driver điều khiển bên trong, cho phép dễ dàng điều chỉnh góc quay qua phương pháp điều độ rộng xung PWM.

Hình 3.21: Cấu tạo động cơ Servo SG90

- Điện áp hoạt động: 4,8-5VDC.

- Tốc độ: 0.12 sec/ 60 deg (4,8VDC).

Hình 3.22: Điều khiển góc quay động cơ Servo SG90

Phương pháp điều khiển PWM:

- Độ rộng xung 0.5ms ~ 2.5ms tương ứng 0-180 độ

- Tần số 50Hz, chu kỳ 20ms

Motor Mini 130 DC 3-6V tốc độ cao là một loại motor điện mini lý tưởng cho các thiết bị nhỏ như máy khoan mini, máy bơm mini và quạt mini Với cấu tạo tương tự như motor điện thông thường, motor này mang lại hiệu suất cao và tính linh hoạt cho nhiều ứng dụng khác nhau.

Hình 3.23: Động cơ DC mini V1

Do dòng điện xuất ra từ chân tín hiệu của khối MCU nhỏ, cần sử dụng mạch khuếch đại dòng để điều khiển tốc độ động cơ bằng phương pháp PWM (Pulse Width Modulation) PWM là cách điều chỉnh điện áp tải bằng cách thay đổi độ rộng của chuỗi xung vuông, dẫn đến sự thay đổi điện áp Vì vậy, mô-đun điều khiển động cơ DC 2 chiều 2 kênh tốc độ PWM cầu H kép L298N được áp dụng.

Hình 3.24: Module điều khiển động cơ L298N mini

- Nguồn điện đầu vào: 2 ~ 10VDC

- Số kênh điều khiển: 2 kênh (điều khiển được 2 động cơ DC đồng thời).

- Dòng điện tối đa mỗi kênh: 1.5A

- Tích hợp bảo vệ quá nhiệt.

- Tín hiệu điều khiển: IN1 IN2 (Motor A), IN3 IN4 (Motor B), mức TTL 1.8 ~ 7VDC.

- Sử dụng Mosfet để đóng ngắt điều khiển động cơ cho hiệu suất cao và ít nóng.

3.3.3 Hệ thống đèn và điều hòa

Hệ thống đèn sử dụng trong mô hình phòng học là đèn led cỡ nhỏ 220v – 1W 6500K với thông số:

- Điện áp hoạt động: 100-220VAC

- Led sáng trắng , nhiệt độ màu 6500K

Hình 3.25: Đèn xoay chiều 220VAC

Các bóng đèn lấy nguồn điện từ điện lưới nên cần dùng các Relay để điều khiển trạng thái bật/tắt của các đèn.

Relay là thiết bị chuyển mạch điện sử dụng cơ chế cơ học để điều khiển các tiếp điểm điện Khi có dòng điện chạy qua cuộn dây, nó tạo ra từ trường, khiến một bộ phận cơ học di chuyển để đóng hoặc mở các tiếp điểm, từ đó kiểm soát dòng điện trong mạch Trong mô hình lớp học thông minh, tôi sử dụng Module Relay 4 kênh 5V.

4 relay, điện áp hoạt động 5V điều khiển đầu ra tối đa 220VAC/10A và 30VDC/ 10A Đầu vào IN1, IN2, IN3 IN4 nhận tín hiệu cực thấp.

- Kích thước: 76mm (chiều dài) * 56mm (chiều rộng) * 18.5mm (H)

- Đầu ra điện thế đóng ngắt tối đa: DC 30V / 10A, AC 250V / 10A

- IN1…IN4: tín hiệu đầu vào, hoạt động mức thấp

- NO1…NO4: Công tắc thường mở

Hình 3.27: Sơ đồ đấu nối Relay

Do kích thước nhỏ của mô hình, điều hòa sẽ được thay thế bằng màn hình LCD tích hợp module I2C Màn hình này sẽ hiển thị các trạng thái của điều hòa, bao gồm trạng thái bật/tắt, nhiệt độ và chế độ gió.

- Điện áp hoạt động là 3.3V.

Khối nguồn

Khối nguồn cung cấp năng lượng cho mô hình nhà thông minh, trong đó các thiết bị hoạt động với nguồn điện 5VDC Để đảm bảo cung cấp đủ năng lượng cho toàn hệ thống, adapter 12V – 5A được sử dụng cùng với mạch hạ áp (DC-DC converter) để chuyển đổi điện áp từ 12V xuống 5V Sơ đồ tổng quan của khối nguồn được trình bày rõ ràng.

Hình 3.29: Sơ đồ tổng quan khối nguồn

Thông số kỹ thuật của adapter 12VDC – 5A :

Thông số kỹ thuật của mạch hạ áp:

- Công suất đầu ra: o Đầu vào 9 ~ 24V: Đầu ra 5.2V / 6A / 30W o Đầu vào 24 ~ 32V: Đầu ra 5.2V / 5A / 25W o Đầu vào 32 ~ 36V: Đầu ra 5,2V / 3,5A / 18W

Khối nút ấn

Bảng điều khiển trong mô hình lớp học cho phép người dùng sử dụng các nút ấn để điều chỉnh trạng thái của thiết bị như đèn, quạt, cửa sổ, cửa ra vào và rèm cửa.

Có tất cả 14 nút ấn được sử dụng cho các thiết bị bao gồm:

- 2 cửa ra vào 2 nút ấn

Khi nút nhấn được bấm, trạng thái của thiết bị tương ứng sẽ thay đổi Có 2 kiểu kết nối nút ấn là Pull-up và Pull-down.

Hình 3.31: Hai kiểu kết nối nút nhấn: (a) Pull up, (b) Pull down

Do số lượng nút nhấn khá lớn, tuy nhiên số chân của MCU có hạn nên Module mở rộng cổng PCF8574 được sử dụng:

Hình 3.32: Module mở rộng cổng PCF8574

Hình 3.33: Sơ sồ chân PCF8574

Hình 3.34: Bảng địa chỉ của PCF8574

- Đầu vào: 2 chân I2C SCL & SDA

- Kết nối song song 8 board liên tiếp: 64 chân tín hiệu I/O

Mạch điều khiển

Mạch điều khiển được thiết kế bao gồm 4 phần:

- Khối mở rộng chức năng I/O

Hình 3.35: Sơ đồ mạch nguyên lý mạch điều khiển

Hình 3.36: Mạch PCB đi dây lớp bottom

Hình 3.37: Mạch PCB đi dây lớp Top

Hình 3.38: PCB 3D của mạch điều khiển

Sau khi phân tích và thiết kế các thành phần phần cứng cần thiết, chúng ta đã có cái nhìn tổng quan về cấu trúc và kết nối các thiết bị để tạo ra hệ thống điều khiển hiệu quả Với nền tảng phần cứng vững chắc, chúng ta sẽ tiến hành phát triển hệ thống, bao gồm xây dựng phần mềm và tích hợp chức năng điều khiển giọng nói Chương tiếp theo sẽ tập trung vào thiết kế phần mềm và các giải pháp công nghệ hỗ trợ, nhằm hiện thực hóa mục tiêu của lớp học thông minh.

THIẾT KẾ PHẦN MỀM HỆ THỐNG

Triển khai Firebase Realtime Database

Để triển khai mô hình và điều khiển các thiết bị từ xa, cần thiết lập một hệ thống quản lý trạng thái của các thiết bị Hệ thống này đóng vai trò trung gian trong sơ đồ kết nối giữa người dùng và mô hình điều khiển.

Hình 4.39: Sơ đồ tổng quan kết nối với Firebase

Firebase Realtime Database được thiết lập để lưu trữ dữ liệu đồng bộ hóa trong thời gian thực, cho phép cập nhật và hiển thị thông tin ngay khi có sự thay đổi, đồng thời hỗ trợ nhiều nền tảng Khi sử dụng Firebase Realtime Database, người dùng sẽ làm việc với tệp JSON, được tổ chức theo cấu trúc cây.

Sau khi khởi tạo và gửi dữ liệu, thông tin trạng thái thiết bị trong hệ thống lớp học thông minh được quản lý thành 4 nhóm nhằm thuận tiện cho việc kiểm soát và cập nhật Mỗi thiết bị được mã hóa dưới dạng nhị phân, giúp tiết kiệm bộ nhớ và dễ dàng quan sát Để kết nối với Firebase, cần sử dụng Firebase_Host và Firebase_Auth, hai tham số được khởi tạo độc nhất cho mỗi tài khoản để định danh và kiểm soát quyền bảo mật.

Hình 4.41: Firebase Host và Firebase Auth

Lập trình hệ thống lớp học thông minh

Lưu đồ hoạt động tổng quan của hệ thống lớp học thông minh được thể hiện:

Hình 4.42: Lưu đồ tổng quan hệ thống lớp học thông minh

Hệ thống cần duy trì kết nối internet liên tục bằng cách kiểm tra mạng WiFi Khi MCU đã kết nối với internet, nó sẽ tiến hành kết nối với cơ sở dữ liệu Firebase Realtime Database.

ESP32 có khả năng đọc dữ liệu từ Firebase Realtime Database thông qua API của thư viện Firebase ESP32 Client phiên bản 3.15.5 của Mobizt Thư viện này cung cấp các hàm cho phép ESP32 thực hiện việc đọc, ghi và trao đổi dữ liệu với cơ sở dữ liệu bằng cách gửi các tệp định dạng JSON Định dạng của chuỗi dữ liệu được sử dụng trong quá trình này rất quan trọng để đảm bảo tính chính xác và hiệu quả trong việc truyền tải thông tin.

- Key: chứa tên các đầu mục lưu giá trị

- Value: là giá trị trạng thái của các thiết bị

Sau khi kết nối thành công giữa MCU ESP32 và Firebase Realtime Database, dữ liệu trạng thái thiết bị sẽ được đọc về Để giảm thời gian đọc và tối ưu hóa hiệu suất, chúng ta sẽ gộp trạng thái các thiết bị thành các nhóm giá trị, từ đó giảm số lượng gói tin truyền từ Firebase về ESP32 Cách làm này giúp giảm đáng kể thời gian trễ trong việc điều khiển thiết bị.

Các kịch bản tự động đã được cấu hình sẵn và kiểm tra ngay khi MCU nhận dữ liệu từ Firebase Dưới đây là một số trường hợp tự động áp dụng kết hợp với cảm biến.

- Khi bật máy chiếu thì hàng đèn trên cùng của lớp học sẽ tắt và rèm cửa phía trên sẽ đóng để đảm bảo dộ tương phản

- khi phát hiện trời có mưa thì đóng các cửa sổ

- Khi bật điều hòa thì các quạt sẽ tự động mở ở mức nhỏ (mức 1).

Khi cảm biến phát hiện nồng độ CO2 trong không khí cao bất thường, hệ thống sẽ tự động mở tất cả các cửa và kích hoạt quạt gió Mỗi thiết bị được điều khiển riêng biệt theo trạng thái của chúng, chẳng hạn như việc bật hoặc tắt đèn sẽ được thực hiện thông qua điều khiển relay dựa trên tín hiệu trạng thái của từng đèn.

Fine Tuning mô hình nhận dạng tiếng nói

Quá trình Fine Tuningtiến hành theo các bước:

Hình 4.43: Quá trình Fine Tuning tập lệnh trên mô hình Whisper

4.3.1 Thiết lập môi trường và các thư viện cần thiết

Quá trình Fine tuning diễn ra trên Google Colab, với các file âm thanh được tải lên Google Drive và tích hợp để huấn luyện Sau khi hoàn tất, mô hình sẽ được đưa lên Hugging Face, nền tảng cung cấp công cụ và thư viện mã nguồn mở, lưu trữ và triển khai các mô hình AI phổ biến Để huấn luyện Whisper, cần sử dụng một số thư viện hỗ trợ.

- Dataset: Chuẩn bị dữ liệu huấn luyện.

- Transformer + Accelerate: Tải mô hình Whisper và các tham số huấn luyện.

- Soundfile: Xử lý âm thanh đầu vào.

- Evaluate + jiwer: Đánh giá hiệu suất của mô hình.

- Tensorboard: Lưu các số liệu đánh giá mô hình.

Ta cũng cần đăng nhập vào tài khoản Hugging Face để tải mô hình lên.

4.3.2 Tải dữ liệu Training và Validation

Dựa trên mô hình và thiết kế hệ thống, tập lệnh điều khiển thiết bị trong lớp học thông minh bao gồm 55 câu lệnh, tập trung vào việc điều khiển trạng thái các thiết bị cơ bản.

Bảng 4.10: Bảng tập lệnh điều khiển

Thiết bị Câu lệnh Đèn

Bật và tắt đèn hàng trên cùng, hàng một, hàng hai, hàng ba, hàng bốn và hàng cuối theo nhu cầu Ngoài ra, có thể điều chỉnh quạt để tạo không khí thoáng mát.

Bật quạt ở mức một, hai và ba để điều chỉnh nhiệt độ phù hợp Khi cần, tắt quạt để tiết kiệm điện năng và duy trì không gian thoải mái.

Cửa ra vào Mở cửa trên Mở cửa dưới Đóng cửa trên Đóng cửa dưới

Mở rộng cửa số trên Mở vừa cửa số trên

Mở rộng cửa số dưới Mở vừa cửa số dưới

Mở rộng cửa số giữa Mở vừa cửa số giữa Đóng cửa sổ trên Đóng cửa sổ dưới Đóng cửa sổ giữa

Mở rộng rèm trên Mở vừa rèm trên

Mở rộng rèm dưới Mở vừa rèm dưới

Mở rộng rèm giữa Mở vừa rèm giữa Đóng rèm trên Đóng rèm dưới Đóng rèm giữa Điều hòa

Mở điều hòa Tắt điều hòa

Tăng độ điều hòa Giảm độ điều hòa Bật điều hòa gió lớn Bật quạt gió Bật điều hòa gió vừa Tắt quạt gió Bật điều hòa gió nhỏ

Máy chiếu Bật máy chiếu Tắt máy chiếu

Báo động Bật báo động Tắt báo động

Chúng tôi đã tiến hành thu thập dữ liệu một cách có hệ thống nhằm đảm bảo sự hội tụ của dữ liệu, từ đó đạt được kết quả huấn luyện tối ưu Các file tiếng nói được thu thập dựa trên những tiêu chí cụ thể để đảm bảo chất lượng và tính chính xác của dữ liệu.

- Tốc độ nói: Bình thường

- Môi trường thu âm: Không quá ồn

- Tần số lấy mẫu: 16kHz.

Bảng 4.11: Bảng thông tin về người thu âm

Tên Giới tính Độ tuổi Quê quán Số lần Tổng

1 Nguyễn Hồng Phong Nam 22 Hưng Yên 5 275

2 Đỗ Minh Đức Nam 22 Vĩnh Phúc 5 275

3 Lý Văn Hiếu Nam 22 Hưng Yên 3 165

4 Nguyễn Như Mạnh Nam 22 Hà Nội 3 165

5 Nguyễn Xuân Tiến Nam 22 Hà Nội 1 55

6 Phạm Đăng Thái Nam 22 Hưng Yên 5 275

7 Lê Văn Huy Nam 22 Hưng Yên 3 165

8 Nguyễn Xuân Thực Nam 22 Hưng Yên 3 165

9 Lê Hồng Hải Nam 20 Hà Nội 3 165

Cơ sở dữ liệu thu âm gồm 1705 file (9 người x 55 câu lệnh x n lần / người) như đã thống kê trên bản trên.

Chia tập dữ liệu thành hai phần: Tập Training chiếm 85% tổng số dữ liệu (khoảng 1450 file âm thanh) và Tập Validation chiếm 15% (khoảng 255 file âm thanh) Tập Validation không chỉ giúp kiểm tra quá trình huấn luyện để tránh overfitting mà còn đánh giá độ sai số của mô hình.

4.3.3 Tiến hành Feature Extraction và Tokenizer

Việc tiến hành sử dụng một mô hình nhận dạng thường gồm có 2 bước:

- Feature Extraction: Trích xuất đặc trưng, xử lý âm thanh thô đầu vào.

- Tokenization: Mã hóa đầu ra của mô hình.

Whisper thực hiện quá trình Feature Extraction với hai bước chính Đầu tiên, âm thanh được chia thành các đoạn 30 giây; nếu đoạn ngắn hơn 30 giây, sẽ thêm 0 vào cuối Tiếp theo, âm thanh được đưa qua bộ lọc log-Meg để trích xuất các đặc trưng âm thanh, từ đó tính toán 80 bộ số Mel trong khung thời gian 25ms, với độ chồng lấp 10ms, nhằm đặc trưng hóa tiếng nói ở các miền tần số.

Hình 4.44: Bộ lọc log-Mel

Quá trình Tokenizer của Whisper tạo ra các token, phản ánh chỉ số của văn bản dự đoán trong từ vựng của ngôn ngữ Whisper cung cấp hỗ trợ cho tokenizer, giúp cải thiện khả năng xử lý ngôn ngữ tự nhiên.

96 loại ngôn ngữ, bao gồm cả Tiếng Việt, ta có thể trực tiếp sử dụng để mã hóa.

Sau khi thực hiện Feature Extraction và Tokenization, chúng ta sắp xếp câu theo cấu trúc Token của mô hình Whisper để chuyển đổi giọng nói thành văn bản Đồng thời, để mô hình Whisper hoạt động hiệu quả, cần bổ sung các tham số giúp mô hình nhận diện ngôn ngữ và tác vụ đang thực hiện ở đầu mỗi câu sau quá trình Tokenization.

4.3.4 Định nghĩa Metric đánh giá mô hình.

Với việc đánh giá mô hình, ta sử dụng Word Error Rate (WER) – phương thức đánh giá phổ biến cho 1 hệ thống ASR.

WER là chỉ số đánh giá độ chính xác của mô hình nhận dạng thông qua việc tính toán số lượng từ thiếu, từ bị thay thế và từ được thêm vào trong câu.

4.3.5 Cấu hình tham số huấn luyện

Để đạt được kết quả chính xác và nhanh chóng khi huấn luyện mô hình, ta cần sử dụng thư viện Transformer và cài đặt các tham số huấn luyện phù hợp.

Các tham số cần lưu ý:

- Số lượng dữ liệu mỗi batch.

- Độ tăng tốc độ học.

- Số lượng bước tối đa cho quá trình huấn luyện.

- Số bước khởi động để tốc độ học đạt giá trị ổn định.

- Số bước để lưu mô hình.

- Số bước đánh giá mô hình.

- Chỉ số đánh giá mô hình.

Để quản lý khối lượng dữ liệu huấn luyện lớn, việc chia nhỏ thành các batch là cần thiết nhằm tránh quá tải và giảm thiểu các vấn đề liên quan đến việc cập nhật trọng số Ngoài ra, việc huấn luyện song song với các batch cũng giúp rút ngắn thời gian luyện.

Tốc độ học đóng vai trò quan trọng trong thời gian huấn luyện mô hình; sau một số lượng batch nhất định, việc tăng tốc độ học là cần thiết để đạt được độ chính xác tối ưu trong thời gian ngắn nhất.

Hình 4.45: Các tham số đề xuất để huấn luyện mô hình

Chúng tôi tiến hành huấn luyện mô hình sử dụng tập dữ liệu đã được trích xuất và mã hóa, với các tham số huấn luyện được đề xuất trên nền tảng Google Colab Sau một số bước huấn luyện nhất định, mô hình sẽ được lưu trữ, đồng thời các chỉ số đánh giá chất lượng cũng sẽ được ghi lại để phục vụ cho việc phân tích và nhận xét sau này.

Sau khi hoàn tất quá trình huấn luyện, các mô hình sẽ được lưu trữ và đánh giá để chọn ra mô hình tốt nhất dựa trên các tiêu chí như WER thấp, hàm mất mát (Loss Function) nhỏ và không bị hiện tượng overfitting.

Hình 4.46: Các file của model sau khi được huấn luyện

Triển khai mô hình tiếng nói

Khi tích hợp hệ thống nhận dạng tiếng nói, phương án đề xuất là thu âm giọng nói qua điện thoại và gửi dữ liệu lên server để chuyển đổi giọng nói thành văn bản.

Mô hình đã được lưu trữ trên nền tảng Hugging Face, nơi không chỉ cung cấp không gian lưu trữ mà còn hỗ trợ Inference API, cho phép người dùng chạy mô hình miễn phí.

API này tích hợp trên điện thoại, cho phép nhận file âm thanh định dạng mp3, wav, hoặc flac Sau khi tiếp nhận, API sẽ xử lý file âm thanh qua mô hình và trả về kết quả dưới dạng file json, chuyển đổi giọng nói thành văn bản.

Tiếp theo là thiết kế ứng dụng trên điện thoại thông minh để điều khiển.

Thiết kế ứng dụng Android trên điện thoại

Việc phát triển ứng dụng di động cho phép giám sát trạng thái thiết bị trong lớp học, điều khiển thiết bị từ xa và thu thập dữ liệu âm thanh để điều khiển thiết bị hiệu quả.

Hình 4.47: Lưu đồ các trạng thái màn hình điều khiển trên ứng dụng di động

Hình 4.48: Các màn hình điều khiển của ứng dụng trên điện thoại di động:

(a) màn hình điều khiển bật/tắt đèn, máy chiế (b )màn hình điều khiển mở cửa ra vào, của sổ, rèm cửa

(c) màn hình điều khiển quạt, điều hòa

(d) màn hình điều khiển bât/tắt báo động

Trên mỗi màn hình đều có chức năng:

- Hiển thị trạng thái của thiết bị.

Điều khiển thiết bị thông qua màn hình cảm ứng: Khi người dùng ấn vào bất kỳ nút nào trên màn hình điện thoại, trạng thái của thiết bị sẽ được thay đổi và cập nhật vào cơ sở dữ liệu Firebase, từ đó điều khiển thiết bị tương ứng trong mô hình.

- Có nút bấm trở về mà hình điều khiển chính.

Hình 4.49: Màn hình giao diện chính Ở màn hình chính, các chức năng bao gồm:

- Cho phép chuyển sang các màn hình phụ để điều khiển các thiết bị trong lớp học (đèn, quạt, cửa …)

- Nút bấm tạo file ghi âm tiếng nói để nhận nhận dạng (record) và dừng ghi âm (stop).

- Ô hiển thị lệnh điều khiển bằng tiếng nói sau khi được nhận dạng.

Sau khi nhấn nút “Record”, người dùng bắt đầu đọc lệnh điều khiển thiết bị Khi hoàn tất, nhấn “Stop” để tạo file âm thanh, file này sẽ được gửi lên Server chứa mô hình nhận dạng tiếng nói Sau khi nhận diện thành công, câu lệnh điều khiển sẽ được hiển thị trên màn hình và tín hiệu điều khiển tương ứng sẽ được gửi đến Firebase Realtime Database.

Sau khi hoàn thiện thiết kế phần mềm cho các ứng dụng và chương trình điều khiển, chúng tôi đã xây dựng một hệ thống phần mềm hiệu quả, tương thích với phần cứng và đáp ứng yêu cầu của lớp học thông minh Chương tiếp theo sẽ đánh giá kết quả triển khai hệ thống, phân tích hiệu quả thực tế và đề xuất các hướng phát triển tiềm năng nhằm nâng cao và mở rộng tính năng của hệ thống trong tương lai.

KẾT QUẢ ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN

Đánh giá của mô hình nhận dạng tiếng nói

5.1.1 Mục đích của đánh giá

Mô hình Whisper Large, như đã đề cập ở mục 2.2.3, chỉ đạt độ chính xác khoảng 60% trong việc nhận dạng ngôn ngữ Tiếng Việt, điều này cho thấy hiệu suất của nó còn khá thấp để áp dụng trong thực tế.

Việc Fine Tuning mô hình Whisper với tập lệnh 55 câu sẽ nâng cao độ chính xác của mô hình, giúp cải thiện sai số và tối ưu hóa khả năng nhận diện câu lệnh đã được huấn luyện.

Việc đánh giá Fine Tuning một mô hình tốt được đánh giá trên 2 tiêu chí:

- Độ chính xác đạt mức tối thiểu cho phép.

- Thời gian huấn luyện, tập dữ liệu sử dụng vừa đủ, không nên quá lâu và quá nhiều.

5.1.2 Cách thực hiện đánh giá

Cách thức để có thể làm giảm sai số của mô hình có 2 cách chính:

- Sử dụng mô hình có nhiều trọng số, nhiều lớp học, được huấn luyện sẵn với thời gian dài.

Nhóm đã tiến hành huấn luyện mô hình Whisper Small trên một tập dữ liệu thu thập chuẩn và có quy mô lớn Mô hình này bao gồm 244 triệu trọng số, 12 lớp Encoder và Decoder, cùng với 12 đầu Attention.

Bài viết này mô tả quá trình thu thập dữ liệu âm thanh bao gồm 1405 file từ 9 người Chúng tôi sẽ thực hiện Fine Tuning với số lượng người tăng dần, cụ thể là 3, 5, 7 và 9, tương ứng với số lượng file âm thanh là 770, 995, 1145 và 1405.

Để cải thiện độ chính xác, phương án 1 đề xuất thay thế mô hình Small bằng mô hình Whisper Medium hoặc Whisper Large Các mô hình này sở hữu nhiều trọng số hơn, giúp giảm sai số nhanh chóng khi xử lý tập dữ liệu tương ứng so với mô hình Small, từ đó mang lại kết quả chính xác hơn.

Tuy nhiên, khi huấn luyện mô hình này, công việc sẽ tốn khá nhiều dung lượng và thời gian, do kích thước mô hình lớn và nặng.

5.1.3 Kết quả và nhận xét

Sau khi tiến hành Fine Tuning mô hình với số lượng người hay tập dữ liệu tăng dần, kết quả thu được như sau:

Hình 5.50: Kết quả WER khi tiến hành fine tuning mô hình của hệ thống

Khi số lượng tập dữ liệu và số người tham gia tăng lên, sai số WER giảm và độ chính xác của mô hình tăng rõ rệt Huấn luyện với toàn bộ tập dữ liệu (9 người và 1405 file âm thanh) giúp WER giảm xuống còn 7%, tương ứng với độ chính xác 93%, cho thấy mô hình nhận dạng đã đáp ứng tốt với hệ thống nhà thông minh Đánh giá offline dựa trên tập dữ liệu Validate cho kết quả chính xác 93% Để đánh giá độ chính xác một cách online, mô hình tốt nhất sau huấn luyện được sử dụng để thu âm và đưa ra kết quả thực tế trong thời gian thực, với mỗi người thực hiện nhận dạng từng câu trong tập 55 câu lệnh, đánh giá trực tiếp qua Inference API của Hugging Face.

Hình 5.51: Inference API của mô hình đã Finetuning

API của Hugging Face hỗ trợ 2 phương thức:

- Ghi âm và gửi file ghi âm lên API.

- Ghi âm trực tiếp tại API.

Sau khi tiến hành, Hugging Face sẽ trả về một file JSON với định dạng: “text:

Kết quả nhận dạng sẽ được so sánh với câu lệnh đang thực hiện để tính toán tỷ lệ phần trăm các câu lệnh đúng trong tập lệnh.

Kết quả thu được như sau:

Bảng 5.12: Bảng đánh giá Online mô hình nhận dạng đã FineTuning

Tên Giới tính Độ tuổ i

Quê quán Có trong tập huấn luyện Độ chính xác

1 Nguyễn Hồng Phong Nam 22 Hưng Yên Có 54/55

2 Lê Hoàng Hải Nam 20 Hưng Yên Không 54/55

3 Đỗ Minh Đức Nam 22 Vĩnh Phúc Có 54/55

Do thời gian hạn chế, việc đánh giá chỉ thực hiện với một số lượng nhỏ người tham gia Tuy nhiên, độ chính xác của đánh giá trực tuyến gần như tương đương với đánh giá trực tiếp, đạt khoảng 98.2% (54/55 câu lệnh đúng) Đây là một kết quả khả quan cho mô hình và có thể áp dụng vào thực tế.

Đánh giá mô hình điều khiển các thiết bị trong lớp học thông minh

5.2.1 Mục đích của đánh giá

Sau khi xây dựng mô hình hệ thống điều khiển lớp học thông minh, chúng em tiến hành đánh giá hoạt động của mô hình để :

- Xác định trạng thái hoạt động của các thiết bị trong mô hình

- Kiểm tra độ chính xác của việc điều khiển mô hình bằng nút bấm ở bảng điều khiển

- Kiểm tra độ trễ của quá trình điều khiển khi sử dụng điện thoại di động

- Kiểm tra giao diện hiển thị trạng thái của các thiết bị trên màn hình điện thoại

- Đánh giá sự phù hợp của các kịch bản điều khiển tự động.

Sau khi xác định mục tiêu đánh giá mô hình điều khiển thiết bị trong lớp học thông minh, chúng tôi đã tiến hành các hoạt động đánh giá mô hình một cách hệ thống và có tổ chức.

Chạy thử nghiệm mô hình giúp kiểm tra hoạt động của các thiết bị như bật/tắt đèn và máy chiếu (sử dụng đèn LED trắng thay thế trong mô hình) Ngoài ra, mô hình cũng cho phép đóng mở các cửa ra vào và cửa sổ, điều chỉnh quạt ở các mức độ khác nhau, cũng như đóng/mở rèm cửa và điều khiển điều hòa.

- Điều khiển các thiết bị bao gồm: đèn(4 hàng), quạt(2 hàng), cửa ra vào(2 cửa), cửa sổ(3 cửa), rèm cửa(3 rèm) bằng nút ấn trên bảng điều khiển

- Tính thời gian từ khi ấn nút điều khiển trên điện thoại đến khi thiết bị thực thi lệnh điều khiển

Giám sát trạng thái hoạt động của thiết bị trên mô hình thực tế và giao diện điện thoại giúp kiểm tra tính chính xác của trạng thái thiết bị hiển thị trên màn hình.

- Thử nghiệm mô hình hoạt động theo các kịch bản tự động, ví dụ bật máy chiếu thì đèn hàng trên cùng có tắt không,…

5.2.3 Kết quả đánh giá và nhận xét

Sau khi tiến hành thực hiện các hoạt động đánh giá mô hình điều khiển lớp học thông minh, chúng em thu được những kết quả sau:

- Hệ thống đã được thiết kế và triển khai thành công, đáp ứng các mục tiêu đề ra ban đầu Các thiết bị đều hoạt động bình thường.

Việc giảm số lượng gói tin từ Firebase liên quan đến trạng thái thiết bị bằng cách gộp các trạng thái vào một biến duy nhất giúp tối ưu hóa quá trình xử lý, từ đó giảm thiểu thời gian trễ trong việc gửi dữ liệu tín hiệu.

Hình 5.52: Thời gian nhận được tín hiệu điều khiển

Khoảng thời gian trễ giữa hai lần đọc tín hiệu điều khiển từ Firebase Realtime Database rất ngắn, ví dụ như khi cập nhật trạng thái các đèn chỉ mất một khoảng thời gian nhỏ.

0.5s) Như vậy, hệ thống đáp ứng được việc điều khiển tín hiệu ngay lập tức theo thời gian thực.

- Trạng thái hoạt động của các thiết bị được hiển thị trên giao diện của điện thoại hỗ trợ việc giám sát và điều khiển từ xa:

Hình 5.53: Giao diện hiển thị trạng thái của các thiết bị

(a) màn hình điều khiển chính (b ) màn hình điều khiển bật/tắt đèn, máy chiếu (c) màn hình điều khiển mở cửa ra vào, của sổ, rèm cửa

(d) màn hình điều khiển quạt, điều hòa

Giao diện hiển thị cơ bản trạng thái các thiết bị bao gồm:

- Trạng thái bật/tắt của 4 hàng đèn và máy chiếu

- Trạng thái của 2 cửa ra – vào, 3 cửa sổ và 3 rèm cửa

- Trạng thái của 2 hàng quạt và trạng thái điều hòa (bật/tắt, nhiệt độ, chế độ gió).

- Màn hình chính có tác vụ chuyển đến các cửa sổ điều khiển các thiết bị cụ thể

Khi người dùng ấn các nút điều khiển trên điện thoại, tín hiệu sẽ ngay lập tức được cập nhật trên Firebase Realtime Database và hiển thị trên màn hình Bên cạnh đó, tính năng điều khiển bằng giọng nói cũng được tích hợp trong giao diện màn hình chính, tạo ra sự tiện lợi cho người sử dụng.

Hình 5.54: Quá trình xử lý nhận dạng tiếng nói

Lệnh điều khiển sẽ được hiển thị trực tiếp trên màn hình sau khi quá trình nhận dạng tiếng nói thành công, giúp người dùng tự kiểm tra tính chính xác của câu lệnh Sau khi xác nhận lệnh, hệ thống sẽ so sánh với tập câu lệnh đã được thiết lập để gửi tín hiệu điều khiển lên Firebase.

Tiến hành kiểm tra trực tiếp trên hệ thống, người thực hiện sẽ đọc từng câu lệnh trong tập lệnh 55 câu để xác minh hoạt động của hệ thống Qua đó, đánh giá độ chính xác của phương pháp điều khiển bằng tiếng nói dựa trên việc hệ thống có thực hiện đúng các lệnh đã sử dụng hay không.

Bảng 5.13: Bảng đánh giá độ chính xác của phương pháp điều khiển hệ thống mô hình lớp học bằng tiếng nói

Tên Giới tính Độ tuổ i Quê quán Có trong tập huấn luyện Độ chính xác

1 Nguyễn Hồng Phong Nam 22 Hưng Yên Có 54/55

2 Đỗ Minh Đức Nam 22 Vĩnh Phúc Có 54/55

Mặc dù nhóm kiểm tra có số lượng người hạn chế do thời gian có hạn, nhưng độ chính xác của mô hình vẫn đạt cao với 98.2%, tương ứng với 54/55 câu lệnh đúng Điều này cho thấy mô hình có thể được áp dụng hiệu quả trong triển khai thực tế.

Xây dựng mô hình kết nối với cơ sở dữ liệu Firebase cho phép hệ thống điều khiển và giám sát qua điện thoại hoạt động mọi lúc, mọi nơi có kết nối internet.

Hình 5.55: Quá trình trao đổi, cập nhật dữ liệu giữa MCU và điện thoại di động thông qua Firebase

Các thiết bị sau khi nhận được lệnh điều khiển đáp ứng tốt :

- Đèn được bật/tắt bằng nút bấm, điện thoại hoặc giọng nói đều hiệu quả

- Quạt có 4 mức độ hoạt động, chạy ổn định trong mô hình

- Các cửa bao gồm cửa sổ, cửa ra – vào hoạt động đúng với giao diện trên điện thoại

- Rèm cửa cuộn lên/xuống theo chế độ hợp lý

- Máy chiếu được thể hiện trạng thái trong mô hình được thay thế bằng led chiếu sáng

- Các thông số của điều hòa được hiển thị trên màn hình LCD rõ nét, giống với dữ liệu trên điện thoại.

Mô hình hoàn thiện với các thiết bị như đèn, quạt, cửa sổ, cửa ra vào, rèm cửa, máy chiếu, và điều hòa Hệ thống điều khiển được phát triển thành nhiều phương án, bao gồm điều khiển bằng nút ấn, qua điện thoại thông minh qua internet, bằng giọng nói và chế độ tự động.

Kết quả đạt được

Trong quá trình thực hiện đề tài “Thiết kế hệ thống điều khiển các thiết bị trong lớp học thông minh ứng dụng nhận dạng tiếng nói”, nhóm đã nghiên cứu sâu về hệ thống IoT, làm rõ mô hình kiến trúc phân tầng và các thành phần thiết yếu của hệ thống Bên cạnh đó, nhóm cũng đã xác định những vấn đề và rủi ro cần giải quyết để xây dựng một hệ thống hoàn chỉnh và hiệu quả.

Mô hình lớp học thông minh yêu cầu xác định các thiết bị cần thiết, vị trí lắp đặt và cách sử dụng hiệu quả Cần giám sát các thông số như nhiệt độ, độ ẩm và ánh sáng để đảm bảo môi trường học tập tối ưu Ngoài ra, thiết kế lớp học thông minh cần có các phương án điều khiển qua mạch điều khiển, giao diện điện thoại và bằng giọng nói, nhằm tạo điều kiện thuận lợi nhất cho quá trình dạy và học.

Một ứng dụng điện thoại hoàn chỉnh đã được nghiên cứu và phát triển, bao gồm cách thức tương tác giữa câu lệnh và giao diện, quản lý dữ liệu trên thiết bị di động, giao tiếp với môi trường bên ngoài, cũng như lập trình ứng dụng cụ thể thông qua Android Studio.

Firebase là một công cụ quan trọng trong việc quản lý dữ liệu và trạng thái thiết bị trong hệ thống Cách Firebase định danh và trao đổi dữ liệu đã được nghiên cứu và làm rõ, giúp tối ưu hóa quá trình tiếp cận và tương tác trong các ứng dụng.

Nhóm đã nắm vững cách hoạt động của mô hình nhận dạng tiếng nói, quy trình Fine tuning, cách thu thập dữ liệu và các phương pháp nâng cao độ chính xác của hệ thống.

Sau khi hoàn thành nghiên cứu lý thuyết cho hệ thống lớp học thông minh, nhóm đã xây dựng và thử nghiệm thành công một mô hình lớp học Mô hình này cho phép điều khiển thông qua hai phương pháp: điều khiển tại chỗ và điều khiển qua điện thoại.

Hình 5.56: Mô hình lớp học thông minh chụp theo chiều dọc

Hình 5.57: Mô hình lớp học thông minh chụp trên trên xuống

Mô hình này bao gồm các thiết bị điều khiển như đèn, cửa sổ, cửa ra vào và rèm cửa Người dùng có thể điều khiển bằng tay qua các nút ấn trên bảng điều khiển, sử dụng điện thoại thông qua màn hình cảm ứng, hoặc bằng giọng nói thông qua lệnh thu âm Hệ thống cũng hỗ trợ các kịch bản tự động, đảm bảo hoạt động đúng theo yêu cầu.

Hình 5.58: Màn hình giao diện chính

Khi điều khiển thiết bị bằng giọng nói, lệnh được hiển thị trên màn hình để người dùng dễ dàng kiểm tra Nếu lệnh không chính xác do sai sót trong nhận dạng, người dùng phát âm sai hoặc môi trường ồn ào, họ có thể thực hiện lại lệnh để điều khiển thiết bị.

Những hạn chế còn tồn tại và hướng phát triển

Mô hình lớp học thông minh đang ngày càng được áp dụng rộng rãi, với việc giám sát và điều khiển các thiết bị thông qua nhiều phương pháp khác nhau, cả tự động lẫn thủ công, sẽ trở thành một yếu tố quan trọng được chú ý.

Mặc dù đề tài “Thiết kế hệ thống điều khiển các thiết bị trong lớp học thông minh ứng dụng nhận dạng tiếng nói” đã đạt được nhiều kết quả tích cực, nhưng vẫn còn một số hạn chế cần khắc phục.

Khi người dùng điều khiển thiết bị trên điện thoại thông minh, có khả năng xảy ra xung đột trong việc truyền dữ liệu giữa điện thoại và MCU với Firebase Điều này xảy ra khi MCU đồng thời gửi trạng thái thiết bị lên Firebase, dẫn đến việc điều khiển từ điện thoại bị vô hiệu hóa.

- Các cảm biến hoạt động còn thiếu tính ổn định dẫn đến việc điều khiển tự động vẫn còn trường hợp gặp trục trặc.

- Nhận dạng tiếng nói trong môi trường bị ồn gây ra sai lệch thông tin và không đưa ra được tín hiệu điều khiển.

Vì vậy, để khắc phục những hạn chế còn tồn tại thì hướng phát triển trong tương lai của đề tài có thể hướng tới là:

Để nâng cao chất lượng mô hình nhận dạng tiếng nói, cần cải thiện độ chính xác của việc nhận diện bằng cách cải tiến mô hình AI và tăng cường số lượng dữ liệu huấn luyện cho mô hình.

Mở rộng hệ thống hỗ trợ đa ngôn ngữ nhằm phục vụ cho các lớp học quốc tế và đa ngôn ngữ Nâng cao khả năng nhận diện giọng nói cho nhiều ngôn ngữ khác nhau và các giọng địa phương.

- Mở rộng khả năng quản lý, giám sát Không chỉ ứng dụng cho 1 mô hình lớp học mà còn mở rộng cho hệ thống lớp học gồm nhiều lớp.

Chúng tôi đang phát triển các tính năng mới cho ứng dụng điều khiển, nhằm mang đến giao diện người dùng thân thiện hơn, cải thiện khả năng quản lý thiết bị và cung cấp lịch sử sử dụng chi tiết.

Việc tích hợp các mô hình AI như nhận dạng khuôn mặt và nhận dạng tiếng nói trong giáo dục không chỉ giúp tự động hóa quy trình điểm danh mà còn tạo điều kiện thuận lợi cho sự giao tiếp giữa học sinh, sinh viên và giáo viên, từ đó nâng cao chất lượng dạy và học.

Nghiên cứu và áp dụng công nghệ phần cứng mới giúp nâng cao hiệu suất và giảm chi phí Đồng thời, phát triển các giải pháp tiết kiệm năng lượng và thân thiện với môi trường, bao gồm việc sử dụng cảm biến tiết kiệm năng lượng và nguồn năng lượng tái tạo.

- Áp dụng hệ thống vào các môi trường khác ngoài lớp học, như văn phòng, bệnh viện, và các cơ sở công cộng.

Hệ thống điều khiển thiết bị trong lớp học thông minh sử dụng nhận dạng tiếng nói sẽ đáp ứng nhu cầu hiện tại và mở rộng khả năng ứng dụng, từ đó nâng cao chất lượng giáo dục trong tương lai.

Sau khi triển khai và đánh giá mô hình hệ thống điều khiển thiết bị trong lớp học thông minh với công nghệ nhận dạng tiếng nói và IoT, chúng tôi đã đạt được nhiều kết quả quan trọng Hệ thống không chỉ đáp ứng yêu cầu kỹ thuật mà còn vận hành hiệu quả, hứa hẹn nâng cao chất lượng giáo dục, cải thiện trải nghiệm người dùng và tối ưu hóa tài nguyên lớp học Chúng tôi hy vọng rằng với nền tảng vững chắc này, sẽ tiếp tục đạt được nhiều thành tựu trong lĩnh vực giáo dục thông minh và công nghệ tiên tiến.

Tiêu đề	Thiết Kế Hệ Thống Điều Khiển Các Thiết Bị Trong Lớp Học Thông Minh Ứng Dụng Nhận Dạng Tiếng Nói
Tác giả	Đỗ Minh Đức, Nguyễn Hồng Phong
Người hướng dẫn	TS. Nguyễn Việt Sơn
Trường học	Đại học Bách Khoa Hà Nội
Chuyên ngành	Kỹ thuật Điều khiển và Tự động hóa
Thể loại	đồ án tốt nghiệp
Năm xuất bản	2024
Thành phố	Hà Nội

Định dạng
Số trang	76
Dung lượng	7,99 MB