Đề xuất giải pháp thu thập giọng nói, nén và truyền không dây thời gian thực trên hệ thống nhúng có tài nguyên hạn chế
7 lượt xemDOI:
https://doi.org/10.54939/1859-1043.j.mst.109.2026.35-46Từ khóa:
Không dây; Chuyển đổi giọng nói thành văn bản; STM32F411; Codec2; Hệ thống nhúng.Tóm tắt
Các hệ thống nhúng giới hạn tài nguyên đặc trưng bởi khả năng thực thi các tác vụ chuyên biệt với cấu hình phần cứng và phần mềm tối giản. Nhờ ưu điểm nhỏ gọn và tối ưu chi phí, chúng đóng vai trò thiết yếu trong hạ tầng công nghệ hiện đại. Bài báo này đề xuất kiến trúc hệ thống nhúng phục vụ thu thập, nén và truyền dữ liệu âm thanh không dây thời gian thực, hướng tới các thiết bị thông minh. Hệ thống tích hợp vi điều khiển STM32F411CE và micro MEMS INMP441, vận hành bộ mã hóa Codec2 tại tốc độ bit 3.2 kbps. Để tối ưu hóa hiệu năng, chúng tôi áp dụng thuật toán xử lý luồng dữ liệu chuyên biệt trên giao thức I2S và UART, tận dụng khả năng tăng tốc toán học của thư viện CMSIS-DSP kết hợp với mô-đun truyền dẫn NRF24L01 và kỹ thuật đóng gói COBS. Kết quả thực nghiệm cho thấy hệ thống hoạt động ổn định trong thời gian thực với độ trễ trung bình chỉ 2.31 ms/khung và công suất tiêu thụ thấp, dao động từ 50.27 đến 51.7 mW tại điện áp 3.3V. Các số liệu này khẳng định tính hiệu quả của mô hình trong việc giải quyết đồng thời bài toán về độ trễ truyền dẫn và tiết kiệm năng lượng. Kiến trúc hệ thống được đề xuất rất phù hợp và có tiềm năng ứng dụng trong các ứng dụng tập trung vào giọng nói thế hệ tiếp theo như chuyển đổi giọng nói thành văn bản phản hồi nhanh, nhận dạng lệnh thời gian thực và mô-đun dịch ngôn ngữ nhỏ gọn trên thiết bị.
Tài liệu tham khảo
[1]. D. L. Kuhite and M. S. Madankar, “Wireless audio transmission system for real-time applications — A review”, 2017 International Conference on Inventive Systems and Control (ICISC), Coimbatore, India, pp. 1-5, (2017). doi: 10.1109/ICISC.2017.8068680 DOI: https://doi.org/10.1109/ICISC.2017.8068680
[2]. Fathi, Inaam, Q. Ali and Abdul-Jabbar, “Real-Time Voice Transmission over Wireless Sensor Network (VoWSN) based Automatic Speech Recognition (ASR) Technique”, AL-Rafdain Engineering Journal (AREJ), vol. 24, no. 2, pp. 23-35, (2019). doi: 10.33899/rengj.2020.126441.1005 DOI: https://doi.org/10.33899/rengj.2020.126441.1005
[3]. I. Fathi, Q. I. Ali, and J. M. Abdul-Jabbar, “Design and Implementation of Real-Time Voice Streaming Evaluation Platform Over Wireless Sensor Network (VoWSN)”, 2018 International Conference on Advanced Science and Engineering (ICOASE), Duhok, Iraq, pp. 233-238, (2018). doi: 10.1109/ICOASE.2018.8548923 DOI: https://doi.org/10.1109/ICOASE.2018.8548923
[4]. Gomathinayagam. P and S. Jayanthy, “Performance Optimization of Codec in VOIP using Raspberry Pi”, International Journal of Engineering and Manufacturing (IJEM), vol. 8, no. 2, pp. 56-65, (2018). doi: 10.5815/ijem.2018.02.06 DOI: https://doi.org/10.5815/ijem.2018.02.06
[5]. V. K. Abdrakhmanov, R. B. Salikhov and K. V. Vazhdacv, “Development of a Sound Recognition System Using STM32 Microcontrollers for Monitoring the State of Biological Objects”, 2018 XIV International Scientific-Technical Conference on Actual Problems of Electronics Instrument Engineering (APEIE), pp. 170-173, (2018). DOI: https://doi.org/10.1109/APEIE.2018.8545278
[6]. S. Wisayataksin, “An Efficient Hardware Architecture of Codec2 Low Bit-rate Speech Decoder”, 2019 5th International Conference on Engineering, Applied Sciences and Technology (ICEAST), Laos, pp. 1-4, (2019). doi: 10.1109/ICEAST.2019.8802570 DOI: https://doi.org/10.1109/ICEAST.2019.8802570
[7]. Z. Yu, B. Su, and Y. Hou, “Transplantation of Codec2 Speech Compression Algorithm Based on STM32 Processor”, Instrumentation and Equipments, vol. 10(3), pp. 210-216, (2022). DOI: 10.12677/IAE.2022.103028 DOI: https://doi.org/10.12677/IaE.2022.103028
[8]. P. Jamieson, S. Sampath Kumar, J. A. M. Nacif and R. Ferreira, “Analyzing a Low-bit rate Audio Codec - Codec2 - on an FPGA”, 2021 International Conference on Computational Science and Computational Intelligence (CSCI), Las Vegas, NV, USA, pp. 1486-1492, (2021). doi: 10.1109/CSCI54926.2021.00065
[9]. A. A. Jaish and B. K. J. Al-Shammari, “QUALITY OF EXPERIENCE FOR VOICE OVER INTERNET PROTOCOL (VoIP)”, Wasit Journal of Engineering Sciences, Wasit, Iraq, pp. 96-105, (2023). DOI: https://doi.org/10.31185/ejuow.Vol11.Iss3.460
[10]. S. Cheshire and M. Baker, “Consistent overhead byte stuffing”, IEEE/ACM Transactions on Networking, vol. 7, no. 2, pp. 159-172, (1999). doi: 10.1109/90.769765 DOI: https://doi.org/10.1109/90.769765
[11]. J. Lin, K. Kalgaonkar, Q. He, and X. Lei, “Speech Enhancement for Low Bit Rate Speech Codec”, ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Singapore, pp. 7777-7781, (2022). doi: 10.1109/ICASSP43922.2022.9746670 DOI: https://doi.org/10.1109/ICASSP43922.2022.9746670
[12]. P. Jamieson, S. Sampath Kumar, J. A. M. Nacif and R. Ferreira, “Analyzing a Low-bit rate Audio Codec - Codec2 - on an FPGA”, 2021 International Conference on Computational Science and Computational Intelligence (CSCI), Las Vegas, NV, USA, pp. 1486-1492, (2021). doi: 10.1109/CSCI54926.2021.00065 DOI: https://doi.org/10.1109/CSCI54926.2021.00065
[13]. M. A. Syahmi Md Dzahir and K. Seng Chia, “Evaluating the Energy Consumption of ESP32 Microcontroller for Real-Time MQTT IoT-Based Monitoring System”, 2023 International Conference on Innovation and Intelligence for Informatics, Computing, and Technologies (3ICT), Sakheer, Bahrain, pp. 255-261, (2023). doi: 10.1109/3ICT60104.2023.10391358 DOI: https://doi.org/10.1109/3ICT60104.2023.10391358
[14]. Z. Fan, Z. Guo, Y. Lai, and J. Kim, “TSDCA-BA: An Ultra-Lightweight Speech Enhancement Model for Real-Time Hearing Aids with Multi-Scale STFT Fusion”, Applied Sciences, vol. 15, no. 15, art. no. 8183, (2025). doi: 10.3390/app15158183 DOI: https://doi.org/10.3390/app15158183
[15]. K. BhangaleMohanaprasad and K. Kothandaraman, “Survey of Deep Learning Paradigms for Speech Processing”, Wireless Personal Communications, vol. 125, no. 2, pp. 1-37, (2022). DOI: https://doi.org/10.1007/s11277-022-09640-y
[16]. T. H. Nguyen, D. N. Tran, S. Q. Dinh, and T. N. Dang, “Improving IoT system performance based on nRF2401 using Reed-Solomon code”, Journal of Science on Information and Communications Technology (JSTIC), Vietnam, no. 03 & 04 (CS.01), pp. 87-92, (2019).
[17]. Nguyen Trung Hieu, Kou Yamada, “A Novel Method for Multiple Sound Sources Localization with Low Complexity”, Advances in Electrical and Electronic Engineering, Vol. 23, No. 3, pp 173-188, (2025). DOI: 10.15598/aeee.v23i3.240708 DOI: https://doi.org/10.15598/aeee.v23i3.240708
