让行空板K10也能语音识别——基于micropython的语音机器人
本帖最后由 深邃蓝 于 2025-2-19 17:22 编辑一、项目背景K10受到处理器运算能力限制,无法在K10上独立部署完整的大模型语音识别、逻辑推理功能。但是可以把K10作为“瘦客户端”,只完成语音采集、语音播放、数据传输功能,语音识别、逻辑推理可以部署在电脑PC端,为了提高智能,需要借助互联网上现成的大模型。二、项目组成K10作为“瘦客户端”、PC电脑作为服务端,电脑端运行本地SIoT V2服务、本地XEDU环境,互联网上的通义千问大模型。三、技术实现K10运行K10端程序,按下A键录音,把生成的音频文件base64编码发送到电脑上的物联网SIoT服务器;电脑启动电脑端程序,当收到K10发送过来的base64编码时,将该编码还原成音频保存的电脑上;电脑端加载语音识别模型wf(repo='yikshing/funasr-onnx-small') ,把该音频文件转变成文本;再交给互联网上的通义千问大模型'qwen',进行智能处理;处理完,再把该结果音频base64编码传回给K10端;K10端收到base64编码后,将编码还原成音频文件,播放出来。四、后续问题1、受限于K10 底层的micropython 拍照、保存无法实现,无法调用K10摄像头2、运行速度慢,无法和“小智聊天机器人”比速度,但学生能很好地理解mqtt协议。
参考文献结合SIoT的智能语音识别——让掌控板也能识别语音(https://xedu.readthedocs.io/zh-cn/master/how_to_use/support_resources/works/p3-aiot.html)
https://www.bilibili.com/video/BV15RA6euENt/?spm_id_from=333.999.0.0
页:
[1]