343| 0
|
[K10项目分享] 让行空板K10也能语音识别——基于micropython的语音机器人 |
本帖最后由 深邃蓝 于 2025-2-19 17:22 编辑 一、项目背景 K10受到处理器运算能力限制,无法在K10上独立部署完整的大模型语音识别、逻辑推理功能。但是可以把K10作为“瘦客户端”,只完成语音采集、语音播放、数据传输功能,语音识别、逻辑推理可以部署在电脑PC端,为了提高智能,需要借助互联网上现成的大模型。 二、项目组成 K10作为“瘦客户端”、PC电脑作为服务端,电脑端运行本地SIoT V2服务、本地XEDU环境,互联网上的通义千问大模型。 三、技术实现 K10运行K10端程序,按下A键录音,把生成的音频文件base64编码发送到电脑上的物联网SIoT服务器; 电脑启动电脑端程序,当收到K10发送过来的base64编码时,将该编码还原成音频保存的电脑上;电脑端加载语音识别模型wf(repo='yikshing/funasr-onnx-small') ,把该音频文件转变成文本;再交给互联网上的通义千问大模型'qwen',进行智能处理;处理完,再把该结果音频base64编码传回给K10端; K10端收到base64编码后,将编码还原成音频文件,播放出来。 四、后续问题 1、受限于K10 底层的micropython 拍照、保存无法实现,无法调用K10摄像头 2、运行速度慢,无法和“小智聊天机器人”比速度,但学生能很好地理解mqtt协议。 参考文献 结合SIoT的智能语音识别——让掌控板也能识别语音(https://xedu.readthedocs.io/zh-cn/master/how_to_use/support_resources/works/p3-aiot.html) |
© 2013-2025 Comsenz Inc. Powered by Discuz! X3.4 Licensed