查看: 969|回复: 0

[K10项目分享] 让行空板K10也能语音识别——基于micropython的语音机器人

本帖最后由深邃蓝于 2025-2-19 17:22 编辑

一、项目背景

K10受到处理器运算能力限制，无法在K10上独立部署完整的大模型语音识别、逻辑推理功能。但是可以把K10作为“瘦客户端”，只完成语音采集、语音播放、数据传输功能，语音识别、逻辑推理可以部署在电脑PC端，为了提高智能，需要借助互联网上现成的大模型。

二、项目组成

K10作为“瘦客户端”、PC电脑作为服务端，电脑端运行本地SIoT V2服务、本地XEDU环境，互联网上的通义千问大模型。

三、技术实现

K10运行K10端程序，按下A键录音，把生成的音频文件base64编码发送到电脑上的物联网SIoT服务器；

电脑启动电脑端程序，当收到K10发送过来的base64编码时，将该编码还原成音频保存的电脑上；电脑端加载语音识别模型wf(repo='yikshing/funasr-onnx-small') ，把该音频文件转变成文本；再交给互联网上的通义千问大模型'qwen'，进行智能处理；处理完，再把该结果音频base64编码传回给K10端；

K10端收到base64编码后，将编码还原成音频文件，播放出来。

四、后续问题

1、受限于K10 底层的micropython 拍照、保存无法实现，无法调用K10摄像头

2、运行速度慢，无法和“小智聊天机器人”比速度，但学生能很好地理解mqtt协议。

参考文献

结合SIoT的智能语音识别——让掌控板也能识别语音（https://xedu.readthedocs.io/zh-cn/master/how_to_use/support_resources/works/p3-aiot.html）