行空板M10图形化——连接大语言模型+语音交互+图像理解 DF创客社区

本帖最后由春秋大仙于 2025-5-15 17:12 编辑

最近基于行空板的AI实操非常的火爆，很多想要初尝试的老师非常兴奋，然后就很多老师来问我，以期望能少走弯路，直接拿到最简单的方案。问我的最集中的问题就三个：1怎么连接大模型？、2连上大模型了怎么语音交互？、3能语言交互了还能不能让它能识别图片？。你别说，你还真别说，朴实的问题直接反馈出“生成式AI-AI能听会说-AI能看会辨”的教学架构，这很课纲。
既然问题来了，这不是给我水帖子的机会吗，那就简单整合一下，用Mind+图形化模块，实现基于M10的问题1、2、3。
【效果描述】
行空板M10连接大模型（GPT4o/DS），百度AI语音识别与语音合成实现语音交互，最后摄像头拍摄并上传图片，实现大模型根据图片内容进行反馈。效果如视频：

【器材清单】
1.DFR0706行空板M10：https://www.dfrobot.com.cn/goods-3404.html
2.FIT0701摄像头：https://www.dfrobot.com.cn/goods-2847.html
3.喇叭：无链接......
说明：我这个喇叭商城买不到，选这个喇叭主要是它有usb接口，这样M10连接喇叭和摄像头就不需要usb hub了，可以喇叭连行空板usb口，然后摄像头连喇叭usb口。大家可以选择其它usb喇叭，找个hub同时连喇叭和摄像头，一样。
【步骤1-解决大模型问题】
1-首先是行空板M10联网，联网方式通过10.1.2.3网关或者用户库搜索“行空板系统连接wi-fi”，加载wifi库通过积木连接都可以。行空板M10图形化——连接大语言模型+语音交互+图像理解图1

2-最关键的步骤，很简单，用户库搜索deepseek，就可以加载李东风老师封装的最新的大模型图形化库，非常好用。
行空板M10图形化——连接大语言模型+语音交互+图像理解图2

API大家自行选择即可，比如火山。
行空板M10图形化——连接大语言模型+语音交互+图像理解图5

3-大模型库加载好后，编程就简单了，我们可以先文字交互一下，测试一下模型是否成功连接，程序及效果如下。
行空板M10图形化——连接大语言模型+语音交互+图像理解图4

【步骤2-解决语音交互问题】
1-成功连接了大模型，接下来就是从文字交互升级为语音交互。很简单，我们选择百度语音库，注意百度语音在官方库里就有。
行空板M10图形化——连接大语言模型+语音交互+图像理解图6

2-实现语音交互这一个库就够了，程序虽然比较长，但是逻辑也比较简单，我已经做了注释说明，直接贴出完整程序。
行空板M10图形化——连接大语言模型+语音交互+图像理解图7

说明：这里说一个小点，程序第一条指令，是设置行空板播放音量的，用户库里搜索音量即可搜到用户库，大家连接喇叭播放声音的时候，如果没声音，可以优先用这个指令，排查一下是不是声音太小了没调大。
行空板M10图形化——连接大语言模型+语音交互+图像理解图8

【步骤3-解决拍照并上传的问题】
1-最后的照片理解功能，就更简单了。添加opencv库控制摄像头抓取图片（注意opencv也是在Mind+官方库里添加哦），按一下行空板B键打开摄像头，再按一下B键保存照片并上传（deepseek库的第三条指令），就完成啦。
行空板M10图形化——连接大语言模型+语音交互+图像理解图9

2-到这儿，程序就完成啦，完整程序截图如下，程序文件如附件。
K10的在线语音库也在研发中，等更新了再跟大家交流~
行空板M10图形化——连接大语言模型+语音交互+图像理解图10

[M10教程]行空板M10图形化——连接大语言模型+语音交互+图像理解 精华

[M10教程] 行空板M10图形化——连接大语言模型+语音交互+图像理解

春秋大仙 初级技匠 楼主|

春秋大仙 初级技匠 楼主|

春秋大仙 初级技匠 楼主|

春秋大仙 初级技匠 楼主|

春秋大仙 初级技匠 楼主|

春秋大仙 初级技匠 楼主|

我也不行 kimi 现在不知道咋办了

春秋大仙 初级技匠 楼主|

硬件清单

楼主的其它帖子

[M10教程]行空板M10图形化——连接大语言模型+语音交互+图像理解精华

春秋大仙初级技匠
楼主|

春秋大仙初级技匠
楼主|

春秋大仙初级技匠
楼主|

春秋大仙初级技匠
楼主|

春秋大仙初级技匠
楼主|

春秋大仙初级技匠
楼主|

春秋大仙初级技匠
楼主|