75| 3
|
[M10教程] 行空板M10图形化——连接大语言模型+语音交互+图像理解 |
本帖最后由 春秋大仙 于 2025-5-15 17:12 编辑 最近基于行空板的AI实操非常的火爆,很多想要初尝试的老师非常兴奋,然后就很多老师来问我,以期望能少走弯路,直接拿到最简单的方案。问我的最集中的问题就三个:1怎么连接大模型?、2连上大模型了怎么语音交互?、3能语言交互了还能不能让它能识别图片?。你别说,你还真别说,朴实的问题直接反馈出“生成式AI-AI能听会说-AI能看会辨”的教学架构,这很课纲。 既然问题来了,这不是给我水帖子的机会吗,那就简单整合一下,用Mind+图形化模块,实现基于M10的问题1、2、3。 【效果描述】 行空板M10连接大模型(GPT4o/DS),百度AI语音识别与语音合成实现语音交互,最后摄像头拍摄并上传图片,实现大模型根据图片内容进行反馈。效果如视频: 【器材清单】 1.DFR0706行空板M10:https://www.dfrobot.com.cn/goods-3404.html 2.FIT0701摄像头:https://www.dfrobot.com.cn/goods-2847.html 3.喇叭:无链接...... 说明:我这个喇叭商城买不到,选这个喇叭主要是它有usb接口,这样M10连接喇叭和摄像头就不需要usb hub了,可以喇叭连行空板usb口,然后摄像头连喇叭usb口。大家可以选择其它usb喇叭,找个hub同时连喇叭和摄像头,一样。 【步骤1-解决大模型问题】 1-首先是行空板M10联网,联网方式通过10.1.2.3网关或者用户库搜索“行空板系统连接wi-fi”,加载wifi库通过积木连接都可以。 ![]() 2-最关键的步骤,很简单,用户库搜索deepseek,就可以加载李东风老师封装的最新的大模型图形化库,非常好用。 ![]() ![]() API大家自行选择即可,比如火山。 ![]() 3-大模型库加载好后,编程就简单了,我们可以先文字交互一下,测试一下模型是否成功连接,程序及效果如下。 ![]() 【步骤2-解决语音交互问题】 1-成功连接了大模型,接下来就是从文字交互升级为语音交互。很简单,我们选择百度语音库,注意百度语音在官方库里就有。 ![]() 2-实现语音交互这一个库就够了,程序虽然比较长,但是逻辑也比较简单,我已经做了注释说明,直接贴出完整程序。 ![]() 说明:这里说一个小点,程序第一条指令,是设置行空板播放音量的,用户库里搜索音量即可搜到用户库,大家连接喇叭播放声音的时候,如果没声音,可以优先用这个指令,排查一下是不是声音太小了没调大。 ![]() 【步骤3-解决拍照并上传的问题】 1-最后的照片理解功能,就更简单了。添加opencv库控制摄像头抓取图片(注意opencv也是在Mind+官方库里添加哦),按一下行空板B键打开摄像头,再按一下B键保存照片并上传(deepseek库的第三条指令),就完成啦。 ![]() ![]() 2-到这儿,程序就完成啦,完整程序截图如下,程序文件如附件。 K10的在线语音库也在研发中,等更新了再跟大家交流~ ![]() ![]() |
© 2013-2025 Comsenz Inc. Powered by Discuz! X3.4 Licensed