5089| 3
|
[M10教程] 基于行空板的shufflenetv2物体分类项目 |
一、实践目标 本项目在行空板上外接USB摄像头,通过摄像头来识别物体,找到画面中的方形物体并将其框出。 二、知识目标 学习使用opencv进行图像处理及形状检测的方法。 三、实践准备 硬件清单: 软件使用:Mind+编程软件x1 四、实践过程 1、硬件搭建 1、将摄像头接入行空板的USB接口。 2、通过USB连接线将行空板连接到计算机。 2、软件编写 第一步:打开Mind+,远程连接行空板 第二步:在“行空板的文件”中新建一个名为AI的文件夹,在其中再新建一个名为“基于行空板的shufflenetv2物体分类项目”的文件夹,导入本节课的依赖文件。 第三步:编写程序 在上述文件的同级目录下新建一个项目文件,并命名为“main.py”。 示例程序:
3、运行调试 第一步:运行主程序 运行“main.py”程序,可以看到初始时屏幕上显示着摄像头拍摄到的实时画面,将摄像头画面对准一个物体(如鼠标),可以看到概率最大的前三类结果被显示在了屏幕上,其中,概率最高的为“mouse,computer mouse”即鼠标。 4、程序解析 在上述的“main.py”文件中,我们主要通过opencv库来调用摄像头,实时地从摄像头中读取图像,然后使用ShuffleNetV2模型对图像进行分类,并在图像上打印出前三个最可能的类别。整体流程如下, ①初始化:程序启动时,会设置NCNN的环境变量。然后,打开默认的摄像头设备,并设置摄像头的分辨率和缓冲区大小。接着,创建一个名为'image'的全屏窗口,用于显示图像。最后,从模型库中获取ShuffleNetV2模型,并设置相关参数。 ②主循环:程序进入一个无限循环,在每次循环中,程序会执行以下操作: · 从摄像头中读取一帧。如果读取失败,则忽略这一帧,继续下一次循环。 · 使用ShuffleNetV2模型对读取到的帧进行分类,得到每个类别的分数。 · 在读取到的帧上打印出前三个最可能的类别。打印方式是在图像上添加文本,文本内容是类别的名称和对应的分数。 · 将打印后的帧逆时针旋转90度,然后在窗口中显示出来。旋转是为了使图像的显示方向与摄像头的拍摄方向一致。 ③用户交互:在每次循环的最后,程序会检查用户的键盘输入。如果用户按下了'ESC'键,那么程序会退出主循环。 ④结束:当主循环结束时,程序会释放摄像头设备,然后退出。这是为了释放摄像头设备占用的资源,使其可以被其他程序使用。 五、知识园地 1. 了解ShuffleNetV2模型 ShuffleNet V2 是一种轻量级的深度神经网络架构,专为在计算和内存资源有限的设备(比如智能手机或嵌入式设备)上运行而设计。它由FaceBook的研究团队在2018年提出,并在ImageNet图像分类任务上取得了很好的性能。 ShuffleNet V2的主要特点是引入了两种新的操作:channel shuffle(通道混洗)和pointwise group convolution(分组卷积)。这两种操作可以有效地减少模型的计算量和参数数量,同时保持良好的性能。 1. Channel Shuffle(通道混洗):这是一种操作,它会重新排列输入特征图的通道顺序。这样可以增加不同通道之间的信息交换,从而提高模型的表示能力。 2. Pointwise Group Convolution(分组卷积):这是一种特殊的卷积操作,它会将输入特征图的通道分成若干组,然后在每一组内部进行卷积。这样可以减少模型的计算量和参数数量,同时保持良好的性能。 ShuffleNet V2的另一个特点是模型架构的设计原则,包括等通道数卷积、均衡的宽度和输出通道数以及逐渐增大的输出通道数等,这些设计都是为了平衡模型的计算量、参数数量和性能。 总的来说,ShuffleNet V2是一种高效、轻量级的深度神经网络架构,适合在资源有限的设备上进行图像分类和其他计算机视觉任务。 |
4.89 MB, 下载次数: 495
© 2013-2024 Comsenz Inc. Powered by Discuz! X3.4 Licensed