查看: 4316|回复: 0

[官方资料] （21）： “Hello AI World” 图像分类指令

本帖最后由 jetson小助理于 2021-7-7 09:54 编辑

在前面的文章中，我们以“10 行 python 代码”为基础，深入地讲解了 Hello AI World 项目的输入（videoSource）、输出（videoOutput）以及参数解析的功能，就是为了让大家能更了解这个项目提供的工具是如此好用。

接下来我们回到 Hello AI World 的三大深度学习推理识别应用，Hello AI World 项目针对这三个应用，分别提供专门的函数库，协助使用者轻松调用。

本期将介绍“图像分类”这个应用的相关资源，包括项目已经编译好的相关工具，以及代码级别的函数调用方式，协助用户能更进一步地利用这些资源进行学习，并且开发出自己的应用代码。

当我们安装 jetson-inference 开源项目之后，系统已为我们的 Jetson 设备上安装好了“imagenet”这个执行指令以及“imagenet.py”这个可直接执行的 Python 代码。请开启一个终端，并且执行以下指令：
（21）： “Hello AI World” 图像分类指令图1

由于系统预设的输入源是 CSI 摄像头，如果您的设备上已经装好 CSI 摄像头的话，就会正常启动摄像头的画面，如下图：
（21）： “Hello AI World” 图像分类指令图2

如果设备上没安装 CSI 摄像头，就会出现以下的错误信息：
（21）： “Hello AI World” 图像分类指令图3

假如您的设备上装有 USB 摄像头的话，可以执行以下指令，将输入源改成 USB 摄像头：
（21）： “Hello AI World” 图像分类指令图4

如果您的设备上没有任何摄像头的话，可以试试用视频文件或图像文件作为输入源。设备里面的/usr/share/visionworks/source/data 下面有些测试可用的视频，在~/jetson-inference/data/images 里面也有 100 多张图片，它们都可以妥善用来进行以下的测试：
（21）： “Hello AI World” 图像分类指令图5

好了，现在至少确认您已经有了能够作为测试的数据源。

图像分类简介

这是图像识别之后最入门的应用，深度学习之父 Geoffrey Hinton 为了让计算机能够识别最简单的“手写数字（如下图）”，几乎穷其一生的精力，开发堪称深度卷积神经网络（DCNN）鼻祖的 LeNet 神经网络算法。
（21）： “Hello AI World” 图像分类指令图6

后来经过他的爱徒 Alex Krizhevsky 改良的 AlexNet 神经网络，在 2013 年全球 LSVRC 图像识别竞赛中一举成名，才让深度神经网络的用途得到充分的验证，从此打开“深度学习”的康庄大道，在人工智能应用上得到了**性的突破。而当时 AlexNet 的崛起，其实是高度依赖 NVIDIA GPU 的众核（ManyCores）架构，换言之，如果没有 NVIDIA GPU 的计算架构，如今深度学习可能还无法得到如此大的突破发展。

图像识别的应用，是以“图像”为单位去识别图像分类归属问题的。例如下图，每张图都属于一个分类，左边两种的特性还比较明显，最右边一张图里面虽然有“珊瑚”、“热带鱼”等，但是在归类过程就只归属于“珊瑚礁”类别。这是图像识别的基本原则。
（21）： “Hello AI World” 图像分类指令图7

接下来我们就使用 Hello AI World 项目为我们准备好的“imagenet”工具以及 100 多张已下载的图像，来进行图像分类的推理识别实验。

使用 imagenet 进行图像分类识别

一开始我们已经简单了解了 imagenet 指令的简单用法，事实上在项目编译好之后，与图像分类有关的指令一共有 6 个。

这 6 个指令分别是：imagenet、imagenet-camera、imagenet-console、imagenet.py、imagenet-camera.py 与 imagenet-console.py。

经过测试之后，发现功能都一样，所以大家只要简单记住 imagenet 与 imagenet.py 这两个就可以。

其中 imagenet 指令作为这部分的测试用途，imagenet.py 作为下一部分的 Python 代码说明使用。

作为图像分类的推理识别应用，是由以下这几个部分所组成：

输入的数据源：可以是一张（批）图像、视频文件、摄像头等
输出的结果：可以打印在显示器，或者存到一个视频文件
选择已支持的预训练模型：

这是由其他人已经训练好的模型文件，包括 NVIDIA、Google 等非常多业界先进，且都已预先训练好的优异模型。

由于这些模型的训练非常耗费时间与精力，并且需要有经过长期维护与筛选的数据集做基础，因此一开始使用别人已经训练好的模型，能减少大量的时间成本。

本项目已经预先建立了以下 10 种模型，我们可以非常轻松地调用：
（21）： “Hello AI World” 图像分类指令图8

这些模型都是 NVIDIA 从 ILSVC 大赛的 ImageNet 数据集中，挑选了 1000 类的图像数据，在最高端的 DGX 服务器上（价值至少 50 万人民币），基于 Caffe 这个深度学习框架，经过数天时间所训练出来的模型。
而每个神经网络模型还包含以下三类文件：

.caffemodel：存放特征内容的模型文件
.prototxt：存放神经网络结构的文件
Ilsvrc12_synset_words.txt：存放 1000 个类别名称与描述

这些相关文件都在“安装过程”的“Download Models”时，放置在了对应的路径下。
好了，在了解整个图像分类所需要的内容之后，就能明白imagenet指令所需要的参数了，主要就是“input”、“output”与“--network=”这三个部分，每个部分在系统里面都有预设值，因此，假设什么都不给，这个指令还是可以执行的。
由于这些指令的执行，一开始都需要载入 TensorRT 加速引擎，因此一次检测一张图像，就会相当没效率，我们的测试就用批次方式来进行测试，请执行以下指令：
（21）： “Hello AI World” 图像分类指令图9