OpenPose是基于深度学习的姿势估计开源框架。
它的源码托管在github上:OpenPose的链接
下载、安装可以参考官方文档,Visual Studio2017、CUDA9的安装方法可以参考国内某些博客【OpenPose-Windows】 OpenPose1.4.0+VS2017+CUDA9.2+cuDNN9.2+Windows配置教程 - CSDN博客
一、前序准备
在将Debug换成Release,右键openpose项目点击设为启动项目,再点击生成,等待一段时间。
生成完毕后,在Examples文件下找到OpenPoseDemo项目点击设为启动项目,再点击生成
二、解读Demo文件
首先是注释:
翻译如下:
如果您想学习使用OpenPose库,我们强烈建议您从examples / tutorial 文件夹开始。
此示例总结了OpenPose库的所有功能:
1.读取图像/视频/网络摄像头的文件夹(producer模块)
2.提取并渲染该图像的身体关键点/热图/ PAF(Part Affinity Fields)(pose模块)
3.提取并渲染该图像的面部关键点/热图/ PAF(face模块)
4.将结果保存在磁盘上(filestream模块)
5.显示渲染的姿势(gui模块)
多线程场景中的所有内容(thread模块)
第2~5点包含在wrapper模块中
除了之前的OpenPose模块,我们还需要使用:
1. core模块:
对于pose模块需要的Array类
` Datum是thread模块队列(queue)之间发送的结构体
2. utilities模块:
用于异常(error)和日志(log)记录功能,分别是op :: error和op :: log
导入依赖包
chrono是C++中的时间标准模块,拥有表示时间点、时间段的类,以及互相转换的方法
thread模块,顾名思义,是多线程标准模块
gflags是Google开源的命令行参数解析工具,用于声名、定义、验证命令行参数,后面的代码有体现
后面的#ifndef是允许Ubuntu 14使用Google Flags
最后引入openpose依赖库
使用`--help`标志查看所有可用的参数选项。
例如:
Linux下命令 `build / examples / openpose / openpose.bin --help`(保证根目录在Openpose中)
Windows的方法下面讨论,这个可以先不看
然后是地址栏参数的定义,有两百多行,并且每个函数的第一个参数都是未定义的符号,于是查看DEFINE_XXX的定义位置,发现就是gflags的宏定义类函数
格式是DEFINE_XXX(name, val, txt)
第一个参数name是参数名,第二个参数是参数默认值,第三个参数是参数说明
例如DEFINE_string(video, "", "......"),使用时写上OpenPoseDemo.exe --video path
当OpenPoseDemo --help时就会弹出txt
之后定义的int OpenPoseDemo()函数定义参数的验证、日志打印等操作
main函数调用OpenPoseDemo函数并返回OpenPoseDemo函数的返回值
具体解析放到最后(参阅附录二),可以先跳过
三、Demo文件的使用
第一种方法(不建议):
在 build \ x64 \ Release 文件下找到OpenPoseDemo.exe文件,单独运行会显示找不到各种dll文件,可以将exe文件与openpose.dll文件一同复制到 build \ bin 目录下,然后在命令行下运行,但是此方法会找不到其他依赖文件,所以不建议使用
第二种方法:
更改地址栏参数的默认值。
我们在Visual Studio中按Ctrl+F弹出的搜索框中输入`DEFINE_string(image_dir`,这是默认的图像识别文件夹,将要识别的目录输入即可,可以用openpose自带的测试集,既把默认参数改为:
同理,在这一行的上一行,或者搜索`DEFINE_string(video`即可找到视频的地址栏参数定义,输入路径及视频文件名即可
注意,识别的类型不能既是视频,又是图像,所以两个参数不能同时不为空,否则会报错
第三种方法:
真正用地址栏传参的方式,Visual Studio可以找到OpenPoseDemo项目,右键点击属性:
在打开的属性页面中,找到调试,右侧找到命令参数:
输入命令参数即可,上图的实例中还增加了--face(面部识别)和--hand(手部识别)
按F5运行即可
附录一、GUI快捷键大致翻译
当在UI界面按h时会弹出快捷键帮助页面,大致翻译一下
OpenPose命令:
改变默认的OpenPose参数
Z:是否使用面部检测(标志 --face)
X:是否使用手部检测(标志 --hand)
C:是否使用3D呈现
-=:减少/增加NMS阈值(NMSThreshold)
_+:减少/增加连接最小子集(ConnectMinSubsetScore)
[ ]:减少/增加连接内部阈值(ConnectInterThreshold)
{ }:减少/增加连接内部最小上界阈值(ConnectInterMinAboveThreshold)
; \: 减少/增加简介最小子集计数(ConnectMinSubsetCnt)
呈现命令:
改变显示类型(姿势、热图、PAF)
B:是否混合帧的结果
1:显示姿势/骨骼(基础图)
2:显示背景热图
3:显示所有热图(所有关节)
4:显示所有PAF(关节及关节的链接肢体)
,.:显示上一个/下一个元素
567890:联想初始化热图
杂项
G:突出显示眼睛为金鱼眼
只能使用GPU呈现
附录二、openPoseDemo函数解析
函数参数为空,返回类型为int,函数整体被包含在一个try块中,可以看出如果程序正常返回0
如果出现未预料到的异常,将打印error日志,输出结果为:错误信息,错误所在的行,错误所在的函数名以及错误所在的文件名并返回-1
再回到函数的开头首先
op::log("Starting OpenPose demo...", op::Priority::High);
const auto timerBegin = std::chrono::high_resolution_clock::now();
在控制台打印日志出Starting OpenPose demo...优先级为高
timerBegin为当前时间
用于检查参数logging_level,如果不在[0, 255]之间,则打印“错误的logging_level值”,并且打印出错所在的具体信息。
下面两行注释有解释:
这些是用于调试(Debug)的方法,假如你在op::ConfigureLog::setPriorityThreshold方法中传入op::Priority::None,则打印所有日志信息,op::Profiler::setDefaultX能控制打印日志的速度
应用用户定义配置给程序变量的Google标记
看一下输出大小, FLAGS_output_resolution看起来没被定义过,但其实前面得到宏定义类函数DEFINE_xxx已经给了它定义,这个变量一看就与output_resolution相关,用CTRL+F跳到定义处看看说明
DEFINE_string(output_resolution, "-1x-1",
"The image resolution (display and output). Use \"-1x-1\" to force the program to use the" " input image resolution.");
这个变量定义的是显示和输出的分辨率。并且规定使用“-1x-1”就是-1乘-1的意思,程序会使用输入的图片分辨率作为显示和诶输出的分辨率,同时这个值为这个变量的默认值
同理,看看第二个“网络输入大小”变量的含义,它所关联的变量为net_resolution
DEFINE_string(net_resolution, "-1x368",
"Multiples of 16. If it is increased, the accuracy potentially increases. If it is"
" decreased, the speed increases. For maximum speed-accuracy balance, it should keep the"
" closest aspect ratio possible to the images or videos to be processed. Using `-1` in"
" any of the dimensions, OP will choose the optimal aspect ratio depending on the user's"
" input value. E.g. the default `-1x368` is equivalent to `656x368` in 16:9 resolutions,"
" e.g. full HD (1980x1080) and HD (1280x720) resolutions.");
大致意思为:乘号两侧的变量值为16的倍数,如果增加,精度会变高,如果减少,速度会变快。为了获得最大的速度 - 精度平衡,它应该保持最接近输入值的宽高比可以处理要处理的图像或视频。因此,将乘号两侧的任意一值列为“-1”,另一个变量会自动根据输入的长宽比调整输出的长宽比,例如:如果输入的图像长宽比为16:9,那么“-1x368”就相当于"656x368"
按照同样的方法即可解析上面的代码
接下来,声明封装器类型变量,然后用封装器结构体(wrapperStructPose)将Pose数据封装,Face、Hand等同样如此
然后用封装器变量注册:
下面是看disable_multi_thread参数值,如果为真值,就要禁用多线程
开始进程,有两个不同的方法在多线程环境下运行程序
第一个方法是上面的opWrapper.exec(),作用如上面的注释所说:启动,运行\停止线程,当其他所有线程单元完成后启动该线程。
下面的是注释掉的是选项B:保持此线程空闲,以防你想要同时执行其他操作,例如 分析GPU内存。
注意:如果使用Qt支持编译OpenCV,选项B将不起作用。 Qt需要主线程来绘制可视化结果,因此最终的GUI(使用OpenCV)将返回类似于以下内容的异常:QMetaMethod :: invoke:无法在排队连接中调用带有返回值的方法。
函数的最后,获取结束时间并计算总时间然后打印出日志。
openPoseDemo函数解析完毕!