数据集、图像识别、人脸识别最全总结

如果你遇到以下问题,很适合阅读本篇文章

  1. 数据集太小太零散,找不到合适数据?
  2. 数据集不知道从哪里获得,很容易得到的都是外国的
  3. 数据集不均匀训练的模型不准确、不收敛、很偏见
  4. 在犹豫优化模型还是继续找数据集
  5. 是否花钱购买数据
  6. 还在发愁找不到数据集训练你的模型?

如果用一个句子总结学习数据科学的本质,那就是: 学习数据科学的最佳方法就是应用数据科学。 如果你是一个初学者,你每完成一个新项目后自身能力都会有极大的提高,如果你是一个有经验的数据科学专家,你已经知道这里所蕴含的价值。

首先,在选择数据集时要记住几个重要标准:

  • 数据集不能过于混乱,过于混乱的数据会导致模型难以收敛,加大了训练难度。
  • 与训练目标相一致的数据集才能更高效的完成识别任务
  • 数据集量级是否符合模型规模,复杂的深度网络需要更多的数据才能发挥能力。

数据至关重要

数据质量决定着模型的准确率,技巧模型比重很小。好的数据是成功的90%,数据采集,数据标注,数据清洗,数据预处理,有着至关重要的作用。如果你是学生,下面文章提供几个下载数据集的网站及标注工具,方便快速跑起来你的代码。把精力都用在模型学习和优化上而非枯燥的数据处理。如果你是从业者,更多的数据才是制胜的法宝,可以采用下面列出的工具例如Aidiscovery快速收集尽可能多的数据。利用Labelme图像分割标注

数据集划分

训练集、验证集、测试集,这三个集合不能有交集,常见的比例是8:1:1。

数据准备之数据采集标注软件

【Labelme】 图像分割标注推荐

Labelme

Labelme

简单介绍:LabelMe的目标是提供一个在线注释工具,以建立用于计算机视觉研究的图像数据库。如果未完全标记图像,则用户可以使用鼠标在图像中绘制一个包含对象的多边形。LabelMe项目提供了一组工具,用于使用Matlab中的LabelMe数据集。

功能:

  • 对图像进行多边形,矩形,圆形,多段线,线段,点形式的标注(可用于目标检测,图像分割,等任务)。
  • 对图像进行进行 flag 形式的标注(可用于图像分类 和 清理 任务)。
  • 视频标注
  • 生成 VOC 格式的数据集(for semantic / instance segmentation)
  • 生成 COCO 格式的数据集(for instance segmentation)

地址:http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

点击下载

【Aidiscovery】数据采集自动分类推荐

Aidiscovery
http://aidiscovery.wntime.com/

简单介绍:无需登陆注册,即可免费下载。人脸数据自动收集,界面友好、操作简单、其中包含的数据采集是其他软件不具备的,包括数据增强自动分类,解决标注头疼问题。除此之外,对数据集的采集来源、数据采集量、数据分布等进行统计分析,以可视化图表的形式展现,辅助评判数据集可用性。

功能:

  • 数据采集,从视频和屏幕采集数据,实时标注
  • 数据增强,提供数据增强详细的参数选择及预览,有单一数据增强和组合数据增强
  • 数据处理,对于采集结果进行自动处理,再对不正确的手动处理
  • 统计分析,对于采集资源的优劣进行统计

地址:http://aidiscovery.wntime.com/

点击下载

常用数据集下载网站

一、【Kaggle】 地址:https://www.kaggle.com/datasets

kaggle网站

介绍:一个竞赛网站,上面有很多有价值的数据集和题目。每个比赛都是独立的。无需确定自己的项目范围并收集数据,可以腾出时间专注于其他技能。实践就是实践。

二、【ImageNet】 地址:http://image-net.org/

网站

介绍:ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象;在至少一百万个图像中,还提供了边界框。ImageNet包含2万多个类别

四、【MS COCO】 地址 :https://cocodataset.org/#download

介绍 :COCO是大规模的对象检测,分割和字幕数据集。COCO具有以下功能:对象分割、上下文识别、超像素东西分割、330K图像(已标记> 200K)、150万个对象实例、80个对象类别、91个东西类别、每个图像5个字幕、有关键点的250,000人

五、【COIL100】 地址:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

介绍:100 个不同的物体在 360°旋转中以每个角度成像

六、【Visual Genome】地址:http://visualgenome.org/

介绍:非常详细的视觉知识库,配有约 100K 个图像的注释。

七、【Labelled Faces in the Wild】地址:http://vis-www.cs.umass.edu/lfw/

介绍:13000 张贴有标签的人脸图像,用于作为人脸识别测试集。

八、【Stanford Dogs Dataset】地址:http://vision.stanford.edu/aditya86/ImageNetDogs/

介绍:包含 20580 个图像和 120 个不同品种的狗类别。注释:类别标签,边界框

九、【Indoor Scene Recognition】地址:http://web.mit.edu/torralba/www/indoor.html

介绍:该数据库包含67个室内类别,共15620张图像。图像的数量因类别而异,但每个类别至少有100张图像。所有图像均为jpg格式。此处提供的图像仅用于研究目的。

十、【vggface】地址:http://www.shujujishi.com/dataset/f66a2818-dd92-4c6e-bb83-a32f59f86170.html

介绍:VGG-Face中的身份分布数据集可能无法代表全球人口。在训练或部署根据此数据训练的模型时,根据场景使用,避免学习结果有偏见

| VGGFace2数据集 | 具有9131个身份的新的大规模面部数据集。 |
| VoxCeleb | 1251个VGG Face身份的YouTube视频的URL和时间戳。 |

十一、【MS-Celeb-1M】地址:http://academictorrents.com/details/9e67eb7cc23c9417f39778a8e06cca5e26196a97

介绍:用于识别人脸图像的相关数据集,一百万名人。知识库提供的丰富信息有助于进行消歧和提高识别精度,并有助于各种现实应用,如图像字幕和新闻视频分析。是世界上最大的公开数据集,在版本1中包含1000万幅图像。

十二、【PubFig: Public Figures Face Database】地址:https://www.cs.columbia.edu/CAVE/databases/pubfig/

介绍:PubFig数据库是一个大型的真实人脸数据集,58797张图像200人。与大多数其他现有的人脸数据集不同,这些图像是在完全不受控制的情况下拍摄的,对象不合作。因此,在姿势、照明、表情、场景、相机、成像条件和参数等方面有很大的变化。

十三、【megaface】地址:http://megaface.cs.washington.edu/dataset/download_training.html

介绍:megaface训练数据集是最大的(在身份数量上)可公开获得的面部识别数据集,具有470万张脸、672个身份和它们各自的边界框。

十四、【Yale Face Database 】http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html

介绍:耶鲁人脸数据库包含28个人在9种姿势和64种光照条件下的16128幅图像

其他

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,602评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,442评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,878评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,306评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,330评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,071评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,382评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,006评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,512评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,965评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,094评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,732评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,283评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,286评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,512评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,536评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,828评论 2 345