大家好,我是一名曾经只会excel的数据分析师。
后来经我的同事大鹏点拨,我知道了Python数据分析,向他学习进入了一条通神之路。今天是我“略懂”Python数据分析的第200天。
在这200天里,我的工作效率逐渐变高,处理数据量从千到万,接的项目越来越复杂,老板看我的眼神也越来越柔和,有时甚至单独请我吃饭……看来我很快就能升职加薪!
高兴之余,我对我的Python技术能力也有点担心,甚至陷入了一种瓶颈:
1、工作中有大量的描述性统计工作,要求不高,对我这种审美捉急的人来说,excel的快速样式有时候很关键。
2、我很少碰到Python能做而excel不能做的数据处理,excel很慢甚至死机,但只要电脑性能好,总能完成;
3、虽说会Python是优势,但公司的excel普及程度很高,介于项目合作原因我总是需要用excel衔接数据合作。
这不免导致我对Python技能的定位产生怀疑,我称这个现象叫非典型性Python冷淡综合症。
新刺激来的很快,就在今天,带我入Python坑的同事大鹏介绍来了一个新人小覃。我很快感觉到老板对我关爱的眼神落到了小覃身上。这不,他们正在工位电脑前谈笑风生。
这怎么行!老板最宠的只能是我!
我决定再次展开“欢迎新人”套近乎策略,探探这位新人如此招待见的原因。
走近他们,我先注意到了小覃电脑屏幕上有一堆猫猫狗狗照片,而小覃正在边写python代码边和老板解释什么。只见他迅速写了十几行代码并运行,成功地识别了图片里的猫。
第一步:进行模型训练,构建识别猫狗的CNN模型
第二步:测试一张测试集里的照片,确认照片的分类为猫
这看似简单的操作却这让我和老板都很好奇。
我从未处理过除了CSV和JSON以外格式的数据,面对新的思路,我不禁怀疑是否自己之前太过浅薄。
而老板一个劲的点头,说找对了人,接下来的AI旅游小程序项目有亮点了,咱们的产品肯定会刷爆朋友圈,还一边拿手机里的产品概念图给小覃看:
图中为计算机通过机器学习识别街景图片中的行人、自行车和机动车并定位边界。该数据有助于识别城市道路使用情况,甚至研究街道美学,能帮助使用者快速认知陌生城市。本图来自“城室科技”,欢迎有兴趣的小伙伴微信自行搜索。
看来面前是一位新大神,经验告诉我,喂到嘴边的大腿不能不跪,我立刻上前献上的膝盖,说道:覃大哥,小弟也算略懂Python,之前在公司做数据分析工作,但从没完成过你这么酷的操作,快教教小弟,你刚刚用Python干了什么?
覃大哥笑道:过奖了,其实刚刚就是基本的利用机器学习神经网络算法来识别图片里的对象。我使用Python加载深度学习工具包Keras,构建了一个是简单卷积神经网络(CNN)模型进行猫狗识别,用于给老板解释原理。你也一起听吧。
总的来说,我有一些猫狗图片,作为训练集数据(Training Set),它们是用于建立和优化模型的已经有标签的原始数据。而我们也会有一些测试集数据(Test Set),用于检验模型。我的目标是为了构建一个模型系统,把未知猫狗标签图片放进这个系统进行测试,正确地给它们打上是猫还是狗的标签。
图为实时识别猫狗的动态位置,算法来自 Joseph Redmon ,他研究使用计算机视觉的一种检测系统yolo来定位他家的猫狗,相关介绍可自行搜索ted演讲How computers learn to recognize objects instantly。
一个好的模型并不是一蹴而就,需要进行调整。比如我刚建立的CNN模型的准确率大概只在50%到60%,很低。因此实际应用上,我们一般会投入大量精力做一些提高准确率的操作。
常用的操作包括增加训练集样本数量、尝试使用更多或更少的特征值、集成模型等等方法。这决定了学习机器学习必须要捡起你的数学,不过这都是后话。
分辨猫狗是业界一个成熟案例,这里我们以一个训练好的图像分类模型VGG16为例,以便得到更准确的结果:
1# 搭建全连接层
2top_model = Sequential()
3top_model.add(Flatten(input_shape=vgg16_model.output_shape[1:]))
4top_model.add(Dense(256,activation='relu'))
5top_model.add(Dropout(0.5))
6top_model.add(Dense(2,activation='softmax'))
7
8model = Sequential()
9model.add(vgg16_model)
10model.add(top_model)
用此方法我们便可以更精确的辨认出猫狗。不管猫主子是何种奇特姿态,准确率都比较高,可达到85%。
覃大哥放下鼠标,转过头来,对我和老板说道:这是一个示例,让大家理解机器学习的一种工作方向,这个方向被称为“计算机视觉”,大家经常听说的的图像识别就是这门技术里的内容。老板想完成旅游小程序,用计算机视觉技术研究街景必不可少。
此时的我突然茅塞顿开,这不就是我一直找寻的突破口吗?早就听说人工智能机器学习,但一直觉得自己数学不好没有着手学习。现在看到演示,才发现千里之行,始于足下。
于是我立马向他问道:覃大神,请接收小弟的仰慕,能否教我这门技术,小弟能打水能锤肩学得快!
覃大神这候笑了:可以啊,入门不难,有个好老师带更是事半功倍,来腾讯课堂免费体验一下便知。
更可以加群:862672474,群内除了有热心的老师和同学们的答疑以外,还有更加系统、干货更密集的免费直播!