2017年2-4月阶段总结

2017年从2月到4月底已经过去了三个月，回首过去，总结经验，展望未来。本文将从以下几个方面对过去的三个月做个总结。

技术的增长

在短短的三个月，往大脑中塞入了大量新技术，新知识。涉及python、Tornado、mongodb、运维工具(expect，shell，fabric)，hadoop、hbase、hive、zookeeper、ycsb、ganglia等。总结起来可以分为两个阶段：python速成，hadoop生态初步接触。下面就从这个两个阶段进行总结。

Python速成

通过小项目驱动的形式，快速的从Python小白到能熟练的使用Python快速的解决各种问题。主要又分为了两个方面。
1、从股票数据的采集——>k线的合成——>数据的存储——>对外提供api

从tushare中采集股票的tick数据，然后实时的合成分钟线，存储到文件和mongo中，最后利用tornado搭建实时服务接口 tornado 实时服务架构设计 | 燕十，对外提供股票实时的分钟数据。一环扣一环的，就差没有使用vue写个前端把数据展示出来。
从熟悉Python的基本语法，数据结构，网络采集，异常处理，数据库操作，多线程，多进程，类，到使用Python框架tornado，一应俱全。一步一个坑，扎扎实实的入了Python的门。

2、房屋数据采集—>数据清洗—>模型训练

这是我的毕业设计，全程采用Python，从各大租房网站上采集房屋数据，到实时入库，数据清洗，到使用Scikit-learn建模。逐步熟悉了爬虫的编写，页面数据的解析，网络异常方面的处理，数据方面的处理，机器学习库的使用。

至此，通过两条线，我可以说对Python还是熟悉的，高级技巧不会，低级的难不倒。

hadoop生态初步接触

三月份开始入坑hadoop相关方面的生态，至此已经入坑2个月，从深陷沼泽到满满爬出。也分为两个方面吧

1、虚拟机——>线上安装测试—->hive
为了搭建公司的正式线上的hadoop集群，现在虚拟机中搭建了一个测试版本，熟悉整个搭建的过程。然后搭建了线上的hadoop集群，中间解决了很多实际遇到的问题，并对hadoop集群做了基本的性能测试，累计产出6篇技术总结文档。在此过程中学习使用运维工具(expect，shell，fabric)来对hadoop集群进行自动部署，管理等，还没有好好的总结一下。
随后又是折腾了一周的Hive，将股票的历史数据导入hive，做一些测试，使用Python连接Hive，hive分区，查询性能优化。

2、Hbase
从Hbase的性能开始，利用微博的数据进行性能方面的测试，逐渐的遇到了使用python写入Hbase的timeout问题（见 python写入Hbase超时问题分析 | 燕十），Hbase的热点问题，性能的优化。中间上了YCSB压测工具，ganglia性能监控工具。逐渐了解Hbase的特点，如何去优化，如何解决遇到的问题。Hbase就是我这段时间最难啃的骨头。

我画个图，来归纳总结一下。

我只想说，一个人啃着hadoop生态里这些螃蟹，越来越有点味道了，尽管前面坑无数，该跳的还是得跳。

阶段总结

总结完主要的部分——技术的增长，来概要总结一下其它方面的情况。
1、累计输出技术总结文档10篇左右，写文档的能力大幅提升
2、对问题的分析，思考过程逐渐深入
3、完全无师自学入门hadoop
4、编程装备：电脑支架，防蓝光眼镜，机械键盘都，眼部按摩仪都配齐了。

说了这么多好的，也必然有很多不足之处，列举三项主要的：
1、不能准确的抓住问题的要害，导致走很多的弯路，耗费很多的时间。如解决Hbase的超时问题.
2、有些关键点没有及时记录，总结没到位，导致二犯。
3、身体素质有点下降，天天对着电脑，头有点蒙逼

下个阶段的规划

为未来3个月(5月到7月底)做些规划
1、解决逐步解决一下两个问题
如何能够写成pythonic的代码，脱离低级的python开发者？
如何从源码上定位问题的原因？
2、hbase精通计划，逐渐阅读Hbase的源码，不只是停留在了解的层面上，要深入
3、机器学习基础计划：利用业余时间，学好机器学习的基础知识，主要是啃西瓜书
4、租房数据采集计划：不断采集各大租房网站的房源数据，用来找房和尝试各种机器学习算法

总说计划赶不上变化，但是前期计划能确定未来一段时间内大体的一个方向。

PS：欢迎想做租房数据研究方面的同学加入，主要工作有：
1、爬取自如，5i5j，58，安居客，蘑菇租房等房源的数据
2、数据整合预处理，格式化。
3、利用各种模型对数据进行建模分析。
4、数据前端展示(原型图见上面)
项目目标是能够解决两个问题：
1、找到一个潜在的制定租房价格的一个规则
2、更加快速的找到最优质的房源
有意向可以直接联系我：微信mindaxuxiaoping

最后编辑于：2017.12.07 01:51:40

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,293评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,604评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,958评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,729评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,719评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,630评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,000评论 3赞 397
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,665评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,909评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,646评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,726评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,400评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,986评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,959评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,996评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,481评论 2赞 342