2017年2-4月阶段总结

2017年从2月到4月底已经过去了三个月,回首过去,总结经验,展望未来。本文将从以下几个方面对过去的三个月做个总结。

技术的增长

在短短的三个月,往大脑中塞入了大量新技术,新知识。涉及python、Tornado、mongodb、运维工具(expect,shell,fabric),hadoop、hbase、hive、zookeeper、ycsb、ganglia等。总结起来可以分为两个阶段:python速成,hadoop生态初步接触。下面就从这个两个阶段进行总结。

Python速成

通过小项目驱动的形式,快速的从Python小白到能熟练的使用Python快速的解决各种问题。主要又分为了两个方面。
1、从股票数据的采集——>k线的合成——>数据的存储——>对外提供api


从tushare中采集股票的tick数据,然后实时的合成分钟线,存储到文件和mongo中,最后利用tornado搭建实时服务接口 tornado 实时服务架构设计 | 燕十 ,对外提供股票实时的分钟数据。一环扣一环的,就差没有使用vue写个前端把数据展示出来。
从熟悉Python的基本语法,数据结构,网络采集,异常处理,数据库操作,多线程,多进程,类,到使用Python框架tornado,一应俱全。一步一个坑,扎扎实实的入了Python的门。

2、房屋数据采集—>数据清洗—>模型训练



这是我的毕业设计,全程采用Python,从各大租房网站上采集房屋数据,到实时入库,数据清洗,到使用Scikit-learn建模。逐步熟悉了爬虫的编写,页面数据的解析,网络异常方面的处理,数据方面的处理,机器学习库的使用。

至此,通过两条线,我可以说对Python还是熟悉的,高级技巧不会,低级的难不倒。

hadoop生态初步接触

三月份开始入坑hadoop相关方面的生态,至此已经入坑2个月,从深陷沼泽到满满爬出。也分为两个方面吧

1、虚拟机——>线上安装测试—->hive
为了搭建公司的正式线上的hadoop集群,现在虚拟机中搭建了一个测试版本,熟悉整个搭建的过程。然后搭建了线上的hadoop集群,中间解决了很多实际遇到的问题,并对hadoop集群做了基本的性能测试,累计产出6篇技术总结文档。在此过程中学习使用运维工具(expect,shell,fabric)来对hadoop集群进行自动部署,管理等,还没有好好的总结一下。
随后又是折腾了一周的Hive,将股票的历史数据导入hive,做一些测试,使用Python连接Hive,hive分区,查询性能优化。

2、Hbase
从Hbase的性能开始,利用微博的数据进行性能方面的测试,逐渐的遇到了使用python写入Hbase的timeout问题(见 python写入Hbase超时问题分析 | 燕十) ,Hbase的热点问题,性能的优化。中间上了YCSB压测工具,ganglia性能监控工具。逐渐了解Hbase的特点,如何去优化,如何解决遇到的问题。Hbase就是我这段时间最难啃的骨头。

我画个图,来归纳总结一下。


我只想说,一个人啃着hadoop生态里这些螃蟹,越来越有点味道了,尽管前面坑无数,该跳的还是得跳。

阶段总结

总结完主要的部分——技术的增长,来概要总结一下其它方面的情况。
1、累计输出技术总结文档10篇左右,写文档的能力大幅提升
2、对问题的分析,思考过程逐渐深入
3、完全无师自学入门hadoop
4、编程装备:电脑支架,防蓝光眼镜,机械键盘都,眼部按摩仪都配齐了。

说了这么多好的,也必然有很多不足之处,列举三项主要的:
1、不能准确的抓住问题的要害,导致走很多的弯路,耗费很多的时间。如解决Hbase的超时问题.
2、有些关键点没有及时记录,总结没到位,导致二犯。
3、身体素质有点下降,天天对着电脑,头有点蒙逼

下个阶段的规划

为未来3个月(5月到7月底)做些规划
1、解决逐步解决一下两个问题
如何能够写成pythonic的代码,脱离低级的python开发者?
如何从源码上定位问题的原因?
2、hbase精通计划,逐渐阅读Hbase的源码,不只是停留在了解的层面上,要深入
3、机器学习基础计划:利用业余时间,学好机器学习的基础知识,主要是啃西瓜书
4、租房数据采集计划:不断采集各大租房网站的房源数据,用来找房和尝试各种机器学习算法

总说计划赶不上变化,但是前期计划能确定未来一段时间内大体的一个方向。

PS:欢迎想做租房数据研究方面的同学加入,主要工作有:
1、爬取自如,5i5j,58,安居客,蘑菇租房等房源的数据
2、数据整合预处理,格式化。
3、利用各种模型对数据进行建模分析。
4、数据前端展示(原型图见上面)
项目目标是能够解决两个问题:
1、找到一个潜在的制定租房价格的一个规则
2、更加快速的找到最优质的房源
有意向可以直接联系我:微信mindaxuxiaoping

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容