关于数据采集-数据清洗-数据分析-数据可视化-数据挖掘

       学习了python 三年半了,一路磕磕碰碰,我把这一路学习python的心的说一下,思路主要是围绕数据的采集到数据的结果整个流程展开概述,多讲讲pythoon用着的模块,至于数据分析思路,这是无法短时间之内能说得清的,思路大多是根据经验得出来的;每个人都有自己对事物的见解和看法。

      数据分析大概要通过这几个过程:

              第一:数据采集;现在是互联网时代,如果公司只拿内部数据来分析,形象比喻就是在沙子中塞石头,不好赛,(这里个别情况除外,公司数据具备完整性情况、看分析的目的是什么,不能一棍子打死啊,哈哈);所以,如果能通过技术手段合法从数据源地去采集数据那是更好不过;数据源我们有搜索引擎、社交媒体、电子商务、本地阅读、科研教育等这些地方拿数据来分析,这会很大程度帮助老板;这些数据能够帮助公司做什么;如判断市场潜力、品牌舆情、产品现状、用户反馈等这些; 通过哪些工具实现的,python 的scrapy 、selenium、request这些数据采集框架相结合来做;另一只办法是市面上有很多爬虫软件来实现;不过针对于爬虫这一块来说,因为反爬虫再不断在进步,外加千变万化的网页繁多,不同的网页要用不同xpath解析去提取自己需要的信息;所以用软件来实现爬虫对很多公司可能需要一个磨合期和烧懂一点技术最好,建议可以找数据服务咨询公司。

           第二:数据的清洗;这一步至关重要,数据分析的结果的优劣直接和数据清洗的程度挂钩;python 里有pandas 、numpy ,高一点的就是preprocessing这些都是可以的,数据清洗的目的就是保证数据的准确性、完整性、一致性、具有可信性和可解释性;方法都有缺失值的处理、噪声数据等,有忽略元组法、中心度量、中位数、决策树填补,分箱、回归、离群点分析等。

          第三:数据分析:数据分析很多是根据经验去做的,比如维度选择哪些合适,具体的分析方法有 对比分析法、分组分析法、结构分析法、漏斗分析法、交叉分析法、综合评价分析法、5w1h分析法、聚类分析、主成分分析等等,太多了;上面的这些啊,都能够通过python解决,只要我们代码写好,直接每天就在看版上看数据,差一点的做法是matplotlib,pandas dataframe ,scipy结合做;如果稍好一点,用django开发个后台,每天就在后台看数据了。

        第四:数据展示:数据展示就是第三步骤提到了点;如果需要开发后台   展示用echarts显示,替代了python的matplotlib模块;

       第五:数据挖掘:数据挖掘怎么说呢,没有一个严格的界定,或许有的人会问什么是数据挖掘、什么是数据分析;我按照自己的理解来说,有不同理解的勿喷,我也支持您;只要能从数据中找出来对企业有价值的信息,都可以称为数据挖掘,这样一来,上面提到的一到四步综合起来就是数据挖掘需要做的过程;要精确来说,数据挖掘包含了这几步骤:数据清洗——数据集成——数据选择——数据变换——数据挖掘——模型评估——结论展示。上面这些步骤都是可以借助python完成;

     我把我的想法说出来,欢迎大家来一起讨论学习或者咨询;大家一起进步,自己不愿意在有限的视野中分析事物,也欢迎给位老板各抒己见,引领年轻人前进。

给一点采集的代码演示,大家要多敲多想多看;          文章未经本人统一不得转载


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343