学习了python 三年半了,一路磕磕碰碰,我把这一路学习python的心的说一下,思路主要是围绕数据的采集到数据的结果整个流程展开概述,多讲讲pythoon用着的模块,至于数据分析思路,这是无法短时间之内能说得清的,思路大多是根据经验得出来的;每个人都有自己对事物的见解和看法。
数据分析大概要通过这几个过程:
第一:数据采集;现在是互联网时代,如果公司只拿内部数据来分析,形象比喻就是在沙子中塞石头,不好赛,(这里个别情况除外,公司数据具备完整性情况、看分析的目的是什么,不能一棍子打死啊,哈哈);所以,如果能通过技术手段合法从数据源地去采集数据那是更好不过;数据源我们有搜索引擎、社交媒体、电子商务、本地阅读、科研教育等这些地方拿数据来分析,这会很大程度帮助老板;这些数据能够帮助公司做什么;如判断市场潜力、品牌舆情、产品现状、用户反馈等这些; 通过哪些工具实现的,python 的scrapy 、selenium、request这些数据采集框架相结合来做;另一只办法是市面上有很多爬虫软件来实现;不过针对于爬虫这一块来说,因为反爬虫再不断在进步,外加千变万化的网页繁多,不同的网页要用不同xpath解析去提取自己需要的信息;所以用软件来实现爬虫对很多公司可能需要一个磨合期和烧懂一点技术最好,建议可以找数据服务咨询公司。
第二:数据的清洗;这一步至关重要,数据分析的结果的优劣直接和数据清洗的程度挂钩;python 里有pandas 、numpy ,高一点的就是preprocessing这些都是可以的,数据清洗的目的就是保证数据的准确性、完整性、一致性、具有可信性和可解释性;方法都有缺失值的处理、噪声数据等,有忽略元组法、中心度量、中位数、决策树填补,分箱、回归、离群点分析等。
第三:数据分析:数据分析很多是根据经验去做的,比如维度选择哪些合适,具体的分析方法有 对比分析法、分组分析法、结构分析法、漏斗分析法、交叉分析法、综合评价分析法、5w1h分析法、聚类分析、主成分分析等等,太多了;上面的这些啊,都能够通过python解决,只要我们代码写好,直接每天就在看版上看数据,差一点的做法是matplotlib,pandas dataframe ,scipy结合做;如果稍好一点,用django开发个后台,每天就在后台看数据了。
第四:数据展示:数据展示就是第三步骤提到了点;如果需要开发后台 展示用echarts显示,替代了python的matplotlib模块;
第五:数据挖掘:数据挖掘怎么说呢,没有一个严格的界定,或许有的人会问什么是数据挖掘、什么是数据分析;我按照自己的理解来说,有不同理解的勿喷,我也支持您;只要能从数据中找出来对企业有价值的信息,都可以称为数据挖掘,这样一来,上面提到的一到四步综合起来就是数据挖掘需要做的过程;要精确来说,数据挖掘包含了这几步骤:数据清洗——数据集成——数据选择——数据变换——数据挖掘——模型评估——结论展示。上面这些步骤都是可以借助python完成;
我把我的想法说出来,欢迎大家来一起讨论学习或者咨询;大家一起进步,自己不愿意在有限的视野中分析事物,也欢迎给位老板各抒己见,引领年轻人前进。
给一点采集的代码演示,大家要多敲多想多看; 文章未经本人统一不得转载