随着数据量越来越大,依赖于数据决策的场景越来越多,使用工具对于数据进行分析,越来越成为一个职场人必备的一项技能。那么如果要更自如的进行数据分析,就必须掌握几个数据分析常用的工具。俗话说的好:工欲善其事必先利其器。那么数据分析常备的工具是啥呢?神器组合:xmind + sql+power bi +excel。我自己在实际工作中也是屡试不爽的。
01 工具包
工具都是有自己的适用场景的,知道什么场景下用什么样的工具,可以最大程度的提高自己的效率。
各个工具的使用场景和顺序:
02 微软的商业智能'利器'
有些人可能对于POWER BI比较陌生,参考我之前的一篇文章来个科普贴。我自己是从2018年工作中接触到POWER BI,自那以后也是比较痴迷于它。
-POWER BI与excel处理逻辑相似,由于它是微软公司做的商业智能软件。
-从excel演变而来,计算表达式与excel的函数表达式很像,区别是POWER BI的函数直接作用于一列或者一张表。
-学习成本比SQL和Python都要简单,基本上能应付绝大部分数据分析场景。
-本身使用是免费的。
03 POWER BI的优势
下面以一个案例来讲下POWER BI使用及优势。
Kaggle上的一个零售数据集:某英国在线零售商8个月订单数据,订单表,产品维度表(是我随意打标签的创造的一个):
stockcode: 产品code,invoiceNo:订单号,invoicedate:下单日期,unitprice:单价,quantity:数量,customerid:顾客id;
我们从数据分析项目的流程来简单讲下优势(操作步骤见下图演示):
- 数据清洗整理(多数据源导入,清理模板,数据量大时候,速度快,数据基本空值情况)
可以从多数据源导入数据,本案例导入了csv和excel文件两种(1&2);然后在power query进可以看到列中的空值与错误值情况(3),用行了清洗,去除空值和负值,这些清理操作会被保留下来(4),下次更新数据源,不用再操作一遍。
- 数据模型建立 - 建立关系 + 表+ 计算列 + 度量值 + 计算应用(计算销售额)
POWER BI有个比较重要的功能就是数据模型,这个概念是数据仓库中有的,接地气点说就是搭建数据报表模板。
我们将两张表(5)通过stockcode这个子段建立了关系(6-vlookup),然后生成新的计算列‘销售额’(7),计算每个产品的价格,最后用度量衡聚合SUM函数计算来销售总额(8)。
- 我们用分析常用的视角来可视化探索这个零售的数据。
描述看各个国家的体量情况(9&10,采用地图视角);用分解树细分定位国家的主要构成品类(11&12);看各个品类的趋势情况(13&14)最后通过切片可以筛选任意国家的趋势情况(15&16)。
- 固定化成模板 -可以直接连接数据库。
POWER BI还有强大的功能可以直接连接数据库,然后可以根据已经制作好的模板,处理数据呈现想看的结果,以及建立动态仪表盘等等功能。
如果有兴趣入门的话,可以继续关注我的公众号,后续会对POWER BI进行分析专题分享;
欢迎关注微信公众号'数据氧气',回复【软件安装包】,即可获得文中的数据集以及POWER BI安装包和POWER BI文件。