文:数据观
来自:数据观 https://www.shujuguan.cn/?from=jianshu
[摘要]:数据清洗在数据分析中的重要性毋庸置疑。就像日料一样,“食材”质量越高,“食物”的口感就越好。然而这个过程并不简单,令很多有分析愿望的业务人员都望“洗”生畏。其实,数据观的ETL工具就可以帮助你快速地完成一些主要的清洗工作,而且非常简单。快跟小观练起来吧![主文]:
料理菜式:
找出最近30天内,访问量最高的7个入口页面(不含首页),并能下钻查看网页的累计访问次数和平均访问时长。
所需食材:
1、一份Down自百度统计的实时访客CSV文件。
2、一个数据观免费使用账号。
料理前的准备工作:1、连接数据
点击“数据连接”,选择“文件”,选择“上传CSV”,上传您的实时访客数据即可。
2、新建ETL
点击“创建数据”,选择“ETL”,进入到这张画布,激动人心的时刻就要开始啦!
食材处理难关之——
[日子每天都在过,表格每天都得做?]
描述:我每天都想知道最近30天访问量最高的入口页面,但是我并不想每天调数据。有自动跟着变的方案吗?答案:有!秘密武器:[日期计算]+[过滤]
[日期计算]顾名思义,就是对日期进行计算。您可以对日期、月份、年份、季度等不同时间段动手脚。而我们这次要用的叫做“日期差”,可以很轻松地计算出每一次访问的“距今时间”。
将新列命名为“距今天数”,将操作方式选择为“日期差”,用“当前日期”减去“访问时间”,您的原始表格上就会出现一个名为“距今天数”的新列,并且里面是算好的天数啦!
接下来,我们用一手[过滤],直接解决“30天内”这个需求。
将需要过滤的列选为“距今天数”,比较类型为“小于等于”,因为天数是我们自己设定的,所以选成“与指定值比较”,并输入“30”。PS:如果您希望得到的7天或者15天,那么输入“7”或“15”就可以了。
我们会得到“距今天数”小于等于30的数据,也就是在30天内的访问数据。
食材处理难关之——
[时长构成太混乱,不是整数怎么算?]
描述:我要计算访问时长的平均值,但默认格式是文本,里面有空值、未知、正在访问等等,时长数值后面还有个单位‘s’,完全不具备把它转换为“整数”的条件。有什么功能能批量把单位去掉,并把空值、未知、正在访问都转换为空值吗?答案:有!秘密武器:[替换文本]+[修改列类型]
第一次[替换文本],解决的是单位问题。
我们需要处理的列是“访问时长”,所以选择该列,输入要去掉的字符“s”,将之替换为“空字符串”即可。第二次[替换文本],解决的是将“未知”转成空值的问题。
第三次[替换文本],解决的是将“正在访问”转成空值的问题。最终,“访问时长”只剩下数值及空值,此时再来一招[修改列类型],将“文本”转换成“整数”即可。
此时,“访问时长”已经变成“整数”类型了。
是数字就好办——计数、平均、最大值、最小值……想怎么算就怎么算!
食材处理难关之——
[入口页面一大批 偏偏只想看前七]
描述:访客从各个页面来访,但我们最关注的是前七个页面,能实现只看TOPN,而不看其它吗?答案:能!秘密武器:[排序和累计]
首先扪心自问——我要对什么排序?在空白框中写下你的答案——“访问量排序”。接下来选择排序的方法——“排序值(连续)”。然后找到右上方那个“应用”按钮,点击,即可进入下一步设置了。
选择要排序的列——“访问入口页面”然后选择排序方式——“降序”所有访问入口页面的名次就出来啦!不过,这还不是前七啊?别着急,前七的问题,“摆盘”的时候就给您解决!摆盘:
首先,将图表类型选择为“条图”——最适合展示 TopN的图表类型。然后,将“纵轴”选为“访问入口页面”,横轴选为“访问IP”(统计方式为“计数”),所有访问入口页面就按照访问量排列出来了。
此时,我们添加“过滤”,将过滤字段选为“访问量排序”,将数值设为“1~7”,前七位就出来啦!当然,如果您想看前10,前20,也可以随时调整,非常方便。
最后,点击“数据下钻”,添加想要查看的列,就可以看到该页面的详情。是不是很方便呢?最方便的是,这些处理您只做一次就行。以后,更新数据,结果自动出图哦~
手动处理这些数据,台前1分钟,台后一天功。交给数据观ETL工具的话,台前1分钟,台后也就10分钟。[结语]:百度统计后台设计的已经足够好,但如果能把百度统计的数据按照自己的需求进行分析,甚至和产品数据、其它推广渠道的数据结合起来共同分析,那就更好。当很多运营都止步于那份看起来密密麻麻的CSV文件时,你手起刀落,干净利索地将之变成一份有价值的数据洞察,是多么有成就感的事。大家的原始字段虽然都是流水线出品,但有些字段的待遇却是萨维尔街的,这就是运营与运营之间的不同。当普通运营把后台当作一切,而你把后台当作一切的开始时,你就赢了。让我们都具备让数据说话、让商业智能的魔力吧!更多ETL知识,请阅读:数据观数据处理手册亲手做过才是自己的哦!