一同事工作之一是:从数据库拉出来一堆具有相同格式的excel表,然后新建一个excel表,将那堆excel表中的每个表里的固定的四个值复制出来,粘贴到新建的表中,完成数据的录入。有次忙不过来了,让我帮忙,一人50个excel表,然后就在那:打开excel、复制、粘贴、关闭excel、再打来下一个excel。这样重复50次,这还要注意别复制错了,操作过程中我在想要不回头我用python写个代码试试吧,不然老是这么搞太恶心了。
我对python的认知也就停留在看看别人的博客、看看机器学习、看看numpy、pandas、sklearn;注意我指的是“看看”,实际动手写代码很少、也没有完整的用代码去解决一个问题。像利用python进行数据分析这样的经典的书在我硬盘里都放一年多了,也都没有认真的看过几眼。
所以从本篇开始,记录的是一个小白的数据分析扯淡的经历,所以大家多去看大牛,甭来看我瞎扯淡,我就小白、啥都不懂。
那一堆EXCEL表是这个样子的:
人家要统计成这个样子的表:日期、Q1、Q2、Q3,为每个excel中需要提取出来的元素
一、从那堆excel表中选一个表,导入到python中,看看要复制的那四个元素在哪里,怎么提出来。
打开jupyter notebook,读入一个excel文件,如下(其他数据隐去,更改后如下):
二、提取并整理
一个excel表格会处理了,然后就想如何读取这堆excel表,然后咱再来个循环,应该就差不多了。
预期结果出现了: