学会这些“套路”,excel 合并汇总都不是事

1. 问题背景

在日常工作中我们经常遇到具有相同表头的 Excel 文件,需要将它们合并到同一个工作表中再进行分析。当文件比较多时,手工合并表格通常是件很麻烦的事情,而如果数据量很大,用 Excel 自带的 VBA 来处理也会经常卡死。今天我就来分享一个专业的外部数据工具——集算器,掌握了集算器处理 Excel 多表合并的方法,就不用再编写复杂且低效的 VBA 代码了,简单的几行 SPL(Structured Process Language,结构化过程处理语言)代码就能轻松搞定 Excel 文件合并,即使文件再多、再大也不用担心。

2. 基本合并

A. 同一个 excel 中的多表合并

下面的例子是一个包含了销售数据的 excel 文件,其中包含了按月划分的 3 个结构相同的 sheet 工作表,数据如下:

集算器SPL脚本:

脚本说明:

A1:打开指定的 excel 文件,创建一个由多个 sheet 工作表组成的序列。

A2:利用 conj 函数遍历 A1 序列中所有的成员工作表,导入每个工作表中指定列'Customer Name','Sale Amount',并将数据并合并。其中 xlsimport 函数导入指定列,最后一列用分号; 隔开。 参数~.stname表示指定当前工作表,由于在 conj 函数的循环中,所以就可以逐个导入所有工作表。同时,xlsimport 使用选项@t指明将工作表的第一行记录作为字段名。

A3:将序表 A2 作为一个新的工作表“merge_sheets”保存到原来的 excel 文件中,同样用选项 @t 指明首行记录为标题。

这段脚本只有三句话,短小精干之余,逻辑清晰,也比较容易理解。下面我们再看看如何合并多个文件中的多个工作表。

B. 不同 excel 中的多表合并

下面是要合并的多个 excel 文件,它们都具有和上面例子相同的表结构,每个文件记录了当年的数据 

脚本说明:

A1:通过 for 循环,遍历指定目录下的 excel 文件,在 B1 到 B3 之间进行循环内处理.

B1:打开目录下的一个 excel 文件,生成序列。

B2:导入当前文件中的每个 sheet 工作表中指定列'Customer Name','Sale Amount','Purchase Date'的数据,然后合并这些数据,与前面例子中的 A2 类似。

B3:将序表 B2 的数据与 @表示的本网格的值进行合并。

A4:将序表 B3 保存到result.xlsx文件中的 merge_data 工作表中。

上面程序用两个循环就实现了多个 excel 文件数据合并,外循环 for 遍历了目录下所有的 excel 文件,内循环B1.conj则合并每个excel文件中的多个sheet工作表的数据。

C. 合并出大文件

前面第一个例子中的 A2、第二个例子中的 B3 都是在内存中装载了合并后的 Excel 的所有数据,然后一次性写出。如果文件太多太大,那么对内存的占用也会很大,甚至超出内存允许的范围。为此,我们可以采用流式追加的方式生成大文件。

脚本说明:

A1:打开指定输出的文件。

A2: 遍历目录下需要合并的 excel 文件。

B2:打开一个需要合并的 excel 文件。

B3:如果输出文件不存在,读取 sheet 工作表的所有数据,包括标题行;如果输出文件已经有了,就通过 @t 选项指明第一行是标题,从第二行开始读取数据。

B4:将 B3 读取的数据以流式追加到 A1 指定的输出文件的 merger 工作表中。

通过流式逐个读取文件数据后追加写入,这个方式适合将大量小的 excel 文件合并成一个大的 excel 文件。

3. 分组汇总

下面继续以前面的销售数据 excel 文件为例。

A. 字段分组

根据某个字段或多个字段实现分组计算,脚本如下:

脚本说明:

A1:打开指定的 excel 文件。

A2:读取并合并文件中所有 sheet 工作表的数据。

A3:在合并后的数据上按字段 'Customer ID' 分组求销售额、平均值

A4:在合并后的数据上按字段 'Customer ID', 'Purchase Date' 分组求销售额

B. 按序分组

集算器在进行分组聚合时还可以和相邻数据行对比,在原数据已经有序时可以不再排序,从而节省时间,并保持原有的次序。假设原数据已经按日期排序,我们想按月份分组统计时,代码如下。

集算器 SPL 脚本:

脚本说明:

A1至 B3:在前面的例子中已经介绍,将同一目录下所有相同结构的 excel 文件的工作表进行合并。

A4:在序表 B3 的基本上重新构造了一个序表 A4,将日期拆分,新增年、月字段。

A5:groups 跨年度按月分组汇总销售额、平均值。

A6:groups@o 按年月分组汇总销售额、平均值, 带参数 @o 实现分组归并处理.

其中,A4 为数据记录明细;A5 按月统计, 不区分年;A6 则按年月统计。这三个单元格中的数据展现出了不同层次的合并汇总结果。

C. 分段分组

将要统计的数据按条件分成几段,统计各组的情况。

集算器 SPL 脚本:

代码说明:

步骤A1到 B3 之间参考前面例子的说明。

A4:字段'Sale Amount'金额的范围分成 5 段,然后累计求出各段的数量及总数。

不过,这样的写法不够方便,如果我们想调整分段方案,就需要修改 groups 函数的参数,而这个参数表达式还是比较复杂的。这时,我们还可以利用集算器中另一个 pseg 函数,更方便地实现这个功能,脚本如下:

当然,我们也可以根据需要,按不同字段不同要求进行分组,然后进行统计处理。例如,在统计班级考生成绩时,各科成绩可划分成优、良、中、差、及格的分数区段,一次为条件进行统计。groups 用法还有很多,可以参考函数手册中相应的章节。

D. 大数据分组

前面的例子中,要读取的 excel 文件都不能很大,也就是都能一次读进内存。手工处理大文件,也会有类似的要求,因为同时打开多个文件,意味着把这些文件都装入内存,很可能会超过机器的物理内存,而用 VBA 读取的情况也差不多。这时,我们就需要用流式的方法读取数据,不需一次读进内存,而是边读取边合并。

集算器 SPL 脚本:

代码说明:

A1:使用 @r 选项指明以流式打开 excel 文件。

A2:遍历 excel 中的 sheet 工作表。

B2:使用 @c 选项指明以游标方式导入数据。

B3:将游标B2汇集到B3序列中。

A4:将游标序列B3的成员合并到一起组成新的游标。

B4: 序列A4按‘Customer ID’分组累计‘Sale Amount’。

A5:将结果保存。

通过游标以流的方式循环从大文件中读取一段段数据,实现对数据的分组合并。

4. 去重处理

实际数据合并过程中,往往会出现数据重复的现象,重复数据肯定会影响到我们对数据的计算分析。下面介绍使用集算器 SPL 脚本去除重复数据的几种主要解决方法。

A. 主键去重

sales_2013中的数据,设其主键为’Invoice Number’,则根据主键去掉重复记录。

代码说明:

A1:打开指定的 excel 文件。

A2:导入 sheet 工作表中指定列的数据。

A3:将序表 A2 按主键' Invoice Number '分组去重处理, 其中参数 @1 表示取每一个分组的第一条记录组成排列后返回(注意是数字 1,不是字母 l)。

A4:将结果保存。

各个 sheet> 中的数据是唯一的,但合并的数据不一定是唯一的,因此采用主键方式去掉重复数据。

B. 某字段去重

根据数据表sales_2013中的某字段去重处理, 查看不同姓名的雇员记录.

代码说明:

A1:打开指定的 excel 文件。

A2:导入 sheet 工作表中指定列的数据。

A3: 从序表 A2 中获取不重复姓名的记录

A4:从序表 A2中获取不重复姓名的记录列表。

A5:将序表 A4 另存,首行记录为标题。

A3数据去重结果:

C. 联合多字段去重

有的记录虽然有主键,但判断是否为重复的记录,需要用其它几个字段来确定,此时用多个字段联合来确定是否有重复记录.

代码说明:

A1:导入指定 excel 文件的数据。

A2:同上。

A3:按字段 'Customer ID', 'Purchase Date' 合并序表 A1,A2,返回序表 A3

A4:序表 A3 按 'Customer ID', 'Purchase Date' 分组去重。

A5:将结果保存。

当然,也可以根据需要,参考更多的字段进行分组合并,去掉重复记录。

D. 记录级去重

解决要合并的每个文件中的记录本身是不重复的,但合并后可能存在重复记录。

代码说明:

A1:导入 excel 文件的数据。

B1: 根据字段'Invoice Number'去掉序表 A1中的重复数据

A2、B2:同上。

A3:合并序表 B1,B2 的数据,并去掉重复数据记录返回序表 A3。选项 @u 表示序表成员按顺序合并到一起组成新的序表, 去掉重复的记录。

B3: 查看合并后的数据记录数。

merge@u适合对多序表合并处理, 其中序表内部有序且无重复数据。

本文主要介绍了集算器处理同构 excel 多文件合并、分组汇总数据及数据去重几种情况,在实际工作中,还会遇到异构的情况,只要把需要合并的字段读成集算器的集合对象,后续处理和同构的逻辑是一样的。学会了用这种专业数据处理工具,不仅能合并 Excel 文件, 合并其他文本数据方法也是一致的,再也不用担心合并数据中的多文件、大文件和结构差异问题了。

5. 附件:

salesrar下载地址:http://img.raqsoft.com.cn/file/2018/09/d8df41ec3114468eb310ef52c4516e1f_sales.rar 

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容