数据处理之“重复数据的查找和删除”

时间过得飞快,猴年就这样悄悄溜走,转眼迎来了鸡年。鸡年的第一篇关于数据分析的文章,我打算用来纪念2016年这个对于我来说并不平凡的猴年。
我常常在想,数据分析真的和生活联系的非常紧密。例如说,提到猴子,我们通常想起来孙悟空,提到孙悟空,我们又不难想到“真假美猴王”。其实在平常接触的数据中,我们总是会遇到很多重复的数据,这些重复数据就像六耳猕猴干扰我们的视听,扰乱分析的思路。于是,我们要有本事把重复的数据挑选出来,还要有本事把不需要的重复数据剔除掉。这可是很需要功力的哦。

真假美猴王(图片来源于百度)

关于筛选和剔除重复的数据,你平常是怎么操作的呢?犹记得,我刚刚参加工作的时候,对待重复数据的处理方式就是排序,而后挑选着删除一些重复的数据。这样的操作也能够达成目的,只不过确实相当费时间而且容易看花了眼。

挑花眼(我自己画的)

我今天为大家介绍几种可以快速查找重复项并对其进行删除的方式,希望可以在工作中有所帮助,毕竟我们需要更多的时间来好好生活好好恋爱嘛~
请注意,我们今天的原始数据是这样的:

原始图片.png

方法一:利用Excel条件格式

Excel在处理日常工作的过程中,其功能还是非常强大的。我们可以利用的最简便的方法常常藏在其中。
Step1,选中单元格区域A1:A10,选择“开始”--->“条件格式”--->“突出单元格显示规则”--->“重复值”,如图1.1所示。

1.1.png

Step2,经过上面的操作,我们会看到如下结果,如图1.2所示,在这里我们还可以为重复的单元格选择标记的颜色哦,是不是一目了然呢?

1.2.png

Step3,那么接下来,如何把重复的内容删掉,保留我们想要的数据呢?如图1.3所示,在“数据”选项卡中的“数据工具”组中,单击“删除重复项”,在“列”区域下面,选择要删除的列(这里只有“编号”这一列),并单击“确定按钮”。(PS:如果你只想删除重复的数据,却并不需要知道哪些数据重复,那么你可以选择跳过STEP1和STEP2,直接进行这一步。)

1.3.JPG

Step4,得到如图1.4所示的结果,在这里我们可以看到有多少重复值被删除,同时有多少唯一值被保留下来了。单击“确定”即可完成操作,得到我们最终的想要的结果。

1.4.JPG

总结一下,这种方法的优缺点如下:
优点:可以看到到底是哪些数据重复了,而且比较快捷的得到重复值删除后的结果。
缺点:至于每一个重复项的数量有几个,并不能够直观看到。


方法二:利用“高级筛选”功能处理重复值

如果想要找出重复值,“高级筛选”功能又怎么能被我们忽略呢?更何况在处理重复数据的过程中,该方法还十分简便易行。
Step1:选中单元格区域A1:A10,在“数据”选项卡中的“排序和筛选”分组中找到“高级”按钮,点击该按钮,可以看到弹出一个“高级筛选”对话框。如图2.1所示:

2.1.JPG

Step2:在上图所示的对话框中,选中“将筛选结果复制到其他位置”,在“复制到”文本框中选中B1区域,同时注意勾选“选择不重复的记录”,点击“确定”按钮,如图2.2所示。得到的结果如图2.3所示。

2.2.JPG
2.3.JPG

总结一下,这种方法的优缺点如下:
优点:非常方便快捷的得到删除重复数据后的结果。
缺点:并不能直观的看到到底是哪些数据重复了,重复数据的个数分别是多少。


方法三:利用COUNTIF函数处理重复数据

综合上述方法一和方法二我们不难看出,上面的两种方法操作起来非常简单,但是缺点也非常明显。那就是,如果想要定位到具体的重复项,并且直观了解到该重复项的数量,上述两种方法就略显不足了。所以,如果需求比较复杂,需要了解到重复项的数量或者排序的话,我们就要借用COUNTIF函数来进行处理了。

Step1:首先了解一下COUNTIF函数。COUNTIF函数的作用是:对所选区域中满足单个指定条件的单元格进行计数,如图3.1所示。

3.1.jpg

Step2:选中B2单元格,然后输入函数公式:=COUNTIF(A:A,A2),如图3.2所示。这就表示“数一数在A列,像A2这样的有几个”:

3.2.JPG

Step3:选中C2单元格,输入函数公式:=COUNTIF(A$2:A2,A2),如图3.3所示。这就表示“在A列中,该单元格中的项目是第几次出现”


3.3.JPG

Step4:将B2和C2的公式复制到B3:C11的所有单元格,可以得到如下结果,如图3.4所示。这里需要说明下,拿“AD652280”举例子,这里的B4表示“AD652280”在A列一共有两个;而C4则表示,“AD652280”在A列第一次出现,C10表示“AD652280”在A列第二次出现。这样我们就能够直观看到有哪些项是重复的,重复了几次(可以看B列);这些项从哪里开始重复的,第几次重复(看C列)。

3.4.JPG

Step5:为了方便讲解,我们给B列命名为“有几个”,给C列命名为“第几个”。我们可以通过删除C列中计数不为“1”的项目来达到删除重复数据的目的(即把第二次、第三次。。。第N次出现的都删掉)。选中“第几个”列即C列中有数据的单元格,在“数据”选项卡中选择“排序和筛选”--->点击“筛选”--->点击C列的列标签上出现的下拉菜单--->点击“数字筛选”--->选择“不等于”,如图3.5所示。

3.5.JPG

Step6:在图3.6所示的对话框中,红框内填入“1”,而后点击“确定”。

3.6.JPG

Step7:删除在上一步中得到的行,即可得到最终的不重复的结果。

3.7.JPG

看了上面介绍的几种方法,是不是感觉自己的功力又有所提高了呢?
其实呀,正是因为我们在日常的工作中,掌握了一个又一个看起来平凡但却非常有用的方法,才使得我们能够脱颖而出、与众不同呢。
还犹豫什么,赶快学起来吧,下一个升职加薪的,一定是你哦~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容

  • 翻译自“Collection View Programming Guide for iOS” 0 关于iOS集合视...
    lakerszhy阅读 3,817评论 1 22
  • 做为互联网的一个工作人员,尤其是运营岗位,一天工作时间最多触碰的工具就是excel了,比如数据整理、分析、设计报表...
    韩利阅读 12,910评论 9 203
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,409评论 25 707
  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,856评论 6 13
  • 心真的会痛。在暗夜里抽搐,仿佛被扭了一下,然后,一阵疼痛就从心脏那儿弥漫开来,原来这就是心痛的感觉,痛过,就什么也...
    雪鹿森林阅读 442评论 3 8