String.split与StringUtils.split对比

0.前言

字符串分割是日常开发中常见的需求。实际中,我们也没少被String中的split函数挖坑。在commons-lang3中,有一个StringUtils类,里面有很多对字符串进行操作的方法,其中就有split方法。现在我们就将String里的split与StringUtils.split分别拿出来做一下对比。

1.先看代码

首先为了了解这些split方法的不同,我们先来看个简单的demo。二话不说,先上代码。

import org.apache.commons.lang3.StringUtils

object StrTest {

    def test() = {
        val raw = "a,,b,,c,ddd,,,"
        val res1 = raw.split(",")
        val res2 = StringUtils.split(raw, ",")
        val res3 = StringUtils.splitPreserveAllTokens(raw, ",")
        printArray(res1)
        printArray(res2)
        printArray(res3)
    }

    def main(args: Array[String]): Unit = {
        test()
    }

    def printArray(array: Array[String]) = {
        println("the length of array is: " + array.length)
        for(i <- 0 until array.length) {
            println(i + ": " + array(i))
        }
        println()
    }
}

这段代码里用到了三个跟split相关的方法:java.lang.String里的split方法, StringUtils里的split与splitPreserveAllTokens方法。

那么这三个方法的不同在哪里?先看代码的输出结果:

the length of array is: 6
0: a
1: 
2: b
3: 
4: c
5: ddd

the length of array is: 4
0: a
1: b
2: c
3: ddd

the length of array is: 9
0: a
1: 
2: b
3: 
4: c
5: ddd
6: 
7: 
8: 

2.String.split中需要注意的问题

可以看出上面三个split方法得到的结果都不尽相同。那为什么会这样呢?我们结合源码来一一分析。
首先我们来看String.split的方法原型。

public String[] split(String regex)

由此可见,split方法传入的是一个正则表达式。注意,参数regex是个正则表达式!所以,如果分隔符是正则表达式里的特殊字符,就需要打起十二分注意了。例如下面的例子:

String[] aa = "aaa|bbb|ccc".split("|");  //这样是不行的,得不到想要的结果
String[] aa = "aaa|bbb|ccc".split("\\|");  //这样才能得到正确的结果 

另外我们看为什么最后三个逗号也得不到预期的结果,主要是因为源码里有这么一部分代码:

            int resultSize = list.size();
            if (limit == 0) {
                while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
                    resultSize--;
                }
            }

由这段代码克制,当list最后一个元素的长度为0的时候,resultSize做了--的操作!(其实我也不明白JDK里为什么要这么干。。。)

3.StringUtils中的split方法

StringUtils中的split方法采用的也是KMP算法。由最前面的结果可以看出,StringUtils进行split的时候,会将结果中所有的空字符串过滤掉!当然如果是空格的话是不会过滤掉的。

4.StringUtils中的splitPreserveAllTokens方法

实际工作中做数据预处理的时候,经常会存在有些字段空缺的情况。但是即使这些字段空缺,我们也是需要保证分割得到的数组中包含空缺字段的,显然此时String.split方法与StringUtils.split都不能满足我们上面的需求。这个时候,就需要splitPreserveAllTokens出马了。
先看看StringUtils中split方法跟splitPreserveAllTokens方法的源码:

    public static String[] split(String str, String separatorChars) {
        return splitWorker(str, separatorChars, -1, false);
    }

    public static String[] splitPreserveAllTokens(String str, String separatorChars) {
        return splitWorker(str, separatorChars, -1, true);
    }

    private static String[] splitWorker(String str, String separatorChars, int max, boolean preserveAllTokens) 

由此可见,split与splitPreserveAllTokens方法都是调用的splitWorker方法,唯一的区别就是在调用splitWorker的时候,preserveAllTokens这个标志符,一个为false,另外一个为true,所以最后得出的结果不一样!

对于我们日常做数据的ETL清洗来说,因为经常存在有字段值为空的情况,所以我们尽量使用splitPreserveAllTokens方法为好!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,594评论 18 139
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,567评论 18 399
  • java笔记第一天 == 和 equals ==比较的比较的是两个变量的值是否相等,对于引用型变量表示的是两个变量...
    jmychou阅读 1,483评论 0 3
  • 我,一个刚毕业一年的大学生。大学毕业后不久便辞去了自己的工作,不远万里跨越了半个中国从东北回到了自己的家乡——河南...
    大威少阅读 267评论 0 1
  • 五个表达 1.well-rounded 原句:Mom said the only way I was going ...
    daimosun阅读 529评论 0 0