【R】字符型数据及处理

字符型向量

字符型向量是元素为字符串的向量。 如

> s1 <- c('abc', '', 'a cat', NA, '李明')

注意空字符串并不能自动认为是缺失值, 字符型的缺失值仍用NA表示。

paste()函数

针对字符型数据最常用的R函数是paste()函数。 paste()用来连接两个字符型向量, 元素一一对应连接, 默认用空格连接。 如paste(c("ab", "cd"), c("ef", "gh")) 结果相当于c("ab ef", "cd gh")。

paste()在连接两个字符型向量时采用R的一般向量间运算规则, 而且可以自动把数值型向量转换为字符型向量。 可以作一对多连接, 如paste("x", 1:3)结果相当于c("x 1", "x 2", "x 3")。

用sep=指定分隔符, 如paste("x", 1:3, sep="")结果相当于c("x1", "x2", "x3")。

使用collapse=参数可以把字符型向量的各个元素连接成一个单一的字符串, 如paste(c("a", "b", "c"), collapse="")结果相当于"abc"。

转换大小写

toupper()函数把字符型向量内容转为大写, tolower()函数转为小写。 比如,toupper('aB cd')结果为"AB CD", tolower(c('aB', 'cd'))结果相当于c("ab" "cd")。 这两个函数可以用于不区分大小写的比较, 比如,不论x的值是'JAN', 'Jan'还是'jan', toupper(x)=='JAN'的结果都为TRUE。

字符串长度

用nchar(x, type='bytes')计算字符型向量x中每个字符串的以字节为单位的长度,这一点对中英文是有差别的, 中文通常一个汉字占两个字节,英文字母、数字、标点占一个字节。 用nchar(x, type='chars')计算字符型向量x中每个字符串的以字符个数为单位的长度,这时一个汉字算一个单位。

在画图时可以用strwidth()函数计算某个字符串或表达式占用的空间大小。

取子串

substr(x, start, stop)从字符串x中取出从第start个到第stop个的子串, 如

> substr('JAN07', 1, 3)
## [1] "JAN"

如果x是一个字符型向量,substr将对每个元素取子串。如

> substr(c('JAN07', 'MAR66'), 1, 3)
## [1] "JAN" "MAR"

用substring(x, start)可以从字符串x中取出从第start个到末尾的子串。如

> substring(c('JAN07', 'MAR66'), 4)
## [1] "07" "66"

类型转换##

用as.numeric()把内容是数字的字符型值转换为数值,如

> substr('JAN07', 4, 5)
## [1] "07"

> substr('JAN07', 4, 5) + 2000
## Error in substr("JAN07", 4, 5) + 2000 : 
##   non-numeric argument to binary operator

> as.numeric(substr('JAN07', 4, 5)) + 2000
## [1] 2007

> as.numeric(substr(c('JAN07', 'MAR66'), 4, 5))
## [1]  7 66

as.numeric()是向量化的, 可以转换一个向量的每个元素为数值型。

用as.character()函数把数值型转换为字符型,如

> as.character((1:5)*5)
## [1] "5"  "10" "15" "20" "25"

如果自变量本来已经是字符型则结果不变。

为了用指定的格式数值型转换成字符型, 可以使用sprintf()函数, 其用法与C语言的sprintf()函数相似, 只不过是向量化的。例如

> sprintf('file%03d.txt', c(1, 99, 100))
## [1] "file001.txt" "file099.txt" "file100.txt"

字符串拆分

用strsplit()函数可以把一个字符串按照某种分隔符拆分开,例如

> x <- '10,8,7'
> strsplit(x, ',', fixed=TRUE)[[1]]
## [1] "10" "8"  "7"

> sum(as.numeric(strsplit(x, ',', fixed=TRUE)[[1]]))
## [1] 25

因为strsplit()的结果是一个列表, 这个函数延后再详细讲。

字符串替换功能

用gsub()可以替换字符串中的子串, 这样的功能经常用在数据清理中。 比如,把数据中的中文标点改为英文标点, 去掉空格,等等。 如

> x <- '1, 3; 5'
> gsub(';', ',', x, fixed=TRUE)
## [1] "1, 3, 5"

> strsplit(gsub(';', ',', x, fixed=TRUE), ',')[[1]]
## [1] "1"  " 3" " 5"

字符串x中分隔符既有逗号又有分号, 上面的程序用gsub()把分号都换成逗号。

正则表达式

正则表达式(regular expression)是一种匹配某种字符串模式的方法。 用这样的方法,可以从字符串中查找某种模式的出现位置, 替换某种模式,等等。 这样的技术可以用于文本数据的预处理, 比如用网络爬虫下载的大量网页文本数据。 R中支持perl语言格式的正则表达式, grep()和grepl()函数从字符串中查询某个模式, sub()和gsub()替换某模式。 比如, 下面的程序把多于一个空格替换成一个空格

> gsub('[[:space:]]+', ' ', 'a   cat  in a box', perl=TRUE)
## [1] "a cat in a box"
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,602评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,442评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,878评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,306评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,330评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,071评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,382评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,006评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,512评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,965评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,094评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,732评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,283评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,286评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,512评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,536评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,828评论 2 345

推荐阅读更多精彩内容