【mysql】将以固定分隔符分隔的字符串转成多行的形式

背景

近期在做用户标签项目,目前标签的存储是用户id,标签ids(每个标签以,形式存储) 的形式,但是如果想统计前后两天标签的变化,使用find_in_set函数,一方面查询速度慢(因为不能使用索引),另一方面目前标签已有将近300多个,以后还会更多,一个标签一个标签的写,使得sql特别长。
目前采取的策略是:将用户标签表拆分成 用户id,标签id的形式。这样将前后两天的表关联,就能查出昨天到今天有那些标签离开,哪些标签进来。
那么采用上述策略就需要研究怎么将用户id,标签ids的形式转换成用户id,标签id的形式。

探索

我们知道像 1,2,3,4,5,212 这种字符串,如果要分别取到1 2 3 4 5 212,用编程的思想就是先将该字符串用","分隔成一个数据,然后遍历取到数组里的每一个值,但是在mysql里并没有数组的概念,但是我们可以用各种方法求得字符串的长度,以及求得使用“,”分隔后有多少个值。也可以用mysql可以采取的字符串截取的形式去获得相应位置的数值。下面就让我们看一下吧~

实现

  • 相关表结构
CREATE TABLE `tagids_label` (
  `userid` int(11) NOT NULL COMMENT '用户id',
  `label` int(11) NOT NULL COMMENT '标记,暂时 保留三天的数据,day%3 ',
  `day` int(11) NOT NULL COMMENT '对应的统计日期的天',
  `tagids` text NOT NULL COMMENT '标签id,以,(英文)分隔',
  `createTime` datetime NOT NULL COMMENT '创建时间',
  `updateTime` datetime NOT NULL COMMENT '更新时间',
  PRIMARY KEY (`userid`,`label`),
  KEY `index_day` (`day`),
  KEY `index_label` (`label`),
  KEY `index_label_userid` (`userid`,`label`),
  KEY `index_createTime_userid` (`userid`,`createTime`),
  KEY `index_userid` (`userid`),
  KEY `index_createtime` (`createTime`) USING BTREE,
  FULLTEXT KEY `index_tagids` (`tagids`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='用户标签结果表'
CREATE TABLE `sequence` (
  `seq` int(3) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8

ps:sequence表表示标签的个数,从1到最大个数

  • 获得固定分隔符分隔后元素个数

    • 原数据
    SELECT * FROM `tagids_label` WHERE `userid` =2
    
    blockchain
    171,172,173,174,175,184,187,189,191,192,49,52,55,90,96,101,104,110,7,9,253,270,277,280,129,131,134,136,138,139,231,241,58,63,66,70,72,75,77,79,84,149,150,159,163,165,166,193,195,256,225,236,246,248,197,200,207,221,210,278,227
    
    • 分隔符分隔后元素个数
    SELECT length(`tagids`) ,length(REPLACE (`tagids`,',','')),length(`tagids`)-length(REPLACE (`tagids`,',',''))+1  FROM `tagids_label` WHERE `userid` =2
    
    image.png
    • 注:length(tagids)计算字符串长度,以字节为单位,每个数字、英文标点符号是一个字节,每个中文、中文标点符号是3个字节。length(tagids)表示tagids含有多少个数字和标点符号
      replace(tagids,',','')将字符串tagids里的","用空字符来代替,length(replace(tagids,',',''))就表示tagids含有多少个数字。
      length(tagids)-length(replace(tagids,',','')) 表示tagsid含有多少个标点符号,那标点符号+1就表示tagids用","分隔符分隔后含有多少个元素,即标签个数。

  • substring_index 截取字符串
    • 根据关键字","截取字符串
    SELECT substring_index('171,172,173,174,175,184,187,189,191,192,49,52,55,90,96,101,104,110,7,9,253,270,277,280,129,131,134,136,138,139,231,241,58,63,66,70,72,75,77,79,84,149,150,159,163,165,166,193,195,256,225,236,246,248,197,200,207,221,210,278,227', ',',1)
    UNION ALL 
    SELECT substring_index('171,172,173,174,175,184,187,189,191,192,49,52,55,90,96,101,104,110,7,9,253,270,277,280,129,131,134,136,138,139,231,241,58,63,66,70,72,75,77,79,84,149,150,159,163,165,166,193,195,256,225,236,246,248,197,200,207,221,210,278,227', ',',2)
    UNION ALL 
    SELECT substring_index('171,172,173,174,175,184,187,189,191,192,49,52,55,90,96,101,104,110,7,9,253,270,277,280,129,131,134,136,138,139,231,241,58,63,66,70,72,75,77,79,84,149,150,159,163,165,166,193,195,256,225,236,246,248,197,200,207,221,210,278,227', ',',3)
    UNION ALL 
    SELECT substring_index('171,172,173,174,175,184,187,189,191,192,49,52,55,90,96,101,104,110,7,9,253,270,277,280,129,131,134,136,138,139,231,241,58,63,66,70,72,75,77,79,84,149,150,159,163,165,166,193,195,256,225,236,246,248,197,200,207,221,210,278,227', ',',4)
    UNION ALL 
    ......
    UNION ALL
    SELECT substring_index('171,172,173,174,175,184,187,189,191,192,49,52,55,90,96,101,104,110,7,9,253,270,277,280,129,131,134,136,138,139,231,241,58,63,66,70,72,75,77,79,84,149,150,159,163,165,166,193,195,256,225,236,246,248,197,200,207,221,210,278,227',',',61)
    
    结果:
    171
    171,172
    171,172,173
    171,172,173,174
    ......
    171,172,173,174,175,184,187,189,191,192,49,52,55,90,96,101,104,110,7,9,253,270,277,280,129,131,134,136,138,139,231,241,58,63,66,70,72,75,77,79,84,149,150,159,163,165,166,193,195,256,225,236,246,248,197,200,207,221,210,278,227
    
    • 注:substring_index(str,delim,count) 说明:substring_index(被截取字段,关键字,关键字出现的次数),如果count=-1我们就可以截取到倒数第一个被关键字分隔的元素。只要在上面查询结果中再使用一次substring_index即可获得每个被关键字分隔的元素。

  • 最终实现
SELECT
    userid,
    SUBSTRING_INDEX(
        SUBSTRING_INDEX(tagids, ',', seq),
        ',' ,- 1
    ) sub_id,
    seq
FROM sequence
 JOIN (SELECT * FROM `tagids_label` WHERE  userid = 2)b
WHERE
    seq BETWEEN 1
AND (
    SELECT
        1 + LENGTH(tagids) - LENGTH(replace(tagids, ',', ''))
)
ORDER BY
    userid,
    tagids;

  • 结果:


    image.png

    image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容