禀承简单粗暴的理念,先上结论:
接下去的五年,依然是交通信息化建设的高潮。提供服务是信息化发展的目标。要搭建平台让各方参与。公路和水路仅仅是失去焦点但仍是交通部主业。民航和铁路依然游离在交通部的主流业务之外。互联网+们依然还是点缀。
2016年5月初,交通运输部印发了《交通运输信息化“十三五”发展规划》,作为一份全国性的、专业性的规划,其意义自然不言而喻。结合到最近看到的一篇有关分词分析的文章,就想着能不能从分词的角度对这个规划进行一下解读。科普一个名词解释:分词,指的是将文字序列切分成一个一个单独的词语,然后从词频、词性等方面对原文进行解析。
一、原材料和工具
1、《交通运输信息化“十三五”发展规划》TXT全文文本。
2、《公路水路交通运输信息化“十二五”发展规划》全文TXT文本,有比较才好分析是不是,找十二五规划正是为了有所对照。
3、Python jieba分词模块。
二、编码过程
感谢强大的Python语言,没有让我遇到太多的麻烦,最后的核心代码非常简单,因为总共只需要解析两个文本文件,所以偷懒没有使用任何的循环语句。
import jieba
from collections import Counter
from pandas import Series
# 导入自定义词典,直接使用原词典会出现十三五、云计算、大数据、两客一危、联网联控、客运枢纽,甚至十八大等词语无法识别的问题,所以需要自定义。
jieba.load_userdict("add_new_words.txt")
text125 = open("jt_info_125.txt").read()
text135 = open(“jt_info_135.txt").read()
# len(word)>2是为去除掉标点、数字序号、空格、百分号和“和”、“的”、“了”等不影响分词解析的符号和字
words_125 = [word for word in jieba.cut(text125, cut_all=False) if len(word) >= 2]
words_sum_125 = Series(Counter(words_125)).sort_values(ascending=False)
words_sum_125.to_csv('words_sum_125.csv', encoding='gbk')
words_135 = [word for word in jieba.cut(text135, cut_all=False) if len(word) >= 2]
words_sum_135 = Series(Counter(words_135)).sort_values(ascending=False)
words_sum_135.to_csv('words_sum_135.csv', encoding='gbk')
两份文件的字数都在18000字左右,对于这个体量的文本,Python的处理速度飞快,就在我按下运行键下一秒,两份csv文件就静静的躺在了指定的文件夹里。
三、分词结果
为了更直观的了解分词的结果,我将十三五规划原始分词结果生成了词云。在线词云工具用的是World Cloud Generator。
为了集中注意力,我自作主张将『交通运输』、『交通』、『信息』和『信息化』这四个词语从上面这个列表中拿掉了,因为本来就是讲交通运输的信息化,这四个词语本来就是主角,权重太大的主角列在表中,反而有碍于我们对其他词语的观察。从最后的分词数量上来看,十二五规划得到了1298个词语,十三五规划只有1167。
这是经过整理后,列出的两份规划出现频数的前25位,原谅我这一生不羁放纵爱Excel:
四、胡乱解读
- 主基调还是“建设”。相对于高速公路等交通基础设施,交通信息化在这十年中,还是要埋头于建设,建设,再建设。然后建设为了谁?
- “建设”是为了“服务”。服务,再服务。服务谁?政府、社会、企业、公众。
- “推进”代替“发展”进入了前五。十二五的时候,“推进”还在第18名,到了十三五,为什么要这么重视“推进”?因为信息化建设和服务的难度大啊,想想当初如火如荼的滴滴,为了推进这个应用,腾讯和阿里砸进去了数以十亿计的真金白银,才有了如今这个局面。
- 上升35位的“平台”。十二五中排名第41的“平台”到了十三五一下子跻身第6,让人有种看不懂的感觉。还是举约租车的例子,为什么Uber或滴滴会掀起那么大的波浪,以至于如果不是世界各国的政府部门硬扛着,传统的出租车行业恐怕早就被颠覆的底朝天了。因为Uber们做的是平台啊。什么是平台?平台就是大家都可以上去唱戏的舞台,众人拾柴火焰高啊。要想做大,就要做平台。淘宝也是平台,上面有百万计的卖家。微信也是平台,我们都在上面不停的给腾讯贡献着流量和信息。作为全国交通行业规则的制订者,交通部自然将打造信息化平台作为自己的重要任务。我们原来谈信息化侧重于系统建设,现在系统仍然很重要,但在系统建的差不多的时候,就是考虑将系统升级为平台了。你不能只顾着自己玩,要带着小弟们一起玩,这样才能玩的high,玩的高,玩的爽啊。
- 从第22名到第10名的“工程”。我觉得工程像是第一名“建设”的宾语,哥哥实力这么强,全国高考状元,弟弟稍弱些,弄个第10名总也可以吧?况且交通部门做了这几十年的土木工程包工头,对“工程”二字总还是有些鱼水情深,信息化工程虽然没有土木工程来得大手笔,但好歹也算是工程。
- 落寞的“公路”和“水路”。十二五的时候,交通部还是个土包子,看看规划的名称就知道,叫《公路水路交通运输信息化十二五发展规划》,“公路”和“水路”是当仁不让的生角和旦角。到了十三五,当然不能再这么土下去了,好歹还要照顾一下铁路和民航,所以“公路”和“水路”分别跌到了第78位和第90位。
- 可有可无的“铁路”和“民航”。虽然“公路”和“水路”在排名上跌的粉身碎骨,但“铁路”和“民航”并没有迎来新东家足够的注意力。十三五全文中“铁路”被提到了4次,“民航”更是只有3次。当然,这可能与铁路和民航有单独的发展规划有关,也可能与铁路和民航信息化的发展水平比较高有关。君不见12306虽然收获骂声以吨计,但好歹在这个网站能买到全国所有的火车票。这里话分两路,虽然现在城市中的人们出个中途或长途的门,首选可能会是高铁,然后是飞机。但是可能你们城里人不知道,2015年,全国客运量的83%是公路客运,民航只占了2.3%!100个人里面,只有两个半不到的人出门才坐飞机的,土豪们!公路,还是绝对的老大啊,虽然这个老大比较“土”。
- 规划眼中的重点区域。十二五规划中,居然没有提到北京,反而提到了一次上海,然后珠江三角洲和珠三角被各自提到了一次,当然也有可能以“京”的方式提到了首都,但被我len(word)>=2给无情的忽略掉了,这当然不能怪我,谁叫它偷懒。到了十三五,“京津冀”被点了7次名,“长江经济带”点到了3次,珠三角消声匿迹的无影无踪,只有广州被孤零零的点到了一次。
- 互联网词汇的点缀。十二五规划中,已有若干“云计算”和“互联网”等词语。十三五时,“互联网+”、“大数据”、“物联网”、“云计算”,频数有所升高。但他们的份量到底有多重?反正这四个词加在一起也只出现了28次,而整个十三五规划中,“执法”就出现了28次。所以,互联网词汇在这种传统行业的信息化规划中,真的就是点缀。还有,我肯定不会告诉你,为了让分词程序能正确的识别出“互联网+”这个半土不洋的东西,我调试了不下50次自定义词典。
好了,今天就说到这儿吧!下次如果有空准备从词性上再作些分析,我很想知道在这种中性规划的背后,规划的作者们执笔时,他们到底是想哭,还是想笑。