12306抢票脚本开发(五)中文火车站名到火车站代号的转换


文章地址 :

12306抢票脚本开发(一)提纲
12306抢票脚本开发(二)解析火车站代号并分析查询的HTTP请求
12306抢票脚本开发(三)实现一个简单的查询脚本
12306抢票脚本开发(四)完善上节课的代码并面向对象
12306抢票脚本开发(五)更友好的使用方式
12306抢票脚本开发(六)更友好的时间输入方式
12306抢票脚本开发(七)将前几节课的成果结合起来实现一个完整的工具


简介 :

为了能让上节课的代码能适合更多的人使用 , 这里需要做几件事 :

1. 能解析火车站中文名
2. 能解析更友好的时间
3. 默认查询的是成人票 , 当用户指定要查询学生票的时候才查询学生票
4. 将交互的方式做以调整 (接收命令行参数)

首先看第一个功能 : 解析火车站的中文名

我们首先将之前分析中用到的那个保存中文名和代号的文件下载到本地
然后尝试解析这个文件 , 并和用户的输入进行匹配 , 这里为了方便就先编写一个简单的函数

下载这个文件 : 
https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.8997
我们可以看到这个 URL 是带参数的 , 就是说 , 随着时间的推移
火车站的数据可能会有更新 , 因此这里需要用一个版本信息来控制下载的文件
这里的版本是 station_version=1.8997
那么我们将来的程序运行的时候应该要保证每一次的这个文件都是最新的
因此我们首先要获取最新的版本号 , 然后再根据版本号去下载这个文件
我们知道 HTML 中可以引用外部的 JS 代码 , 需要将这个 JS 文件的 URL 填写在 : 
<script>标签的 src 属性中 , 当浏览器解析到这个标签的时候 , 就会发起一个 HTTP 请求来向服务器请求这个文件
那么只要我们能得到主页的 HTML , 解析这个 HTML 文档 , 去寻找链接 station_name.js 的 script 标签
这个标签的 src 属性就是我们要请求的文件 , 这个时候就可以保证使用的火车站的信息是和 12306 官网是一致的了

tools.py

#!/usr/bin/env python
# encoding:utf-8

import requests
import bs4
import logging

def getStationNamesVersion():
    '''
    获取 station_names.js 这个文件最新的版本号
    '''
    logging.captureWarnings(True)
    url = "https://kyfw.12306.cn/otn/"
    station_name_version = "" # 先初始化为 0 , 防止没有获取到的时候不能正常返回
    response = requests.get(url, verify=False)
    content = response.text.encode("UTF-8")
    soup = bs4.BeautifulSoup(content, "html.parser")
    scripts = soup.findAll("script")
    srcs = [] # 保存 HTML 中所有的 script 标签的 src 属性
    for i in scripts:
        try: # 这里使用 try 是因为有的 script 标签并没有 src 这个属性
            src = i['src']
            srcs.append(src)
        except:
            pass
    for i in srcs: # 这里设计地比较有扩展性 , 如果还要获取别的某个文件的版本 , 只需要在循环中添加判断即可
        if "station_name" in i: # 找到含有 station_names 的一条 src
            station_name_version = i.split("station_version=")[1] # 截取版本号
            # print "成功获取到车站信息版本 :" , station_name_version # 打印日志
    return station_name_version

def getUrlForStationNames(station_name_version):
    '''
    构建用于下载 station_names.js 这个文件的地址
    '''
    return "https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=" + station_name_version

def downloadFile(url, filename):
    '''
    下载文件并保存到本地
    '''
    logging.captureWarnings(True)
    f = open(filename, "a");
    f.write(requests.get(url, verify=False).text.encode("UTF-8"))
    f.close()

然后我们来实现一个测试上述函数的脚本 :

#!/usr/bin/env python
# encoding:utf-8

import tools
import os


# 获取官网的这个文件的版本
print "正在获取官网的火车站信息文件版本..."
station_names_version = tools.getStationNamesVersion()
print "获取成功 !"
print "官网版本号 : [",(station_names_version),"]"

# 比对本地文件
print "正在获取本地缓存文件文件名..."
local_file_name = ""
local_file_version = ""
for filename in os.listdir("./"):
    if filename.endswith("_station_names.dat"):
        local_file_name = filename
if local_file_name != "":
    print "获取成功 ! 本地文件名 : [", local_file_name, "]"
    print "正在解析本地文件版本号..."
    local_file_version = local_file_name.split("_")[0]
    print "本地版本号 : [", local_file_version, "]"
else:
    print "本地没有缓存文件 , 准备开始下载..."

# 下载文件 , 保存文件名以版本开始 (便于下次运行的时候比对)
if local_file_version == "":
        print "官网火车站文件更新 , 正在下载..."
        tools.downloadFile(tools.getUrlForStationNames(tools.getStationNamesVersion()), station_names_version+"_"+"station_names.dat")
else:
    if local_file_version != station_names_version:
        print "官网火车站文件更新 , 正在下载..."
        tools.downloadFile(tools.getUrlForStationNames(tools.getStationNamesVersion()), station_names_version+"_"+"station_names.dat")
    else:
        print "本地文件已最新 , 直接使用!"

# 读取文件
print "正在读取文件..."
station_names = open("./" + station_names_version + "_" + "station_names.dat", "r")
content = station_names.read()
content = content[20:-2] # 去掉多余的 js 关键字 , 只提取出字符串内容
print "正在解析站点信息..."
stations = content.split("@")
print "解析成功 ! 总站点数 : [ " + str(len(stations)) + " ]"

运行效果 :

Paste_Image.png

现在我们已经能下载这个文件了 , 我们接下来就要解析这个文件 :
根据上几节课的分析 , 我们已经知道了 :

1. 这是一个 js 文件 , 其中只定义了一个字符串变量 , 而我们只需要关注这个字符串 , 因此需要对这个 js 文件的内容进行处理
2. 所有的火车站之间用 '@' 分隔
3. 每一单独的火车站的字段应该是有 6 个 , 每一个之间都以 '|' 分隔
4. 其中 : ("@bjb|北京北|VAP|beijingbei|bjb|0")
    字段0 : 火车站名称汉语拼音首字母
    字段1 : 火车站名称汉语
    字段2 : 在查票的时候火车站的代码 (比如说 : 上海的代码即为 SHH)
    字段3 : 火车站名称汉语拼音
    字段4 : 火车站名称汉语拼音首字母 (模糊匹配 : 比如说输入 北京南站 , 那么有可能也有 北京站 的信息)
    字段5 : 火车站编号(数字的序号 , 应该是铁道部或者网站自己定义的 , 应该是用于唯一标识某一个火车站)

那么我们接下来要实现的代码的功能就是 : 输入火车站名称汉语(字段1) , 能返回火车站查询时用的代码(字段2)
开始写吧~

#!/usr/bin/env python
# encoding:utf-8

import tools
import os


# 获取官网的这个文件的版本
print "正在获取官网的火车站信息文件版本..."
station_names_version = tools.getStationNamesVersion()
print "获取成功 !"
print "官网版本号 : [",(station_names_version),"]"

# 比对本地文件
print "正在获取本地缓存文件文件名..."
local_file_name = ""
local_file_version = ""
for filename in os.listdir("./"):
    if filename.endswith("_station_names.dat"):
        local_file_name = filename
if local_file_name != "":
    print "获取成功 ! 本地文件名 : [", local_file_name, "]"
    print "正在解析本地文件版本号..."
    local_file_version = local_file_name.split("_")[0]
    print "本地版本号 : [", local_file_version, "]"
else:
    print "本地没有缓存文件 , 准备开始下载..."

# 下载文件 , 保存文件名以版本开始 (便于下次运行的时候比对)
if local_file_version == "":
        print "官网火车站文件更新 , 正在下载..."
        tools.downloadFile(tools.getUrlForStationNames(station_names_version), station_names_version+"_"+"station_names.dat")
else:
    if local_file_version != station_names_version:
        print "官网火车站文件更新 , 正在下载..."
        tools.downloadFile(tools.getUrlForStationNames(station_names_version), station_names_version+"_"+"station_names.dat")
    else:
        print "本地文件已最新 , 直接使用!"


def getStationCode(station_name):
    result = ""
    # 读取文件
    print "正在读取文件..."
    station_names = open("./" + station_names_version + "_" + "station_names.dat", "r")
    content = station_names.read()
    station_names.close()
    content = content[20:-2] # 去掉多余的 js 关键字 , 只提取出字符串内容
    print "正在解析站点信息..."
    stations = content.split("@")[1:] # 由于这个文件开头就是 '@' , 因此需要去掉第一个元素
    print "解析成功 ! 总站点数 : [ " + str(len(stations)) + " ]"
    for station in stations:
        fields = station.split("|")
        # station_name_pinyin_simple = fields[0] 
        station_name_standard = fields[1] 
        station_code = fields[2] 
        # station_name_pinyin = fields[3] 
        # station_name_pinyin_simple_fuzz = fields[4] 
        # station_num = fields[5]
        if station_name == station_name_standard:
            result = station_code
            return result
    return result


print "[ 北京 ] -> [" + getStationCode("北京") + "]"
print "[ 上海 ] -> [" + getStationCode("上海") + "]"
print "[ 广州 ] -> [" + getStationCode("广州") + "]"
print "[ 深圳 ] -> [" + getStationCode("深圳") + "]"
print "[ 成都 ] -> [" + getStationCode("成都") + "]"
print "[ 哈尔滨 ] -> [" + getStationCode("哈尔滨") + "]"
print "[ 西安 ] -> [" + getStationCode("西安") + "]"

运行效果


Paste_Image.png

这里其实还有可以优化的地方
比如说 :

1. 函数每调用一次就有一次 IO , 应该优化成只进行一次 IO
2. 暂时不支持模糊查询
3. 暂时不支持通过拼音首字母查询

关于问题 2 , 我们可以这样解决 :

如果一个城市有好多个火车站 , 那么它们的命名一定是这样的 : (例如 北京)
北京站
北京北站
北京南站
北京东站
北京西站
哈 , 有规律了吧 , 都是以北京开头的
那么我们要实现这样的查询 , 只需要很简单地将上述代码中判断函数参数和文件中的火车站名是否相等的函数改成 startswith
这样就可以进行模糊查询 , 但是这样做的话 , 就需要遍历完整个文件
而且需要返回一个列表

完整的代码在下方 , 运行结果为 :

Paste_Image.png

代码 :

tools.py

#!/usr/bin/env python
# encoding:utf-8

import requests
import bs4
import logging

def getStationNamesVersion():
    '''
    获取 station_names.js 这个文件最新的版本号
    '''
    logging.captureWarnings(True)
    url = "https://kyfw.12306.cn/otn/"
    station_name_version = "" # 先初始化为 0 , 防止没有获取到的时候不能正常返回
    response = requests.get(url, verify=False)
    content = response.text.encode("UTF-8")
    soup = bs4.BeautifulSoup(content, "html.parser")
    scripts = soup.findAll("script")
    srcs = [] # 保存 HTML 中所有的 script 标签的 src 属性
    for i in scripts:
        try: # 这里使用 try 是因为有的 script 标签并没有 src 这个属性
            src = i['src']
            srcs.append(src)
        except:
            pass
    for i in srcs: # 这里设计地比较有扩展性 , 如果还要获取别的某个文件的版本 , 只需要在循环中添加判断即可
        if "station_name" in i: # 找到含有 station_names 的一条 src
            station_name_version = i.split("station_version=")[1] # 截取版本号
            # print "成功获取到车站信息版本 :" , station_name_version # 打印日志
    return station_name_version

def getUrlForStationNames(station_name_version):
    '''
    构建用于下载 station_names.js 这个文件的地址
    '''
    return "https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=" + station_name_version

def downloadFile(url, filename):
    '''
    下载文件并保存到本地
    '''
    logging.captureWarnings(True)
    f = open(filename, "a");
    f.write(requests.get(url, verify=False).text.encode("UTF-8"))
    f.close()

test.py

#!/usr/bin/env python
# encoding:utf-8

import tools
import os


# 获取官网的这个文件的版本
print "正在获取官网的火车站信息文件版本..."
station_names_version = tools.getStationNamesVersion()
print "获取成功 !"
print "官网版本号 : [",(station_names_version),"]"

# 比对本地文件
print "正在获取本地缓存文件文件名..."
local_file_name = ""
local_file_version = ""
for filename in os.listdir("./"):
    if filename.endswith("_station_names.dat"):
        local_file_name = filename
if local_file_name != "":
    print "获取成功 ! 本地文件名 : [", local_file_name, "]"
    print "正在解析本地文件版本号..."
    local_file_version = local_file_name.split("_")[0]
    print "本地版本号 : [", local_file_version, "]"
else:
    print "本地没有缓存文件 , 准备开始下载..."

# 下载文件 , 保存文件名以版本开始 (便于下次运行的时候比对)
if local_file_version == "":
        print "官网火车站文件更新 , 正在下载..."
        tools.downloadFile(tools.getUrlForStationNames(station_names_version), station_names_version+"_"+"station_names.dat")
else:
    if local_file_version != station_names_version:
        print "官网火车站文件更新 , 正在下载..."
        tools.downloadFile(tools.getUrlForStationNames(station_names_version), station_names_version+"_"+"station_names.dat")
    else:
        print "本地文件已最新 , 直接使用!"


def getStationCodes(station_name):
    results = []
    # 读取文件
    print "正在读取文件..."
    station_names = open("./" + station_names_version + "_" + "station_names.dat", "r")
    content = station_names.read()
    station_names.close()
    content = content[20:-2] # 去掉多余的 js 关键字 , 只提取出字符串内容
    print "正在解析站点信息..."
    stations = content.split("@")[1:] # 由于这个文件开头就是 '@' , 因此需要去掉第一个元素
    print "解析成功 ! 总站点数 : [ " + str(len(stations)) + " ]"
    for station in stations:
        fields = station.split("|")
        # station_name_pinyin_simple = fields[0] 
        station_name_standard = fields[1] 
        station_code = fields[2] 
        # station_name_pinyin = fields[3] 
        # station_name_pinyin_simple_fuzz = fields[4] 
        # station_num = fields[5]
        if station_name_standard.startswith(station_name):
            
            results.append({"station_code":station_code, "station_name":station_name_standard})
    return results

def printStationInfo(station_info):
    for result in station_info:
        print "[ %s ] -> [ %s ]" % (result["station_name"], result["station_code"])

print "=" * 18 + " [ 北京 ] " + "=" * 18
printStationInfo(getStationCodes("北京"))

print "=" * 18 + " [ 上海 ] " + "=" * 18
printStationInfo(getStationCodes("上海"))

print "=" * 18 + " [ 天津 ] " + "=" * 18
printStationInfo(getStationCodes("天津"))

print "=" * 18 + " [ 成都 ] " + "=" * 18
printStationInfo(getStationCodes("成都"))

print "=" * 18 + " [ 哈尔滨 ] " + "=" * 18
printStationInfo(getStationCodes("哈尔滨"))

print "=" * 18 + " [ 西安 ] " + "=" * 18
printStationInfo(getStationCodes("西安"))

现在我们已经可以完成从中文的火车站名到火车站代号的转换了
也就是说 , 我们最开始提出的问题中的问题 1 已经解决
这样的话 , 其实我们大部分的内容已经完成了, 这就已经可以制作成一个很友好的小工具了
如果再能配合 Linux 的定时任务就可以实现对火车票进行轮询的功能
当然在查到火车票的时候要对用户进行通知 , 这我们会在以后的课程中进行介绍


总结 :

本节课我们主要实现了 : 中文火车站名到火车站代号的转换
既可以进行精确的查询
也可以进行模糊的查询


预告 :

下节课我们来实现让程序能接受更多格式的时间输入 , 感谢大家的支持~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,311评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,339评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,671评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,252评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,253评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,031评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,340评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,973评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,466评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,937评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,039评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,701评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,254评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,259评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,497评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,786评论 2 345

推荐阅读更多精彩内容