python3——提取信息手段和一些模板

（1）正则表达式

http://cuiqingcai.com/977.html
http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
废话不多说，直接一图流：

转CSDN

注：\D、\S(大写)、\w(小写)可以匹配到汉字

（2）BeautifulSoup

http://cuiqingcai.com/1319.html
beautiful soup选择器之CSS选择器
第三方库需要下载，在命令提示符窗口输入：

pip install beautifulsoup4
pip install lxml

一开始主要用的find和findall函数，后来发现select函数很好用。

# 选择a标签，其属性中存在myname的所有标签
soup.select("a[myname]")
# 选择a标签，其属性href=http://example.com/lacie的所有标签，同理可用于class、id、name等其他属性
#注意：别乱用空格，当属性含有空格时，用.代替
soup.select("a[href='http://example.com/lacie']")
# 选择a标签，其href属性包含.com
soup.select('a[href*=".com"]')
#几乎什么都能找到 ，p（属性为story）子标签中的第二个a标签
k = soup.select("p[class='story']  > a:nth-of-type(2)")
#或者这样。  class的属性用.代替，id用#代替
k = soup.select("p.story  > a:nth-of-type(2)")
#p（属性为story）后代标签中的a标签
k = soup.select("p[class='story'] a")
#其中k仍然可以继续用select

#匹配标签a中href属性的内容
a['href']
#匹配标签a中src属性的内容
a['src']
#匹配标签a中的文字内容
a.get_text()

.string和.text和.get_text()的区别（点我查看）

（3）xpath

转自： http://www.w3school.com.cn/xpath/xpath_syntax.asp

from lxml import etree
selector = etree.HTML(html)
#其中//h4/a/text()就是一条规则
links = selector.xpath('//h4/a/text()')
for link in links:
  print(link)

规则说明：

实例：

（4）一些模板

#简洁快速生成url列表
urls = ['https://book.douban.com/tag/小说?start={}'.format(str(i)) for i in range(0, 2000, 20)]
for url in urls:
    #调用打开网页的函数
    open_url(url)
    #继续处理其它事情

对于多个并列的结果，可用zip同时表示出来：

#常见模板，用于一些并列结果输出，比如火车车次和时间，电影名字和演员、上映时间等等
name = ['Kite', 'Jane', 'Ben', 'Michael', 'Maria']
num = [11, 23, 3, 14, 52]
dic = {}
for i, j in zip(name, num):
    dic = {'名字':i, '学号':j}
    print(dic)

运行结果：
{'学号': 11, '名字': 'Kite'}
{'学号': 23, '名字': 'Jane'}
{'学号': 3, '名字': 'Ben'}
{'学号': 14, '名字': 'Michael'}
{'学号': 52, '名字': 'Maria'}

#常见模板，用于一些并列结果输出，比如火车车次和时间，电影名字和演员、上映时间等等
name = ['Kite', 'Jane', 'Ben', 'Michael', 'Maria']
num = [11, 23, 3, 14, 52]
list = []
for i, j in zip(name, num):
    list.append([i, j])
print(list)

运行结果：
[['Kite', 11], ['Jane', 23], ['Ben', 3], ['Michael', 14], ['Maria', 52]]

name = ['Kite', 'Jane', 'Ben', 'Michael', 'Maria']
num = [11, 23, 3, 14, 52]
list = list(zip(name, num))
print(iist)

运行结果：
[('Kite', 11), ('Jane', 23), ('Ben', 3), ('Michael', 14), ('Maria', 52)]

在给文件命名时，几个常用的字符串用法

#把s中的oldstr替换成newstr，count为替换次数，常用于换掉\n或冒号等一些不能用于命名的符号
s.replace(oldstr, newstr, [count])
#把s中的chars全部去掉，默认是去掉前后空格（中间的空格保留）
s.strip([chars])

#以sep为分隔符，把s拆分成一个列表，默认分隔符为空格，maxsplit为拆分次数，默认-1，表示无限制拆分
s.split([sep,[maxsplit]])
#把seq的序列组合成字符串，用s把各元素连接。
s.join(seq)

#s是否全是字母，且至少有一个字符
s.isalpha()
#s是否全是数字，且至少有一个字符
s.isdigit()

储存到文件夹中

import os
#判断文件夹是否已经存在
ISexist = os.path.exists(os.path.join("F:\\comic", name))
#构造一个列表，读取已有的文件夹名字
Oslist = os.listdir('F:\\comic')
#如果文件夹已经存在，则不重复保存，直接跳过。起到粗糙的去重效果
#缺点是如果上一次爬取失败，须把失败的文件夹删了继续，才能保证爬到完整的漫画
if name in Oslist:
    continue
#如果文件夹不存在，则创建文件夹，并设为当前位置，否则只改变当前位置
if not ISexist:
    os.makedirs(os.path.join("F:\\comic", name)) 
    os.chdir("F:\\comic\\"+name)
else:    
    os.chdir("F:\\comic\\"+name)

存到csv中：

#输入要存储的列表，格式为[['Jack',21,166], ['Ben',25,168]]这样的。
def csv_write(tablelist):
    tableheader = ['姓名', '年龄', '身高']#表头
    with open('danmu.csv', 'w', newline='', errors='ignore') as f:
        writer = csv.writer(f)
        writer.writerow(tableheader)
        for row in tablelist:
            writer.writerow(row)

多进程

from multiprocessing import Pool
#实例化一个进程池，设置进程为2
pool = Pool(processes=2)
#调用进程池的map_async()方法，接收一个函数(爬虫函数)和一个列表(url列表)
pool.map_async(fun, urllist)
pool.close()
pool.join()

将从浏览器上复制的cookie的字符串形式改成字典形式：

import re
cookie_str = 'BIDUPSID=3B969BA15A49F86AD6B6074EE47; PSTM=147255150; TIEBA_USERTYPE=5e2d54c3970b9b374dd403d9; bdshare_firstime=1474551482398; TIEBAUID=f43269109e3e8b9f1e9fe9; rpln_guide=1; __=db366b9463b731462643c8c17fc459f1476540234; BAIDUID=910C74C21424113A6D5B9D173FEDD375:FG=1; FP_UID=6269514cb1281e1cb1afbd5be5bd45a8'
cookie_dic = dict(re.findall(r'(.*?)=(.*?);\s*', cookie_str + '; '))
print(cookie_dic)

运行结果：
{'TIEBA_USERTYPE': '5e2d54c3970b9b374dd403d9', 'TIEBAUID': 'f43269109e3e8b9f1e9fe9', '__': 'db366b9463b731462643c8c17fc459f1476540234', 'FP_UID': '6269514cb1281e1cb1afbd5be5bd45a8', 'PSTM': '147255150', 'BAIDUID': '910C74C21424113A6D5B9D173FEDD375:FG=1', 'rpln_guide': '1', 'BIDUPSID': '3B969BA15A49F86AD6B6074EE47', 'bdshare_firstime': '1474551482398'}

保存到mongodb

import pymongo

MONGO_URL = "localhost"
MONGO_DB = "test_database"  #数据库名
MONGO_TABLE = "test_table"  #表名

client = pymongo.MongoClient(MONGO_URL)
db = client[MONGO_DB]  #创建数据库

def save2Mongo(result):
    if db[MONGO_TABLE].insert(result):
        print('save to mongodb successly!', result)
    else:
        print('save failed!')


hex_dict = {'0': 0, '1': 1, '2': 2, '3': 3, '4': 4, '5': 5, '6': 6, '7': 7,
            '8': 8, '9': 9, 'A': 10, 'B': 11, 'C': 12, 'D': 13, 'E': 14, 'F': 15,
            'a': 10, 'b': 11, 'c': 12, 'd': 13, 'e': 14, 'f': 15}

save2Mongo(hex_dict)

最后编辑于：2019.04.03 15:20:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342

python3——提取信息手段和一些模板

（1）正则表达式

（2）BeautifulSoup

（3）xpath

（4）一些模板

推荐阅读更多精彩内容