python3——提取信息手段和一些模板

(1)正则表达式
  1. http://cuiqingcai.com/977.html
  2. http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
    废话不多说,直接一图流:
    转CSDN

    注:\D、\S(大写)、\w(小写)可以匹配到汉字
(2)BeautifulSoup
  1. http://cuiqingcai.com/1319.html
  2. beautiful soup选择器之CSS选择器
    第三方库需要下载,在命令提示符窗口输入:
pip install beautifulsoup4
pip install lxml

一开始主要用的find和findall函数,后来发现select函数很好用。

# 选择a标签,其属性中存在myname的所有标签
soup.select("a[myname]")
# 选择a标签,其属性href=http://example.com/lacie的所有标签,同理可用于class、id、name等其他属性
#注意:别乱用空格,当属性含有空格时,用.代替
soup.select("a[href='http://example.com/lacie']")
# 选择a标签,其href属性包含.com
soup.select('a[href*=".com"]')
#几乎什么都能找到 ,p(属性为story)子标签中的第二个a标签
k = soup.select("p[class='story']  > a:nth-of-type(2)")
#或者这样。  class的属性用.代替,id用#代替
k = soup.select("p.story  > a:nth-of-type(2)")
#p(属性为story)后代标签中的a标签
k = soup.select("p[class='story'] a")
#其中k仍然可以继续用select
#匹配标签a中href属性的内容
a['href']
#匹配标签a中src属性的内容
a['src']
#匹配标签a中的文字内容
a.get_text()

.string和.text和.get_text()的区别 (点我查看

(3)xpath

转自: http://www.w3school.com.cn/xpath/xpath_syntax.asp

from lxml import etree
selector = etree.HTML(html)
#其中//h4/a/text()就是一条规则
links = selector.xpath('//h4/a/text()')
for link in links:
  print(link)

规则说明:



实例:


(4)一些模板
#简洁快速生成url列表
urls = ['https://book.douban.com/tag/小说?start={}'.format(str(i)) for i in range(0, 2000, 20)]
for url in urls:
    #调用打开网页的函数
    open_url(url)
    #继续处理其它事情

对于多个并列的结果,可用zip同时表示出来:

#常见模板,用于一些并列结果输出,比如火车车次和时间,电影名字和演员、上映时间等等
name = ['Kite', 'Jane', 'Ben', 'Michael', 'Maria']
num = [11, 23, 3, 14, 52]
dic = {}
for i, j in zip(name, num):
    dic = {'名字':i, '学号':j}
    print(dic)

运行结果:
{'学号': 11, '名字': 'Kite'}
{'学号': 23, '名字': 'Jane'}
{'学号': 3, '名字': 'Ben'}
{'学号': 14, '名字': 'Michael'}
{'学号': 52, '名字': 'Maria'}
#常见模板,用于一些并列结果输出,比如火车车次和时间,电影名字和演员、上映时间等等
name = ['Kite', 'Jane', 'Ben', 'Michael', 'Maria']
num = [11, 23, 3, 14, 52]
list = []
for i, j in zip(name, num):
    list.append([i, j])
print(list)

运行结果:
[['Kite', 11], ['Jane', 23], ['Ben', 3], ['Michael', 14], ['Maria', 52]]
name = ['Kite', 'Jane', 'Ben', 'Michael', 'Maria']
num = [11, 23, 3, 14, 52]
list = list(zip(name, num))
print(iist)

运行结果:
[('Kite', 11), ('Jane', 23), ('Ben', 3), ('Michael', 14), ('Maria', 52)]

在给文件命名时,几个常用的字符串用法

#把s中的oldstr替换成newstr,count为替换次数,常用于换掉\n或冒号等一些不能用于命名的符号
s.replace(oldstr, newstr, [count])
#把s中的chars全部去掉,默认是去掉前后空格(中间的空格保留)
s.strip([chars])

#以sep为分隔符,把s拆分成一个列表,默认分隔符为空格,maxsplit为拆分次数,默认-1,表示无限制拆分
s.split([sep,[maxsplit]])
#把seq的序列组合成字符串,用s把各元素连接。
s.join(seq)

#s是否全是字母,且至少有一个字符
s.isalpha()
#s是否全是数字,且至少有一个字符
s.isdigit()

储存到文件夹中

import os
#判断文件夹是否已经存在
ISexist = os.path.exists(os.path.join("F:\\comic", name))
#构造一个列表,读取已有的文件夹名字
Oslist = os.listdir('F:\\comic')
#如果文件夹已经存在,则不重复保存,直接跳过。起到粗糙的去重效果
#缺点是如果上一次爬取失败,须把失败的文件夹删了继续,才能保证爬到完整的漫画
if name in Oslist:
    continue
#如果文件夹不存在,则创建文件夹,并设为当前位置,否则只改变当前位置
if not ISexist:
    os.makedirs(os.path.join("F:\\comic", name)) 
    os.chdir("F:\\comic\\"+name)
else:    
    os.chdir("F:\\comic\\"+name)

存到csv中:

#输入要存储的列表,格式为[['Jack',21,166], ['Ben',25,168]]这样的。
def csv_write(tablelist):
    tableheader = ['姓名', '年龄', '身高']#表头
    with open('danmu.csv', 'w', newline='', errors='ignore') as f:
        writer = csv.writer(f)
        writer.writerow(tableheader)
        for row in tablelist:
            writer.writerow(row)

多进程

from multiprocessing import Pool
#实例化一个进程池,设置进程为2
pool = Pool(processes=2)
#调用进程池的map_async()方法,接收一个函数(爬虫函数)和一个列表(url列表)
pool.map_async(fun, urllist)
pool.close()
pool.join()

将从浏览器上复制的cookie的字符串形式改成字典形式:

import re
cookie_str = 'BIDUPSID=3B969BA15A49F86AD6B6074EE47; PSTM=147255150; TIEBA_USERTYPE=5e2d54c3970b9b374dd403d9; bdshare_firstime=1474551482398; TIEBAUID=f43269109e3e8b9f1e9fe9; rpln_guide=1; __=db366b9463b731462643c8c17fc459f1476540234; BAIDUID=910C74C21424113A6D5B9D173FEDD375:FG=1; FP_UID=6269514cb1281e1cb1afbd5be5bd45a8'
cookie_dic = dict(re.findall(r'(.*?)=(.*?);\s*', cookie_str + '; '))
print(cookie_dic)

运行结果:
{'TIEBA_USERTYPE': '5e2d54c3970b9b374dd403d9', 'TIEBAUID': 'f43269109e3e8b9f1e9fe9', '__': 'db366b9463b731462643c8c17fc459f1476540234', 'FP_UID': '6269514cb1281e1cb1afbd5be5bd45a8', 'PSTM': '147255150', 'BAIDUID': '910C74C21424113A6D5B9D173FEDD375:FG=1', 'rpln_guide': '1', 'BIDUPSID': '3B969BA15A49F86AD6B6074EE47', 'bdshare_firstime': '1474551482398'}

保存到mongodb

import pymongo

MONGO_URL = "localhost"
MONGO_DB = "test_database"  #数据库名
MONGO_TABLE = "test_table"  #表名

client = pymongo.MongoClient(MONGO_URL)
db = client[MONGO_DB]  #创建数据库

def save2Mongo(result):
    if db[MONGO_TABLE].insert(result):
        print('save to mongodb successly!', result)
    else:
        print('save failed!')


hex_dict = {'0': 0, '1': 1, '2': 2, '3': 3, '4': 4, '5': 5, '6': 6, '7': 7,
            '8': 8, '9': 9, 'A': 10, 'B': 11, 'C': 12, 'D': 13, 'E': 14, 'F': 15,
            'a': 10, 'b': 11, 'c': 12, 'd': 13, 'e': 14, 'f': 15}

save2Mongo(hex_dict)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容