作业代码:
#!/usr/bin/env python
# coding: utf-8
import time
from bs4 import BeautifulSoup
import requests
from pymongo import MongoClient
client = MongoClient('localhost', 27017)
bj58 = client['bj58']
info_links = bj58['links']
detailinfo = bj58['detailinfo']
def get_links_url():
"""获取列表页中所有详情页的标题和链接"""
for num in range(1,117):
url = "http://bj.58.com/shoujihao/pn{}/".format(num)
web_data = requests.get(url)
time.sleep(1)
detail_soup = BeautifulSoup(web_data.text, 'lxml')
if num == 1:
boxlist = detail_soup.select("div.boxlist div.boxlist")[1]
else:
boxlist = detail_soup.select("div.boxlist div.boxlist")[0]
titles = boxlist.select("strong.number")
links = boxlist.select("a.t")
for title,link in zip(titles,links):
data = {"title":title.get_text(), "link":link.get("href")}
info_links.insert_one(data)
print "page %s 已完成"% num
# get_links_url()
def get_item_info():
"""获取详情页url,抓取详情信息"""
# url 列表
url_lists = [item['link'] for item in info_links.find()]
if detailinfo.find().count() > 0: # 判断是否中断过
item_lists = [item['url'] for item in detailinfo.find()]
url_lists = set(url_lists)-set(item_lists) # 获取未爬取的 url 子集
for url in url_lists:
item_data = requests.get(url)
detail_soup = BeautifulSoup(item_data.text, 'lxml')
number = list(detail_soup.select("h1")[0].stripped_strings)[0]
info_list = number.replace('\t','').replace(' ',"").replace('\n\n\n','\n').split("\n")
# print 'number= ',info_list[0]
# print 'isp= ', info_list[1]
price = list(detail_soup.select(".price")[0].stripped_strings)[0].split(' ')[0]
# print 'price= ', price
seller = detail_soup.select(".vcard a.tx")[0].get_text()
# print seller
telephon = list(detail_soup.select(".arial")[0].stripped_strings)[0]
# print tele
data = {"sell_number": info_list[0],
"isp": info_list[1],
"price": price,
"seller": seller,
"telephon": telephon,
"url": url
}
detailinfo.insert_one(data)
print "%s 已完成"% str(url)
get_item_info()
小结
- thread & process
单进程单线程,一张一个人的桌子
单进程多线程,一张多个人的桌子
多进程单线程,多张一个人的桌子
多进程多线程,多张多个人的桌子
一个进程占用一个CPU核心
deciding between subprocess, multiprocessing and thread in Python?
What is the difference between multiprocessing and subprocess?
subprocess + multiprocessing - multiple commands in sequence
threading 官方文档的说明:
CPython的实现细节:在CPython中,由于全局解释器锁
GIL
的原因,同一时刻只有一个线程可以执行Python代码。如果想让应用程序更好地利用多核机器的硬件资源,建议使用multiprocessing
。不过,如果想同时运行多个I/O
密集型任务,threading
仍然是一个好的模型。
- 导入需要的库
可以帮助 Python 调用电脑 CPU 的多个内核完成任务
from multiprocessing import Pool
- 导入自己写的模块
from channel_extract import channel_list
from page_parsing import get_links_from
- 用函数传入页码
def get_all_links_from():
传入 channel ,指定页数,获取列表页的url
- 创建进程池
所有 CPU 都会从进程池中领取任务
只需要将函数放入进程池,就会被分配给 cpu 执行
pool = Pool() # 创建进程池
pool.map(get_all_links_from, channel_list.split())
Pool有一个参数,precesses,明确要开多少进程。并非进程越多效率越高。如果不指定,会根据电脑CPU的内核数量自动分配。
内建函数map()
pool.map()
类似内建函数map()
(它只支持一个iterable参数)。调用函数后会被阻塞,直到得到结果。
- 创建用来计数的监控程序
导入创建的 集合对象,使用.count()
方法
- iTerm 分屏
command + d
- 作业的思考
断点续传程序,假设在抓取过程中网络问题导致程序停止,设计一个功能,保证数据库中抓取的数据不会重复
两种想法:
- 第一种
每次抓取一个帖子或一个页面,在数据库中查询,如果有结果,跳过。
这样似乎效率很低?
- 第二种
记录当前位置
- 最后看了作业提示:
很棒的实现方式
# 设计思路:
# 1.分两个数据库,第一个用于只用于存放抓取下来的 url (ulr_list);第二个则储存 url 对应的物品详情信息(item_info)
# 2.在抓取过程中在第二个数据库中写入数据的同时,新增一个字段(key) 'index_url' 即该详情对应的链接
# 3.若抓取中断,在第二个存放详情页信息的数据库中的 url 字段应该是第一个数据库中 url 集合的子集
# 4.两个集合的 url 相减得出圣贤应该抓取的 url 还有哪些
db_urls = [item['url'] for item in url_list.find()] # 用列表解析式装入所有要爬取的链接
index_urls = [item['url'] for item in item_info.find()] # 所引出详情信息数据库中所有的现存的 url 字段
x = set(db_urls) # 转换成集合的数据结构
y = set(index_urls)
rest_of_urls = x-y # 相减
于是,在自己的代码中:
url_lists = [item['link'] for item in info_links.find()]
if detailinfo.find().count() > 0: # 判断是否中断过
item_lists = [item['url'] for item in detailinfo.find()]
url_lists = set(url_lists)-set(item_lists) # 获取未爬取的 url 子集