python爬虫，CSDN搜关键字，23页标题，收集阅读量，文章内容

经过一晚上的BUG作战，烧香之后，目前好像大功告成，先上图

2018-07-21 12-05-51屏幕截图.png

只爬了24页

代码重写了，之前的错误出现在18页和23页。BeautifulSoup，解析之后，遇到 """,这个字符，导致无法定位需要的信息

三个"""，代码解析出错了，所以重写了

----JSON数据 obj=""" {"name":"Wes", "places_

首先感谢CSDN上面的各位大神的无私奉献，每当不懂的时候，百度出来的结果，好多都是CSDN上面的博客帮我解决的，收集到的文章将用于学习pandas分析。首先看搜索结果的链接

https://so.csdn.net/so/search/s.do?p=23&q=pandas&t=blog&domain=&o=&s=&u=&l=&f=&rbg=0，p=23是页数，q=pandas这是关键字，t=blog，就是搜索博客的意思，其他的没有进行分析，用这几个就够了。

def get_wen_list(keyword, page):

rooturl = 'https://so.csdn.net/so/search/s.do?'

key = 'q=%s' % (keyword)

result_pool = []

for pnum in range(0, page):

search_url = rooturl + 'p=%d&' % (pnum) + key + '&t=blog&domain=&o=&s=&u=&l=&f=&rbg=0'

print('开始爬第%d页链接' % pnum, search_url)

seget = requests.get(search_url)

Soup = BeautifulSoup(seget.text, 'lxml')

search_list = Soup.find_all(attrs={"class": "search-list-con"})

tilte_list = search_list.find_all(href=re.compile("https://blog.csdn.net"))

print() //以上的几句是一开始用beautifuSoup,发现问题，后来直接用正则，才有下面的语句

detail_list = re.findall('''/w+/article/details/[1-9][0-9]{7,}''', seget.text)

流程是：先按页数get，博文的列表，从中正则匹配出作者的文章链接，文章链接如下

https://blog.csdn.net（这里不变） /chenzhenzhu2011/article/details/44183605 （要匹配的内容）

if detail_list: (获得当页所有的list后，因为有重复，需要去重）

new_pool = []

new_pool = list(set(detail_list))

print(new_pool)

for detail_url in new_pool:

get_detail = requests.get("https://blog.csdn.net" + detail_url)

Soup = BeautifulSoup(get_detail.text, 'lxml')

title = Soup.find(attrs = {"class" : "title-article" }).get_text()

dtime = Soup.find(attrs = {"class" : "time"}).get_text()

browse = Soup.find(attrs = {"class" : "read-count"}).get_text()

author = detail_url.split("/", 2)

tmp = [author[1], title, dtime, browse, detail_url]

result_pool.append(tmp)

print(tmp)

获得 ['作者' , '题目', '日期', '阅读数', '链接'],返回列表，之后写入CSV文件。

get_pool = get_wen_list(keyword, page)

copy_csv = open('pool.csv', 'a+', newline='')

fieldnames = ['atuhor', 'title', 'dtime', 'browse', 'liurl']

wr_pool = csv.writer(copy_csv)

wr_pool.writerow(fieldnames)

for pool in get_pool:

wr_pool.writerow(pool)

print("dWrite a total of %s bar data " % len(get_pool))

copy_csv.close()

下一步计划爬文章的内容，学习下大神走过的路

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,793评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,567评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,342评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,825评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,814评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,680评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,033评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,687评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,175评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,668评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,775评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,419评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,020评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,206评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,092评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,510评论 2赞 343