批量抓取免费小说

之前尝试过用scrapy抓取过一些网站,实在有点杀鸡焉用牛刀。现在用asyncio的方式再来一遍。

技术点

任务使用到的技术点:

  • asyncio
  • aiohttp
  • lxml
  • shutil

所使用的技术点基本和之前的文章差不多,此处不再过多介绍。

逻辑

起初是想抓取一本小说,后来决定就选择整个专栏吧,其实技术难度也没增加多少。下面先从一本小说开始分析。

首先要获取章节目录的URL。
[图片上传失败...(image-b2561c-1664445802940)]

根据源代码获取章节的URL
[图片上传失败...(image-13f244-1664445802940)]

async def get_page_urls(url, sem):
    async with sem:
        async with aiohttp.ClientSession() as session:  # requests
            async with session.get(url, headers=headers) as resp:
                html = etree.HTML(await resp.content.read())
                urls = []
                title_of_book = html.xpath('//div[@class="Main List"]/h1/text()')[0]
                print(title_of_book)
                td_html = html.xpath('//div[@class="Main List"]/dl[1]/dd[1]/a/@href')
                for i in td_html:
                    url = 'https://www.17k.com{}'.format(i)
                    urls.append(url)
                print('共获取 {} 章节'.format(len(urls)))
                book_info = {
                    'title': title_of_book,
                    'urls': urls
                }
                all_book_list.append(book_info)

代码中将书籍信息设置为dict(),方便之后调用。

然后根据章节URL进行下载小说内容。
[图片上传失败...(image-83d4c4-1664445802940)]


async def download_target(url, i, book_title, sem):
    async with sem:
        async with aiohttp.ClientSession() as session:  # requests
            async with session.get(url, headers=headers) as resp:  # requests.get()
                html = etree.HTML(await resp.content.read())
                try:
                    body_html = html.xpath('//div[@class="readAreaBox content"]')[0]
                except Exception as e:
                    print('body获取失败', e, url)
                title = body_html.xpath('./h1/text()')[0]
                if i < 10:
                    num = '000' + str(i)
                elif i < 100:
                    num = '00' + str(i)
                elif i < 1000:
                    num = '0' + str(i)
                file_name = './novel/{}/{}.txt'.format(book_title, num)
                content_html = body_html.xpath('./div[@class="p"]/p')
                content = [i.xpath('./text()')[0] for i in content_html if i.xpath('./text()')]
                try:
                    content.remove(content[-1])
                    # 大部分情况是因为该章节被锁定,暂时无法查看,忽略即可
                except Exception as e:
                    print(e, url)
                content.insert(0, title)
                content.append('该章节存在问题,已经被锁定,暂时无法查看') if len(content) == 1 else content.append(' ')
                async with aiofiles.open(file_name, 'a+') as f:
                    await f.write("\n".join(content))  # 读写内容异步需要挂起

下面的代码是为了合并文件排序的目的:

if i < 10:
    num = '000' + str(i)
elif i < 100:
    num = '00' + str(i)
elif i < 1000:
    num = '0' + str(i)

经过以上步骤就可以实现抓取一本小说并保存为文件了。

下面聊一下抓取整个专栏的小说的流程。首先获取专栏的所有链接,并且可以从页面可以获取最大页数。

[图片上传失败...(image-ec1140-1664445802940)]

然后从页面获取每一部书籍的章节入口的URL
[图片上传失败...(image-7a2006-1664445802940)]


# 获取所有书籍的URL
for i in range(1, 35):
    url = 'https://www.17k.com/all/book/3_0_0__3__1__{}.html'.format(i)
    task = asyncio.create_task(get_book_url(url, sem))
    tasks.append(task)
await asyncio.wait(tasks)
print(len(all_book_url))


async def get_book_url(url, sem):
    async with sem:
        async with aiohttp.ClientSession() as session:  # requests
            async with session.get(url, headers=headers) as resp:  # requests.get()
                html = etree.HTML(await resp.content.read())
                try:
                    table_html = html.xpath('//tbody/tr[position()>2]')
                    for i in table_html:
                        url = i.xpath('./td[3]/span/a/@href')[0].replace('book', 'list')  # 处理为书籍的章节页面链接
                        url = 'https:' + url
                        all_book_url.append(url)
                except Exception as e:
                    print('body获取失败', e, url)

# 获取书籍的所有目录的URL
for i in all_book_url:
    task = asyncio.create_task(get_page_urls(i, sem))
    tasks.append(task)
await asyncio.wait(tasks)
print(len(all_book_list))

到此为止,我们已经拿到了专栏里所有的书籍的章节URL,然后调用之前的内容下载函数就可以了。

此外还有一步需要处理,合并章节为一本小说。逻辑很简单,适用os.listdir()遍历每个目录下的章节,然后写入到新的文件里即可。


def merge_file(path):
    top_file_list = os.listdir(path)
    print(top_file_list)
    try:
        for book in top_file_list:
            file_list = os.listdir(path + '/' + book)
            file_list.sort()
            for file in file_list:
                with open('./book/{}.txt'.format(book), 'a+') as f:
                    with open('./novel/{}/'.format(book) + file, 'r') as file_f:
                        f.write(file_f.read())
            shutil.rmtree(path + '/' + book)
    except Exception as e:
        print(e)

示例

#!/usr/bin/python
# -*- coding: UTF-8 -*-
"""
@time:2022/09/29
@file:17k.com.py
@author:medivh
@IDE:PyCharm 
"""
import asyncio
import aiohttp
import aiofiles
import shutil
from lxml import etree
import time
from utils import random_useragent
import os
from gevent import monkey

monkey.patch_all()

headers = {
    "User-Agent": random_useragent(),
    "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
}


async def download_target(url, i, book_title, sem):
    async with sem:
        async with aiohttp.ClientSession() as session:  # requests
            async with session.get(url, headers=headers) as resp:  # requests.get()
                html = etree.HTML(await resp.content.read())
                try:
                    body_html = html.xpath('//div[@class="readAreaBox content"]')[0]
                except Exception as e:
                    print('body获取失败', e, url)
                title = body_html.xpath('./h1/text()')[0]
                if i < 10:
                    num = '000' + str(i)
                elif i < 100:
                    num = '00' + str(i)
                elif i < 1000:
                    num = '0' + str(i)
                file_name = './novel/{}/{}.txt'.format(book_title, num)
                content_html = body_html.xpath('./div[@class="p"]/p')
                content = [i.xpath('./text()')[0] for i in content_html if i.xpath('./text()')]
                try:
                    content.remove(content[-1])
                    # 大部分情况是因为该章节被锁定,暂时无法查看,忽略即可
                except Exception as e:
                    print(e, url)
                content.insert(0, title)
                content.append('该章节存在问题,已经被锁定,暂时无法查看') if len(content) == 1 else content.append(' ')
                async with aiofiles.open(file_name, 'a+') as f:
                    await f.write("\n".join(content))  # 读写内容异步需要挂起


all_book_list = list()


async def get_page_urls(url, sem):
    async with sem:
        async with aiohttp.ClientSession() as session:  # requests
            async with session.get(url, headers=headers) as resp:
                html = etree.HTML(await resp.content.read())
                urls = []
                title_of_book = html.xpath('//div[@class="Main List"]/h1/text()')[0]
                print(title_of_book)
                td_html = html.xpath('//div[@class="Main List"]/dl[1]/dd[1]/a/@href')
                for i in td_html:
                    url = 'https://www.17k.com{}'.format(i)
                    urls.append(url)
                print('共获取 {} 章节'.format(len(urls)))
                book_info = {
                    'title': title_of_book,
                    'urls': urls
                }
                all_book_list.append(book_info)


all_book_url = list()


async def get_book_url(url, sem):
    async with sem:
        async with aiohttp.ClientSession() as session:  # requests
            async with session.get(url, headers=headers) as resp:  # requests.get()
                html = etree.HTML(await resp.content.read())
                try:
                    table_html = html.xpath('//tbody/tr[position()>2]')
                    for i in table_html:
                        url = i.xpath('./td[3]/span/a/@href')[0].replace('book', 'list')  # 处理为书籍的章节页面链接
                        url = 'https:' + url
                        all_book_url.append(url)
                except Exception as e:
                    print('body获取失败', e, url)


async def main():
    tasks = []
    sem = asyncio.Semaphore(100)

    # 获取所有书籍的URL
    for i in range(1, 35):
        url = 'https://www.17k.com/all/book/3_0_0__3__1__{}.html'.format(i)
        task = asyncio.create_task(get_book_url(url, sem))
        tasks.append(task)
    await asyncio.wait(tasks)
    print(len(all_book_url))

    # 获取书籍的所有目录的URL
    for i in all_book_url:
        task = asyncio.create_task(get_page_urls(i, sem))
        tasks.append(task)
    await asyncio.wait(tasks)
    print(len(all_book_list))

    for book in all_book_list:
        if not os.path.exists('./novel/{}'.format(book['title'])):
            os.mkdir('./novel/{}'.format(book['title']))
        print('处理 {}'.format(book['title']))
        for i in range(len(book['urls'])):
            task = asyncio.create_task(download_target(book['urls'][i], i, book['title'], sem))
            tasks.append(task)
        await asyncio.wait(tasks)


def merge_file(path):
    top_file_list = os.listdir(path)
    print(top_file_list)
    try:
        for book in top_file_list:
            file_list = os.listdir(path + '/' + book)
            file_list.sort()
            for file in file_list:
                with open('./book/{}.txt'.format(book), 'a+') as f:
                    with open('./novel/{}/'.format(book) + file, 'r') as file_f:
                        f.write(file_f.read())
            shutil.rmtree(path + '/' + book)
    except Exception as e:
        print(e)


if __name__ == '__main__':
    """
    version 1.0:
    1. 获取章节URL
    2. 从URL获取章节内容
    3. 存储
    
    version 1.5:
    1. 获取所有免费小说的URL
    2. 从URL获取章节内容
    3. 存储
    """
    start = int(time.time())
    print(start)
    asyncio.run(main())

    merge_file('./novel')

    end = int(time.time())
    print(end)
    print('抓取耗时:{}s'.format(end - start))

总结

此项任务中遇到了几次nodename nor servname provided, or not known的问题,可能是由于大量并发造成DNS解析出现的问题,适用gevent来解决。

from gevent import monkey

monkey.patch_all()
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容