用calibre抓取乌云知识库并生成电子书

原文链接：http://blog.csdn.net/yelyyely/article/details/43741739

最近在研究网络安全相关知识，看到乌云知识库有很多高质量文章，由于在网上一篇篇翻看过去太麻烦，就研究了一下用Calibre自己编写recipe自动下载并生成电子书的方法。

花了点时间用此方法将乌云知识库上截止2015年2月11日为止的400多篇文章整理成了一本epub格式的电子书，不愿折腾的可以直接点击——乌云知识库博客汇总——下载。

工具简介和准备

Calibre

Calibre是一个“一站式”的电子书解决方案，它可以全面满足你的电子书需求。Calibre是免费的，源代码开放，拥有跨平台的设计，可在Linux， OS X和Windows操作系统中运行。
　　它是一个完整的电子图书馆，包括图书馆管理，格式转换，新闻，将材料转换为电子书，以及电子书阅读器同步功能、整合进电子图书阅读器。

此处我们用到的是Calibre的command line tools中的ebook-convert功能，请前往此处下载安装。

Mac下该工具已包含在安装包中，用户在使用前请执行export PATH="$PATH:/Applications/calibre.app/Contents/MacOS/"将cli tools路径加入系统路径，或将此句加入.bashrc。

其他系统暂未测试，欢迎留言补充说明。

Chrome

使用开发者工具来分析页面结构，用来在recipe中指定下载的内容。

制作过程

分析页面结构

先到乌云知识库页面查看。

乌云知识库界面

从页面底部的信息可以看到该知识库由wordpress生成，总共47页。
点击发现每一个目录页的格式形如http://drops.wooyun.org/page/2。

text

任选一个标题，点击右键——审查元素。

标题

标题结构如下：

<h2 class="entry-title">
    <a href="http://drops.wooyun.org/binary/4788" rel="bookmark" title="Permanent Link to “暗云”BootKit木马详细技术分析">“暗云”BootKit木马详细技术分析</a>
</h2>

可以找到规律，标题的共同特征是包含在<h2 class="entry-title">中，链接地址在其中的href中，标题内容为<a>中包含的内容。

任意点开一篇具体的文章，用同样的方法可以发现，每篇文章的正文部分是在如下的标签中。

<div id="post-4788" class="post">

编写`recipe`

calibre的recipe本质上是一个python文件，通过继承一个类，在其中指定一些电子书元数据和从网页提取内容的方法来达到自动下载和整合成电子书的目的。内容筛选主要通过Beautiful Soup实现。该任务中使用的recipe如下，其它参考链接包括：

#!/usr/bin/python
# encoding: utf-8
from calibre.web.feeds.recipes import BasicNewsRecipe

class wooyun(BasicNewsRecipe):
    title = u'乌云知识库'
    __author__ = u'无关风月'
    description = u'''乌云知识库，最专业的安全知识分享平台。本电子书由无关风月整理网站 <http://drops.wooyun.org/> 内容而来。'''
    timefmt = '[%Y-%m-%d]'
    no_stylesheets = True
    INDEX = 'http://drops.wooyun.org/'
    # auto_cleanup = True                   # 如果没有手动分析文章结构，可以考虑开启该选项自动清理正文内容
    language = 'zh-CN'
    keep_only_tags = [{'class': ['post']}]  # 仅保留文章的post中的内容，其中为自己分析得到的正文范围
    max_articles_per_feed = 10000           # 默认最多文章数是100，可改为更大的数字以免下载不全

    def parse_index(self):
        # soup = self.index_to_soup(self.INDEX)
        # pages_info = soup.findALL(**{'class': 'pages'}).text.split()
        # print 'pages_info:', pages_info
        start_page = 1      # int(pages_info[1])
        end_page = 47       # int(pages_info[3])
        articles = [] 
        for p in range(start_page, end_page+1):     # 处理每一个目录页
            soup_page = self.index_to_soup(self.INDEX + '/page/' + str(p))
            soup_titles = soup_page.findAll(**{'class': 'entry-title'})     # 从目录页中提取正文标题和链接
            for soup_title in soup_titles:
                href = soup_title.a
                articles.append({'title': href['title'][18:], 'url': href['href']}) 
            print 'page %d done' % p
        articles.reverse()                 # 文章倒序，让其按照时间从前到后排列
        res = [(u'乌云知识库', articles)]    # 返回tuple，分别是电子书名字和文章列表
        # self.abort_recipe_processing('test')  # 用来中断电子书生成，调试用
        return res

生成电子书

将上述文件保存成wooyun.recipe，在终端中执行命令：

ebook-convert wooyun.recipe wooyun.epub

然后你就可以去喝杯水，等待calibre自动将博客处理成电子书了。此处的epub也可以改成其它格式，如mobi。

有待改进

使用calibre内置的soup无法解析得到text节点，故此代码中start_page和end_page为硬编码，需要根据实际情况进行更改；
同理得到文章标题用的是href['title'][18:]，比较粗糙，有待改善；
parse_index解析目录页总共40多页是单线程同步进行的，速度较慢，可以考虑改成多线程加快速度。