tp5使用curl特性进行定时多线程爬虫(或任务),使用redis队列

利用php(以及开源工具)实现爬虫

流程说明

  1. 从数据库或者循环构建爬虫的url(包括分页参数)**
  2. 分段取出使用多线程保存数据到redis**
  3. 启用队列把数据保存到数据库**

开始

  1. 使用tp5.0的框架,安装爬虫扩展 QueryList 4.0
composer require jaeger/querylist

GitHub地址
2. 安装多线程curl扩展CurlMulti 插件

composer require jaeger/querylist-curl-multi

GitHub地址
3. 如果需要运行js脚本,安装PhantomJS 插件

composer require jaeger/querylist-phantomjs

GitHub地址
4. 安装tp5的队列扩展

composer require topthink/think-queue

GitHub地址
5. 安装taskPHP扩展使用php的cli模式(不超时也可定时执行程序)

composer require taskphp/taskphp dev-master

GitHub地址

配置使用

queue配置(/extra/queue.php)

<?php
return [
    // 'connector'  => 'Database', // 数据库驱动
    // 'expire'     => null, // 任务的过期时间,默认为60秒; 若要禁用,则设置为 null
    // 'default'    => 'default', // 默认的队列名称
    // 'table'      => 'prefix_jobs', // 存储消息的表名,不带前缀
    // 'dsn'        => [],
    // --------------------
    'connector'  => 'Redis', // Redis 驱动
    'expire'     => null, // 任务的过期时间,默认为60秒; 若要禁用,则设置为 null
    'default'    => 'default2', // 默认的队列名称
    'host'       => '127.0.0.1', // redis 主机ip
    'port'       => 6379, // redis 端口
    'password'   => '', // redis 密码
    'select'     => 0, // 使用哪一个 db,默认为 db0
    'timeout'    => 0, // redis连接的超时时间
    'persistent' => false, // 是否是长连接s
];

taskphp配置

<?php
namespace app\index\controller;

use think\console\Command;
use think\console\Input;
use think\console\input\Argument;
use think\console\Output;

// 载入taskphp入口文件
require_once dirname(APP_PATH) . '/vendor/taskphp/taskphp/src/taskphp/base.php';

class Taskphp extends Command
{

    protected function get_config()
    {
        return [
            //任务列表
            'task_list' => [
                //key为任务名,多任务下名称必须唯一
                // 'all' => [
                //     'callback'        => ['app\\index\\controller\\Demo', 'run'], //任务调用:类名和方法
                //     //指定任务进程最大内存  系统默认为512M
                //     'worker_memory'   => '2048M',
                //     //开启任务进程的多线程模式
                //     'worker_pthreads' => false,
                //     //任务的进程数 系统默认1
                //     'worker_count'    => 1,
                //     //crontad格式 :秒 分 时 天 月 年 周 // 大概是6分钟 执行一个周期
                //     'crontab'         => '1 * * * * * *',
                // ],
                // 'bufen' => [
                //     'callback'        => ['app\\index\\controller\\Demo', 'run2'], //任务调用:类名和方法
                //     //指定任务进程最大内存  系统默认为512M
                //     'worker_memory'   => '1024M',
                //     //开启任务进程的多线程模式
                //     'worker_pthreads' => false,
                //     //任务的进程数 系统默认1
                //     'worker_count'    => 1,
                //     //crontad格式 :秒 分 时 天 月 年 周 // 大概是6分钟 执行一个周期
                //     'crontab'         => '1 * * * * * *',
                // ],
                // 'bufenRedis' => [
                //     'callback'        => ['app\\index\\controller\\Demo', 'run3'], //任务调用:类名和方法
                //     //指定任务进程最大内存  系统默认为512M
                //     'worker_memory'   => '1024M',
                //     //开启任务进程的多线程模式
                //     'worker_pthreads' => false,
                //     //任务的进程数 系统默认1
                //     'worker_count'    => 1,
                //     //crontad格式 :秒 分 时 天 月 年 周 // 大概是6分钟 执行一个周期
                //     'crontab'         => '1 * * * * * *',
                // ],
            ],
        ];
    }
    protected function configure()
    {
        $this->addArgument('param', Argument::OPTIONAL);
        // 设置命令名称
        $this->setName($_SERVER['argv'][1])->setDescription('this is a taskphp!');
    }

    protected function execute(Input $input, Output $output)
    {
        //系统配置
        $config = $this->get_config();
        //加载配置信息
        \taskphp\Config::load($config);
        //定义启动文件入口标记
        define("START_PATH", dirname(APP_PATH));
        //运行框架
        \taskphp\App::run();
    }
}

主逻辑

<?php
namespace app\index\controller;

use QL\Ext\CurlMulti;
use QL\Ext\PhantomJs;
use QL\QueryList;
use think\Db;
use think\Queue;

class Test
{
    # 逻辑
    # 使用定时任务执行所有的 make_url
    # 段查数据形成uri段 make_url
    # 把段查数据加入到多线程爬虫里面 start
    # 得到的所有的数据加入到Redis队列 push
    # 最后加入数据库 [多线程使用startnojs,js可执行文件文件会遇到进程阻塞]

    // php think queue:listen
    // php think queue:work --daemon(不加--daemon为执行单个任务)
    // php think queue:work --queue PaChongShuJu --daemon

    /**
     * 段查门店id
     * @return [type] [description]
     */
    public function make_url()
    {
        set_time_limit(0);
        DB::table('aid')->chunk(200, function ($datas) {
            $url = [];
            foreach ($datas as $data) {
                $url[] = 'http://i.meituan.com/poi/' . $data['aid'];
            }
            $this->startnojs($url);
        });
        // 测试
        // $url = [
        //     'http://i.meituan.com/poi/71225712',
        //     'http://i.meituan.com/poi/116558576',
        // ];
        // $data['aid'] = 1;
        // $this->start($url, $data['aid']);
    }
    public function startnojs($url = [])
    {
        $ql = QueryList::getInstance();
        $ql->use(CurlMulti::class);
        $ql->rules(['html' => ['html', 'html', '']])
            ->curlMulti($url)
            ->success(function (QueryList $ql, CurlMulti $curl, $r) {
                $p   = $r['info']['url'];
                $pid = substr($p, 25);
                $ret2 = $ql->getHtml();
                preg_match("/这家店不错哦,一起去吧!(.*?)。\"/", $ret2, $m);
                if (!empty($m)) {
                    if (!empty($m[1])) {
                        $pieces = explode(",", $m[1]);
                        $data   = [
                            'name'    => $pieces[0],
                            'address' => $pieces[1],
                            'mobile'  => $pieces[2],
                            'p'       => $pid,
                        ];
                        $count = Db::table('info')->where('address', $pieces[1])->count();
                        if ($count > 0) {
                        } else {
                            $this->push($data);
                        }
                    }
                }
                $ql->destruct();
            })->start([
            'maxThread' => 100,
            'maxTry'    => 3,
        ]);
    }
    /**
     * 多线程+cookie爬虫
     * @return [type] [description]
     */
    public function start($url = [])
    {
        $ql = QueryList::getInstance();
        $ql->use(CurlMulti::class);
        $ql->use(PhantomJs::class, 'D:/phantomjs-2.1.1-windows/bin/phantomjs.exe');
        $ql->rules(['html' => ['html', 'html', '']])
            ->curlMulti($url)
            ->success(function (QueryList $ql, CurlMulti $curl, $r) {
                $p   = $r['info']['url'];
                $pid = substr($p, 25);
                $ret = $ql->browser(function (\JonnyW\PhantomJs\Http\RequestInterface $r) use ($p, $pid) {
                    $r->setMethod('GET');
                    $r->addHeader('Accept', 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8');
                    // $r->addHeader('Referer', 'http://cq.meituan.com/s/%E5%90%83%E9%A5%AD/');
                    $r->addHeader('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 YaBrowser/18.4.0.2080 Yowser/2.5 Safari/537.36');
                    $r->addHeader('Cookie', 'IKUT=9156; BAIDUID=AA818089000D26F1B318D034B442113F:FG=1; BIDUPSID=AA818089000D26F1B318D034B442113F; PSTM=1526021220; BDUSS=h5dVM2Zk56OTIydUk2TFNFZzExVDBHOFNZQXhMOH5yVHFyQTRaaWRycHdBQzViQVFBQUFBJCQAAAAAAAAAAAEAAADXQoYktKi452pjAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAHBzBltwcwZbTk; Hm_lvt_16bc67e4f6394c05d03992ea0a0e9123=1526714879,1527237021,1527237078; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; Hm_lvt_6859ce5aaf00fb00387e6434e4fcc925=1527583339,1527645854,1527650790,1527651051; PSINO=3; locale=zh; H_PS_PSSID=1449_21111; Hm_lpvt_6859ce5aaf00fb00387e6434e4fcc925=1527652553');
                    $r->setUrl($p);
                    $r->setTimeout(10000); // 10 seconds
                    $r->setDelay(3); // 3 seconds
                    return $r;
                });
                $ret2 = $ret->getHtml();
                preg_match("/这家店不错哦,一起去吧!(.*?)。\"/", $ret2, $m);
                if (!empty($m)) {
                    if (!empty($m[1])) {
                        $pieces = explode(",", $m[1]);
                        $data   = [
                            'name'    => $pieces[0],
                            'address' => $pieces[1],
                            'mobile'  => $pieces[2],
                            'p'       => $pid,
                        ];
                        $count = Db::table('info')->where('address', $pieces[1])->count();
                        if ($count > 0) {
                        } else {
                            $this->push($data);
                        }
                    }
                }
                $ql->destruct();
            })->start([
            'maxThread' => 20,
            'maxTry'    => 3,
        ]);
    }
    /**
     * 推送列队
     * @param  array  $data [description]
     * @return [type]       [description]
     */
    public function push($data = [])
    {
        $jobData             = json_encode($data);
        $jobHandlerClassName = 'app\index\controller\Job';
        $jobQueueName        = "PaChongShuJu";
        $isPushed            = Queue::push($jobHandlerClassName, $jobData, $jobQueueName);
        // if ($isPushed) {
        //     echo "ok";
        // }else{
        //     var_dump($isPushed);
        // }
    }
}

job文件

<?php
namespace app\index\controller;

use think\Db;
use think\queue\Job as QueueJob;

class Job
{
    public function fire(QueueJob $job, $data)
    {
        $pieces = json_encode($data);
        $this->add_db($pieces);
        if ($job->attempts() > 3) {
            //通过这个方法可以检查这个任务已经重试了几次了
            $job->delete();
        }
        //如果任务执行成功后 记得删除任务,不然这个任务会重复执行,直到达到最大重试次数后失败后,执行failed方法
        $job->delete();

        // 也可以重新发布这个任务
        // $job->release($delay); //$delay为延迟时间

    }

    public function failed($data)
    {
        // ...任务达到最大重试次数后,失败了
    }
    public function add_db($data = [])
    {
        $data  = (array) json_decode(json_decode($data));
        $count = Db::table('info')->where('address', $data['address'])->count();
        if ($count == 0) {
            Db::table('info')->insert($data);
        }
    }
}

taskPHP任务入口程序

<?php
namespace app\index\controller;

use taskphp\Utils;
use think\Db;
use QL\Ext\CurlMulti;
use QL\Ext\PhantomJs;
use QL\QueryList;
/**
 * 测试任务
 */
class Demo
{
    /**
     * demo任务入口
     */
    public static function run()
    {
         $papachong = new \app\index\controller\Chong();
         $papachong->once();
    }
    public static function run2()
    {
        $papachong = new \app\index\controller\Chong();
         $papachong->once2();
    }
    public static function run3()
    {
        $papachong = new \app\index\controller\Test();
         $papachong->make_url();
    }

}

tp5命令行配置文件(application/command.php)

<?php

return [
    'app\index\controller\Taskphp',
    'think\queue\command\Listen',
    'think\queue\command\Restart',
    'think\queue\command\Subscribe',
    'think\queue\command\Work',
];

执行开始

  1. 开启redis服务器
  2. 运行监听队列
php think queue:work --queue PaChongShuJu
  1. 运行taskPHP任务(win直接运行目录下面的bat文件)开始爬虫
php think start
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容

  • 利用php(以及开源工具)实现爬虫 流程说明 从数据库或者循环构建爬虫的url(包括分页参数)** 分段取出使用多...
    LauEl阅读 775评论 0 3
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,594评论 18 139
  • 有人送我两缕细线 他教我拇指并食指牵着 直达天空 他说这是彩虹 耶! 真的是彩虹! 我像放风筝的孩子 返老还童 我...
    莲籽阅读 213评论 0 2
  • 周大爷有一句口头禅: 三天不停电,不是湖口县 斯人已逝,13年了 我在2011年的岁末 还能感觉到这句话的分量 停...
    红秋池阅读 262评论 2 2
  • 今日起得早一些,不到七点钟已经在十中的操场上缓缓前行了。天还未亮,一切都在半睡半醒的状态下-----昨日是‘’雨水...
    yx雨山阅读 304评论 0 2