phpspider简单快速上手的php爬虫框架

前言

前段时间接到一个开发采集网站数据的项目，从事php开发的我立刻想到使用php做爬虫。虽然python爬虫方便，但是php在这方面也不弱，谁让php是世界上最好的语言！这里推荐一款php的爬虫框架phpspider。不建议自己写爬虫，因为效率太低。使用框架爬虫真的要高效许多

官方文档：

https://doc.phpspider.org/

1、下载

官方github下载地址：

https://github.com/owner888/phpspider

下载地址可能无法访问，这里提供一个网盘下载地址：

***https://pan.baidu.com/s/10n9ZOUQBlrJzOQx0ShOmMQ ***

***提取码：b2zc ***

2、文件结构

下载解压后，phpspider的文件结构如图所示：

image

其中demo文件夹放的是phpspider的一些案例，如图所示：

image

3、创建爬虫并且运行

在demo文件夹下创建爬虫文件。需要注意的是，phpspider有两种运行爬虫文件的方式，一种是在命令行下运行；另外一种是可视化操作(在浏览器下运行)

3.1 在命令行下运行爬虫文件

要爬取的对象链接：

https://www.douban.com/photos/album/1616649448/

要爬取的内容如图所示：

image

爬取id为wrapper的div所包含的内容

3.1.1 在demo文件夹下新建文件spider.php，代码如下：

<?php
require_once __DIR__ . '/../autoloader.php';
use phpspider\core\phpspider;

/* Do NOT delete this comment */
/* 不要删除这段注释 */

$configs = array(
 'name' => '豆瓣',//定义当前爬虫名称
 'log_show' => true, //显示日志调试信息
 'input_encoding' => 'UTF-8',//输入编码

//定义爬虫爬取哪些域名下的网页, 非域名下的url会被忽略以提高爬取速度
'domains' => array(       
  'www.douban.com'    
),    

//定义爬虫的入口链接, 爬虫从这些链接开始爬取,同时这些链接也是监控爬虫所要监控的链接    
'scan_urls' => array(        
  'https://www.douban.com/photos/album/1616649448/'    
),    
//爬虫爬取数据导出    
'export' => array(         
  'type' => 'csv', //type：导出类型 csv、sql、db        
  'file' => '../data/abc.csv', //file：导出 csv、sql 文件地址，如果不存在文件自动创建    
),    
//定义内容页的抽取规则    
'fields' => array(        
  array(            
   'name' => "wrapper",            
   'selector' => "//div[@id='wrapper']",        
  )   
 )
);
$spider = new phpspider($configs);
$spider->start();

3.1.2 在demo文件夹中直接打开cmd命令面板，输入命令行 php -f spider.php 回车，代码跑起来，如图所示：

image

3.1.3 查看爬取下来的数据

在phpspider文件结构中找到data文件夹下的abc.csv文件，打开文件可看到爬取下来的数据，如图所示：

image

3.2 可视化操作(在浏览器下运行爬虫文件)

要爬取的对象链接：

https://movie.douban.com/subject/26588308/?from=showing

要爬取的内容如图所示：

image

爬取class为nav-items的div所包含的内容

3.2.1 在demo文件夹下新建另外一个文件test.php，代码如下：

<?php
header("Content-Type: text/html;charset=utf-8");
date_default_timezone_set("Asia/Shanghai");
ini_set("memory_limit", "10240M");

require_once __DIR__ . '/../autoloader.php';
use phpspider\core\phpspider;
use phpspider\core\requests;
use phpspider\core\selector;

/* Do NOT delete this comment */
/* 不要删除这段注释 */

$html = requests::get('https://movie.douban.com/subject/26588308/?from=showing');
$data = selector::select($html, "//div[@class='nav-items']");
echo $data;

3.2.2 打开浏览器输入文件地址

image

结语

以上只是简单的爬虫例子，还可以进行多进程爬取，代理爬虫，很多好玩的，更多操作参考官方文档

https://doc.phpspider.org/

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,793评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,567评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,342评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,825评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,814评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,680评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,033评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,687评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,175评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,668评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,775评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,419评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,020评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,206评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,092评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,510评论 2赞 343

phpspider简单快速上手的php爬虫框架

推荐阅读更多精彩内容