php使用QueryList轻松采集js动态渲染页面方法

 更新时间:2018年09月11日 08:22:19   投稿:laozhang   我要评论

这篇文章给大家分享了php使用QueryList轻松采集js动态渲染页面的相关知识点内容,有兴趣的朋友学习下。

QueryList使用jQuery的方式来做采集,拥有丰富的插件。下面来演示QueryList使用PhantomJS插件抓取JS动态创建的页面内容。

一、安装

使用Composer安装:

1.安装QueryList

composer require jaeger/querylist

GitHub: https://github.com/jae-jae/QueryList

2.安装PhantomJS插件

composer require jaeger/querylist-phantomjs

GitHub: https://github.com/jae-jae/QueryList-PhantomJS

二、下载PhantomJS二进制文件

PhantomJS官网:http://phantomjs.org ,下载对应平台的PhantomJS二进制文件。

三、插件API

QueryList browser($url,$debug = false,$commandOpt = []):使用浏览器打开连接

四、使用

以采集「今日头条」手机版为例,「今日头条」手机版基于React框架,内容是纯动态渲染出来的。

下面演示QueryList的PhantomJs插件用法:

1.安装插件

use QL\QueryList;
use QL\Ext\PhantomJs;
 
$ql = QueryList::getInstance();
// 安装时需要设置PhantomJS二进制文件路径
$ql->use(PhantomJs::class,'/usr/local/bin/phantomjs');
//or Custom function name
$ql->use(PhantomJs::class,'/usr/local/bin/phantomjs','browser');

2.Example-1

获取动态渲染的HTML:

$html = $ql->browser('https://m.toutiao.com')->getHtml();
print_r($html);

获取所有p标签文本内容:

$data = $ql->browser('https://m.toutiao.com')->find('p')->texts();
print_r($data->all());

输出:

Array(
  [0] => 自拍模式开启!国庆假期我和国旗合个影
  [1] => 你旅途已开始 他们仍在自己的岗位上为你的假期保驾护航
  [2] => 喜极而泣,都教授终于回到地球了!  //....)

使用http代理:

// 更多选项可以查看文档: 
http://phantomjs.org/api/command-line.html
$ql->browser('https://m.toutiao.com',true,[  
// 使用http代理 
'--proxy' => '192.168.1.42:8080',  '--proxy-type' => 'http'
])

3.Example-2

自定义一个复杂的请求:

$data = $ql->browser(function (\JonnyW\PhantomJs\Http\RequestInterface $r){
  $r->setMethod('GET');
  $r->setUrl('https://m.toutiao.com');
  $r->setTimeout(10000); // 10 seconds
  $r->setDelay(3); // 3 seconds
  return $r;
})->find('p')->texts();
 
print_r($data->all());

开启debug模式,并从本地加载cookie文件:

$data = $ql->browser(function (\JonnyW\PhantomJs\Http\RequestInterface $r){
  $r->setMethod('GET');
  $r->setUrl('https://m.toutiao.com');
  $r->setTimeout(10000); // 10 seconds
  $r->setDelay(3); // 3 seconds
  return $r;
},true,[
  '--cookies-file' => '/path/to/cookies.txt'
])->rules([
  'title' => ['p','text'],
  'link' => ['a','href']
])->query()->getData();
 
print_r($data->all());

相关文章

  • php 数组随机取值的简单实例

    php 数组随机取值的简单实例

    下面小编就为大家带来一篇php 数组随机取值的简单实例。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-05-05
  • php的mssql数据库连接类实例

    php的mssql数据库连接类实例

    这篇文章主要介绍了php的mssql数据库连接类,以一个类实例的形式演示了PHP实现针对mssql数据库的各种常用操作方法,包括对数据库的连接与增删改查等操作,非常具有实用价值,需要的朋友可以参考下
    2014-11-11
  • php 定界符格式引起的错误

    php 定界符格式引起的错误

    下面是一个错误的代码,能看出哪里出错了么??对于我这个初学者什么都是蒙蒙懂的,真的无从下手,但是真的要自己尝试了才知道哪里错了,书和教程都不会告诉我哪里错了
    2011-05-05
  • 基于php下载文件的详解

    基于php下载文件的详解

    本篇文章是对php下载文件进行了详细的分析介绍,需要的朋友参考下
    2013-06-06
  • PHP中常见的缓存技术实例分析

    PHP中常见的缓存技术实例分析

    这篇文章主要介绍了PHP中常见的缓存技术,以实例形式较为详细的分析了php中缓存技术的原理、特点及使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-09-09
  • php checkdate、getdate等日期时间函数操作详解

    php checkdate、getdate等日期时间函数操作详解

    PHP的日期时间函数date()中介绍了PHP日期时间函数的简单用法,这类将介绍更多的函数来丰富我们的应用。
    2010-03-03
  • PHP批量上传图片的具体实现方法介绍.

    PHP批量上传图片的具体实现方法介绍.

    这篇文章主要介绍了PHP批量上传图片的具体实现方法。需要的朋友可以过来参考下,希望对大家有所帮助
    2014-02-02
  • PHP实现负载均衡的加权轮询方法分析

    PHP实现负载均衡的加权轮询方法分析

    这篇文章主要介绍了PHP实现负载均衡的加权轮询方法,简单描述了常见的负载均衡算法,并结合实例形式分析了加权轮询的相关实现技巧,需要的朋友可以参考下
    2018-08-08
  • PHP定时执行计划任务的多种方法小结

    PHP定时执行计划任务的多种方法小结

    PHP不支持多线程,有时候处理问题不是那么爽,今天谈论一下PHP定时执行的方法
    2011-12-12
  • php自定义时间转换函数示例

    php自定义时间转换函数示例

    这篇文章主要介绍了php自定义时间转换函数,可实现时间戳与字符串时间显示格式之间的转换功能,需要的朋友可以参考下
    2016-12-12

最新评论