Puppeteer浏览器控制器_介绍Puppeteer的一些用法

时间: 2018-03-26阅读: 2103标签: 浏览器

Puppeteer

Puppeteer是Chrome团队开源的Node库,其提供基于DevTools协议的高阶API让开发人员能够控制Headless Chrome、Chromium、Chrome等浏览器

通过Puppeteer能够将平时手动使用浏览器的操作通过代码的方式自动化执行,例如抓取网页、填充表单、下载文件、自动化测试,甚至使用开发者工具等。


安装要求

Node v6.4.0,但建议使用v7.6.0以上,原因是Puppeteer的很多用法都是异步的,原生支持async/await显得比较友好。

npm i --save puppeteer


起步

使用Puppeteer的流程比较简单,有点类似我们使用浏览器的流程,按照你操作浏览器的过程得到信息的过程,一步步执行对应的代码

const puppeteer = require('puppeteer');  // 引用

async function open(url) {
    let browser = await puppeteer.launch({
        headless: true,
        executablePath: '/Applications/Google Chrome Canary.app/Contents/MacOS/Google Chrome Canary'
    }); // 创建browser实例,相当于打开浏览器
    let page = await browser.newPage(); // 打开页面,相当于打开标签页
    await page.goto(url, {
        waitUnil: 'networkidle0'
    }); // 跳转到指定url
    /* 这里可以针对页面进行很多操作 */
    browser.close(); // 关闭浏览器
}
open('www.taobao.com');

下图是官方结构图


Page.$(selector)

通过css selector写法获取单个对象,返回<Promise<?ElementHandle>>

Page.$$(selector)

与Page.$(selector) 类似,但返回的是一组对象,<Promise<Array<ElementHandle>>>

page.$$eval(selector, pageFunction[, ...args])

获取属性

const divsCounts = await page.$$eval('div', divs => divs.length);

page.evaluate(pageFunction, ...args)

执行页面脚本

page.waitFor(selectorOrFunctionOrTimeout[, options[, ...args]])

等待指定Dom显示、等待方法执行、等待一段时间

page.waitForNavigation(options)

等待页面跳转


下文将通过几个场景来展现Puppeteer的一些用法


爬虫

抓取1688的某商品详情页内容,我们需要事先分析该页面的结构,以便能够抓取所需的信息。

商品名称 dom
商品信息全局inline js iDetailConfig对象
商品缩略图全局inline js iDetailData对象
商品详情图id="desc-lazyload-container" dom里面所有img,使用了lazy-load

具体看下面的关键代码

let detailUrl = 'https://detail.1688.com/offer/564492877842.html';

/**
 * 抓取详情页
 * @param {Object} page 
 */
async function fetchDetail(page) {
    // 获取商品名称
    let dTitleHandle = await page.$('.d-title');  // 使用css selector格式查找商品名称,返回
    let dTitle = await page.evaluate(dTitle => dTitle.innerhtml, dTitleHandle); // 获取dom innerhtml
    let iDetailConfig = await page.evaluate(x => {
        return Promise.resolve(iDetailConfig);
    }); // 获取页面js iDetailConfig对象
    let iDetailData = await page.evaluate(x => {
        return Promise.resolve(iDetailData);
    }); // 获取页面js iDetailData对象
    let detail = {
        title: dTitle,
        offerid: iDetailConfig.offerid,
        skuProps: iDetailData.sku.skuProps,
        skuMap: iDetailData.sku.skuMap
    }; 
    /**
    * ……
    */
    // 获取sku图片和缩略图
    Object.keys(detail.skuMap).forEach(async (skuName) => {
        let selectorStr = `tr[data-sku-config] span.image[title=${skuName}]`;
        // 遍历sku信息查找对应的缩略图标签,读取data-imgs属性的json,从其中获取缩略图和原图url
        let dataImgsValue = page.evaluate(selectorStr => {
            return document.querySelector(selectorStr).dataset.imgs;
        }, selectorStr);
        let dataImgs = jsON.parse(await dataImgsValue);
        // 调用第三方库下载图片
        await saveImgs(dataImgs.preview, `${dir}/preview`);
        await saveImgs(dataImgs.original, `${dir}/original`);
        
    });
    // 加载详情图
    let preScrollHeight = 0;
    let scrollHeight = -1;
    while(preScrollHeight !== scrollHeight) {
        // 详情信息是根据滚动异步加载,所以需要让页面滚动到屏幕最下方,通过延迟等待的方式进行多次滚动
        let scrollH1 = await page.evaluate(async () => {
            let h1 = document.body.scrollHeight;
            window.scrollTo(0, h1);
            return h1;
        });
        await page.waitFor(500);
        let scrollH2 = await page.evaluate(async () => {
            return document.body.scrollHeight;
        });
        let scrollResult = [scrollH1, scrollH2];
        preScrollHeight = scrollResult[0];
        scrollHeight = scrollResult[1];
    }
    let descContainerHandle = await page.$('#desc-lazyload-container');
    let descImgs = await page.evaluate(descContainer => {
        let descImgs = [];
        descContainer.querySelectorAll('img').forEach(imgElement => {
            // 遍历保存所有的详情页图片
            descImgs.push({
                src: imgElement.src
            })
        });
        return descImgs;
    }, descContainerHandle);
}


使用Trace功能

除了基本的页面浏览功能,Puppeteer同样能够调用devtool的功能,其中就包括Trace,能够自动保存网页浏览的trace文件,能够成为分析性能的辅助工具


async function trace(url) {
/**
* ………
*/
// 页面的trace数据会被保存到trace.json
    await page.tracing.start({path: './dist/trace.json'});
    await page.goto(url, {
        waitUnil: 'networkidle0'
    });
    await page.tracing.stop();
}

保存下来的json文件可以通过chrome devtool加载手动分析,也可以通过程序方式提取关键信息进行自动分析,如页面加载速度、页面展现截图、脚本执行性能等,这个功能在自动化监控方面会有很大的想象空间。


总结

Puppeteer的出现提升了开发、测试对浏览器的自动化控制能力,其性能、API友好度、兼容性都远远超过Phantomjs,对于使用者来说,需要更多地思考如何更好地利用工具的能力,例如爬虫的难点并不在于爬虫工具,而是如何更有效率地抓取数据、反爬,获取Trace后的分析同样才是技术难点。

来源:https://segmentfault.com/a/1190000013978236


站长推荐

1.云服务推荐: 国内主流云服务商,各类云产品的最新活动,优惠券领取。地址:阿里云腾讯云华为云

2.广告联盟: 整理了目前主流的广告联盟平台,如果你有流量,可以作为参考选择适合你的平台点击进入

链接: http://www.fly63.com/article/detial/546

浏览器的三种Js弹窗方式

在做网页时,常常使用弹窗,以上就是浏览器的三种弹窗方式, alert 在测试时常用; confirm 可以套用if...else 来用 ,比如 :confirm点击了确定做什么事情,点击了取消又做什么事情;prompt 弹窗输入 ; 可以给网页设置密码。

浏览器重绘(repaint)重排(reflow)与优化

很多人都知道要减少浏览器的重排和重绘,但对其中的具体原理以及如何具体操作并不是很了解,当突然提起这个话题的时候,还是会一脸懵逼。希望大家可以耐着性子阅读本文,仔细琢磨,彻底掌握这个知识点!

浏览器会内置类react框架

从Prototype.js到风靡全球的jQuery.js,都是在解决浏览器间DOM操作的差异化问题,同时也提供了简洁友好的API,但是随着标准的不断的推进,现在浏览器间的差异化可以说已经没有了

深入浏览器事件循环的本质

浏览器的事件循环,前端再熟悉不过了,每天都会接触的东西。但我以前一直都是死记硬背:事件任务队列分为macrotask和microtask,浏览器先从macrotask取出一个任务执行,再执行microtask内的所有任务,接着又去macrotask取出一个任务执行

总结整理HTML5浏览器支持情况总结整理HTML5浏览器支持情况

HTML5浏览器支持情况:现今浏览器的许多新功能都是从HTML5标准中发展而来的。目前常用的浏览器有IE、火狐、谷歌、Safari和Opera等等,通过对这些主流web浏览器的发展策略调查,发现它们都支持HTML5上采取了措施。

javascript如何判断浏览器类型?

不同的浏览器有不同的属性,你知道怎么来判断浏览器的类型吗?下面我们来看一下如何使用JavaScript判断浏览器类型。使用浏览器的userAgent来判断,userAgent是navigator的属性方法,可以返回客户机发送服务器的头部信息。

不同浏览器的内核

网页上所用到的语言有:html, css, JavaScript等,其中,前两者通常决定了该页面长什么样,它们是可以说都是约定的规范。不同的浏览器在获取到某页面的代码文件后,负责根据这套规范将代码渲染出来呈现给用户

解决v-lazy-image在qq浏览器x5内核下无效

在安卓qq浏览器中,v-lazy-image始终无法显示。经调试,发现qq浏览器中IntersectionObserver缺少一个isIntersecting字段,而v-lazy-image插件是根据isIntersecting来显示图片的

浏览器storage你真的会用吗

html5标准localstorage和sessionStorage 为现代浏览器提供用户会话级别的数据存取。它们允许你访问一个Document 源(origin)的对象 Storage,也就是在遵守同源策略情况下存取数据。

IE6浏览器有哪些常见的bug,以及解决IE6常用bug的方法

IE6不支持min-height,解决办法使用css hack,ol内li的序号全为1,不递增。解决方法:为li设置样式display: list-item;定位父元素overflow: auto;,包含position: relative;子元素,子元素高于父元素时会溢出。解决办法:

点击更多...

内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!

文章投稿关于web前端网站点搜索站长推荐网站地图站长QQ:522607023

小程序专栏: 土味情话心理测试脑筋急转弯幽默笑话段子句子语录成语大全运营推广