Puppeteer是Chrome团队开源的Node库,其提供基于DevTools协议的高阶api让开发人员能够控制Headless Chrome、Chromium、Chrome等浏览器
通过Puppeteer能够将平时手动使用浏览器的操作通过代码的方式自动化执行,例如抓取网页、填充表单、下载文件、自动化测试,甚至使用开发者工具等。
Node v6.4.0,但建议使用v7.6.0以上,原因是Puppeteer的很多用法都是异步的,原生支持async/await显得比较友好。
npm i --save puppeteer
使用Puppeteer的流程比较简单,有点类似我们使用浏览器的流程,按照你操作浏览器的过程得到信息的过程,一步步执行对应的代码:
const puppeteer = require('puppeteer'); // 引用
async function open(url) {
let browser = await puppeteer.launch({
headless: true,
executablePath: '/Applications/Google Chrome Canary.app/Contents/MacOS/Google Chrome Canary'
}); // 创建browser实例,相当于打开浏览器
let page = await browser.newPage(); // 打开页面,相当于打开标签页
await page.goto(url, {
waitUnil: 'networkidle0'
}); // 跳转到指定url
/* 这里可以针对页面进行很多操作 */
browser.close(); // 关闭浏览器
}
open('www.taobao.com');
下图是官方结构图
通过css selector写法获取单个对象,返回<Promise<?ElementHandle>>
与Page.$(selector) 类似,但返回的是一组对象,<Promise<Array<ElementHandle>>>
获取属性
const divsCounts = await page.$$eval('div', divs => divs.length);
执行页面脚本
等待指定dom显示、等待方法执行、等待一段时间
等待页面跳转
抓取1688的某商品详情页内容,我们需要事先分析该页面的结构,以便能够抓取所需的信息。
商品名称 | dom |
商品信息 | 全局inline js iDetailConfig对象 |
商品缩略图 | 全局inline js iDetailData对象 |
商品详情图 | id="desc-lazyload-container" dom里面所有img,使用了lazy-load |
具体看下面的关键代码
let detailUrl = 'https://detail.1688.com/offer/564492877842.html';
/**
* 抓取详情页
* @param {Object} page
*/
async function fetchDetail(page) {
// 获取商品名称
let dTitleHandle = await page.$('.d-title'); // 使用css selector格式查找商品名称,返回
let dTitle = await page.evaluate(dTitle => dTitle.innerHTML, dTitleHandle); // 获取dom innerHTML
let iDetailConfig = await page.evaluate(x => {
return Promise.resolve(iDetailConfig);
}); // 获取页面js iDetailConfig对象
let iDetailData = await page.evaluate(x => {
return Promise.resolve(iDetailData);
}); // 获取页面js iDetailData对象
let detail = {
title: dTitle,
offerid: iDetailConfig.offerid,
skuProps: iDetailData.sku.skuProps,
skuMap: iDetailData.sku.skuMap
};
/**
* ……
*/
// 获取sku图片和缩略图
Object.keys(detail.skuMap).forEach(async (skuName) => {
let selectorStr = `tr[data-sku-config] span.image[title=${skuName}]`;
// 遍历sku信息查找对应的缩略图标签,读取data-imgs属性的json,从其中获取缩略图和原图url
let dataImgsValue = page.evaluate(selectorStr => {
return document.querySelector(selectorStr).dataset.imgs;
}, selectorStr);
let dataImgs = JSON.parse(await dataImgsValue);
// 调用第三方库下载图片
await saveImgs(dataImgs.preview, `${dir}/preview`);
await saveImgs(dataImgs.original, `${dir}/original`);
});
// 加载详情图
let preScrollHeight = 0;
let scrollHeight = -1;
while(preScrollHeight !== scrollHeight) {
// 详情信息是根据滚动异步加载,所以需要让页面滚动到屏幕最下方,通过延迟等待的方式进行多次滚动
let scrollH1 = await page.evaluate(async () => {
let h1 = document.body.scrollHeight;
window.scrollTo(0, h1);
return h1;
});
await page.waitFor(500);
let scrollH2 = await page.evaluate(async () => {
return document.body.scrollHeight;
});
let scrollResult = [scrollH1, scrollH2];
preScrollHeight = scrollResult[0];
scrollHeight = scrollResult[1];
}
let descContainerHandle = await page.$('#desc-lazyload-container');
let descImgs = await page.evaluate(descContainer => {
let descImgs = [];
descContainer.querySelectorAll('img').forEach(imgElement => {
// 遍历保存所有的详情页图片
descImgs.push({
src: imgElement.src
})
});
return descImgs;
}, descContainerHandle);
}
除了基本的页面浏览功能,Puppeteer同样能够调用devtool的功能,其中就包括Trace,能够自动保存网页浏览的trace文件,能够成为分析性能的辅助工具。
async function trace(url) {
/**
* ………
*/
// 页面的trace数据会被保存到trace.json
await page.tracing.start({path: './dist/trace.json'});
await page.goto(url, {
waitUnil: 'networkidle0'
});
await page.tracing.stop();
}
保存下来的json文件可以通过chrome devtool加载手动分析,也可以通过程序方式提取关键信息进行自动分析,如页面加载速度、页面展现截图、脚本执行性能等,这个功能在自动化监控方面会有很大的想象空间。
Puppeteer的出现提升了开发、测试对浏览器的自动化控制能力,其性能、API友好度、兼容性都远远超过PhantomJS,对于使用者来说,需要更多地思考如何更好地利用工具的能力,例如爬虫的难点并不在于爬虫工具,而是如何更有效率地抓取数据、反爬,获取Trace后的分析同样才是技术难点。
来源:https://segmentfault.com/a/1190000013978236
您的浏览器禁用了JS脚本运行,请启用该功能。怎么解除浏览器禁用js?这篇文章将总结整理各个浏览器如何开启、禁用javascript的方法总汇。
浏览器使用流式布局模型 (Flow Based Layout)。浏览器会把HTML解析成DOM,把CSS解析成CSSOM,DOM和CSSOM合并就产生了Render Tree。有了RenderTree,我们就知道了所有节点的样式,然后计算他们在页面上的大小和位置,最后把节点绘制到页面上。
IE6不支持min-height,解决办法使用css hack,ol内li的序号全为1,不递增。解决方法:为li设置样式display: list-item;定位父元素overflow: auto;,包含position: relative;子元素,子元素高于父元素时会溢出。解决办法:
由于不同的浏览器默认的样式也不同,所以在网页开发前设置一个公用样式,来清除各个浏览器的默认样式,已达到做的网页在各个浏览器中达到统一。
浏览器访问网站的步骤:Chrome搜索自身的DNS缓存、读取本地HOST文件、浏览器发起一个DNS的一个系统调用、浏览器获得域名对应的IP地址后,发起HTTP三次握手、TCP/IP连接建立起来、服务器端接受到了这个请求、浏览器根据拿到的资源对页面进行渲染
Browsh是一个纯文本浏览器,可以运行在大多数的TTY终端环境和任何浏览器。目前,终端客户端比浏览器客户端更先进。终端客户端即时更新和交付,以便于体验新的功能,例如,你可以观看视频。
一般说的浏览器内核是指浏览器最重要的核心部分,RenderingEngine,翻译成中文大概意思就是“解释引擎”,我们一般称为浏览器内核。由于不同的内核各自有一套自己的渲染网页和解释页面代码的机制,所以就会有一些问题存在。
主流浏览器之争从上个世纪开就开始,已经持续了很长的时间。人们都在笑话IE,纷纷转向其它浏览器。今天,我向大家分享一下针对IE的搞笑图片,只是逗乐而已,喝杯咖啡,坐下来慢慢享受吧。
有时候我们希望在浏览器中执行一些低优先级的任务,比如记录统计数据、做一些耗时的数据处理等,暂且将其称为后台任务。这些任务跟动画计算、合成帧、响应用户输入等高优先级的任务共享主线程
浏览器的事件循环,前端再熟悉不过了,每天都会接触的东西。但我以前一直都是死记硬背:事件任务队列分为macrotask和microtask,浏览器先从macrotask取出一个任务执行,再执行microtask内的所有任务,接着又去macrotask取出一个任务执行
内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!