网页数据采集

返回结果:

返回的结果数据

采集规则:

{
	'规则名':['jQuery选择器','要采集的属性'],
	'规则名2':['jQuery选择器','要采集的属性']
}

规则库是用jQuery选择器来编写的,规则名有自己定义,对应其返回的key。例如:

{
	//采集id为one这个元素里面的纯文本内容
	'text' : ['#one','text'],
	//采集class为two下面的超链接的链接
	'link' : ['.two>a','href'],
	//采集class为two下面的第二张图片的链接
	'img' : ['.two>img:eq(1)','src'],
	//采集span标签中的HTML内容
	'other' : ['span','html']
};

切片选择器:

切片选择器又叫“区域选择器”,指先按照该规则对HTML内容进行切片 ,然后再分别再在这些切片里面进行相关的选择。 当采集列表的时候,建议设置这个参数。

// 切片选择器
'.items-area>.item'

替换规则:

用于全局替换相应内容,如下

{
	'内容1':'内容2',
	'替换前内容':'替换后内容'
}

乱码解决:

出现乱码的问题很多,一般通过设置输入输出参数即可解决,常用的网页编码有:utf-8,gbk,gb2312,iso-8859-1,big5,euc-krd等

基于querylist实现,本工具仅用于学习,参考使用!