防止百度,360等搜索引擎抓取/收录网站的方法总汇

时间: 2017-12-26阅读: 386标签: 方法

搜索引擎的蜘蛛spider会不断爬行互联网数据,如果网站没有做出防止搜索引擎抓取的操作,就很容易被搜索引擎收录,这篇文章主要讲解如何防止百度,360等搜索引擎收录网站内容。


方法一:robots.txt

搜索引擎的蜘蛛spider在访问网站的时候,首先会检查该网站的根域下是否存在有 robots.txt的纯文本文件,这个文件的作用是用来告诉spider在您网站上的抓取范围。
User-agent:*表示和所有搜索引擎协议适用;
Disallow:/表示禁止抓取收录全站。  

禁止所有内容:

User-agent: *
Disallow: /

禁止访问网站的所有部分:

User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /admin/

禁止所有的搜索引擎访问css、js、admin目录。如果您的网站设置了robots.txt文件,如果在搜索结果中出现您网站的相关信息,那搜索结果中展示的一般是其他网站对您相关网页的描述。


方法二:网页代码方法

<head>与</head>之间设置meta:

<meta name="robots" content="noarchive">

通过这样设置就可以禁止搜索引擎抓取网站并显示网页快照。要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:

<meta name="Baiduspider" content="noarchive">


方法三:判断访问来源

在服务器端判断访问来源,如果是蜘蛛的IP直接404或者阻止它访问即可。  


备注:

如果后面加了禁止代码,但是搜索引擎还可以搜索出来,因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。