防止百度，360等搜索引擎抓取/收录网站的方法总汇

更新日期: 2017-12-26阅读: 4.6k标签: 索引分享

复制链接

新浪微博

QQ 好友

扫一扫分享

搜索引擎的蜘蛛spider会不断爬行互联网数据，如果网站没有做出防止搜索引擎抓取的操作，就很容易被搜索引擎收录，这篇文章主要讲解如何防止百度，360等搜索引擎收录网站内容。

方法一：robots.txt

搜索引擎的蜘蛛spider在访问网站的时候，首先会检查该网站的根域下是否存在有 robots.txt的纯文本文件，这个文件的作用是用来告诉spider在您网站上的抓取范围。

User-agent:*表示和所有搜索引擎协议适用；
Disallow:/表示禁止抓取收录全站。

User-agent: *
Disallow: /

User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /admin/

禁止所有的搜索引擎访问css、js、admin目录。如果您的网站设置了robots.txt文件，如果在搜索结果中出现您网站的相关信息，那搜索结果中展示的一般是其他网站对您相关网页的描述。

<head>与</head>之间设置meta:

<meta name="robots" content="noarchive">

通过这样设置就可以禁止搜索引擎抓取网站并显示网页快照。要允许其他搜索引擎显示快照，但仅防止百度显示，请使用以下标记：

<meta name="Baiduspider" content="noarchive">

在服务器端判断访问来源，如果是蜘蛛的IP直接404或者阻止它访问即可。

如果后面加了禁止代码，但是搜索引擎还可以搜索出来，因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页，但百度搜索引擎数据库中已经建立的网页索引信息，可能需要数月时间才会清除。

本文内容仅供个人学习/研究/参考使用，不构成任何决策建议或专业指导。分享/转载时请标明原文来源，同时请勿将内容用于商业售卖、虚假宣传等非学习用途哦～感谢您的理解与支持！