上海SEO百度排名优化_刷百度排名行业领先-利为汇SEO一站式SEO服务,帮助企业网站快速排名,快速上首页!

主页 > SEO问题解答 > 利用robots协议如何屏蔽百度蜘蛛抓取 ?(整站优化方法)

利用robots协议如何屏蔽百度蜘蛛抓取 ?(整站优化方法)

首页 2020-02-26 15:11 SEO问题解答 89 ℃


u=3215367534,4213611890&fm=26&gp=0.jpg

利用robots协议如何屏蔽百度蜘蛛抓取 ?


robots协议是放在网站根目录下的协议文件,可以通过网址访问,当百度蜘蛛抓取我们的网站时,它会先访问这个文件。因为它告诉蜘蛛哪些能抓,哪些不能。 

robots协议文件的设置比较简单,可以通过User-AgentDisallowAllow这三个参数进行设置。 

User-Agent:对不同搜索引擎的声明;

Disallow:不允许抓取的目录或页面;

Allow:被允许抓取的目录或页面通常可以省略或不写,因为如果你不写任何不能抓取的东西,它就可以被抓取。

当我不希望百度抓取我网站所有的css文件,data目录、seo-tag.html页面 

User-Agent:BaidusppiderDisallow:/*.cssDisallow:/data/Disallow:/seo/seo-tag.html 

如上所述,user-agent声明了蜘蛛的名称,这意味着它针对的是百度蜘蛛。以下内容无法获取"/*cssquot;,首先/指的是根目录,这是您的域名。*是代表任何内容的通配符。这意味着无法抓取以.css结尾的所有文件。这是你自己的两个经历。逻辑是一样的。 

通过403状态码,限制内容输出,屏蔽蜘蛛抓取。 

403状态代码是http协议中的网页返回状态代码。当搜索引擎遇到403状态代码时,它知道这些页面受权限限制。我无法访问它。例如,如果您需要登录才能查看内容,搜索引擎本身将无法登录。如果您返回403,他也知道这是权限设置页面,无法读取内容。当然,它不会被包括在内。 

返回403状态代码时,应该有一个类似于404页面的页面。提示用户或蜘蛛执行他们想要访问的内容。两者都是不可或缺的。您只有提示页面,状态代码返回200,这是百度蜘蛛的大量重复页面。有403个状态代码但返回不同的内容。这也不是很友好。 

当前位置:主页 > SEO问题解答 > 利用robots协议如何屏蔽百度蜘蛛抓取 ?(整站优化方法)

搜索
网站分类
标签列表
 

13924653483