您现在的位置是:首页 > 实战干货实战干货
百度蜘蛛抓取不存在目录(对应的解决方法)!
风雪
发布时间:2020-11-12 11:22:23
点击:次
来源:代代SEO
作者: 风雪
简介 相信大家在分析百度蜘蛛日志的时候经常会发现一个问题,就是百度蜘蛛经常会抓取一些不存在的目录,比如:我网站没有这些目录,但是百度蜘蛛一直在抓取,或者你会发现百度蜘蛛在抓
相信大家在分析百度蜘蛛日志的时候经常会发现一个问题,就是百度蜘蛛经常会抓取一些不存在的目录,比如:我网站没有这些目录,但是百度蜘蛛一直在抓取,或者你会发现百度蜘蛛在抓取自己的隐私目录,或者说php文件,这个是为什么哪?今天就为大家进行详细解析,讲解对应的解决办法,本篇文章干货较多,建议仔细阅读。

1,如果蜘蛛只抓取首页,打死不抓取内页,是什么情况!
很简单,域名有问题,一般来讲,如果遇到这种情况,域名目前可能在审核期,也就是说,做过违规行业,或者你的程序有作弊的嫌疑,但是域名的占比较大,如果程序有问题,开始百度蜘蛛也会抓取一些的。

2,如果百度蜘蛛抓取一些隐私文件,例如php、zip、rar什么情况!
对于这种情况,你要去判断当前这个IP是不是假蜘蛛文件,因为现在很多IP会自动更改自己的UA,跟百度蜘蛛一样,你无法从蜘蛛日志中分辨,你可以去识别下IP,通过ip138看看是不是蜘蛛IP,如果不是,果断屏蔽掉,如果太多,按照IP段进行屏蔽。


3,如果百度蜘蛛抓取一些隐私目录,真蜘蛛的情况下,怎么处理。
如果你确认是真的百度蜘蛛,百度可能是在抓取你的页面内部程序,考察你用的程序的版本,等,这些百度都会有分辨策略的,一般来讲,自己编写的程序,百度都会优先给予高评分,是这样的。我们为了防止蜘蛛抓取我们的隐私目录,我们一般都会用robots.txt进行屏蔽,记住:生效时间24小时左右。

4,如果蜘蛛抓取一些不存在的目录,一些不存在的文件,怎么办?
首先依然是判断是否是真蜘蛛,如果是真蜘蛛,百度抓取一些不存在的目录,是因为,你这个域名之前做过一些站点,现在又开始做,百度会根据之前的评分、URL进行抓取,看看是不是之前的站点又恢复了,一般来讲,这种抓取会在30天内自动消失的,如果30天后一直存在,你就要屏蔽这类链接了,总之:这种抓取对于你的站点,没有太大的伤害,只是排查而已。
另外还有一种情况,如果你把其他的站点301到你当前的域名上,蜘蛛就会按照其他站点的URL来抓取你的网站,这个时候你也会发现百度在抓取一些不存在的目录,不过不用怕,这种对于你的站点没有伤害的。

5,蜘蛛抓取,301、304,、200、403、404、444状态码怎么办?
首先我们要明白,301状态码,就是重定向,如果你的顶级域名,例如daidaiseo.com-》www.daidaiseo.com当百度抓取daidaiseo.com上面的资源时,就会出现301重定向的代码,如果抓取www.daidaiseo.com上面的资源,就会是200状态码,意思是抓取成功。
而抓取304状态码是为什么那?如果你在日志上看到了304状态码,则表示,你的资源一直都没有变化,属于静态页面资源,304状态码,对于网站的影响比较小,一般来讲是做了百度cdn,有缓存,就容易出现304状态码,但只要你每天给百度提交资源,时时保持更新,就没事。
403是权限问题,禁止访问,是你服务器进行了设置,而444则是未找到服务器,404则是空页面,这个页面丢失,这三个状态码,则表示网站出现问题,记住:不要让网站出现大量404,你可以让状态码变成403只是限制访问,如果都是404,则表明网站大量页面不可用,百度评分就会降低,好了,今天就讲解到这么多,后面会陆续分享这方面的知识点。

1,如果蜘蛛只抓取首页,打死不抓取内页,是什么情况!
很简单,域名有问题,一般来讲,如果遇到这种情况,域名目前可能在审核期,也就是说,做过违规行业,或者你的程序有作弊的嫌疑,但是域名的占比较大,如果程序有问题,开始百度蜘蛛也会抓取一些的。

2,如果百度蜘蛛抓取一些隐私文件,例如php、zip、rar什么情况!
对于这种情况,你要去判断当前这个IP是不是假蜘蛛文件,因为现在很多IP会自动更改自己的UA,跟百度蜘蛛一样,你无法从蜘蛛日志中分辨,你可以去识别下IP,通过ip138看看是不是蜘蛛IP,如果不是,果断屏蔽掉,如果太多,按照IP段进行屏蔽。


3,如果百度蜘蛛抓取一些隐私目录,真蜘蛛的情况下,怎么处理。
如果你确认是真的百度蜘蛛,百度可能是在抓取你的页面内部程序,考察你用的程序的版本,等,这些百度都会有分辨策略的,一般来讲,自己编写的程序,百度都会优先给予高评分,是这样的。我们为了防止蜘蛛抓取我们的隐私目录,我们一般都会用robots.txt进行屏蔽,记住:生效时间24小时左右。

4,如果蜘蛛抓取一些不存在的目录,一些不存在的文件,怎么办?
首先依然是判断是否是真蜘蛛,如果是真蜘蛛,百度抓取一些不存在的目录,是因为,你这个域名之前做过一些站点,现在又开始做,百度会根据之前的评分、URL进行抓取,看看是不是之前的站点又恢复了,一般来讲,这种抓取会在30天内自动消失的,如果30天后一直存在,你就要屏蔽这类链接了,总之:这种抓取对于你的站点,没有太大的伤害,只是排查而已。
另外还有一种情况,如果你把其他的站点301到你当前的域名上,蜘蛛就会按照其他站点的URL来抓取你的网站,这个时候你也会发现百度在抓取一些不存在的目录,不过不用怕,这种对于你的站点没有伤害的。

5,蜘蛛抓取,301、304,、200、403、404、444状态码怎么办?
首先我们要明白,301状态码,就是重定向,如果你的顶级域名,例如daidaiseo.com-》www.daidaiseo.com当百度抓取daidaiseo.com上面的资源时,就会出现301重定向的代码,如果抓取www.daidaiseo.com上面的资源,就会是200状态码,意思是抓取成功。
而抓取304状态码是为什么那?如果你在日志上看到了304状态码,则表示,你的资源一直都没有变化,属于静态页面资源,304状态码,对于网站的影响比较小,一般来讲是做了百度cdn,有缓存,就容易出现304状态码,但只要你每天给百度提交资源,时时保持更新,就没事。
403是权限问题,禁止访问,是你服务器进行了设置,而444则是未找到服务器,404则是空页面,这个页面丢失,这三个状态码,则表示网站出现问题,记住:不要让网站出现大量404,你可以让状态码变成403只是限制访问,如果都是404,则表明网站大量页面不可用,百度评分就会降低,好了,今天就讲解到这么多,后面会陆续分享这方面的知识点。
很赞哦! ()
下一篇:返回列表
相关文章
随机图文
如何研究行业用户数据与热点
今天我们来探讨下如何研究行业用户数据与热点,今天这篇文章大家好好学习,对大家一定是有帮助的,我们做一个行业的时候,一定要先了解我们的客户与行业热点,只有了解了这两点,才更有利于做好我们SEO工作。让网站快速上权重的核心技巧!
今天为大家讲解网站如何快速上权重,其实网站上权重并不是很难,是有一些技巧方法的,在学习这篇文章之前,你必须要知道,网站权重是什么?网站权重是怎么形成的?什么是第三方权重查询工具?懂了这些,才能够理解这些方法与技巧。网站流量下降怎么解决,什么原因导致(解决方法)?
很多朋友都发现自己最近的网站流量越来越少,很疑惑不知道为什么,今天风雪就来讲解一下这一块的知识,顺便下面会讲解下如何去分析这类原因,大家都知道,网站的流量不可能一直保持在一定的数量。叶天冬seo博客:seo三大标签如何写更容易排名!
今天我们来分享“seo三大标签如何写更容易排名”,三大标签又叫做TDK,在网页的优化中占据主要的核心位置,写好TDK是可以达到优先排名的效果,所以是非常重要的,那么如何编写更利于优化那?下面由叶天冬seo博客进行分享!