您现在的位置是:首页 > 实战优化干货实战优化干货

robots.txt协议有什么用?如何正确编写?

风雪  发布时间:2019-01-13 15:18:12  点击:次  来源:代代SEO  作者: 风雪

简介Robots协议,也称为爬虫协议、机器人协议等,其全称为“网络爬虫排除标准(Robots Exclusion Protocol)”。网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

    什么是robots.txt协议?Vdo代代SEO博客
Vdo代代SEO博客
    Robots协议,也称为爬虫协议、机器人协议等,其全称为“网络爬虫排除标准(Robots Exclusion Protocol)”。robots是我们网站跟各大搜索引擎的一个协议,比如我们不允许百度抓取我们的网站,我们不允许百度抓取我们某个目录,我们不允许360抓取我们的网站,像这些操作,我们都可以写在robots协议中,当然这个写法是非常简单的,关于写法我们下面做详细说明,robots写好后,做一个txt文档,命名为:robots.txt 直接放到我们的网站根目录下就可以了,各大引擎抓取我们网站时,首先一定是访问robots协议,如果我们允许抓取,它们才会抓取我们的网站。Vdo代代SEO博客
Vdo代代SEO博客
    robots.txt协议与SEO优化的关系Vdo代代SEO博客
Vdo代代SEO博客
    robots协议对于SEO优化来说,意义是非常大的,举例说明:我们都知道搜索引擎抓取我们站点,如果全部抓取到静态优质页面,百度会非常信任我们的站点,从而给我们一个好的排名,但是如果蜘蛛抓取的都是一些系统界面,比如网站后台、存放图片的目录、系统核心文件目录,这不仅仅浪费了蜘蛛资源,并且也让蜘蛛都识别不了,从而返回搜索引擎大量未知页面,这样就会影响我们在百度中的信任评分,对于我们排名就会有一定的阻碍。Vdo代代SEO博客
Vdo代代SEO博客
    同时robots协议也是我们节约服务器资源的一个方法,比如:淘宝是屏蔽所有搜索引擎的,一个网站页面越多,搜索引擎派出的蜘蛛就越多,引擎蜘蛛和用户一样访问我们网站也是会消耗我们服务器资源的,如果我们的服务器配置不是很高,页面几千万的话,蜘蛛量每天是巨大的,就会拖垮我们的服务器,这对用户正常访问就形成了阻碍,所以合理运营robots协议,对我们网站正常运营也是非常有意义的。Vdo代代SEO博客
 
A5网站的robots协议
    robots.txt协议如何写?Vdo代代SEO博客
Vdo代代SEO博客
    下面代代SEO就为大家讲解一些经常用到的robots写法规则,希望能帮助到大家:Vdo代代SEO博客
Vdo代代SEO博客
    robots基本写法:Vdo代代SEO博客
Vdo代代SEO博客
    User-agent: *                 *代表的所有的搜索引擎都要按照下面的规则,*是通配符Vdo代代SEO博客
    Disallow: /admin/             这里定义是禁止爬寻admin目录下面的所有文件和目录Vdo代代SEO博客
    Disallow: /require/           这里定义是禁止爬寻require目录下面的所有文件和目录Vdo代代SEO博客
    Disallow: /ABC/               这里定义是禁止爬寻ABC目录下面的目录Vdo代代SEO博客
    Disallow: /cgi/*.htm          禁止访问/cgi/目录下的所有以".htm"为后缀的URL(包含子目录)。Vdo代代SEO博客
    Disallow: /*?*                禁止访问网站中所有包含问号 (?) 的网址(适用于动态地址)Vdo代代SEO博客
    Disallow: /.jpg$              禁止抓取网页所有的.jpg格式的图片Vdo代代SEO博客
    Disallow:/ab/adc.html         禁止爬取ab文件夹下面的adc.html文件。Vdo代代SEO博客
    Allow: /cgi-bin/             这里定义是允许爬寻cgi-bin目录下面的目录Vdo代代SEO博客
    Allow: /tmp                   这里定义是允许爬寻tmp的整个目录Vdo代代SEO博客
    Allow: .htm$                  仅允许访问以".htm"为后缀的URL。Vdo代代SEO博客
    Allow: .gif$                  允许抓取网页和gif格式图片Vdo代代SEO博客
    Sitemap:                      网站地图 告诉爬虫这个页面是网站地图Vdo代代SEO博客
Vdo代代SEO博客
    四大常用搜索引擎的蜘蛛标识:Vdo代代SEO博客
 Vdo代代SEO博客
    百度蜘蛛:BaiduspiderVdo代代SEO博客
    360蜘蛛:360SpiderVdo代代SEO博客
    搜狗蜘蛛:sogou spiderVdo代代SEO博客
    谷歌蜘蛛:Googlebot
京东的robots    Vdo代代SEO博客
 
    实例用法:Vdo代代SEO博客
Vdo代代SEO博客
    例1. 禁止所有搜索引擎访问网站的任何部分Vdo代代SEO博客
    User-agent: *Vdo代代SEO博客
    Disallow: /Vdo代代SEO博客
    Vdo代代SEO博客
    例2. 允许所有的引擎蜘蛛访问Vdo代代SEO博客
    User-agent: *Vdo代代SEO博客
    allow: /Vdo代代SEO博客
Vdo代代SEO博客
    例3. 禁止360搜索引擎的访问Vdo代代SEO博客
    User-agent: 360SpiderVdo代代SEO博客
    Disallow: /Vdo代代SEO博客
Vdo代代SEO博客
    例4. 允许百度搜索引擎的访问Vdo代代SEO博客
    User-agent: BaiduspiderVdo代代SEO博客
    allow:/Vdo代代SEO博客
Vdo代代SEO博客
    例5.允许百度引擎,禁止360引擎Vdo代代SEO博客
    User-agent: BaiduspiderVdo代代SEO博客
    allow:/     Vdo代代SEO博客
    User-agent: 360SpiderVdo代代SEO博客
    Disallow: /Vdo代代SEO博客
Vdo代代SEO博客
    例6.允许所有引擎,但禁止抓取网站admin目录下所有文件和目录Vdo代代SEO博客
    User-agent: *Vdo代代SEO博客
    Disallow: /admin/Vdo代代SEO博客
   Vdo代代SEO博客
    例7.允许所有引擎,但禁止抓取网站ceshi.html页面Vdo代代SEO博客
    User-agent: *Vdo代代SEO博客
    Disallow: /ceshi.htmlVdo代代SEO博客
Vdo代代SEO博客
    例8.允许所有引擎,但禁止抓取网站中动态页面Vdo代代SEO博客
    User-agent: *Vdo代代SEO博客
    Disallow: /*?*  Vdo代代SEO博客
Vdo代代SEO博客
    写robots.txt协议时应该注意什么?    Vdo代代SEO博客
Vdo代代SEO博客
    robots协议是一个非常重要的文件,如果编写错误会造成网站不收录,因为屏蔽了所有搜索引擎,所以我们编写后要严格检查,“Disallow”这个标签一定要谨慎使用,多看下上面的说明,不要写错了格式,一面造成站点不收录的情况!我是风雪,这里是代代SEO博客,希望可以帮助到新手朋友!

Tags:robots

很赞哦! ()

随机图文

    匿名评论
  • 评论
人参与,条评论

站点信息

  • 建站时间:2019-1-20
  • 网站程序:帝国CMS7.5
  • 行业分类:SEO优化、网站建设
  • 网站管理:风雪满湘城
  • 文章统计:249篇文章
  • 标签管理标签云
  • 行业资讯点击阅读
  • 最新文章点击阅读
  • 微信公众号:扫描二维码,关注我们