星空网站建设

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 4|回复: 0

说说:网站中的robots.txt文件的具体作用

[复制链接]
  • TA的每日心情
    郁闷
    3 小时前
  • 签到天数: 44 天

    [LV.5]常住居民I

    10万

    主题

    41

    回帖

    30万

    积分

    超级版主

    Rank: 8Rank: 8

    积分
    304165
    发表于 2025-8-7 11:48:31 | 显示全部楼层 |阅读模式

    建设给大家说一下中的文件的作用,文件放在根目录下,是搜索引擎中访问的时候要查看的首个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问上所有没有被口令保护的页面。每个都应该有一个,它告诉搜索引擎我的里有哪些东西是不允许抓取的,有哪些页面是欢迎爬行与抓取。

    的几种作用:

    1屏蔽所有的搜索引擎抓取信息,如果你的只是你的私密性的,不想太多的人知道的话,可以利用屏蔽掉所有的搜索引擎,例如你写的私人博客。你就可以把搜索引擎全都屏蔽掉

    U-:*

    D:

    2如果你只想某一个搜索引擎抓取你的信息,这个时候就可以用进行设置,例如:我只想我的被百度这个收录,而不想被别的搜索引擎收录。就可以利用进行设置

    U-:B

    A:

    U-:*

    D:

    3可以利用各种通配符对进行相对应的调配,例如我不想抓取我的所有图片,这个时候就可以运用$来进行设置。一般我们常见的图片的格式是BMP、JPG、GIF、JPEG等格式。这个时候设置就是:

    U-:*

    D

    D

    D

    D

    4还可以利用*来屏蔽掉相关的URL,有些不允许搜索引擎抓取动态地址的时候可以利用这个*通配符来进行匹配设置。一般情况下动态URL的有一个特点就是有“”这个时候我们就可以利用这个特性来进行匹配的屏蔽:

    U-:*

    D:**

    5如果改版了,整个文件夹都没有了的时候,这个情况下就要考虑屏蔽掉整个文件夹。我们可以运用来对这整个的文件夹进行屏蔽,例如里的文件夹因改版全都给删掉了,这个时候就可以这样子设置:

    U-:*

    D:

    6如果里有一个文件夹不想被收录,但是在这个文件夹里面有一个信息是允许被收录。那可以运用的进行设置。例如我里文件夹不允许搜索引擎抓取,但是在文件夹里面又有一个信息是允许被抓取的,这个时候就可以运用进行设置:

    U-:*

    D:

     7可以在里定义出地图的位置,有利于的收录。

    :地图的位置

    8有的时候你会发现我的里设置了但是还发现其收录了这个URL地址,这个的原因是因为这个搜索引擎的蜘蛛是通过URL爬行到页的一般抓取这样子的URL的时候是不带与描述的,但是百度抓取这个URL会带上与描述,所以有很多有人会说我设置了但是没有效果。际情况是抓取了这个链接而没有收录这个页面内容。

    的首页权重是高的,权重是靠链接传递的,我们设置是为了更好的把权重传递给那些需要有很高权重的页面,而有一些页面则是不需要搜索引擎抓取和爬行的。
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表