BLEXBot是什么爬虫?有用吗

BLEXBot 这个爬虫其实,啥用都没有。所以,我们可以通过 Robots.txt 把它禁掉。

为减少服务器的压力,可以使用robots文件屏蔽一些垃圾蜘蛛。

User-agent: AhrefsBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: Mail.Ru
Disallow: /
User-agent: SeznamBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Researchscan
Disallow: /
User-agent: DnyzBot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: YandexBot
Disallow: /

Robots.txt 有一个规范,或者说是规则,也或者说是语法。
robots.txt 必须是 ASCII 或 UTF-8 文本文件。不允许包含其他字符。
robots.txt 文件由一条或多条规则组成。
每条规则由多条指令(说明)组成,每条指令各占一行。
每条规则包含这些信息:此规则的适用对象(即用户代理);代理可以访问的目录或文件,和/或;代理无法访问的目录或文件。
系统会按照从上到下的顺序处理这些规则,而且一个用户代理只能匹配 1 个规则集(即与相应用户代理匹配的首条最具体的规则)。
系统的默认假设是:用户代理可以抓取所有未被 Disallow: 规则禁止访问的网页或目录。
规则区分大小写。
一个网站只能有 1 个 robots.txt 文件。
Robots.txt 中主要有 4 个关键词。放在行首,用英文“:”分割内容部分或指令体。
User-agent 网页抓取工具的名称
  Disallow 不应抓取的目录或网页
  Allow 应抓取的目录或网页
  Sitemap 网站的站点地图的位置

 

本文链接:SEO站长网 » BLEXBot是什么爬虫?有用吗