BLEXBot是什么蜘蛛?使用robots.txt屏蔽垃圾蜘蛛

反诈示警:如遇到文章内跳转至别的网站或产生需要交钱,交易等行为,均为诈骗行为,请谨慎对待。对于网上兼职、刷单、刷信誉的就是诈骗,请勿相信!需要提供身份证明、短信验证和短信链接点击都是诈骗, 请不要提供!同时请下载“国家反诈中心”App能自查自检,规避诈骗电话,免遭损失。

前几天发现一些蜘蛛不停地抓取网站,有的蜘蛛能够抓取几千次,比如:AhrefsBot,SemrushBot等等,今天又发现BLEXBot、YisouSpider等蜘蛛抓取次数也有上千次,关键这些蜘蛛也不知道是哪家的?我认为对于日新博客没有多大用处。

BLEXBot是urban dictionary的蜘蛛,是一个专供网友来发表对一些特殊的单词或短语的解释的网站。

以前我写过:AhrefsBot是什么蜘蛛?怎么样屏蔽?解决掉了AhrefsBot蜘蛛抓取的情况。那么今天我就使用robots.txt文件屏蔽掉BLEXBot等垃圾蜘蛛,可以减少服务器的压力。

BLEXBot是什么蜘蛛?使用robots.txt屏蔽垃圾蜘蛛,插图,来源:资源仓库www.zycang.com

User-agent: AhrefsBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: Mail.Ru
Disallow: /
User-agent: SeznamBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Researchscan
Disallow: /
User-agent: DnyzBot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: YandexBot
Disallow: /

将上面代码复制到网站根目录下的robot.txt文件里,这样可以屏蔽掉以上的垃圾蜘蛛对于网站的抓取。

robots协议

也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的蜘蛛,此网站中的哪些内容是不应被搜索引擎的蜘蛛获取的,哪些是可以被蜘蛛获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的蜘蛛访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。

robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

如需 WordPress 优化加速、二次开发、网站维护、企业网站建设托管等服务,点此联系我 | 近期站内热门福利推荐:
文章版权及转载声明

本文地址:https://www.zycang.com/81120.html
文章转载或复制请以超链接形式并注明来源出处。 本文最后更新于:2022-09-29 20:50:31
声明:某些文章或资源具有时效性,若有 错误 或 所需下载资源 已失效,请联系客服QQ:11210980

喜欢就支持一下吧
点赞277赞赏 分享
相关推荐
评论 抢沙发

请登录后发表评论