设置 Nginx 规则以屏蔽指定 User Agent 的网站Scrapy爬虫-资源仓库

反诈示警：如遇到文章内跳转至别的网站或产生需要交钱，交易等行为，均为诈骗行为，请谨慎对待。对于网上兼职、刷单、刷信誉的就是诈骗，请勿相信！需要提供身份证明、短信验证和短信链接点击都是诈骗，请不要提供！同时请下载“国家反诈中心”App能自查自检,规避诈骗电话,免遭损失。

连续几天我的好几个 wordpress 网站再一次被可恶的爬虫爬挂了。。。

对方疯狂的爬取网页，且瞬间并发无数个请求，丝毫不考虑我这孱弱的阿里云低配服务器的小身板能否承受住。不出意外，我的服务器挂掉了。。。CPU使用率和负载状态都是100%

没办法，必须得处理一下。看了一下 nginx 日志中这些爬虫的请求记录：

每 10 个请求一换 IP
请求头都为 "Scrapy/1.7.3 (+https://scrapy.org)"

所以通过 IP 规则来屏蔽是不可能了，可以简单地用 User Agent 匹配规则的方式来屏蔽这些爬虫。

Nginx 配置

顺便把 Yisou 和Scrapy的爬虫屏蔽了。

if ($http_user_agent ~* (YisouSpider|Scrapy) ) {
    return 410;
}

测试

包含 Scrapy 请求头的测试。

> curl --user-agent "Scrapy" https://www.yqym.net
<html>
<head><title>410 Gone</title></head>
<body bgcolor="white">
<center><h1>410 Gone</h1></center>
<hr><center>nginx/1.10.3 (Ubuntu)</center>
</body>
</html>

：本文采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可，转载请附上原文出处链接。
1、本站提供的源码不保证资源的完整性以及安全性，不附带任何技术服务！
2、本站提供的模板、软件工具等其他资源，均不包含技术服务，请大家谅解！
3、本站提供的资源仅供下载者参考学习，请勿用于任何商业用途，请24小时内删除！
4、如需商用，请购买正版，由于未及时购买正版发生的侵权行为，与本站无关。
5、本站部分资源存放于百度网盘或其他网盘中，请提前注册好百度网盘账号，下载安装百度网盘客户端或其他网盘客户端进行下载；
6、本站部分资源文件是经压缩后的，请下载后安装解压软件，推荐使用WinRAR和7-Zip解压软件。
7、如果本站提供的资源侵犯到了您的权益，请邮件联系： 11210980@qq.com 进行处理!

如需 WordPress 优化加速、二次开发、网站维护、企业网站建设托管等服务，点此联系我 | 近期站内热门福利推荐：