使用 htaccess 文件规则阻止特定蜘蛛访问

互联网上有很多网络爬虫,它们带着各自的任务到处爬行,例如:Baiduspider 、 Googlebot 、 bingbot 等。这些搜索引擎爬虫爬取收录我们的网站可以给网站带来流量,是有用的。但还有许多垃圾爬虫,对网站没有任何益处,还耗费资源。

对于这些无用的爬虫,我们可以在网站日志 logs 中分析日志文件,获得爬虫名称使用.htaccess 文件规则进行屏蔽。例如:SemrushBot,这是一家靠销售数据的公司,但对于被爬行的网站来说,没有任何价值。

如果在网站根目录中没有看到.htaccess 文件,可以参考以下教程创建:

在.htaccess 文件中写入如下规则:

SetEnvIfNoCase User-Agent "^SemrushBot" bad_bot
Deny from env=bad_bot

如果要屏蔽多个爬虫,就增加 SetEnvIfNoCase 行,如下:

SetEnvIfNoCase User-Agent "^SemrushBot" bad_bot
SetEnvIfNoCase User-Agent "^SEOkicks" bad_bot
Deny from env=bad_bot
© 版权声明
THE END
喜欢就支持一下吧
点赞9275 分享
共 2 条
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片