AI摘要
Panda

互联网上有很多网络爬虫,它们带着各自的任务到处爬行,例如:Baiduspider、Googlebot、bingbot等。这些搜索引擎爬虫爬取收录我们的网站可以给网站带来流量,是有用的。但还有许多垃圾爬虫,对网站没有任何益处,还耗费资源。
对于这些无用的爬虫,我们可以在网站日志logs中分析日志文件,获得爬虫名称使用.htaccess文件规则进行屏蔽。例如:SemrushBot,这是一家靠销售数据的公司,但对于被爬行的网站来说,没有任何价值。
如果在网站根目录中没有看到.htaccess文件,可以参考以下教程创建:
在.htaccess文件中写入如下规则:
SetEnvIfNoCase User-Agent "^SemrushBot" bad_bot
Deny from env=bad_bot
如果要屏蔽多个爬虫,就增加SetEnvIfNoCase行,如下:
SetEnvIfNoCase User-Agent "^SemrushBot" bad_bot
SetEnvIfNoCase User-Agent "^SEOkicks" bad_bot
Deny from env=bad_bot
文章最后更新时间:2024-08-19 10:48:17若您发现内容有误或已失效,请在下方 留言 反馈,我会及时核实更新。
© 版权声明
本网站部分文件及内容来自互联网,版权归原作者所有。转载需授权,侵权必究。部分内容受《网络出版服务管理规定》保护,未经许可禁止商业使用。
THE END








- 最新
- 最热
只看作者