盘点全球50个已知的恶意网络爬虫,主要是指那些未经授权爬取网站数据、对服务器造成负担,或用于恶意目的的爬虫。
恶意网络爬虫名称及来源
- AhrefsBot:来自Ahrefs网站,用于网站分析和SEO研究。
- AwarioBot:来自Awario网站,用于社交媒体监测和数据分析。
- BLEXBot:来源不详,但通常与恶意数据抓取相关。
- Barkrowler:一种常见的恶意爬虫,用于非法数据收集。
- CensysInspect:来自Censys项目,用于网络安全研究和扫描。
- Criteo:来自Criteo公司,用于在线广告定位和数据分析。
- DataForSeoBot:用于SEO分析和数据抓取。
- DigExt:一种恶意爬虫,用于非法数据抓取。
- DnyzBot:来源不详,但通常与恶意数据抓取相关。
- DotBot:一种常见的恶意爬虫,用于非法数据收集。
- ExtLinksBot:用于检查外部链接的爬虫,但也可能被用于恶意目的。
- Ezooms:一种恶意爬虫,用于非法数据抓取。
- FlightDeckReports:来源不详,但通常与恶意数据抓取相关。
- Go-http-client:一种通用的HTTP客户端,可能被用于恶意爬虫。
- Grapeshot:来自Grapeshot公司,用于在线广告定位和数据分析。
- Heritrix:一种开源的网页爬虫,可能被用于恶意目的。
- HttpClient:一种通用的HTTP客户端,可能被用于恶意爬虫。
- HubSpot:来自HubSpot公司,用于市场营销和数据分析。
- InternetMeasurement:用于互联网测量和数据分析的爬虫。
- Knowledge AI:一种用于知识提取和数据分析的爬虫。
- Linguee Bot:来自Linguee网站,用于翻译和词典数据抓取。
- MJ12bot:一种常见的恶意爬虫,用于非法数据收集。
- MauiBot:来源不详,但通常与恶意数据抓取相关。
- MegaIndex:一种恶意爬虫,用于非法数据抓取。
- RepoLookoutBot:用于代码仓库分析和数据抓取。
- SemrushBot:来自Semrush网站,用于网站分析和SEO研究。
- SurdotlyBot:一种恶意爬虫,用于非法数据抓取。
- Web-Crawler:一种通用的网页爬虫,可能被用于恶意目的。
- WellKnownBot:一种常见的恶意爬虫,用于非法数据收集。
- Yellowbrandprotectionbot:用于品牌保护的爬虫,但也可能被用于恶意目的。
- ZoominfoBot:来自ZoomInfo公司,用于企业信息收集和数据分析。
- axios:一种通用的HTTP客户端,可能被用于恶意爬虫。
- fasthttp:一种高性能的HTTP客户端,可能被用于恶意爬虫。
- github:来自GitHub平台,用于代码仓库分析和数据抓取。
- libcurl:一种通用的HTTP客户端库,可能被用于恶意爬虫。
- paloaltonetworks:来自Palo Alto Networks公司,用于网络安全监测和分析。
- python:一种通用的编程语言,其内置的HTTP客户端可能被用于恶意爬虫。
- seokicks:一种恶意爬虫,用于非法数据抓取。
- serpstatbot:来自SERPstat网站,用于网站分析和SEO研究。
- webprosbot:一种恶意爬虫,用于非法数据抓取。
- Adsbot:一种常见的广告爬虫,可能用于恶意数据抓取。
- SM-G900P:一种可能来自移动设备的恶意爬虫。
- PetalBot:一种恶意爬虫,用于非法数据抓取。
- GPTBot:一种可能用于生成文本或进行数据分析的恶意爬虫。
- Apache-HttpClient:一种通用的HTTP客户端,可能被用于恶意爬虫。
- ds-robot:一种常见的恶意爬虫,用于非法数据收集。
- amazonbot:来自Amazon公司,可能用于数据抓取和分析。
- msray-plus:一种可能用于恶意数据抓取的爬虫。
- YandexBot:来自Yandex搜索引擎,通常用于网页抓取,但也可能被用于恶意目的。
- SkyworkSpider:一种恶意爬虫,用于非法数据抓取。
配置 nginx
阻止恶意爬虫
你可以在 nginx 配置文件中使用 if
条件判断来过滤特定的 User-Agent。以下是一个示例配置:
nginx复制代码http {
server {
listen 80;
server_name example.com;
set $block_bot 0;
if ($http_user_agent ~* "(AhrefsBot|MJ12bot|BLEXBot|DotBot|SemrushBot|PetalBot|YandexBot)") {
set $block_bot 1;
}
if ($block_bot) {
return 403; # 返回403 Forbidden 错误
}
location / {
# 正常的配置
}
}
}
User Agent(UA)示例
由于User Agent(UA)字符串可能因版本和配置而异,以下仅提供部分示例:
- AhrefsBot:
AhrefsBot/x.y (compatible; Mozilla/5.0; +http://ahrefs.com/robot/)
- BLEXBot:
BLEXBot/1.0 (+http://www.blexbot.com/bot.html)
- Criteo:
CriteoSpider (+http://www.criteo.com/)
- DataForSeoBot:
DataForSeoBot/1.0 (+http://www.dataforseo.com/bot.html)
- DotBot:
Mozilla/5.0 (compatible; DotBot/1.1; +http://www.opensiteexplorer.org/dotbot.php)
- SemrushBot:
SemrushBot/x.y (+http://www.semrush.com/bot.html)
- MJ12bot:
* (compatible; MJ12bot/v1.x.x; +http://mj12bot.com/)
- ZoominfoBot:
ZoomInfoBot/2.0 (+http://www.zoominfo.com/bot.html)
- python-requests:
python-requests/x.y.z
- curl:
curl/7.xx.x (Linux-x86_64) libcurl/7.xx.x OpenSSL/1.x.x zlib/1.x.x
请注意,上述UA字符串仅为示例,实际字符串可能因爬虫版本和配置而异。同时,由于恶意爬虫可能伪装成合法的User Agent,因此仅通过UA字符串来识别恶意爬虫可能不够准确。
总之,恶意网络爬虫对网络安全构成严重威胁,需要采取一系列措施来加强安全防护。在应对恶意爬虫时,除了通过User Agent进行识别外,还需要结合其他手段如IP地址封锁、用户行为分析等进行综合防护。这里我们推荐使用百度云防护企业版的BOT防护功能,可有较拦截各类爬虫。
原创文章,作者:北单,如若转载,请注明出处:https://www.beidandianzhu.com/g/152.html