Beta: Sperrliste für aggressive Bots
Auf fast allen Kundensystemen beobachten wir seit einigen Monaten mit zunehmender Intensität negative Auswirkungen von aggressiven Suchmaschinen-Bots. Die großen und etablierten Suchmaschinen (z.B. Google, Bing, usw) verhalten sich beim Abruf der Webseiten eher unauffällig und indizieren die Seite in einem Tempo, welches auch für den geringsten Tarif (und die damit verbundenen Limits) kein Problem darstellt.
Problematisch wird es aber, sobald ein aggressiver Bot alle gleichzeitig möglichen PHP/Webserver Slots des Accounts belegt – weil er die Webseite so schnell wie möglich indizieren will. Hat die Webseite z.B. 10 gleichzeitige Slots und der Bot belegt alle – schaut der nächste (11.) menschliche Besucher nur auf eine Fehlerseite.
Üblicherweise kann man das Verhalten von Suchmaschinen-Bots über die Datei robots.txt beeinflussen. Am hilfreichsten ist hier die „Crawl-delay“ Direktive, mit der man den Bot anweisen kann, nur alle X Sekunden eine neue Seite abzurufen. Da leider aber nicht alle Bots diese Direktive respektieren, haben wir eine Sperrliste (Beta) von solch aggressiven Bots generiert und werden diese zukünftig direkt auf Server-Ebene aussperren.
Im ersten Schritt werden wir diese neue Konfiguration (ab heute) nur auf einer handvoll unserer Systeme ausrollen. Nach einigen Tagen ohne Nebenwirkungen erfolgt dann die Verteilung über unsere komplette System-Landschaft.
- Liste mit „Bad Bots“ – Stand 04.03.2017
360Spider
80legs
Aboundex
Acunetix
AhrefsBot
AIBOT
Alexibot
asterias
attach
BackDoorBot
BackWeb
Baiduspider
Bandit
BatchFTP
Bigfoot
bingbot
Black.Hole
BlackWidow
BLEXBot
BlowFish
BotALot
Buddy
BuiltBotTough
Bullseye
BunnySlippers
Cegbfeieh
CheeseBot
CherryPicker
ChinaClaw
Cogentbot
Collector
Copier
CopyRightCheck
cosmos
Crescent
Custo
DIIbot
DISCo
DittoSpyder
dragonfly
Drip
EasyDL
ebingbong
eCatch
EirGrabber
EmailCollector
EmailSiphon
EmailWolf
EroCrawler
Exabot
Express
Extractor
EyeNetIE
Ezooms
FHscan
flunky
Foobot
FrontPage
Go-Ahead-Got-It
gotit
GrabNet
Grafula
Harvest
hloader
HMView
HTTrack
humanlinks
IlseBot
InfoNaviRobot
InfoTekies
Intelliseek
InterGET
Internet
Jakarta
JennyBot
JetCar
JustView
Jyxobot
Kenjin.Spider
Keyword.Density
larbin
LexiBot
lftp
libWeb/clsHTTP
likse
LinkextractorPro
LinkScan/8.1a.Unix
LinkWalker
LNSpiderguy
LWP::Simple
lwp-trivial
Magnet
Mag-Net
MarkWatch
Mass
Mata.Hari
Memo
MIDown
MIIxpc
Mirror
Missigua
Mister
MJ12bot
moget
NAMEPROTECT
Navroad
NearSite
NetAnts
Netcraft
NetMechanic
NetSpider
NetZIP
NextGenSearchBot
NICErsPRO
niki-bot
NimbleCrawler
Ninja
NPbot
Octopus
Offline
Openfind
OutfoxBot
PageGrabber
Papa
pavuk
pcBrowser
Pockey
ProPowerBot/2.14
ProWebWalker
psbot
QueryN.Metasearch
RealDownload
Reaper
Recorder
ReGet
RepoMonkey
SemrushBot
Siphon
SiteSnagger
SlySearch
SmartDownload
Snake
Snapbot
Snoopy
sogou
SpaceBison
SpankBot
spanner
Spiderlytics
Sqworm
Stripper
Sucker
SuperBot
SuperHTTP
Surfbot
suzuran
Szukacz/1.4
tAkeOut
Teleport
Telesoft
The.Intraformant
TheNomad
TightTwatBot
Titan
True_Robot
turingos
TurnitinBot
TurnitinBot/1.5
URLy.Warning
Vacuum
VCI
VoidEYE
WebAuto
WebBandit
Webclipping.com
WebCopier
WebEMailExtrac.*
WebEnhancer
WebFetch
WebGo
Web.Image.Collector
WebLeacher
WebmasterWorldForumBot
WebReaper
WebSauger
Website
Webster
WebStripper
WebWhacker
WebZIP
Whacker
Widow
WISENutbot
WWW-Collector-E
WWWOFFLE
Xaldon
Xenu
Yandex
Zeus
ZmEu
Zyborg
Für Fragen stehen wir Ihnen wie immer gern zur Verfügung!