Beta: Sperrliste für aggressive Bots

Auf fast allen Kundensystemen beobachten wir seit einigen Monaten mit zunehmender Intensität negative Auswirkungen von aggressiven Suchmaschinen-Bots. Die großen und etablierten Suchmaschinen (z.B. Google, Bing, usw) verhalten sich beim Abruf der Webseiten eher unauffällig und indizieren die Seite in einem Tempo, welches auch für den geringsten Tarif (und die damit verbundenen Limits) kein Problem darstellt.

Problematisch wird es aber, sobald ein aggressiver Bot alle gleichzeitig möglichen PHP/Webserver Slots des Accounts belegt – weil er die Webseite so schnell wie möglich indizieren will. Hat die Webseite z.B. 10 gleichzeitige Slots und der Bot belegt alle – schaut der nächste (11.) menschliche Besucher nur auf eine Fehlerseite.

Üblicherweise kann man das Verhalten von Suchmaschinen-Bots über die Datei robots.txt beeinflussen. Am hilfreichsten ist hier die „Crawl-delay“ Direktive, mit der man den Bot anweisen kann, nur alle X Sekunden eine neue Seite abzurufen. Da leider aber nicht alle Bots diese Direktive respektieren, haben wir eine Liste von solch aggressiven Bots generiert und werden diese zukünftig direkt auf Server-Ebene aussperren.

Im ersten Schritt werden wir diese neue Konfiguration (ab heute) nur auf einer handvoll unserer Systeme ausrollen. Nach einigen Tagen ohne Nebenwirkungen erfolgt dann die Verteilung über unsere komplette System-Landschaft.

  • Liste mit „Bad Bots“ – Stand 04.03.2017
    360Spider
    80legs
    Aboundex
    Acunetix
    AhrefsBot
    AIBOT
    Alexibot
    asterias
    attach
    BackDoorBot
    BackWeb
    Baiduspider
    Bandit
    BatchFTP
    Bigfoot
    bingbot
    Black.Hole
    BlackWidow
    BLEXBot
    BlowFish
    BotALot
    Buddy
    BuiltBotTough
    Bullseye
    BunnySlippers
    Cegbfeieh
    CheeseBot
    CherryPicker
    ChinaClaw
    Cogentbot
    Collector
    Copier
    CopyRightCheck
    cosmos
    Crescent
    Custo
    DIIbot
    DISCo
    DittoSpyder
    dragonfly
    Drip
    EasyDL
    ebingbong
    eCatch
    EirGrabber
    EmailCollector
    EmailSiphon
    EmailWolf
    EroCrawler
    Exabot
    Express
    Extractor
    EyeNetIE
    Ezooms
    FHscan
    flunky
    Foobot
    FrontPage
    Go-Ahead-Got-It
    gotit
    GrabNet
    Grafula
    Harvest
    hloader
    HMView
    HTTrack
    humanlinks
    IlseBot
    InfoNaviRobot
    InfoTekies
    Intelliseek
    InterGET
    Internet
    Jakarta
    JennyBot
    JetCar
    JustView
    Jyxobot
    Kenjin.Spider
    Keyword.Density
    larbin
    LexiBot
    lftp
    libWeb/clsHTTP
    likse
    LinkextractorPro
    LinkScan/8.1a.Unix
    LinkWalker
    LNSpiderguy
    LWP::Simple
    lwp-trivial
    Magnet
    Mag-Net
    MarkWatch
    Mass
    Mata.Hari
    Memo
    MIDown
    MIIxpc
    Mirror
    Missigua
    Mister
    MJ12bot
    moget
    NAMEPROTECT
    Navroad
    NearSite
    NetAnts
    Netcraft
    NetMechanic
    NetSpider
    NetZIP
    NextGenSearchBot
    NICErsPRO
    niki-bot
    NimbleCrawler
    Ninja
    NPbot
    Octopus
    Offline
    Openfind
    OutfoxBot
    PageGrabber
    Papa
    pavuk
    pcBrowser
    Pockey
    ProPowerBot/2.14
    ProWebWalker
    psbot
    QueryN.Metasearch
    RealDownload
    Reaper
    Recorder
    ReGet
    RepoMonkey
    SemrushBot
    Siphon
    SiteSnagger
    SlySearch
    SmartDownload
    Snake
    Snapbot
    Snoopy
    sogou
    SpaceBison
    SpankBot
    spanner
    Spiderlytics
    Sqworm
    Stripper
    Sucker
    SuperBot
    SuperHTTP
    Surfbot
    suzuran
    Szukacz/1.4
    tAkeOut
    Teleport
    Telesoft
    The.Intraformant
    TheNomad
    TightTwatBot
    Titan
    True_Robot
    turingos
    TurnitinBot
    TurnitinBot/1.5
    URLy.Warning
    Vacuum
    VCI
    VoidEYE
    WebAuto
    WebBandit
    Webclipping.com
    WebCopier
    WebEMailExtrac.*
    WebEnhancer
    WebFetch
    WebGo
    Web.Image.Collector
    WebLeacher
    WebmasterWorldForumBot
    WebReaper
    WebSauger
    Website
    Webster
    WebStripper
    WebWhacker
    WebZIP
    Whacker
    Widow
    WISENutbot
    WWW-Collector-E
    WWWOFFLE
    Xaldon
    Xenu
    Yandex
    Zeus
    ZmEu
    Zyborg

Für Fragen stehen wir Ihnen wie immer gern zur Verfügung!

Dieser Beitrag wurde unter Technik abgelegt und mit , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.