English version below.
Wenn Sie einen Download-Manager, sogenannte »Web-Beschleuniger«, »Prefetcher« oder ähnliche asoziale Browser-Ergänzungen oder Proxy-Funktionen verwenden, dann schalten Sie diese bitte ab oder weisen Sie Ihren Systemadministrator darauf hin.
Wenn Sie einen RSS-Feed-Reader einsetzen, dann stellen Sie sicher, daß dieser die Parameter <skipDays>, <skipHours> und <ttl> beachtet, oder stellen Sie dessen Abfrageintervall manuell auf maximal eine Abfrage je Tag ein.
Ihnen wurde der Zugriff verweigert, da Ihre Zugriffsmuster auf einen Robot schließen lassen, der sich nicht an die guten Sitten für solche Programme hält.
Schon klar: Sie haben offensichtlich keine Lust, ein solches Dokument zu lesen. Deshalb hier die Kurzfassung:
Sie identifizieren sich nicht als Robot.
Abhilfe: Informieren Sie sich über das »User-Agent:«-Feld (Abschnitt 14.43). Packen Sie zumindest die Web-Adresse Ihres Dienstes und Ihre Mail-Adresse rein.
Sie lesen beziehungsweise verarbeiten kein robots.txt.
robots.txt versucht Sie nicht einfach davon abzuhalten, bestimmte Seiten zu indizieren, sondern kann Ihnen auch dabei helfen, dynamisch erzeugte Verweise auszusparen.
Sie sind zu faul oder zu blöde, HTML beziehungsweise URLs korrekt zu parsen, und erzeugen in Folge schwachsinnige Anfragen oder gar Schleifen.
Die Spezifikationen für SGML/XML, HTML, HTTP und URLs zu lesen, kann ich Ihnen wirklich nicht ersparen.
Sie gehen nicht korrekt mit HTML-Statuskodes um, etwa Umleitungen. Insbesondere beharren Sie auf einem URL, auch wenn Sie einen 301 oder 410 dafür bekommen haben.
Wenn Sie den Status 301 oder 410 (Abschnitte 10.3.2 und 10.4.11) bekommen, dann heißt das: Finger weg von diesem URL! (Zumindest für laaange Zeit.) Sperren Sie ihn in der URL-Datenbank Ihres Robots, und mit »sperren« meine ich nicht »löschen«. Sonst nimmt Ihr Robot besagten veralteten URL beim nächstbesten Verweis gleich wieder in seine Liste auf.
Sie merken sich Ergebnisseiten nicht und/oder verwenden kein »If-Modified-Since:«.
Merken Sie sich die »Last-Modified:«-Angabe (Abschnitte 14.29 und 14.25), und nutzen Sie sie beim nächsten Durchlauf.
Sie schicken zuviele Anfragen in zu kurzer Zeit.
Wie schwierig kann es sein, sich für jede IP-Adresse (Denken Sie an virtuelle Hosts!) zu merken, wann Sie zuletzt dort vorbeigeschaut haben und nötigenfalls zwischendurch jemand anderes zu besuchen oder eine kurze Pause einzulegen?
Damit wir einander nicht mißverstehen: Ich habe nichts gegen Robots, die einen nützlichen Dienst für die Allgemeinheit erbringen, etwa Suchmaschinen. Ich habe auch nichts dagegen, wenn man sich mal einen lokalen Abzug bestimmter Seiten zieht. Wogegen ich etwas habe, ist hirnlose Bandbreitenverschwendung durch bequeme Möchtegernprogrammierer.
Wenn Sie glauben, daß all dies überhaupt nicht auf Sie zutreffen kann, weil Sie gar keinen Robot betreiben, dann prüfen Sie bitte Ihr System auf Viren, Hintertüren und Trojanische Pferde, um einen Mißbrauch durch Dritte auszuschließen. Auch ein Browser-Wechsel kann weiterhelfen.
Trotzdem will ich nicht ausschließen, daß Sie irrtümlich auf der Sperrliste gelandet sind. Melden Sie sich in diesem Fall bei mir. Vielen Dank!
Wenn Sie aber tatsächlich ein Crawler mit schlechten Manieren sind, dann müssen Sie nichts unternehmen. Schicken Sie einfach weiter HTTP-Anfragen wie blöd, und wir werden uns bemühen, Sie, Ihre Software und Ihr Netz umgehend komplett zu sperren.
If you are making use of download managers, so-called »web accelerators«, »prefetchers« or similar antisocial browser add-ons or proxy functions, then please disable them or notify your system administrator of the problem.
If you are using an RSS feed reader, please ensure it honors the <skipDays>, <skipHours>, and <ttl> parameters, or set its query interval manually to at most one query per day.
Access has been denied to you because your access patterns indicate that you are making use of a robot that does not comply with the etiquette for this type of program.
I know: you obviously don't feel like reading such a document. So here is a brief rundown:
You're not identifying yourself as a robot.
Remedy: Find out more about the »User-Agent:« field (section 14.43). At the very least, include the web address of your service and your e-mail address.
You're not reading/honoring robots.txt.
robots.txt is not merely trying to keep you from indexing particular pages; it can also help you avoid following dynamically created links.
You're too lazy or too dumb to parse HTML and/or URLs correctly, and — as a consequence — you are generating nonsensical requests or loops.
I really can't spare you the reading of the SGML/XML, HTML, HTTP, and URL specifications.
You're not properly dealing with all HTML status codes, for instance redirections. In particular, you insist on a particular URL even though you have received a 301 or a 410 status code for it.
Receiving status 301 or 410 (sections 10.3.2 and 10.4.11) means: don't ever use this URL again! (Or at least for a looong time.) Block it in your robot's URL database! And when I say »block«, I do not mean »delete«. Otherwise, the next reference to that obsolete URL will cause your robot to add it back to its database.
You're not caching result pages and/or not making use of »If-Modified-Since:«.
Save the »Last-Modified:« data (sections 14.29 and 14.25) for use during the next run.
You're sending too many requests in too little time.
How difficult can it be to keep track of the last time you visited a particular IP address (Keep virtual hosts in mind!) and — if need be — to visit somebody else in the meantime or to pause for a while?
Don't get me wrong: I don't mind robots that provide a useful service to the public, for example search engines. Nor do I mind anyone downloading a local copy of particular pages now and then. What I do mind is thoughtless waste of bandwidth by lazy wanna-be programmers.
If you believe that all of this cannot possibly apply to you, since you are not operating a robot at all, then please check your system for viruses, backdoors, and Trojan horses to rule out third-party abuse. Switching to a different browser may help, too.
However, I am not ruling out the possibility that you have been blacklisted by accident. If so, please get in touch with me. Thank you.
If, however, you really are a badly behaved crawler, then there's no need to do anything at all. Just keep on sending HTTP requests like mad, and we'll make sure that you, your software, and your network will be blacklisted completely as soon as possible.