Wie die Aufnahme ins Webarchive (archive.org) verhindern?

Es gibt viele Gründe, dass man eine Webseite nicht in das Internet Archiv (archive.org) aufnehmen möchte. Nur ist dies mittlerweile gar nicht mehr so einfach, weil archive.org die üblichen Mittel, wie eine robots.txt einfach ignoriert. Und es scheint sich ein kleines Katz und Maus spielt zu entwickeln, wie man ein aufnehmen der eigenen Webseite verhindern kann.

Lange Zeit war das anlegen einer robots.txt die einfachste Methode.



1. Bots über die robots.txt bitten

Seriöse Bots, oder auch Webcrawler laden als erstes eine im Wurzelverzeichnis des Webservers liegende Datei, mit dem Namen “robots.txt“. Dort können diverse Direktiven eingetragen werden, wie bestimmte Bots wie reagieren sollen, bzw. was sie durchsuchen dürfen, und was diese nicht durchsuchen sollten. Auch kann man zum Beispiel Google mitteilen, wo die sitemap.xml liegt und vieles weitere mehr. Allerdings ist die robots.txt nur eine bitte an die Bots, bestimmte Dinge nicht zu tun. Unseriöse Bots und Crawler ignorieren diese Datei natürlich.

Diese robots.txt musste man in den letzten Jahren immer mehr erweitern und bis vor kurzem funktionierten noch folgende Einträge:

# Block archive.org bots
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
User-agent: ia_archiver-web.archive.org
Disallow: /

Übrigens stammte diese Anleitung von archive.org, die bis Oktober 2015 noch selber eine Anleitung bereit gestellt hatte. Diese Anleitung wurden von archiv.org aber dann gelöscht, eine alte Kopie ist aber in deren eigenem Archiv noch zu finden: https://web.archive.org/web/20151031123632/https://archive.org/about/exclude.php.

Daher muss man davon ausgehen, dass die Wayback Machine die robots.txt mittlerweile schlichtweg ignoriert. Und schaut man sich die Webserverlogfiles genauer an, so kann man auch keinen Zugriff mehr finden, die von dem archive.org Bot ausgeht und die robots.txt lesen möchte. Also kann man diese Methode mittlerweile leider ad acta legen.

Also eine Stufe weiter gehen, und direkt die Zugriffe über die .htaccess blockieren.


2. Sperren über die .htaccess Datei

2.1 Useragent verbieten

Wer mit einem Browser eine Webseite aufruft, sendet einen sogenannten Useragenten mit. Dort steht u.a. der Browsertyp und die Version drin. So kann der Webserver erkennen, wie die Bildschirmauflösung ist und ob ggf. der Browser irgendwelche Besonderheiten bei bestimmten Funktionen hat. Über diese Zeichenfolge übertragen viele Bots aber auch, wer sie sind.

In der oben beschriebenen robots.txt wurden ebenfalls mit diesen Useragents gearbeitet. das Internetarchiv überträgt in diesem String seinen Bots eben genau diese Zeichenketten, wie zum Beispiel “archive.org_bot”. Wenn dieser String erkannt wird, kann man entsprechende Maßnahmen ergreifen.

Wird die freiwillige Maßnahme über die robots.txt ignoriert, kann man in der .htaccess den eigenen Webserver anweisen, alles abzuweisen, was eben genau diesen String enthält. Dazu trägt man in die .htaccess im Wurzelverzeichnis des Webservers folgendes ein:

<IfModule mod_rewrite.c>
	RewriteEngine On
	RewriteCond %{HTTP_USER_AGENT} (ia_archiver|archive.org_bot|ia_archiver-web.archive.org) [NC]
	RewriteRule .* - [R=403,L]
</IfModule>

Diese Datei kann archive.org nicht umgehen. Aber sie können den Useragent String ändern. Und dies scheinen sie getan zu haben, denn im Webserverlog sehen die Zugriffe nun aus, als ob diese von einem PC ausgeführt worden wäre. Und diese wechselt auch, da man sowohl Chrome, Mozilla (Firefox) als auch Safari angezeigt bekommt. Selbst beim Betriebssystem ist Linux und Windows dabei. Und dies wechselt, weil von verschiedenen Rechnern die Bots ausgeführt werden.

Da hilft dann nur noch, die Keule in Form von IP Sperren heraus zu holen.

2.2 IP-Netz von archive.org sperren

Schaut man sich die Zugriffe der Wayback Machine an, finden sich im Logfiles diverse Einträge von unter anderem folgenden Adressen:

207.241.236.87      wwwb-nomad811.us.archive.org
207.241.235.246     wwwb-nomad810.us.archive.org
207.241.232.188     wwwb-spn19.us.archive.org
207.241.225.160     wwwb-spn12.us.archive.org
207.241.236.173     wwwb-spn28.us.archive.org

Eine WHOIS Abfrage über archive.org gibt die notwendigen Informationen aus:

#
# ARIN WHOIS data and services are subject to the Terms of Use
# available at: https://www.arin.net/resources/registry/whois/tou/
#
# If you see inaccuracies in the results, please report at
# https://www.arin.net/resources/registry/whois/inaccuracy_reporting/
#
# Copyright 1997-2024, American Registry for Internet Numbers, Ltd.
#
NetRange: 207.241.224.0 - 207.241.239.255
[4096 addresses in this network]
#
NetName: INTERNET-ARCHIVE-1
NetHandle: NET-207-241-224-0-1
Parent: NET207 (NET-207-0-0-0-0)
NetType: Direct Allocation
OriginAS:
Organization: Internet Archive (INTERN-95)
RegDate: 2004-05-20
Updated: 2021-12-14
Ref: https://rdap.arin.net/registry/ip/207.241.224.0
...
...
...

Dem Internet Archiv gehören also die IP-Adressen von 207.241.224.0 – 207.241.239.255. Zumindest derzeit. Und diese Adressen finden sich ja auch im Logfile wieder. Also ist der nächste Schritt, diese Adresse zu sperren. Dies kann man entweder in einer Firewall tun, oder auch über die .htaccess.

Order Allow,Deny
	Deny from 207.241.224.0/20
	Allow from all

Die Angabe mag vielleicht seltsam aussehen, aber die Angabe von “/20” steht für das Subnetz 255.255.240.0. Was dann die IP-Adressen von 207.241.224.0 bis 207.241.239.255 entspricht.

Danach ist erst einmal Ruhe, und das Archive kann auf die Webseite nicht mehr zugreifen. Das funktioniert natürlich nur so lange, bis das Archiv weitere IP Adressen, bzw. Netze hinzu fügen würde, was aber, zumindest für ipv4 , recht unwahrscheinlich ist.


3. Webseite direkt beim Internetarchiv sperren lassen

3.1 Seite ist noch nicht beim Archiv, soll aber von Anfang an gesperrt werden

Man kann natürlich auch einfach eine eMail an info@archive.org (in Englisch formuliert) schreiben, und darum bitten, dass die Seite nicht aufgenommen werden soll. Bisher hat sich das Internetarchiv auch daran gehalten. Aber garantieren kann dies für die Zukunft niemand. Früher wurde auch die robots.txt respektiert, heute wird diese ignoriert. Daher wäre dies eher als zusätzliche Maßnahme zu sehen.

3.2 Wenn schon die Seite im Archiv ist

Ist das Kind schon sprichwörtlich in den Brunnen gefallen, kann man nur um eine Löschung der Seite bitten. Dabei kann der DMCA (Digital Millennium Copyright Act) helfen. Hier handelt es sich um eine US-Gesetzgebung aus dem Jahr 1998. Es geht um den Schutz des geistigen Eigentums. Erfahrungsgemäß reagiert da archive.org recht schnell in ein paar Tagen. Am besten schreibt man diese Mail natürlich von der Domain aus, zu der auch die Domain gehört.

Und der Text sollte in Englisch verfasst werden. Wer dabei Probleme hat, kann den DMCA Takedown Notice Generator nutzen. Dort trägt man seine Daten ein und erhält daraufhin einen Text, den man per eMail an info@archive.org sendet.

Und nach ein Tagen sind normalerweise die Daten gelöscht, und die Webseite auf eine Sperrliste gesetzt worden. Damit auch zukünftig keine weiteren Abzüge erstellt werden. Wobei ich trotzdem empfehlen würde, die IP-Adressen zu sperren.


Quellen:

https://iphqs.com/dmca-takedown-notice-generator/
https://web.archive.org/

0 Comments
Älteste
Neueste
Inline-Feedbacks
Alle Kommentare anzeigen
Nach oben scrollen