Flink und fĂĽr das bloĂźe Auge unsichtbar krabbelt die kleine Spinne ĂĽber die Webseite. Da findet sie einen Link. Weiter unten ist noch einer und da drĂĽben auch noch einer. Alle werden sie gescannt und der weitere Weg ist klar. Die Suchmaschinenspider krabbelt immer weiter entlang der URLs, die wir ihr liefern.

Im Namen der Suchmaschinen hangeln sich die Spider – auch Webcrawler, Searchbot oder Robot genannt – von Link zu Link auf den Webseiten. Sie analysieren und indexieren die – wie site-check es so charmant formuliert – „nackten“ Webseiten, dazu gleich mehr. Erst durch die Suchmaschinenspider tauchen die Webseiten später in unseren Suchergebnissen auf. Daher ist es nicht verwunderlich, wenn neue Webseiten ein paar Wochen oder sogar Monate brauchen, bis sie dort erscheinen. Auch Veränderungen machen sich erst nach einiger Zeit bemerkbar. Die Suchmaschinenspider sind nicht auf unserer Webseite, wenn wir sie genau jetzt in diesem Moment brauchen. Denn die jetzigen Treffer, die von den Suchmaschinen ausgegeben werden, sind bereits einige Tage alt.

Doch die Suchmaschinenspider können noch mehr. Sie sind Sammler von Informationen, von Webfeeds oder E-Mail-Adressen. Je nachdem worauf sie programmiert sind. Doch sie gehen automatisch ihren sich wiederholenden Aufgaben nach. Sie stellen dabei eine spezielle Art an Bots dar. Ihr Ursprung liegt dabei im Wanderer, dem Urvater der Webcrawler.

Wanderer – die erste Suchmaschinenspider

Im Juni 1993 erblickte der World Wide Web Wanderer, kurz Wanderer, das Licht der Welt. Matthew Gray hat die Suchmaschinenspider am Massachusetts Institute of Technology entwickelt. Damit wollte er die Größe und den Zuwachs des Internets messen. Für die Dokumentation hat der Wanderer den Index „Wandex“ erstellt. 1995 wurde er schließlich eingestellt.

Bereits kurz nach der ersten Suchmaschinenspider kam auch die erste Suchmaschine. Im Januar 1994 war die Metasuchmaschine WebCrawler für alle öffentlich und erreichbar. Von dieser kommt auch die Bezeichnung Webcrawler für die Suchmaschinenspider oder wie wir sie nun auch nennen wollen. Die Anzahl der Suchmaschinen wuchs daraufhin rasant, demnach kamen auch mehr und mehr Webcrawler auf. Diese sind für rund 40 % des gesamten Internet-Datenverkehrs verantwortlich und arbeiten wie zuvor erwähnt selbstständig.

Wie arbeiten Suchmaschinenspider?

Das gleiche, was Nutzer beim Surfen auch machen. Sie durchsuchen das Web. Wenn auf einer Webseite Hyperlinks hinterlegt sind, dann gelangen sie auf weitere Webseiten. Diese Adressen werden gespeichert und besucht. Dabei gelangen sie wieder auf mehrere Seiten und so weiter. Tauchen hierbei neue Seiten auf, die noch nirgendwo hinterlegt sind, werden sie in die Liste sämtlicher URLs aufgenommen. Durch diese Vorgehensweise werden alle verlinkten und nicht gesperrten Seiten gefunden.

Bei ihrer Arbeit ignorieren die Bots sämtliche Bilder, Style Sheets, Skripts und schauen sich lediglich den Content an. Sie bewerten anschließend den Inhalt der Texte für jedes Keyword und bauen anhand der Kriterien das Ranking auf. Diese Kriterien sind nicht einsehbar und es können höchstens Vermutungen anhand von Beobachtungen getroffen werden.

Der Webcrawler an seinen Grenzen

Die Robots können einfach über die robots.txt-Datei gesammelt ausgeschlossen werden. Für einzelne Befehle oder Ausschlüsse kann auch über Robots-Tag im html-Code gearbeitet werden. Diese werden im Header eingegeben. Dabei muss beachtet werden, dass die Bots den ersten für sie passenden Befehl nehmen. Daher erst die Befehle an einzelne Suchmaschinenspider eingeben und dann die Befehle, die für alle gelten.

Um bestimmte und unerwünschte Webcrawler zu bekämpfen, werden „Teergruben“ erstellt. Diese speziellen Seiten beinhalten mehrere Links, die alle wieder auf sich selbst verweisen, die andere Links ausgeben und wieder auf sich selbst verweisen. Hierdurch werden Spammer in die Falle gelockt und ausgebremst. Das Linux-Magazin hat sich ausführlich mit diesen Seiten befasst.

… und noch mehr Probleme

Aber auch die erwünschten Webcrawler kommen teilweise an ihre Grenzen. Das größte ist das Internet an sich. Es verändert sich stetig weiter und nichts bleibt da wo es am vergangenen Tag noch war.

Hierbei sind auch die Suchmaschinenspider mit verantwortlich. Seiten, die nicht den Vorgaben entsprechen oder den entsprechenden Robots-Tag im header haben, werden nicht indexiert. Diese befinden sich damit im sogenannten „Deep Web“. Dort finden sich noch weitaus mehr Seiten, als wir in den Suchergebnissen je finden würden.

Und zum anderen können die Webseiten manipuliert sein, doch anders als bei Teergruben. Bei dieser Art der Manipulation, die zu den Black Hat-Methoden zählt, die ich meine, werden die Inhalte verändert. Beim „Cloaking“ geben die Betreiber den Suchmaschinenspidern eine andere Webseite, als ihren menschlichen Besuchern. Hierdurch können sie optimierte Inhalte im Hintergrund erzeugen und vorne eine nutzerfreundliche Seite ausgeben. Die SEO-Küche hat die wichtigsten Punkte zu diesem Thema zusammengefasst.

So wie wir also die Webcrawler einteilen können, können wir auch Webseiten unterteilen. Aber was machen die einzelnen Webcrawler?

Arten von Suchmaschinenspider

  • Fokussiert: Diese Sorte ist thematisch fokussiert (focused crawler oder fokussierter Webcrawler). Die verschiedenen Spider kĂĽmmern sich lediglich um einen Themenbereich. Sie durchsuchen Webseiten, die der Klassifizierung angehören und folgen auch nur einzelnen Hyperlinks. Damit indexieren sie auch nur einen Teil des Webs, eben der, der ihrem Thema entspricht.
  • Data-Mining: Diese Bots fĂĽhren systematische Anwendungen statistischer Methoden durch. Bereits existierende Datenbestände werden auf Muster, Trends und Zusammenhänge geprĂĽft.
  • Webometrie: Hiermit wird die Untersuchung des Internets beschrieben. Es werden Daten ĂĽber die Struktur und Entwicklung des World Wide Webs bzw. Teilbereichen davon gesammelt.
  • E-Mail-Harvester: Mit den Crawlern werden lediglich E-Mail-Adressen „geerntet“. Das wird meist von Spambots betrieben, durch die anschlieĂźend Spam-Mails oder Werbemails verschickt werden.
  • Es gibt verschiedene Möglichkeiten sich davor zu schĂĽtzen oder dem entgegen zu wirken. Beliebt sind hierbei „… [at] …“, was Bots mittlerweile lesen können, oder die Adresse auf eine Grafik zu legen. Damit ist sie nicht im Quelltext hinterlegt, allerdings ist es dadurch umständlicher, an diese Adresse eine Mail zu schreiben. Hinzu kommt, dass die E-Mail-Adresse dann nicht mehr barrierefrei zu erreichen ist.

Es gibt auch Suchmaschinen, die explizit nach urheberrechtlich geschützten Inhalten suchen. Sie sind auch eine Art von Crawler, haben aber keine direkte Bezeichnung. Da sie unter diesen Punkt gehören, wollte ich sie trotzdem aufführen.

Dieser Punkt beschreibt natürlich die einzelnen Aufgaben der Suchmaschinenspider. Denn wie bereits oben im Text erwähnt, hat jeder Bot seine Aufgabe. Diese teilen ihn in die unterschiedlichen Arten ein. Die einen Spider indexieren neue Webseiten, die nächsten durchsuchen bereits indizierte Webseiten und überprüfen, ob sie erreichbar sind. Wird sie nicht gefunden oder wurde gelöscht, wird sie auch aus dem Index entfernt.

Und was lernen wir daraus?

Suchmaschinenspider durchsuchen automatisch das Internet. Sie erfüllen dabei die ihnen zugeteilte Aufgabe routinemäßig. In der Regel analysieren und indexieren sie die Webseite und ordnen die Seite in ein Ranking ein. Durch die robots.txt-Datei oder Robots-Tag können einzelne Bots oder eine breite Gruppe ausgeschlossen werden. Dadurch werden sie allerdings auch nicht indexiert.