Finden: Suchmaschinen

In der heutigen Zeit hat das Suchen und Finden von Informationen im World Wide Web einen bedeutenden Stellenwert. Bereits in der Grundschule konsultieren Kinder das Internet zur Vorbereitung auf einen Vortrag oder eine Hausaufgabe. Es ist also davon auszugehen, dass ein großer Teil der Bevölkerung, das Internet zur Informationssuche und –Beschaffung nutzt. Dies meistens über die Internetsuchmaschine Google. Laut Seo-united lag der Marktanteil von Google an allen Suchmaschinen im Oktober 2013 bei über 90%. Doch neben Google gibt es noch eine Reihe an anderen Suchmaschinen: Bing ist eine Suchmaschine von Microsoft und erfreut sich besonders in Amerika großer Beliebtheit. Die Suche läuft hier wie bei Google ab. Zusehens erfreuen sich Projekte von mehr oder weniger kleinen Communities großer Beliebtheit. Sei es das Open Directory Project (www.dmoz.org), ein durch die Mitglieder ständig erweitertes Webverzeichnis, oder WolframAlpha (www.wolframalpha.com), das Daten und Fakten verarbeitet und somit eine gute Ergänzung zu Google bietet oder DuckDuckGo (https://duckduckgo.com), eine Suchmaschine, die objektiv, ohne Speicherung jedweder Nutzungsdaten, im Internet nach der gewünschten Information sucht.

Wie funktionieren Suchmaschinen? – Beispiel Google

Nun wissen wir, dass viele Menschen eine Vielzahl von Suchmaschinen und/oder Verzeichnissen nutzen können und dies auch tun. Aber wie finden solche Suchmaschinen eigentlich die gewünschten Seiten?

Anhand von Google soll diese Frage nun geklärt werden.

Google wurde von Larry Page und Sergey Brin als Doktorarbeit entwickelt. 1999 fand Google genügend Investoren und konnte „auf den Markt“. Das Neue an Google war damals, dass es nicht nur nach Stichworten sucht oder eine Meta-Suchtechnologie verwendet, sondern Seiten anhand einer patentierten PageRank-Technologie auswertet. Der Begriff PageRank leitet sich keineswegs von englischen Begriff „page“, zu deutsch: „Seite“ ab, sondern wurde einfach nach Larry Page benannt. Diese Technologie wertet die Anzahl an eingehenden Links auf eine Seite aus und geht davon aus, dass eine Seite nur dann auf eine andere Seite verweist (mithilfe eines Links), wenn diese andere Seite relevant ist. Also handelt es sich bei diesem Link um eine Art Internetempfehlung. Seite a sagt, dass Seite b wichtig ist. Dies merkt sich Google.

Google ist ein hochleistungsfähiges Softwareprogramm. Die Software, Robot, Spider oder Crawler genannt, durchforstet ständig das Internet nach relevanten Informationen. Damit dies weltweit funktionieren kann, hat Google an tausenden Orten weltweit Standorte. Die gesammelten Informationen werden in Datenbanken gespeichert, die untereinander verknüpft sind. Durch diese Verknüpfung können Suchergebnisse innerhalb kürzester Zeit angezeigt werden.

Sobald eine Webseite im Internet publiziert wird und auf einer anderen Seite, die Google bereits kennt, verlinkt ist, besucht Google diese automatisch. Es ist also keine manuelle Anmeldung in Suchmaschinen nötig, dies kann aber auch nicht schaden. Jeder Text- und Bildlink wird von Google gefolgt, da sich Google zum Ziel gesetzt hat, das gesamte –frei zugängliche – Internet zu erfassen. Es dauert im Mittel zwischen 1 bis 2 Wochen bis eine neue Webseite vollständig im Google-Index erscheint. Bereits bekannte Webseiten, die immer aktuelle Texte bieten, werden von Google täglich oder sogar stündlich besucht und neu indexiert, um sicher zu gehen, dass die Inhalte nicht zu alt sind.

Nach welchen Kriterien zeigt Google die Suchergebnisse an?

Ein wichtiger Bestandteil der Reihenfolge der Suchergebnisse ist der PageRank Algorithmus. Google zählt hierbei die Anzahl der Links, die auf eine Webseite verweisen. Neben dem PageRank gibt es noch eine Reihe von anderen Linkkriterien. Zum einen hilft es, wenn Webseiten auf eine Seite verlinken, die inhaltlich das gleiche Thema umfasst. Des weiteren liebt Google Text. Es wird daher immer textreiche Seiten bildreichen Seiten vorziehen. Weitere wichtige Elemente sind u.a. der Titel einer Webseite und die Themenrelevanz der Inhalte.

Zusammen mit diesen anderen Linkkriterien entsteht daraus die Link Popularity, oder bei Google der PageRank. Je mehr Links auf eine Seite verweisen, desto höher ist der Wert. Dieser variiert von 1 bis 10, wobei 10 der beste Wert ist. Mithilfe der Google-Toolbar kann man seinen PageRank-Wert messen und mithilfe von Optimierungshilfen seinen PageRank-Wert sogar verbessern.

Suchmaschinenoptimierung

Es liegt auf der Hand, dass die oberen Suchergebnisse häufiger von Nutzern angeklickt werden, als die unteren. Die meisten Nutzer suchen meist nur die erste Suchergebnisseite ab, vielleicht noch die zweite, hören dann aber auf. Vor allem für profitorientierte Webseiten, wie z.B. Onlineshops, lohnt sich also ein hoher Rang auf der Ergebnisliste. Da dieser (bei Google) durch den PageRank ermittelt wird, lohnt sich also ein hoher PageRank. Da die Elemente, die zu einem hohen PageRank und somit einem guten Rang auf der Ergebnisliste führen, größtenteils bekannt sind, gibt es viele Firmen, die sich auf Suchmaschinenoptimierung spezialisiert haben. So z. B. www.seo-united.de (SEO: Search Engine Optimization). Sie helfen die von Google berücksichtigten Elemente zu verbessern. So verbessern sie das Verhältnis von Text zu Bild, achten auf einen wichtigen Domainnamen und einen guten Titel, dass die Webseite relevante Themen bearbeitet, die aktuell sind und vor allem, kümmern sie sich um möglichst viele Verlinkungen.

Was kann Google nicht finden?

Prinzipiell findet Google jede Seite, die verlinkt ist. Führt also kein Link auf diese Seite, so kann sie – zumindest zunächst – nicht gefunden werden. Weitere mögliche Gründe können sein:

  • Die Internetseite ist zu versteckt
  • Die Internetseite ist zu aktuell
  • Die Internetseite darf nicht indexiert werden
  • Die Internetseite hat keinen Text
  • Die Internetseite hat zu viel Text
  • Das Dateiformat ist unbekannt
  • Die Internetseite ist nicht frei zugänglich – z.B. OnlineBanking, Firmeninterne Seiten, Regierungsseiten etc.
  • Inhalte aus Bibliothekskatalogen und Fachdatenbanken, für die meist gezahlt werden muss

Nutzungsoptimierung

Nun da wir wissen, wie Google, stellvertretend für die Allgemeinheit der Suchmaschinen, funktioniert, stellt sich die Frage, wie der Nutzer mit Google umgeht.

Die Suche im Internet gestaltet sich zunächst recht einfach. Man ruft die gewünschte Suchmaschine auf und gibt den gewünschten Begriff oder die gewünschte Formulierung ein.

Oft weiß der Nutzer aber nicht genau, nach was er sucht oder wo er suchen soll. Hier knüpfen Suchmaschinen an. Sucht der Nutzer zum Beispiel ein Geschenk für seine Großmutter, weiß jedoch nicht genau was er schenken soll, kann er einfach „Geschenk für Großmutter“ bei z.B. Google eingeben. Binnen Sekunden liefert die Suchmaschine eine Vielzahl an möglichen Ergebnissen. Oft findet der Nutzer die gewünschte Information unter den ersten Ergebnissen. Dies ist aber nicht immer so. Je spezifischer und außergewöhnlicher die gesuchte Information, desto schwieriger ist diese auszumachen. Oft fehlen dem Nutzer auch die nötigen Begriffe. Für diese Situation gibt es einige hilfreiche Tipps: Trunkierungen und Operatoren.

Trunkierungen dienen dazu, mit Hilfe von Sonderzeichen Suchbegriffe abzukürzen. Wenn der Nutzer z.B. nach einem Wort sucht, dass mit „Auto“ beginnt, allerdings nicht mehr genau weiß, wie das Wort endet, kann er mit Hilfe eines Sonderzeichens einen größeren Suchraum abdecken. Gibt der Nutzer also z.B. „Auto*“ ein, sucht die Suchmaschine nach allen Wörtern, die mit „Auto“ beginnen, also z.B. Auto, Automat, Autoimmunerkrankung, Autoskooter, Autor etc. Inwieweit diese Funktion das Suchen wirklich erleichtert, sei mal dahin gestellt. Dazu kommt noch, dass Google, die meistbesuchte Suchmaschine, einfache Trunkierungen nicht unterstützt. Allerdings können in Phrasen Wörter offen gehalten werden, sei dies mithilfe eines Sonderzeichens („Alle meine *, schwimmen auf dem See“) oder durch einfaches Auslassen des Wortes („Alle meine , schwimmen auf dem See“) – Google findet auch hier die Richtigen Ergebnisse: „Alle meine Entchen schwimmen auf dem See“. Ein weiterer Pluspunkt von Google ist, dass Google nach Wortstämmen sucht. Wenn man also nach einem Verb in der Vergangenheitsform sucht, z.B. „er verschwand“, dann zeigt Google auch Ergebnisse im Präsens an, „er verschwindet“.  Dies gilt auch für Pluralformen.

Die zweite Hilfe beim Suchen im Internet sind so genannte Operatoren. Dabei handelt es sich um geschriebene Befehle, die das Suchen optimieren.  Es gibt zum einen Operatoren, die das Suchen definieren, d.h. Operatoren, die das „wo“ spezifizieren:

intext:             Suche in normalem Seitentext

inurl:               Suche in Webadresse/URL

inachor:          spezieller Suchbefehl von Google, der Suche im Text des Hyperlinks aufruft

filetype:            Suche nach speziellem Dateityp (z.B. pdf oder doc)

related:            Suche nach ähnlichen Seiten, z.B.: „related:faz.net“

site:                 Suchen auf der Seite, z.B.: „Psychologie site:hu-berlin.de“

link:                 Suchen nach Seiten, die auf eine URL verweisen, z.B.: „link:google.de“

Daneben gibt es auch eine Reihe von inhaltlichen Operatoren, d.h. Operatoren, die das „was“ spezifizieren:

Genaues Wort oder eine genaue Wortgruppe: „Alle meine Entchen“

Ausschluss eines Begriffs:: „Getränke –Cola“

„Lückenfüller“ einfügen „geteiltes * ist halbes *“

Suche nach einem von zweien Begriffen: „Ja OR Nein“

Suche nach einem Zahlenbereich:  „50 € .. 100 €“

Trust in Information

Ein großes Problem der Internetsuche ist, dass man nicht immer weiß, inwieweit die Quelle vertrauenswürdig ist. Studenten dürfen z.B. das vielgenutzte Internetlexikon „Wikipedia“ nicht benutzen, da Einträge in dieses Lexikon von jeder Person getätigt werden können und die Korrektheit der Information somit nicht unbedingt gegeben ist.

Es ist also bei der Onlinerecherche unabdingbar, dass der Nutzer selbst die Informationen hinterfragt. Es gibt einige Anhaltspunkte, anhand derer der Nutzer erkennen kann, ob die Quelle vertrauenswürdig ist. Handelt es sich bei der Webseite um „https://“ und/oder um eine Domäne, wie z.B. .org, .edu oder .gov, kann man von einer Vertrauenswürdigkeit ausgehen. Im Idealfall handelt es sich bei dem Nutzer um jemanden, der bezüglich seiner Recherche das nötige Fachwissen besitzt und somit die Richtigkeit der Ergebnisse abschätzen kann. Besitzt er auch noch genügend Informationsfertigkeiten und Nutzungsfähigkeiten so ist seitens der Person alles für das Bestimmen einer vertrauenswürdigen Quelle gegeben.

Aber nicht nur die Person achtet auf die Vertrauenswürdigkeit (resp. sollte darauf achten). Auch die Suchmaschinen bemühen sich um Kontrolle der Inhalte. So haben die Suchmaschinen einen TrustRank. Dieser Rank gewichtet die Verlinkungen vertrauensvoller Seiten, wie z.B. .org, .edu und .gov, stärker, was den Seiten einen höheren Ergebnisrang zusichert. Des Weiteren überprüfen die Suchmaschinen die Aktualität einer Seite, bevorzugen sowohl hohen „traffic“ – also wie viel auf der Seite passiert, sowohl seitens der Administratoren, als auch auf der Besucherseite – als auch nicht wirtschaftliche Top-Level-Domänen, wie z.B. .gov, .eu, .edu.

Außerdem beschäftigt z.B. Google seit einiger Zeit Search Quality Rater. Dabei handelt es sich um kleine Teams von Ratern, die die Suchergebnisse nach ihrer Relevanz bewerten und überprüfen, ob man dem Inhalt vertrauen kann oder nicht. Da dies ziemlich viel Zeit in Anspruch nimmt und es aufgrund der ständig wachsenden Zahl an Webseiten kaum zu schaffen ist, alle Webseiten von den Ratern bearbeiten zu lassen, ist es weiterhin ratsam, wenn jeder Nutzer die Informationen überprüft.

Probleme mit Suchmaschinen

Der offensichtliche Nutzen der Suchmaschinen liegt eindeutig in der Möglichkeit einfach und schnell an einen riesigen Pool von Informationen zu gelangen, um sich die benötigte Information auszusuchen. Nichtsdestotrotz gibt es einige Baustellen. So richtet sich z.B. der PageRank und somit die Rangfolge der Ergebnisse von Google nicht nach den Nutzerwünschen und –bedürfnissen, sondern lediglich nach Verlinkungskriterien. Das heißt also, dass hierbei das Interesse andere Webseiten über dem Interesse des Nutzers steht. Durch die Möglichkeit der Suchmaschinenoptimierung können sich finanzkräftige Unternehmen einen hohen PageRank und somit einen hohen Ergebnisrang kaufen. Dies spricht umso mehr gegen eine objektive Relevanzreihenfolge.

Problem der Filterblase

Google ist bemüht, die Suche jedes Nutzers zu optimieren. Jeder Nutzer soll die Ergebnisse erhalten, die für ihn am relevantesten sind. Aber wie entscheidet Google was für den Nutzer relevant ist? Google speichert alle Webseiten, die der Nutzer aufgerufen hat. Anhand dieser Daten wird ein Nutzerprofil erstellt. Zum Beispiel sucht Frau X gerne nach Kochrezepten, interessiert sich für das Wetter, gute Bücher und ferne Reiseziele. Sucht sie im Internet, z.B. bei Google, nach Ägypten, wird sie primär Ergebnisse erhalten, die darauf abgestimmt sind, also Seiten über ägyptisches Essen, Bücher über Ägypten und Reiseinformationen. Herr Y hingegen ist politisch sehr engagiert, er sucht primär nach Nachrichten und Berichterstattungen aus aller Welt. Gibt er nun bei einer Suchmaschine „Ägypten“ ein, so erscheinen zuoberst Links zu den aktuellen Geschehnissen in Ägypten.

Eli Pariser, Autor des Buches „Die Filterblase“ formuliert dies so: “Das Internet zeigt uns, was es denkt, dass wir sehen wollen und nicht dass, was wir sehen sollten.”

Dadurch fällt der Vorteil des Internets, Zugang zu jeder Information weltweit zu haben, wieder weg. Zwar existiert die Möglichkeit bei Google, sein Profil zu löschen, jedoch ist fraglich, inwieweit dies dann wirklich gelöscht wird. Hier bietet es sich daher an, auf andere Suchmaschinen, wie z.B. das weiter oben vorgestellte DuckDuckGo zurückzugreifen.

Fazit

Die Informationsrecherche über Internetsuchmaschinen bietet die Möglichkeit schnell und ohne große Mühe an gewünschte Informationen zu gelangen. Dabei ist der Suchraum schier unendlich groß und man gelangt auch an Informationen, an die man sonst nicht gelangen würde. Die Suchmaschinen gehen hierbei nach verschiedenen Algorithmen vor, um Ergebnisse passend zur Suchanfrage strukturiert zu präsentieren. Damit der Nutzer so einfach wie möglich an Informationen kommen kann, hat er die Möglichkeit Trunkierungen und Operatoren zu benutzen.

Auch wenn es verschiedene Anhaltspunkte gibt, die die Vertrauenswürdigkeit einer Quelle beurteilen lassen, ist es wichtig, dass der Nutzer die Informationen kritisch hinterfragt. Ein weiterer wichtiger Aspekt der Onlinerecherche ist die Tatsache, dass das Internet alles speichert, was man macht. Es werden also bestimmte Nutzerprofile gespeichert, die die zukünftigen Suchanfragen beeinflussen und an die Rangreihe der Informationen angepasst wird. Zusätzlich wird die Rangreihe der Ergebnisse an anderen Aspekten als der Relevanz für den Nutzer gemessen. Es obliegt hier jedem Nutzer, gewisse Vorkehrungen zu schaffen oder seine Suche unter diesem Aspekt zu gestalten.

 

Seiten, die es sich anzuschauen lohnt:

Alternativen zu Google:

www.dmoz.de

www.wolframalpha.com

https://duckduckgo.com

wie war es damals:

http://archive.org/

Beliebteste Suchmaschinen:

http://www.seo-united.de/suchmaschinen.html

Literatur:

http://www.seo-united.de

http://www.crisscrossed.net/2010/01/08/when-do-we-trust-an-information-source/

http://www.ub.uni-bielefeld.de/biblio/search/help/invisibleweb.htm

TED:

Die Plattform TED, wurde 1984 gegründet. Sie beschäftigt sich mit „Ideas Worth Spreading“ und beleuchtet relevante Themen der Bereiche Technologie, Unterhaltung und Design. Regelmäßig finden Tagungen und Konferenzen statt, an denen Redner aus diesen drei Bereichen Vorträge halten und über relevante Themen diskutieren.

http://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles.html

http://www.ted.com/talks/sergey_brin_and_larry_page_on_google.html

 

 

Advertisements

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s