Suche im Internet - SPRINT
Transcription
Suche im Internet - SPRINT
Das Schweizer Portal für die Recherche im Internet Suche im Internet Entstanden im Rahmen des Projektkurses PK SPRINT, im Herbstsemester 2008 an der HTW Chur Stand: Januar 2009 Dieses Dokument untersteht der «Namensnennung-Keine kommerzielle Nutzung-Weitergabe unter gleichen Bedingungen 2.5 Schweiz»-Lizenz. Was das bedeutet, können Sie hier nachlesen: http://creativecommons.org/licenses/by-ncsa/2.5/ch/ Zitiervorschlag: Schweizer Portal für Recherche im Internet (SPRINT): Suche im Internet. Chur: Hochschule für Technik und Wirtschaft, 2009. Im Netz: http://sprint.informationswissenschaft.ch SPRINT – Suche im Internet Inhaltsverzeichnis 1 Einleitung ........................................................................................................................................... 4 2 Informationsdienste ............................................................................................................................ 5 2.1 2.2 2.3 2.4 2.5 3 Informationsanbieter ........................................................................................................................ 12 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 4 Suchmodus ................................................................................................................................. 58 Gross-Schreibung........................................................................................................................ 58 Boole'sche Operatoren................................................................................................................ 59 Phrasensuche .............................................................................................................................. 61 Trunkierung ................................................................................................................................ 61 Abstandsoperatoren ................................................................................................................... 62 Gewichtung ................................................................................................................................ 63 Suchraumeingrenzung ................................................................................................................ 64 Suchanfrageunterstützung.......................................................................................................... 67 Trefferanzeige ........................................................................................................................ 68 Ranking .................................................................................................................................. 73 Treffermengeneingrenzung .................................................................................................... 74 Trefferweiterverarbeitung ....................................................................................................... 74 Vorgehen bei der Suche.................................................................................................................... 78 6.1 6.2 6.3 6.4 7 Suchmethoden ........................................................................................................................... 15 Lokale Internetserver................................................................................................................... 15 Gateways zu Datenbanken ......................................................................................................... 16 Katalog & Verzeichnis ................................................................................................................. 17 Social Bookmarkdienste oder Tagging Communities ................................................................... 19 Portale ........................................................................................................................................ 19 Meta-Suchdienste ....................................................................................................................... 20 Suchmaschinen........................................................................................................................... 23 Spezialsuchmaschinen................................................................................................................. 43 Suchmaschinen-Evaluation ..................................................................................................... 47 Intelligente Agenten ............................................................................................................... 51 Entwicklungstendenzen.......................................................................................................... 55 Operatoren & Methoden .................................................................................................................. 58 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 6 Privatpersonen ............................................................................................................................ 12 Kommerzielle Organisationen / Firmen........................................................................................ 12 Nicht-kommerzielle Organisationen ............................................................................................ 13 Universitäten, Institute ................................................................................................................ 13 Medienanbieter und Anbieter kommerzieller Datenbanken......................................................... 13 Bibliotheken................................................................................................................................ 13 Elektronische Kommunikations- und Diskussionsforen ................................................................ 14 Social Bookmark / Tagging Communities .................................................................................... 14 Suchverfahren .................................................................................................................................. 15 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 5 WWW-World Wide Web............................................................................................................... 5 FTP - File Transfer Protocol ............................................................................................................ 6 E-Mail / Mailinglisten..................................................................................................................... 7 NewsGroups / FAQ ....................................................................................................................... 9 Weblogs ..................................................................................................................................... 10 Informationsbedarf bestimmen ................................................................................................... 78 Suchanfrage formulieren............................................................................................................. 78 Ergebnisse bewerten................................................................................................................... 82 Aufbauelemente Recherche ........................................................................................................ 83 Quellenverzeichnis ............................................................................................................................ 84 Seite 2 von 85 SPRINT – Suche im Internet Abbildungsverzeichnis Abbildung 1: Lokale Suche ..................................................................................................................... 16 Abbildung 2: Nebiskatalog ..................................................................................................................... 17 Abbildung 3: Aufbau von Webkatalogen (Quelle: Griesbaum et al., 2008) ......................................... 18 Abbildung 4: : Aufbau von Social Bookmarkdienste (Quelle: Griesbaum et al., 2008) ....................... 19 Abbildung 5: Metasuchmaschinen.......................................................................................................... 21 Abbildung 6: Websuchmaschine (Quelle: Griesbaum et al., 2008, S. 15) ............................................ 23 Abbildung 7: Robots.txt (Quelle: Griesbaum et al., 2008, S. 18) ........................................................ 25 Abbildung 8: Ranking-Faktoren bei Suchmaschinen (Quelle: Griesbaum et al., 2008, S. 21) ............. 29 Abbildung 9: Pagerank – Google, Modell von 1998 (Griesbaum et al., 2008,S. 24) ............................. 34 Abbildung 10: Anmeldungsprozess einer Website................................................................................. 37 Abbildung 11: Positionsersteigerung ..................................................................................................... 40 Abbildung 12: Google Blog Search ......................................................................................................... 44 Abbildung 13: Suchoptionen in Scirus.com (Quelle: Griesbaum et al., 2008, S. 35)........................... 45 Abbildung 14: Top 29 Mikroprecision (Lewandowski, 2008a, S. 927) ................................................... 49 Abbildung 15: Funktionsweise Intelligente Agenten............................................................................. 52 Abbildung 16: SmartWeb (Quelle: BMW Group Trainingsakademie, 2007) .......................................... 57 Abbildung 17: Einfache Suche (Simple Search) ..................................................................................... 58 Abbildung 18: Erweiterte Suche (Advanced Search) ............................................................................. 58 Abbildung 19: Boole‘sche Operatoren und Klammern der einfachen Suche ........................................ 60 Abbildung 20: Erweiterte Suche ersetzt Boole’sche Operatoren ......................................................... 60 Abbildung 21: Zeitschriftentitel-Suche mit allen Wörtern (auf Bild klicken für Suche)..................... 61 Abbildung 22: Zeitschriftentitel-Suche mit der genauen Wortgruppe (auf Bild klicken für Suche)... 61 Abbildung 23: NEAR-Suche bei Exalead (auf Bild klicken für Suche) ................................................... 63 Abbildung 24: Suchraumeingrenzung in der erweiterten Suche........................................................... 64 Abbildung 25: Angebot an Suchraumeingrenzung nach Diensten bei Google-Schweiz ........................ 64 Abbildung 26: Angebot an Suchraumeingrenzung nach Diensten bei Goolge.com............................... 64 Abbildung 27: Erweiterter Suchmodus der (Schweizer) Google-Newssuche ........................................ 65 Abbildung 28: Erweiterte Bildsuche ...................................................................................................... 66 Abbildung 29: Google-Gesichtersuche (auf Bild klicken für Suche ...................................................... 66 Abbildung 30: Erweiterte Google-Patentsuche ..................................................................................... 66 Abbildung 31: Mindmap-artige Übersicht bei Mnemomap.................................................................... 67 Abbildung 32: Visualisierung statt Boole’sche Operatoren bei SortFix ............................................... 68 Abbildung 33: Cache-Ansicht (auf Bild klicken) .................................................................................... 68 Abbildung 34: Thumbnail-Ansicht bei Bildersuche (auf Bild klicken für Suche).................................. 69 Abbildung 35: Trefferansicht bei Google Patents „List“ (auf Bild klicken für Suche) ........................ 69 Abbildung 36: Trefferansicht bei Google Patents „Thumbnails“(Gleiche Suche)................................ 69 Abbildung 37: Clustering von Grokker................................................................................................... 70 Abbildung 38: Ergebnisvisualisierung als Landkarte............................................................................. 71 Abbildung 39: „Trefferansicht“ bei Google Maps ................................................................................. 71 Abbildung 40: Visualisierung zeitlicher Aspekte................................................................................... 72 Abbildung 41: Ansicht mit Relevanzeinstufung bei SearchCloud ......................................................... 73 Abbildung 42: Vergleich: Standard-Ansicht bei SearchCloud (Google-like)......................................... 73 Abbildung 43: Sortierung bei Google News Schweiz ............................................................................. 74 Abbildung 44: Einstellen der Treffermengenanzeige bei Google......................................................... 74 Abbildung 45: Möglichkeit zur Trefferweiterverarbeitung bei Searchcloud ....................................... 75 Abbildung 46: Suche nach Ähnlichen Seiten -> Auf das Bild klicken, um zu sehen, was passiert....... 75 Abbildung 47: Trefferanzeige bei Exalead ............................................................................................ 76 Abbildung 48: Facetten bei Exalead...................................................................................................... 76 Abbildung 49: RSS-Funktion für Suchanfrage (auf Bild klicken für Suche) .......................................... 76 Abbildung 50: RSS-Anzeige für Suchanfrage (auf Bild klicken) ............................................................ 77 Abbildung 51: Die gesuchten Inform. werden in mehrere Themenblöcke zerlegt und anhand der Boole'schen Operatoren wird die Schnittmenge eruiert. ..................................................................... 79 Abbildung 52: Die Suche geht direkt auf den Kern des Problems. ....................................................... 79 Abbildung 53: Bei dieser Strategie geht man von einem relevanten Dokument aus........................... 80 Abbildung 54: Es wird zuerst eine allgemeine Suche durchgeführt und dann grenzt man die Treffermenge immer neu ein. ............................................................................................................... 80 Seite 3 von 85 SPRINT – Suche im Internet 1 Einleitung Mit Hilfe dieser Rubrik soll eine Einführung in die Thematik „Suche im Internet“ erfolgen. Das Ziel dabei ist, das notwendige Wissen zu vermitteln, um im Internet gewünschte Informationen schnell und zielsicher finden zu können. Dazu werden am Anfang zunächst im Internet verfügbare Informationsdienste (WWW, FTP, E-Mail, NewsGroups und Weblogs) und deren Funktionsweise beschrieben. Das Kapitel Informationsanbieter klassifiziert verschiedene Typen von Informationsanbietern im Internet, wie Privatpersonen, Kommerzielle und Nicht-Kommerzielle Anbieter, Universitäten und Institute, verschiedene Medienanbieter und Bibliotheken sowie Diskussionsforen, Social Bookmark und Tagging Communities. Anschliessend erfolgt eine Vorstellung verschiedener Suchverfahren wie z.B. die Suche in Katalogen oder mittels Suchmaschinen. Neben den „gewöhnlichen“ Suchmaschinen werden zudem Metasuchmaschinen und Spezialsuchmaschinen vorgestellt. Zudem werden Ansätze zur Suchmaschinenevaluation und Entwicklungstendenzen von Websuchdiensten dargestellt. In den darauffolgenden Kapiteln werden Suchoperatoren, die bei der Suche im Internet genutzt werden und Suchmethoden - wie z.B. die Suchraumeingrenzung beschrieben – vorgestellt. In diesem Zusammenhang werden auch Visualisierungsansätze näher betrachtet. Zum Schluss wird noch näher auf die Vorgehensweise bei der Suche eingegangen. Dieses Kapitel behandelt das Thema, wie bei einer Suche vorgegangen werden soll. Dazu werden notwendige Vorüberlegungen und die Auswahl geeigneter Suchbegriffe und Suchverfahren dargestellt. Die „Suche im Internet“ ist modular aufgebaut, so dass Sie je nach Bedarf auch nur einzelne Kapitel aufrufen können. Zudem sind zahlreiche Fachbegriffe mit einem Hyperlink versehen, über den Sie eine kurze Begriffsdefinition aufrufen können. Seite 4 von 85 SPRINT – Suche im Internet 2 Informationsdienste Durch die Integration der Bestände verschiedener anderer Internet-Dienste in das WWW, wie z.B. FTP (File Transfer Protocol) oder NewsGroups, kann beim Herunterladen von Informationen nicht einmal von einem einheitlichen Seitenformat im Sinne von HTML (Hypertext Markup Language) ausgegangen werden. Von einer Konsistenz hinsichtlich der Widerauffindbarkeit, Aktualität oder gar Qualität der Informationsbestände im WWW, kann also nicht die Rede sein. Inhalte einzelner WWWSeiten oder deren Adressen (als URL bezeichnet - Unified Ressource Locator) werden laufend verändert oder gelöscht. HTTP und HTML bieten weder die Möglichkeit einer automatischen Aktualisierung der auf die einzelnen Seiten verweisenden Hyperlinks, noch kann ein tatsächliches Erstellungs- bzw. Änderungsdatum für die Inhalte der einzelnen Dokumente ermittelt werden. Nützliche Dokumentattribute wie Titel, Autor, Erscheinungsjahr etc. sind im Internet zwar formal vorhanden, werden jedoch kaum beschrieben. Wenn überhaupt, können sie nur über die Inhalte der WWW-Dokumente selbst ausfindig gemacht werden. Die folgenden Abschnitte zeigen einen Überblick über die Informationsdienste, die im Internet verfügbar sind. 2.1 WWW-World Wide Web Auf Grund seiner grafischen Benutzungsoberfläche und der damit verbundenen einfachen Bedienbarkeit, ist das WWW der am häufigsten genutzte Dienst im Internet. Jeder, der eine grafische Oberfläche bedienen kann, ist in der Lage, sich rund um die Uhr von Seite zu Seite zu hangeln (zu „surfen“). Auf einfache Art und Weise ist es möglich, verschiedene Informationsserver anzusteuern, Bibliothekskataloge zu durchsuchen oder selbst eine globale Informationsseite anzubieten. Wie bereits erwähnt, sind Dokumente im WWW in Form von Hypertext strukturiert. Dadurch ist es möglich, inhaltlich verwandte Themen miteinander zu verbinden und somit ein „assoziatives Lesen“ zu ermöglichen. Ein Link kann sich dabei nicht nur auf Textdokumente beziehen, sondern auch auf Bilder, Video- und Audiosequenzen, sowie auf andere Dienste im Internet wie z.B. E-Mail, News oder FTP. Dabei spielt es keine Rolle, wo sich diese Inhalte befinden. Oft kommt z. B. der Text aus Deutschland, die Grafik aus den USA und die angegebenen Links führen nach England oder Japan. Der für die Übertragung aller Inhalte des World Wide Web zuständige Standard ist das Hypertext Transfer Protocol (HTTP). HTTP ermöglicht den Transport von Hypertext-Dokumenten und medialen Daten vom WWW-Server zum WWW-Client, sowie die Übermittlung von Nutzereingaben vom Client zum Server. Die Daten jeder Übertragung sind unterteilt in Header und Body. Die Übertragung einer Webseite mittels HTTP erfolgt in vier Schritten: 1. Connection - Durch den Client wird ein Verbindungsaufbau initialisiert. 2. Request - Vom Client wird eine Anfrage an den Server gestellt (z.B. zum Abruf der Datei einer bestimmten URL). 3. Response - Der Server antwortet auf eine Anfrage des Clients (mit Übermittlung der angefragten Daten). 4. Close - Die Verbindung wird durch den Server nach erfolgter Datenübertragung abgebaut (in Ausnahmefällen kann auch ein Client mittels Abbruch die Verbindung beenden. Um den Zugriff auf bestimmte Dokumente des WWW zu beschleunigen, wird an verschiedenen Stellen das Verfahren des Caching angewendet. Dabei werden bereits abgerufene Seiten so zwischengespeichert, dass sie im Fall eines erneuten Abrufs nicht noch einmal von der ursprünglichen URL geladen werden müssen. Bei diesem schnelleren Zugriff werden die Daten vom Zwischenspeicherort herunter geladen. Caching kann auch durch die Speicherung von abgerufenen Dokumenten im Hauptspeicher oder auf der Festplatte des lokalen Rechners erfolgen. Es kann auch in Form von so genannten Proxy-Servern vom Informations-Provider bereitgestellt werden. Letztere ermöglichen aufgrund höherer Speicherkapazitäten die Verwaltung der abgerufenen Seiten von vielen Nutzern. Durch diese zentrale Speicherung erhöht sich das Potenzial, ein gewünschtes Dokument im Cache-Speicher des Proxy-Servers vorzufinden. Der grosse Vorteil liegt darin, dass die Inhalte schneller verfügbar sind. Seite 5 von 85 SPRINT – Suche im Internet Caching bietet den Nutzern noch einen weiteren Vorteil. Auf Dokumente, die unter ihrer ursprünglichen URL nicht mehr zur Verfügung stehen oder die aktualisiert wurden, kann noch längere Zeit zugegriffen werden. Auch einige Suchdienste wie z.B. Google und Speedfind bewahren die von ihnen indexierten Dokumente in einem Cache auf. Dadurch wird eine Art Versionenkontrolle möglich. Wichtig ist, dass keine Aktualisierung der Dokumente des Caches durch das Entnehmen stattfindet. Diese Verfahrensweise ist bei Proxy-Servern jedoch üblich, so dass sich diese nicht zur Archivierung von WWW-Dokumenten eignen. Zu beachten ist auch, dass dynamische Seiten bzw. Seiten mit Interaktionskomponenten (z.B. Formularfelder für Nutzereingaben etc.) beim Caching nicht berücksichtigt werden. Der Grund für diese Nichtbeachtung liegt darin, dass die Betrachtung solcher zeitabhängigen Dokumente zu einem späteren Zeitpunkt bedeutungslos sein kann bzw. die korrekte Verarbeitung der Nutzereingaben nicht mehr möglich ist. Die charakteristischen Merkmale des Informationsangebots im Internet: • die verteilte Datenhaltung • die hohe Dynamik bezüglich neuer, geänderter oder gelöschter Inhalte • die heterogenen Datenformate und medialen Formen der Inhalte (neben HTML sind das inzwischen auch alle gängigen Textverarbeitungsformate wie z.B. .doc, .ppt oder .pdf) • die uneinheitliche Struktur der Inhalte • eine grosse Vielfalt von Inhalten in unterschiedlichen natürlichen Sprachen • eine hohe Anzahl von Dokument-Dubletten, die unter anderem durch das Spiegeln (Mirroring) von Inhalten zustande kommen • die riesige, ständig zunehmende Menge an Dokumenten Alle diese Eigenschaften erschweren die Suche und Lokalisierung von Informationen im World Wide Web. Ein weiteres Problem der Datenverwaltung und Ressourcenlokalisierung im WWW besteht darin, dass HTML im Wesentlichen nur die Formatierung und Darstellung der Inhalte ermöglicht. Eine bedeutungsabhängige Kennzeichnung von Inhalten, sowie die Abbildung der semantischen Zusammengehörigkeit von Texten, Textabschnitten und sonstigen Informationsobjekten wird durch HTML nicht unterstützt. Dies hat zur Folge, dass alle Systeme der Informationslokalisierung zur Erschliessung von Dokumenten lediglich die Daten an sich, nicht aber deren Sinn und Zusammenhang zur Verfügung stellen. Dadurch ist eine Indexierung der Dokumente nur mit qualitativen Einbussen, z. B. durch mangelnde thematische Zuordnungen, Begriffsmehrdeutigkeiten usw. möglich. Abhilfe in diesem Bereich verspricht die Nutzung von XML (Extensible Markup Language), einer Dokumenten-Metasprache, die besonders für eine semantische und computerlesbare Beschreibung von Daten geeignet ist. Mit XML können zur Erhöhung der Flexibilität von Anwendungen eigene Elemente mit einer bestimmten Bedeutung im Rahmen so genannter DTDs (Document Type Definitions) definiert und für die Inhaltsdefinition verwendet werden. Die mit XML definierten Elemente müssen allerdings für das Web entsprechend formatiert werden, hierfür gibt es weitere Standards wie z.B. CSS (Cascading Style Sheets) oder XSL (Extensible Stylesheet Language). Um sich im Datendschungel zurechtzufinden, stehen an verschiedenen Punkten im Netz kostenlose Suchdienste zur Verfügung. Mit deren Hilfe kann man das Internet nach Stichworten durchsuchen. Es gibt auch Kataloge, in denen bestimmte Interessensgebiete gezielt bearbeitet und angesteuert werden. 1 2.2 FTP - File Transfer Protocol Zur Übertragung großer Datenmengen wurde einst der Datei-Transfer-Dienst FTP (File Transfer Protocol) entwickelt. Dieser Dienst existierte schon lange vor dem WWW. Zum Zugriff auf FTP-Server sind eine Benutzerkennung und ein zugehöriges Passwort notwendig. Bei öffentlichen FTP-Servern gibt es allgemein bekannte und gültige Benutzerkennungen wie z. B. „guest“ oder „anonymous“. FTP basiert auf einer Client-Server-Architektur, deren signifikantestes Merkmal die Trennung von Daten- und Kontrollfluss ist. Über die Kontrollverbindung werden zunächst die Parameter der Datenübertragung wie Datentyp, Übertragungsmodus, durchzuführende Operationen usw. festgelegt. Erst wenn dies erfolgt ist, beginnt der eigentliche Datentransfer über die Datenverbindung. Sowohl Verbindungsaufbau als auch die Steuerkommandos werden über die Kontrollverbindung realisiert. Im Gegensatz zu beispielsweise Telnet tritt hier der lokale Rechner (Client) als Empfänger eines vom Server angebotenen Dienstes in Aktion. Da Client und Server unterschiedliche Betriebssysteme nutzen und deshalb unter entsprechend unterschiedlichen Konventionen bezüglich Dateibenennung, numerischer Darstellung, Kodierungsschema usw. arbeiten können, muss durch FTP sichergestellt 1 Die einzelnen Suchverfahren werden im Kapitel 4 „Suchverfahren im Internet“ weiter beschrieben. Seite 6 von 85 SPRINT – Suche im Internet werden, dass solche Heterogenitäten ausgeglichen werden können. FTP unterstützt die Übertragung der Datentypen ASCII und BINARY (IMAGE). Das FTP-Verfahren kommt im Web meist beim Download von Daten zum Tragen. Häufig bemerken Benutzer gar nicht, dass zum Zeitpunkt der Übertragung von Dateien von HTTP auf FTP gewechselt wird. Beim Zugang zu FTP-Verzeichnissen über einen Web-Browser wird die Benutzeranmeldung vom Browser automatisch vorgenommen und das FTP-Dateiverzeichnis wird im „Look and Feel“ des WWW angezeigt. Das Spektrum der verfügbaren Daten auf FTP-Servern ist sehr breit gefächert. Nachfolgend sind einige Beispiele für mögliche Inhalte dargestellt: • Public Domain, Freeware und Shareware für alle Rechnertypen • Zusatzmodule, Treiber, Updates sowie Demoversionen kommerzieller Software • Materialien zum Internet und Standards • Forschungsberichte, Reports und Bücher • Informationsmaterial, FAQ-Dateien und Listen • Bildarchive, Video- und Sounddateien Ein Beispiel für einen öffentlich zugänglichen FTP-Server mit anonymer Anmeldung ist ftp.simtel.com - ein FTP-Server, der vorzugsweise Freeware- und Shareware-Programme für die Windows-Betriebssysteme bereitstellt. Wie beim WWW steht der Anwender auch bei der Nutzung des FTPs immer vor dem Problem, dass zunächst ein FTP-Server mit den gewünschten Inhalten gefunden werden muss. Dieser sollte nicht nur die gesuchten Daten beinhalten, sondern zudem auch eine schnelle Übertragung ermöglichen. Zu diesem Zweck wurden relativ schnell nach Einführung von FTP weltweit so genannte ArchieServer aufgebaut, die genau diese Funktion erfüllen. Mittlerweile sind die meisten Archie-Server an das WWW bzw. dessen Suchdienste angebunden. Ein Beispiel für ein Gateway, das einen Formularbasierten Zugriff auf diverse Archie-Server bietet ist Archieplex. Aber auch die gängigen Suchdienste im Internet durchstöbern FTP-Server und bieten eine Suche in deren Archiven an, z.B. AlltheWeb. 2.3 E-Mail / Mailinglisten Die E-Mail Adresse ist fester Bestandteil von Briefköpfen und Visitenkarten geworden. Wer eine EMail Adresse besitzt, ist nicht nur von jedem Computer der Welt aus erreichbar, sondern er selbst kann auch von jedem Computer der Welt aus auf seinen Briefkasten zugreifen. Für die Nutzung von E-Mail benötigt man ein lokales Mailprogramm, welches in der Fachwelt als Message User Agent (MUA) bezeichnet wird, sowie mindestens einen Mailserver zum Transport der E-Mail vom Sender zum Empfänger. Ein solcher Mailserver wird als Mail Transfer Agent (MTA) bezeichnet. Solche Server sind in mehrere Komponenten unterteilbar, wobei eine Komponente der Weiterleitung der E-Mail über das Internet dient und eine Komponente für die Zustellung der E-Mail an die entsprechende EMail Adresse des oder der Empfänger zuständig ist. Die letztere Komponente wird auch als Mail Delivery Agent (MDA) bezeichnet. Welcher Mail Transfer Agent für bestimmte E-Mails zuständig ist, wird aufgrund des Domain-Adressbestandteils der den Mails zugeordnet ist, geregelt. Das Kommunikationsprotokoll für den Austausch von E-Mails über das Internet ist das Simple Mail Transfer Protocol (SMTP). Ein MTA kann Mails damit sowohl empfangen als auch selbst weitersenden. Der zurückgelegte Weg einer E-Mail kann anhand der im Header unter der Kennung received: protokollierten Einträge der einzelnen Server nachvollzogen werden. Ein weiteres Protokoll für den Nachrichtenaustausch durch E-Mail ist das Post Office Protocol (POP). Es gestattet das Abrufen, der auf einem zentralen Mailserver in den jeweiligen Email-Accounts eingeordneten Nachrichten durch den lokalen Message User Agent. Um dabei einem Missbrauch vorzubeugen, ist für das Herunterladen von E-Mails auf den eigenen Rechner eine Authentifizierung mittels Nutzerkennung und Passwort notwendig. Interactive Mail Access Protocol (IMAP) dient dem gleichen Zweck, ermöglicht darüber hinaus aber eine Bearbeitung und Verwaltung der Emails auf dem Server. So müssen diese z.B. nicht erst heruntergeladen werden, wenn sie irrelevant sind und gelöscht werden sollen. Um über Email kommunizieren zu können, muss natürlich die E-Mail Adresse des Kommunikationspartners bekannt sein. Ist dies nicht der Fall, so ist das Herausfinden der richtigen Email-Adresse nicht gerade einfach. Im Gegensatz zu den anderen Diensten ist ein automatisches Abrufen von Email-Adressen im Internet nur eingeschränkt bzw. gar nicht möglich. Unbekannte Email-Adressen können im World Wide Web nur dann gesucht werden, wenn sie vom Besitzer entweder bei einem Suchdienst für E-Mail Adressen Seite 7 von 85 SPRINT – Suche im Internet angemeldet wurden oder die E-Mail Adresse auf einer Homepage angegeben wird. Dort kann sie durch eine Suchmaschine des World Wide Web erfasst werden. Beispiele für spezielle Email- und Personensuchdienste sind: • MESA MetaEmailSearchAgent - eine Email-Metasuchmaschine, die mehrere EmailSuchdienste gleichzeitig abfragt • Yahoo! People Search - Suche nach Email- und postalischen Adressen möglich • WhoWhere (Lycos) - Suche mittels Angabe von Name, Vorname, Telefonnummer, … Neben der reinen Anwendung als Kommunikationsmittel bietet E-Mail noch weitere Möglichkeiten. Ein Beispiel dafür ist die automatische Weiterleitung von E-Mails, der so genannte AutoresponseMechanismus, der z.B. bei Abwesenheit oder für die Definition von Mail-Aliasnamen genutzt werden kann. Eine automatische Weiterleitung aller E-Mails an eine oder mehrere weitere Adressen lässt sich meist in Zusammenhang mit dem Mailserver (POP-Server) des für die betreffende Adresse zuständigen Mailsystems erreichen. Nützlich ist eine solche Einrichtung z.B. wenn man über mehrere Email-Adressen verfügt, die Mailbox jedoch nur von einer Stelle aus verwalten möchte. Eine automatisierte Beantwortung von E-Mails, die vor allem für längere Abwesenheit und ähnliche Situationen gedacht ist, kann auf ähnliche Weise eingerichtet werden. Aliasnamen für E-Mail ermöglichen nicht nur eine kürzere und im Gegensatz zum Namen des physischen Account als Mailadresse besser merkbare Bezeichnung, sie gestatten auch die Einrichtung von MailverteilerListen. Unter einer Alias-Mailadresse kann eine Anzahl anderer, persönlich zuordenbarer Mailadressen erreichbar gemacht werden. Aliasnamen werden meist vom Systemadministrator des Mailservers mittels spezieller Dateien eingerichtet. Damit können einer „realen“ Adresse mehrere Alias-Adressen und umgekehrt mehreren Alias-Adressen dieselbe „reale“ Emailadresse zugeordnet werden. Im Übrigen sind auch die meisten von Internet-Providern usw. vergebenen Email-Adressen nur Aliase für den eigentlichen, physischen Namen des Mail-Accounts, der oft nur aus Ziffern bzw. Ziffern-Buchstabenkombinationen besteht (z.B. pop12345(at)htwchur.ch). Ein weiterer Vorteil von E-Mail ist die Möglichkeit formatierte Textdateien, Grafiken, Fotos, Videoclips und Sounddateien per „File-Attach“ versenden zu können. Dabei werden diese Dateien einer E-Mail als Anhang hinzugefügt. Die ursprüngliche Herausforderung bestand darin, dass E-Mails nur mit dem ISO-7-Bit Code (ASCII Zeichen von 0 bis 127) verschlüsselt wurden und damit eine Übertragung von binären Inhalten, wie Graphiken und Multimediadateien, zunächst nicht möglich war. Aus diesem Grund wurde eine Abbildung der für Binärdaten notwendigen 8-bit Kodierung auf die 7-Bit Kodierung der E-Mails erforderlich. Der dafür genutzte Standrad heisst MIME (Multipurpose Internet Mail Extensions) und ermöglicht den Einbezug von Binärdaten in den Body der E-Mail, indem zusätzliche Konfigurationsfelder eingefügt werden. Diese Binärdaten geben unter anderem Auskunft über den Typ der nachfolgenden Daten. Dadurch wird der Body der eigentlichen Email in mehrere Teile segmentiert. Es existieren sowohl eine Anzahl standardisierter MIME Content Types, wie text/plain (ASCII-Text), text/html (HTML-Text), application/zip (mit dem ZIP-Packer komprimierte Dateien), image/jpeg (JPEG-Graphik) und multipart/mixed (aus mehreren unabhängigen Datentypen zusammengesetzter Bodypart), als auch Möglichkeiten, individuelle Datentypen, gekennzeichnet mit einer mit „X-“ beginnenden Attributbezeichnung, zu definieren. Zur Umwandlung von 8-Bit nach 7-Bit werden dann häufig die Verfahren Quoted-Printable und Base64 genutzt, letzteres insbesondere bei der Verschlüsselung von Attachments. Bei QuotedPrintable werden Zeichen, die nicht 7-Bit kodierbar sind, durch einen aus einem Gleichheitszeichen und ihrem hexadezimalen ASCII-Code gebildeten Wert ersetzt. So können auch diese Zeichen auf dem 7-Bit-Übertragungsweg transportiert werden. Base64 verwendet 65 druckbare ASCII-Zeichen des ISO 7-Bit-Codes, die auch über 7-Bit-Verbindungen sicher übermittelt werden können. Mit diesen 65 Zeichen werden dann alle Bytes des Originals nach einem festen Verschlüsselungsverfahren kodiert. Der Einsatz von E-Mail als Kommunikationsmedium zum schnellen und komfortablen Nachrichtenaustausch birgt jedoch Gefahren. Unannehmlichkeiten gehen aus von: • Spam (ungebetene Massenaussendung von inhaltsgleichen Nachrichten) • und der Übertragung von Viren oder • Worms (Programmcode, der den Nutzer schädigen kann). Email-Spamming kommt meist durch das ungesetzliche Sammeln von E-Mail Adressen und deren Nutzung für die massenhafte Versendung von Mails (z.B. zu Werbezwecken) durch unseriöse Firmen oder Privatpersonen zustande. Die Möglichkeiten zur Abwehr von Spam sind nicht trivial. Die Seite 8 von 85 SPRINT – Suche im Internet Absenderadressen der Spam-Mails sind meist falsch oder werden dahingehend genutzt, etwaigen Kontaktversuchen durch Erhöhen der Nutzungsintensität für die Adresse des beschwerdewilligen Nutzers zu begegnen. Eine technische Möglichkeit der Abwehr kann im Sperren der Envelope-FromAdressen oder der Domainnamen der Absender-Adresse bestehen. Eine solche Sperrung kann auf Ebene des MTA oder des MUA stattfinden, hat aber den Nachteil, dass unter Umständen auch erwünschte E-Mails blockiert werden. Ferner existieren Erweiterungen für MTA unter anderem als Proxy-Server, die weitergehende Mechanismen zur Abwehr von Spam implementieren. Im Gegensatz zu Spam-Mails, die überwiegend nur lästig sind, können Viren oder Worms und andere Formen von Schadprogrammen auch eine ernsthafte Bedrohung für die Funktionsweise des lokalen Rechners des Empfängers darstellen. Diese Programme werden in Form von Mail-Attachments mit Programmcode übertragen und durch Öffnen dieses Attachments aktiviert. Sie nutzen die Adressdateien, die vom lokalen MUA verwaltet werden, um sich wiederum über weitere Emails an die dort vorgefundenen Adressen zu vervielfältigen. Deshalb sollte man allgemein im Umgang mit EMails mit Anhang vorsichtig sein, besonders dann, wenn diese von unbekannten Absendern stammen oder einen unklaren Inhalt aufweisen. Vor dem Öffnen von Dateianhängen sollten diese immer mit einem aktuellen Virenscanner überprüft werden. Emails mit unbekanntem Absender oder ohne eindeutigen Betreff sollten ohne vorheriges Öffnen der Anhänge sofort gelöscht werden. 2.4 NewsGroups / FAQ Bei NewsGroups handelt es sich um ein System von öffentlichen schwarzen Brettern, die nach Themen bzw. Foren unterteilt sind. In ihrer Gesamtheit können sie fast jedes denkbare Thema abdecken, wobei vor allem aktuelle Ereignisse von Bedeutung sind. Um die riesige Menge an Themen und Foren übersichtlich zu strukturieren, sind diese in hierarchische Kategorien aufgeteilt. Der Inhalt der Foren lässt sich vorwiegend aus dem jeweiligen Namen ableiten. Nachfolgend sind einige Beispiele dargestellt: alt (alternative - Mischung aus allen Themen, die nicht in eine der anderen Gruppen einzuordnen sind) biz (business - kommerzielle Themen) comp (computer - Themen, z.B. Software und Hardware) misc (miscellaneous - Verschiedene Themen, für die keine eigenständigen Foren existieren) news (Themen rund um die NewsGroups selbst) rec (recreational - Hobby und Freizeit) sci (scientific - wissenschaftliche Themen) soc (social - soziale und kulturelle Foren aus vielen Ländern der Welt) Es gibt noch eine Vielzahl weiterer Kategorien - die Namen sind meist selbsterklärend. Für deutschsprachige Benutzer sind jedoch vor allem die .ch-, .at- oder .de-Kategorien interessant bei denen das Kürzel .de den oben angeführten Kategorien vorangestellt wird, z.B. de.sci.chemi. Die Übertragung und Bereitstellung von News über das Internet erfolgt mittels des Network News Transfer Protocols (NNTP), welches eine Anzahl von Befehlen für die interaktive Übertragung und den Download von News-Artikeln definiert. NNTP ist ebenfalls ein Client-Server-orientiertes Protokoll. Jeder News-Server verwaltet die Newsgroups, für die er Artikel erhält, und besitzt Verbindungen zu anderen NNTP-Servern (sog. News-Feeds), die er für die Weiterleitung von lokal erzeugten oder empfangenen Artikeln an die benachbarten Server nutzt. Ein NNTP-Server kann News-Artikel sowohl von anderen Servern oder den als Newsreader bezeichneten Clients der Nutzer empfangen, als auch an weitere Server weitersenden. Artikel, die bereits versandt wurden, werden nicht weiter berücksichtigt. Dadurch soll eine rasche Verbreitung der geposteten Artikel gewährleistet werden. Eine weitere Funktion besteht in der Bereitstellung gewünschter News-Artikel für die News-Clients der Nutzer. Die Artikel sind getrennt nach Header für Adressierung und Body mit dem eigentlichen Artikel. Die Umsetzung des NNTP ist derjenigen von SMTP des Email-Dienstes recht ähnlich. Unterschiede liegen darin, dass keine personenbezogenen Mitteilungen wie bei Email übermittelt werden, sondern Postings (Artikel) zwischen NNTP-Servern bzw. NNTP-Servern und NNTP-Clients für die Allgemeinheit ausgetauscht werden. News-Artikel (Postings) haben den gleichen Aufbau wie Emails. Es werden durch NNTP drei Arten der Übertragung von News-Artikeln definiert: Seite 9 von 85 SPRINT – Suche im Internet Die Erste betrifft das selbständige Senden von neuen Nachrichten zum Server, das so genannte Pushing. Die Zweite ist die Abfrage des Servers auf Nachrichten, das so genannte Pulling. Hierbei wird vom Client eine Liste der Artikel einer bestimmten Newsgroup angefordert und diejenigen Artikel selektiert, die bisher noch nicht übermittelt wurden. Die dritte Art der Übertragung stellt sich als interaktives Lesen von News-Artikeln dar. Dabei können gleichzeitig Artikel empfangen und gesendet werden. Ein Problem von Netnews liegt in der Möglichkeit der leichten Beeinflussung von Entscheidungen, beispielsweise durch unkorrekte oder nicht zutreffende Artikel. Durch die Kombination der Manipulation der Absenderadresse, die auch bei SMTP gegeben ist, und der Artikelverfälschung, bietet sich aufgrund der hohen Anzahl von Lesern die potenzielle Möglichkeit der Einflussnahme auf Personengruppen, welche Interesse an einem spezifischen Thema haben. Eine Verbesserung der Zuverlässigkeit der Angaben ergibt sich durch eine Erweiterung von NNTP, die eine Authentifizierung des Nutzers für bestimmte Befehle vorsieht. In vielen NewsGroups gibt es eine so genannte FAQ-Datei (Frequently Asked Questions). Diese Dateien beinhalten eine Sammlung der häufigsten Fragen und den dazugehörigen Antworten, die in der jeweiligen Gruppe gestellt wurden. Bevor ein Benutzer eine Frage an eine NewsGroup stellt, sollte er diese FAQ-Datei lesen. So werden die regelmäßigen Leser einer Gruppe nicht immer wieder mit den gleichen Fragen konfrontiert. Der Standort der FAQ-Dateien wird in regelmässigen Abständen in der Gruppe veröffentlicht. FAQ-Dokumente sind im Internet aber auch zu vielen anderen Themen verfügbar, unabhängig von entsprechenden NewsGroups. Auch für NewsGroups exisitieren spezielle Suchdienste, mit denen man eine NewsGroup anhand ihres Themengebiets oder den von den Nutzern ausgetauschten Inhalten lokalisieren kann wie z.B. Google Groups. NewsGroups wurden in den letzten Jahren zunehmend durch Web-basierte Diskussionsforen ergänzt und ersetzt. Diese sind komfortabler in der Anwendung für die Nutzer und können themen-, artikelund konzeptspezifisch angelegt sein. Häufig wird der angemeldete Nutzer bei neuen Beiträgen mit einer Email benachrichtigt. Ein Beispiel für einen Serverdienst, mit denen man selbst Diskussionsforen ins Leben rufen kann, ist Siteboard. 2.5 Weblogs Ein Weblog (auch Blog genannt) ist eine Wortkombination aus „Web“ und „Logbuch“. Für „Weblog“ existieren keine allgemein gültigen Definitionen. Technisch gesehen sind Weblogs Seiten, die regelmässig aktualisiert werden und ihre Inhalte datiert und in umgekehrt chronologischer Reihenfolge auflisten (die aktuellsten Einträge stehen zu Beginn der Seite). Allgemein formuliert lässt sich sagen, dass in Weblogs einer oder mehrere Autoren (sogenannte „Blogger“) die Stationen ihrer Surftouren durch das Internet schriftlich kommentiert festhalten. Typisch ist auch die Weiterverlinkung auf die besuchten Seiten. Bezüglich Inhalten und Autorschaft bestehen jedoch grosse Unterschiede. Das Spektrum reicht von Autoren, die in ihren Weblogs persönliches festhalten, d.h. ein öffentliches Tagebuch führen, bis hin zu Fach-Weblogs, in denen die Autoren nur Artikel zu einem bestimmten Thema verfassen. Es gibt auch Mischformen, bei denen sowohl Netzfunde, als auch Kommentare und Tagebucheinträge aufgeführt werden. Den Inhalten der Weblog-Beiträge sind keine Grenzen gesetzt, sie richten sich nach den Interessen und Fähigkeiten der Blogger selbst. Meistens bestehen die Inhalte aus aktuellen Beiträgen, die oft eher die persönliche Meinung des Bloggers als neutrale und sachliche Informationen weitergeben. Die Beiträge enthalten meist einen weiterführenden Link und eine Kommentiermöglichkeit für die Besucher der Seite. Viele Weblog-Einträge bestehen aus Einträgen anderer Weblogs oder beziehen sich auf diese. Somit besteht eine starke Vernetzung der Weblogs untereinander. Die Gesamtheit aller Weblogs wird „Blogosphäre“ genannt. Auch betreffend der Technik von Weblogs gehen die Meinungen auseinander. Es stellt sich die Frage, ob Weblogs mit fertig eingerichteter Software oder individueller Technik betrieben werden sollen. Es gibt eine Vielzahl an Diensten, bei denen man sich Weblog-Accounts anlegen kann (z.B. Blogg oder Wordpress). Während es in den USA schon weit über 1 Million Weblogs geben soll, existiert in den deutschsprachigen Ländern nur ein sehr kleiner Bruchteil davon. Doch die Weblog-Gemeinde wächst stetig und erfreut sich immer grösser werdender Beliebtheit. Auf diesen Trend könnte es auch die Seite 10 von 85 SPRINT – Suche im Internet Suchmaschine Google abgesehen haben, als sie im Februar 2003 den Weblog-Pionier Pyra Labs übernahm. Beispiele für Weblogs sind: Dmoz Liste von Weblogs auf dmoz.org Blogger von Google Photoblogs Seite 11 von 85 SPRINT – Suche im Internet 3 Informationsanbieter In diesem Kapitel bzw. den angehängten Unterkapiteln folgt eine Klassifizierung der Informationsanbieter im WWW, wobei weder Vollständigkeit erreicht werden kann, noch können die aufgeführten Gruppen immer exakt voneinander abgegrenzt werden. 3.1 Privatpersonen 3.1.1 Homepages Im WWW existiert eine Vielzahl von privaten Homepages unterschiedlichster Internetbenutzer aus der ganzen Welt. Diese enthalten meist Angaben zur Person, Adresse, E-Mail und sonstige Informationen. Zusätzlich werden auf Homepages auch mehr oder weniger umfangreiche Verweise und Informationssammlungen zu eigenen Interessensgebieten angeboten. Zahlreiche Internetplattformen bieten für Privatpersonen die Möglichkeit eigene Webseiten aufzuschalten. Ein Beispiel ist hierfür ist DNS Swiss. Ihre Dienstleistungen für Privatpersonen ähneln allen anderen Providern. E-Mail Aliase Webmail Datenbanken: beliebige Anzahl MySQL Domain Aliase Third Level Domains PHP Perl Server Side Includes FTP Zugang Statistiken Tägliches Backup Privatpersonen können ebenso wie Unternehmen, ihre eigene Domain reservieren und ändern lassen, um sie an ihre Webseite anzupassen. Ein Beispiel hierfür ist nic.ch.vu. 3.1.2 Blogs Privatpersonen haben nebst der eigenen Homepage neu eine weitere und bequemere Möglichkeit sich im Web präsent zu halten und auf diese Weise die eigene Meinung und Standpunkte zu aktuellen Themen offen darzulegen. Dies führt dazu, dass Themen von subjektiver Seite her betrachtet werden, und sich daraus eine Diskussion ergeben kann. Somit entsteht im Web eine neue Informationsquelle, die sogenannte Blogosphäre. Bauer (2008) meint aber, dass die Blogs „nur das Echo der klassischen Medien“ darstellen (Bauer, 2008). Tatsächlich drehen sich die Schweizer Blogs um die vorherrschenden Themen wie Google, iPhone, Musik, Microsoft und Apple. Es wurden dazu 500 000 Blogeinträge von 2005 bis 2008 untersucht. Der Grund für dieses simple Echo liegt darin, dass es den Privatpersonen an Quellen mangelt, damit sie überhaupt eigene Ideen entwickeln können. „Blogs mit spannenden Inhalten gibt es wenige“. (Bauer, 2008) Ein professioneller Blog betreibt der Zürcher Verlag Blogwerk, der fünf Themenblogs unterhält und 45 Autoren beschäftigt (Bauer, 2008). Bsp: www.blogger.com 3.2 Kommerzielle Organisationen / Firmen Firmen aller Grössen und Sparten präsentieren sich und ihre Produkte auf Webseiten. Ein Grossteil der Unternehmen bietet den Nutzern dabei auch verschiedene Anwendungen auf seinen Webseiten an. So können beispielsweise Bestellungen über das Internet abgewickelt oder mit Banken die komplette Kontoführung online durchgeführt werden. Die Unternehmensnamen spiegeln sich in der Regel im Domainnamen oder in einem sonstigen Teil der URL wider. Bsp: „www.firma.com“ Seite 12 von 85 SPRINT – Suche im Internet 3.3 Nicht-kommerzielle Organisationen Von Politischen Parteien und Regierungen, Umwelt- und Menschenrechtsorganisationen wie zum Beispiel Greenpeace oder Amnesty International, kirchlichen Organisationen, Sportvereinen, Interessens- und Sportverbänden bis hin zu kleinen Freizeitvereinen bieten viele Organisationen ihre offiziellen Informationen im Internet an. Auch hier spiegelt sich der Organisationsname meistens im Domainnamen wider. Das einst hierfür gedachte Postfix „.org“ konnte sich nicht durchgehend durchsetzen. Bsp: www.admin.ch, www.greenpeace.org 3.4 Universitäten, Institute Auf den Webseiten von Universitäten und Fachhochschulen stehen umfangreiche Informationen zu Studiengängen, Fakultäten, Forschungsprojekten und sonstigen für das Studium wichtige Informationen bereit. Wissenschaftliche Publikationen, Berichte, Proceedings und Ergebnisse werden immer häufiger über das Internet veröffentlicht. In diesem Zusammenhang ist der Begriff „Open Access“ von Bedeutung. Die Verfechter von „Open Access“ vertreten die Meinung, dass Literatur, die von Wissenschaftlerinnen und Wissenschaftlern ohne die Erwartung hierfür bezahlt zu werden, veröffentlich wird, kostenfrei und öffentlich im Internet zugänglich sein sollte. Damit soll Interessierten die Möglichkeit gegeben werden ohne finanzielle, gesetzliche oder technische Barrieren die Volltexte lesen, herunterladen, kopieren, verteilen, drucken, in ihnen suchen, auf sie verweisen und sie auch sonst auf jede denkbare legale Weise nutzen zu können. Hinsichtlich der Frage des Copyrights, sollte die einzige Einschränkung darin bestehen, den jeweiligen Autorinnen und Autoren die Kontrolle über ihre Arbeit zu belassen und ihnen das Recht zu sichern, dass ihre Arbeit angemessen anerkannt und zitiert wird. Für die Forderung nach Open Access spricht, dass damit stark subventionierte Forschungsergebnisse von Universitäten und anderen öffentlich unterstützten Forschungseinrichtungen frei zugänglich und nicht teuer verkauft werden, wodurch die digitale Kluft („digital divide“) verringert werden kann. Traditionell beinhalten zudem FTP-Server von Universitäten eine grosse Anzahl an Public-Domain Software. Deutschsprachige Hochschulserver sind an einem der Kürzel „uni“, „fu“, „tu" oder „fh“ zu erkennen. Die Hochschulen englischsprachiger Länder weisen meistens das Kürzel „.edu“ (Education) in ihren Domain-Namen auf. Bsp: www.fh-htwchur.ch, www.uni-konstanz.de, www.berkeley.edu 3.5 Medienanbieter und Anbieter kommerzieller Datenbanken Traditionelle Vermittler von gedruckten und nicht gedruckten Informationen wie Zeitungen, Verlage, Agenturen, Buchhandlungen, Radio- und Fernsehsender bieten ihre Produkte in professionellem Design über das Internet an. Dabei ist häufig auch die Möglichkeit vorhanden, in Archiven zu stöbern, was früher nur bestimmten Personen und unter erschwerten Bedingungen möglich war. Datenbank- bzw. Host-Anbieter des klassischen Information Retrievals bieten die Recherche in tausenden von elektronischen Datenbanken aus allen Bereichen, mit bibliographischen Angaben oder Volltext, nun auch im Internet an. War hier vor dem WWW die Recherche wegen der technischen Zugangsmöglichkeiten, vor allem aber wegen der recht komplexen und unterschiedlichen Retrievalsprachen, eher den professionellen Informationsvermittlern überlassen, kann nun über komfortable WWW-Formulare direkt in den Datenbanken recherchiert werden. Die Anmeldung und die Kosten für die Recherche in kommerziellen Datenbanken entfallen dadurch jedoch nicht. Bsp.: www.drs.ch, www.nzz.ch, www.genios.de 3.6 Bibliotheken Auch Bibliotheken haben ihre Literaturkataloge schon lange vor dem Internet, in so genannten Online Public Access Catalogs (OPAC), angeboten. Hier gab es jedoch, gleich wie bei den klasssischen Datenbankanbietern, die Hürde unterschiedlicher Retrievalsprachen und Benutzeroberflächen zu überwinden. Die einzelnen OPACs beinhalteten auch jeweils nur den Bestand einer einzelnen Bibliothek. Die Präsenz der Bibliotheken im Internet brachte nicht nur komfortablere und einfachere Oberflächen mit sich, sondern auch Verbunde mehrerer OPACs und die gleichzeitige, kombinierte Seite 13 von 85 SPRINT – Suche im Internet Suche in diesen. Das Angebot von Bibliotheken wird zunehmend auch durch Verzeichnisse von elektronischen Zeitschriften ergänzt. 2 Bsp.: www.nebis.ch und Universitätsbibliothek Zürich 3.7 Elektronische Kommunikations- und Diskussionsforen Elektronische Foren als Kommunikationsmittel im WWW erfreuen sich einer immer grösser werdenden Zahl von Teilnehmern. Mit diesem Werkzeug kommen die Anbieter dem Bedürfnis der Anwender nach, mit anderen Teilnehmern über bestimmte Themen oder Interessensgebiete zu kommunizieren beziehungsweise zu diskutieren. Im Gegensatz zu den bisher genannten Anbietern, bei denen das Ablegen von Daten auf einen WebServer erforderlich ist, können Forumsteilnehmer ihre Beiträge direkt über den Web-Browser in das jeweilige Forum einbringen. Neben dem Interesse an den Themen ist sicherlich auch die einfache Handhabung beim Verschicken der Beiträge ein Grund für die wachsende Teilnehmerzahl. Hierfür muss man sich weder mit HTML auseinandersetzen noch mit der Prozedur der Publikation von Web-Seiten über einen Server beschäftigen. Der Anwendungsbereich von virtuellen Foren erstreckt sich von Diskussionen über aktuelle Themen, Politik, Bücher, Artikel elektronischer Zeitschriften, über virtuelle Konferenzen bis hin zu Tutorials und sonstigen Lern- und Lehrformen. Durch Foren haben Anwender nicht nur die Möglichkeit Fragen direkt an andere Teilnehmer zu stellen, sondern sie können auch alle bereits gesendeten Beiträge nach brauchbaren Informationen durchsuchen. 3.8 Social Bookmark / Tagging Communities Bookmarkdienste oder sogenannte Tagging Communities können auch zu den Informationsanbietern gezählt werden. Sie sind nicht eigentliche Informationslieferanten sondern erreichen durch die Beteiligung ihrer User eine Ansammlung von Informationsquellen zu bestimmten Themen. Durch die inhaltliche und semantische Erschliessung werden Quellen aus Literatur und Web zu einem Webkatalog zusammengefügt und Drittpersonen bzw. anderen Users zur Verfügung gestellt. (Griesbaum et al., 2008, S. 10) „Die Idee, Objekte durch Nutzer zu verschlagworten, wurde mit Diensten wie Flickr.com (Bildercommunity) bzw. Del.icio.us (Social Bookmarks) populär und wird als ein zentraler Entwicklungstrend des Webs 2.0 gesehen.“(Griesbaum et al., 2008, S. 10) 3 2 Weitere Informationen sowie Links finden Sie online. Informationen zur Aufbereitung und Technologie von Social Bookmarkdiensten finden Sie im Kapitel 4.4 Katalog & Verzeichnis. 3 Seite 14 von 85 SPRINT – Suche im Internet 4 Suchverfahren Über das WWW sind die wichtigsten Internet-Dienste erreichbar. Auf Grund der starken Konzentration der Suchdienstanbieter auf das WWW haben eigenständige Suchverfahren der nichtwebbasierten Internet-Dienste (z.B. Archie bei FTP) praktisch keine Bedeutung mehr. In den folgenden Abschnitten werden nun die verschiedenen Suchverfahren der Suchdiensteanbieter erläutert. 4.1 Suchmethoden Die globale Lokalisierung von Informationen im World Wide Web wird durch zwei gegensätzlichen Methoden bestimmt: dem Matching, als Vergleich von Begriffen, die das Informationsbedürfnis des Suchenden umschreiben und mit Begriffen, die aus den indexierten Dokumenten gewonnen wurden. dem Browsing, welches durch zielgerichtete oder auch weniger zielgerichtete Navigation von einem Hyperlink zum anderen gekennzeichnet ist, so dass sich ein zurückgelegter Pfad von besuchten Seiten ergibt. Beim Matching werden eingegebene Suchbegriffe mit Indexbegriffen aus den erfassten Dokumenten des World Wide Web verglichen, um diejenigen Dokumente zu ermitteln, die einer Suchanfrage am besten entsprechen. Vorteile dieser Vorgehensweise liegen in einem zielgerichteten Vorgehen, welches den Suchenden "zwingt", sein Informationsproblem zu durchdenken. Folglich muss man geeignete Begriffe zur Beschreibung des Informationsproblems suchen. Weitere Vorteile liegen in der Möglichkeit einer automatisierten Form der Relevanzbeurteilung für die Ergebnismenge seitens der Suchmaschine. Der Nachteil liegt darin, dass der Suchende sein Informationsproblem selbst formulieren und konzipieren muss. Die erfolgreiche Lösung verlangt aber, dass das Vokabular des betreffenden Problems bekannt sein muss um eine passende Anfrage eingegen zu können. Das Browsing wurde erst durch das Vorhandensein von Hyperlinks ermöglicht, welche die Verknüpfungen zwischen mehreren Dokumenten schaffen. Browsing bedeutet, den vorgegebenen Link zu folgen, um Seiten zu finden, die sich als nutzbringend für ein Informationsproblem erweisen oder einfach nur interessant sind. Man kann ferner verschiedene Arten von Browsing unterscheiden: gerichtetes Browsing Man sucht nach spezifischen Informationen. ungerichtetes Browsing Hier steht kein besonderes Problem im Vordergrund, man lässt sich von interessanten Dingen leiten. assoziatives Browsing Bei dieser Art werden Hyperlinks solange nachgegangen, bis das Informationsproblem gelöst ist oder sich die erreichten Dokumente als irrelevant erweisen bzw. man das Interesse daran verliert. Ein Vorteil des Browsing liegt darin, dass es möglich ist den Problembereich sukzessiv eingegrenzt wird. Es ist nicht erforderlich, die gesuchten Informationen anhand terminologisch genauer Begriffe bezeichnen zu müssen. Die mittels Hyperlinks vernetzten Wissensstrukturen sollen auch eher mit der assoziativen Denkweise des Menschen harmonieren und dieser so entgegenkommen. Als nachteilig betrachten könnte man die allgemein weniger zielorientierte und deshalb vielleicht aufwändigere Vorgehensweise, die auch das Risiko der Ablenkung von der eigentlich beabsichtigten Problemlösung einschliesst. 4.2 Lokale Internetserver Die Stichwortsuche innerhalb eines Internetservers war für die Benutzer die erste Möglichkeit, gezielt nach Informationen im WWW suchen zu können. Dabei handelt es sich um eine einfache Stichwortsuche, die auf das Dokumentenverzeichnis des lokalen WWW-Servers zugreift. Diese Möglichkeit der Suche wurde bereits von den WWW-Erfindern implementiert. Das Verfahren der lokalen Suche wird in der folgenden Grafik dargestellt. Seite 15 von 85 SPRINT – Suche im Internet Abbildung 1: Lokale Suche Der grosse Vorteil dieser Suche ist die hohe Abdeckung der Suchergebnisse. Der Nachteil ist die Beschränkung auf lokale Server und Datenbanken. Zunächst war diese Suchmöglichkeit auch ausreichend. Die immer grösser werdende Anzahl an Dokumenten auf den Web-Servern führte dazu, dass mit dieser einfachen Stichwortsuche nur noch unbefriedigende Ergebnisse erzielt werden konnten. Eine Lösung dazu bietet Google Mithilfe einer benutzerdefinierten Suchmaschine. Bei diesem Suchverfahren kann die Suche auf bestimmte lokale Server eingeschränkt werden. Der Nutzer kann ein Suchfeld und die Suchergebnisse auf seiner Webseite hosten. Dabei kann er selbst bestimmen welche Webseiten bei einer Suchanfrage durchsucht werden sollen. Diese Dienstleistung kann von Unternehmen oder auch von Privaten Personen, z.B. auf der eigenen Blogseite genutzt werden. 4.3 Gateways zu Datenbanken Wenn neben der Volltextsuche auch noch andere Suchmöglichkeiten erwünscht sind, braucht es zusätzliche Softwarekomponenten in Verbindung mit Datenbanken, welche auf der Server-Seite die Anfragenbearbeitung erledigen. Zum Beispiel, Suche: in der Dokumentenstruktur in bestimmten Feldern (URL, HTML-Elemente usw.) nach Relevanzgrad mithilfe von Operatoren. Im Web-Browser können Daten über diverse Eingabefelder beziehungsweise Formulare eingegeben und diese Eingaben auf Server-Seite an Hintergrundprogramme über die CGI-Schnittstelle weitergeleitet werden. Wird dieses Verfahren für die Suche nach WWW-Dokumenten verwendet, so können fast uneingeschränkt Information Retrieval-Methoden implementiert und genutzt werden. Eine grosse Anzahl von WWW-Servern bietet heute solche so genannten Gateways an, um dem Nutzer eine professionelle Suche im lokalen Dokumentenbestand zu ermöglichen. Ein weiterer Vorteil der Gateway-Lösung ist, dass die Suchmöglichkeiten nicht unbedingt auf WWW-Dokumente beschränkt sein müssen. Viele Datenbankanbieter und Produzenten des klassischen Informationsmarktes nutzen diese Technik, um ihre Bestände über komfortable WWW-Schnittstellen anzubieten. Ein weiteres Beispiel sind Literaturrecherchen in Bibliotheken. Über einen Gateway zu den vorhandenen OPAC-Katalogen wird eine Suche unter Verwendung diverser literaturüblicher Suchfelder (Autor, Titel, Verlag, Erscheinungsjahr usw.) ermöglicht. Diese Technik wird z.B. beim Nebiskatalog eingesetzt. Die folgende Abbildung zeigt ein für die Nutzung von CGI typisches, formularbasiertes Suchinterface. Seite 16 von 85 SPRINT – Suche im Internet Abbildung 2: Nebiskatalog Immer mehr Webserver werden auch durch professionelle Content Management Systeme (CMS) verwaltet. Ein Content Management System ist eine Software, die die Verwaltung der Inhalte von Webseiten ermöglicht, wobei eine Trennung zwischen Inhalt, Gestaltung und Funktion möglich ist. CMS ermöglichen Benutzern die Erstellung und die Verwaltung von Webinhalten auch ohne Programmierkenntnisse. Weitere Vorteile von CMS sind die Möglichkeit zur dezentralisierten Wartung (d.h. der Zugriff auf das System ist über jeden Webbrowser möglich), die Erhaltung von DesignVorgaben (durch die Trennung von Inhalt und Layout), die Speicherung der Inhalte in einer zentralen Datenbank (erleichtert die Wiederverwendung von Inhalten), sowie die automatische Generierung der Navigations-Menüs (diese werden typischerweise aus den Datenbankinhalten erzeugt). CMS bieten zudem eigene, interne Suchfunktionen an. So bietet bspw. das CMS Typo3, mit dem auch dieser Webauftritt realisiert ist, die Möglichkeit einer Volltextsuche in den Webseiten und externen Dateiformaten (wie z. Bsp. .txt, .doc oder .pdf) an. Die Suche kann dabei auch auf Teile einer Website beschränkt werden und sogar die Suche in Datenbank-Tabellen ist möglich. Bei CMS wird keine CGI-Schnittstelle mehr benötigt. 4.4 Katalog & Verzeichnis Eine manuell aufgebaute Link-Sammlung kennzeichnete den Beginn der globalen Suche im WWW. Die Entwickler des WWW bauten als Erste eine Link-Zusammenstellung auf, um das WWW zu verbreiten, aber auch um diese Verbreitung mitzuverfolgen. Daraus entstand einer der umfangreichsten WWWKataloge, die Virtual Library die auch heute noch vorhanden und von mehreren Institutionen weltweit unterstützt wird. Parallel dazu entstanden auch andere umfangreiche Kataloge und dienten "lange" Zeit der Web-Welt als beste globale Suchmöglichkeit. Das Suchverfahren in Katalogen basiert auf der Navigation in den hierarchisch aufgebauten Suchgebieten. Dadurch, dass nicht zu viele Dokumente auf einer Ebene sein dürfen, da sonst Benutzer schnell das Interesse durch ein informationelles Überangebot verlieren könnten, sind die Organisatoren von Katalogen gezwungen, nach relevanten Startseiten zu den einzelnen Themen zu suchen. Folgende Graphik illustriert den konzeptionellen Aufbau von Webkatalogen. Seite 17 von 85 SPRINT – Suche im Internet Abbildung 3: Aufbau von Webkatalogen (Quelle: Griesbaum et al., 2008) So wurden vorerst nur bekannte und themenrelevante WWW-Dokumente aufgenommen. Dieser zentrale Aufbau der Web-Kataloge beziehungsweise -Verzeichnisse musste jedoch bald, aufgrund des starken Wachstums und der Unübersichtlichkeit immer neu erscheinender Web-Sites, in eine dezentrale Form überführt werden: Web-Autoren beziehungsweise Administratoren hatten die Möglichkeit, über WWW-Formulare ihre eigenen Angebote bei den Katalogdiensten als Link, meist mit einer Kurzbeschreibung, einzutragen. Der positive Effekt war eine rege Beteiligung und schnell zunehmende Anzahl von Einträgen in den vorgegebenen Rubriken. Nur so konnte die ohnehin schwache Abdeckung des Webinformationsangebotes etwas ausgeweitet werden. Die Richtigkeit der gemachten Angaben sowie die Aktualität der Kataloge konnte allerdings nicht mehr sichergestellt werden, da diese nur von den Eintragenden selbst abhing. Kataloge eignen sich vor allem, wenn man zu einem gewissen Thema beziehungsweise Sachgebiet einen Einstieg finden will, ohne dabei ganz konkret nach einer bestimmten Information zu suchen. Das Browsen des Benutzers in einem Katalog erlaubt auch den Serendipity-Effekt. Darunter versteht man den Effekt, der sich durch Ablenkung während des Suchens auf Sachverhalte, die in keinem offensichtlichen Zusammenhang zum eigentlichen Suchthema stehen, ergibt. Beim Einstieg in neue Gebiete ist dieser Effekt durchaus wünschenswert, da er kreativitätssteigernd wirken kann und bei der reinen Stichwortsuche eher ausbleibt. Aber auch die Kataloge selbst erreichten schnell eine Grösse, bei der die navigatorische Suche mühsam war und nicht mehr adäquat schien. So wurden diese mit einer Stichwortsuche und Suchmethoden, wie Boolesche Operatoren, innerhalb der Katalogeinträge ausgestattet. Diese Indexsuche ist aber für den Benutzer meist nicht sehr zufriedenstellend, da die Suche nicht auf den Volltexten basiert. Sie ist auf den Linktexten der referenzierten Dokumente und deren Beschreibungen aufgebaut. Es gibt auch Kataloganwendungen, bei denen die Stichwortsuche eine grössere Rolle spielt als die Navigation, wie z.B. bei Email-Adressverzeichnissen. Abgesehen davon, dass die globale Suche hierbei nur über WWW-Kataloge bzw. Verzeichnisse möglich ist, da Email-Adressen im Gegensatz zu Web-Seiten nicht automatisch abgefragt werden können. Der Anwender ist weniger daran interessiert, in einem Email-Verzeichnis zu stöbern, sondern eher über die Stichwortsuche die gewünschte Email-Adresse schnell ausfindig zu machen. Zusammenfassend haben Webkataloge folgende Vor- bzw. Nachteile [Griesbaum et al., 2008): Vorteile: Webkataloge eignen sich sehr gut für den Einstieg in bestimmte Themen und geben einen ersten Überblick in das Thema. Die intellektuelle Arbeit, d.h. die redaktionelle Aufarbeitung, sichert eine minimale Qualität der ausgewählten Webinhalte. Die Einteilung erfolgt durch thematische und hierarchische Prinzipien. Dadurch bieten Webkataloge Kontextinformationen. Seite 18 von 85 SPRINT – Suche im Internet Oftmals erfassen Webkataloge eine Vielzahl von hochwertigen (Fach-)Datenbanken, deren Inhalte Suchmaschinen verschlossen bleiben. Nachteile: Die Webkataloge sind organisch gewachsen, deshalb fehlt oft ein standardisiertes Regelwerk für die Einordnung. Die intellektuelle Arbeit ist sehr aufwändig, vor allem um die Inhalte jeweils zu aktualisieren. Webkataloge bieten eine geringe Abdeckung. Das grösste Webkatalog ist das Open Directory Project mit über 4'600'000 Webseiten. Der älteste Webkatalog ist Yahoo, der 1994 gegründet werde. 4.5 Social Bookmarkdienste oder Tagging Communities Eine weitere Möglichkeit für den Aufbau eines Katalogs sind Social Bookmarkdieste oder Tagging Communities. Ein Beispiel für einen solchen Katalog ist delicious (ehem. del.icio.us) oder Flickr. Im Gegensatz zu den üblichen Inhalten der Kataloge, die mit Hilfe von redaktionellen Kräften erschlossen werden, werden die Inhalte solcher Dienste durch die Nutzer gemeinsam indexiert. Dies geschieht ohne strukturelle oder inhaltliche Vorgaben und Kontrolle. Das heisst, es existiert keine Ordnungshierarchie. Die Webseiten werden mit so genannten Tags (freie Schlagworte) versehen. Das gemeinsame Taggen wird auch als Folksonomie bezeichnet. Bookmarks können kommentiert und verschlagwortet und anderen Benutzern zugänglich gemacht werden. Folgende Graphik zeigt die Funktionsweise der Social Bookmarkdienste. (Griesbaum et al., 2008) Abbildung 4: : Aufbau von Social Bookmarkdienste (Quelle: Griesbaum et al., 2008) Diese Dienste werden als zentraler Entwicklungsstand des Web2.0 gesehen. Sie weisen vielfältiges Potenzial zur Verbesserung des Informationsretrievals im Web auf. (Griesbaum et al., 2008) 4.6 Portale Eine spezielle Ausprägung von Web-Katalogen bzw. Verzeichnissen bilden Portale, die als Einstiegspunkte in das WWW gelten. Diese werden meistens von bekannten Providern oder Suchdienstanbietern, wie z. B. AOL oder Yahoo! bereitgestellt und sind ebenfalls nach diversen Rubriken geordnet. Hierbei geht es aber weniger darum ein größtmögliches Angebot bereitzustellen, sondern eher das wirtschaftliche Interesse durch Verträge und Bildung von Mehrwertdiensten mit diversen Anbietern wie z.B. Firmen, Banken, Kaufhäusern, Wetterdiensten usw. zu verfolgen. Die Einträge erfolgen demnach ausschliesslich durch den Anbieter des Portals. Ein Portal kann anhand folgender Kriterien von "einfachen" Katalogen unterschieden werden: Seite 19 von 85 SPRINT – Suche im Internet Portale sollten betrachtet werden als Einstiegspunkt für den vereinfachten Zugang zu einer grossen Menge an Informationen und Angeboten des durch sie repräsentierten Mediums, z.B. Internet, Intranet. Portale verwenden solche Informationsquellen und Suchwerkzeuge, die den wirtschaftlichen Interessen der Portal-Anbieter entsprechen. Dazu zählen unterschiedliche Dienste wie Suchmaschinen, Kataloge oder Spezialsuchdienste für bestimmte Themen oder Datentypen. Zusätzlich ist auch eigener, redaktionell aufgearbeiteter Inhalt ("Content") zu bestimmten Themengebieten aus eigenen oder fremden Quellen charakteristisch für Portale. Ein wichtiges Merkmal von Portalen sind Möglichkeiten der Personalisierung zur Anpassung der Seiten des Portals an persönliche Interessen und Präferenzen. Typisch wären auch Ergänzungen von Tools zur Unterstützung von netzbasierten Aktivitäten und Kommunikation z.B. Email-Account, Bookmarkmanagementtool, Adressbuch, Kalender, themenspezifische Chatrooms usw. Portale können ferner unterteilt werden in horizontale Portale, die inhaltlich allgemein gefasst sind, und vertikale Portale, die auf bestimmte Themen oder Zielgruppen fokussieren. Beispiele für die erste Gruppe sind: Excite, AOL und About; für die zweite Gruppe: ZDNet. 4.7 Meta-Suchdienste Metasuchdienste (Multi-Search Engines) erlauben die gleichzeitige Suche bei mehreren Suchdiensten, von einer WWW-Seite aus. 4.7.1 Echte Metasuchdienste Wichtig bei Metasuchdiensten ist, dass die Suchdienste nur über ein einziges Suchformular angesprochen werden und keinen eigenen Index aufweisen, „sondern [die Metasuchdienste] leiten Anfragen an andere Suchdienste weiter und führen die Treffer in einer Trefferliste zusammen." [1] "Echte" Metasuchdienste weisen folgende Charakteristiken auf: Mehrere Suchdienste, in der Regel meist Suchmaschinen und Kataloge, werden automatisch über eine Schnittstelle (Suchformular) befragt. Die verschiedenen Suchdienste werden vorgegeben, können manchmal aber auch vom Benutzer ausgewählt werden. Funktionalität und Operatoren der verschiedenen Suchdienste werden verwendet. Hierbei wird eine Anpassung der Anfrage auf die einzelnen Suchdienste vorgenommen. Mindestens die Boole'schen Operatoren AND und OR sollten zur Verfügung stehen. Die spezifischen Eigenschaften der unter der Meta-Maschine liegenden Suchdienste dürfen für die Bedienung keine Rolle spielen, der Anwender muss nichts darüber wissen. Kurzbeschreibungen der ausgewiesenen Suchtreffer z. B. als Titel oder Inhaltszusammenfassung werden übernommen und dargestellt. Eliminierung von Mehrfachtreffern aus den Ergebnissen der verschiedenen Suchdienste. Die Ergebnisse werden zusammengeführt und einheitlich dargestellt. Zeitvorgaben und maximale Treffergrenzen können gesetzt werden. Die Zeit für die Suche ist so einstellbar, dass der letzte nachgewiesene Treffer eines Suchdienstes noch erfasst werden kann. Die folgende Abbildung gibt die Funktionsweise von Metasuchdiensten wieder: Seite 20 von 85 SPRINT – Suche im Internet Abbildung 5: Metasuchmaschinen Der Mehrwert einer Metasuchmaschine stellt die Zeitersparnis dar, da jeweils nur eine Eingabe zur Suche erfolgen muss. Zudem können weitere Suchmaschinen als Alternative zu Google kennen gelernt werden. Das zentrale Problem der Metasuchdienste ist das Ranking der gemischten Treffermenge. Da die Rankingwerte der einzelnen Suchdienste unterschiedlich und die Verfahren meist nicht offiziell bekannt sind, wird die Treffermenge meist nach den Suchdiensten gruppiert. Ein weiterer Nachteil der Metasuchdienste sind die teilweise eingeschränkten Möglichkeiten bei der Formulierung der Suchanfrage. Da automatisch mehrere Suchmaschinen befragt werden, ist der Nutzer bei der Formulierung der Suchanfrage auf Operatoren beschränkt, welche bei allen verwendeten Diensten gemeinsam vorkommen (kleinster gemeinsamer Nenner). Da nicht alle Suchdienste die Verwendung bestimmter Operatoren oder sonstiger Optionen für die Suchanfrage unterstützen bzw. teilweise die Schreibweise der Operatoren differiert, kann es hier zu Problemen kommen. Deshalb werden bei einigen lokal zu installierenden Metasuch-Programmen vor der eigentlichen Weitergabe der Suchanfrage zunächst Aktualisierungen der suchdienst-spezifischen Parameter durchgeführt. Dies geschieht vor dem Hintergrund einer möglichst "guten" Anpassung der Suchanfrage an die Anforderungen des jeweiligen Suchdienstes (Bsp. Dogpile). Auch die Eliminierung von Mehrfachtreffern beschränkt sich in der Regel nur auf den Vergleich der Dokumentadressen (URL). Inhaltliche Analysen, mit denen gleiche Dokumente mit unterschiedlichen URLs aufgespürt werden könnten, werden noch nicht eingesetzt. Bei der Befragung der Suchdienste durch die Metasuchmaschine werden zwei grundlegende Techniken unterschieden: Der sequentielle und der parallele (gleichzeitige) Zugriff. Sequentielle Suche in mehreren Suchdiensten Suchdienste werden nacheinander von dem Metasuchdienst befragt. Die Trefferliste mit den Treffern der verschiedenen Suchdienste wird erst nach Befragung des letzten Suchdienstes ausgegeben. Parallele Suche in mehreren Suchdiensten Suchdienste werden parallel / simultan von dem Metasuchdienst befragt. Die Ausgabe der Trefferliste wird begonnen, sobald einer der befragten Suchdienste die Suchanfrage abgearbeitet hat. Metasuchdienste eignen sich vor allem für die Lösung von ganz speziellen Informationsproblemen, bei denen einzelne Suchdienste nur wenige Treffer aufweisen. Metasuchdienste sind in der Regel auf dem neuesten Stand und beinhalten Suchdienste oder spezielle Datenbanken, die sonst nicht verbreitet bzw. bekannt sind. Für die Recherchierenden gibt es entscheidende Neuerungen in der Technologie bezüglich Ergebnisdarstellung, Suchdiensteauswahl, Suchanfrageformulierung, Ergebnissortierung (Visualisierung) oder auch Social Search-Ansätze. (Griesbaum et al., 2008) Seite 21 von 85 SPRINT – Suche im Internet Zum Beispiel visualisiert Searchcrystal die Überlappung der abgefragten Suchdienste und deren Ergebnisse mit Hilfe eines geografischen Displays. Der User kann die Ergebnisdarstellung und die Grösse der Texte und Bilder interaktiv verändern. Sortfix bietet dem Benutzer die Möglichkeit die Suchanfrage über vorgeschlagene Termen, durch „Add to Search“– und „Remove“-Boxen zu verändern. (Griesbaum et al., 2008) „Scour und Sproose sind beispielsweise Social Search-Metasuchmaschinen, die den registrierten Nutzern die Möglichkeit geben, Suchergebnisse zu bewerten und zu kommentieren. (Griesbaum et al., 2008) Eine weitere Gattung von Metasuchdiensten sind die Personensuchmaschinen wie Pipl und Yasni. Sie liefern dem Benutzer alle möglichen Informationen über eine Person im Internet und befragen unter anderem auch Soziale Netzwerke. (Griesbaum et al., 2008) 4.7.2 Unechte Metasuchdienste Fälschlicherweise werden auch WWW-Seiten mit einfachen Schnittstellen, das heisst mehrere Suchmasken verschiedener Suchmaschinen, als Metasuchdienste bezeichnet. Diese, nicht "echten" Metasuchdienste, bringen trotzdem gewisse Vorteile: Suchformulare mehrerer Suchmaschinen werden auf einer WWW-Seite angeboten. Das Laden der einzelnen Suchmaschinen wird erspart. Guter Überblick über verschiedene Suchmaschinen. Es existieren pseudo-sequentielle Metasuchdienste, die wohl nur eine Schnittstelle (Suchformular) aufweisen, aber bei denen der Nutzer die abzufragenden Suchmaschinen manuell nacheinander auswählen muss. Erst im Anschluss daran wird die Suche durch den Metasuchdienst ausgeführt. Der Vorteil dieser Dienste besteht darin, die Suchanfrage für die Abfrage mit mehreren Suchmaschinen nur einmal erfassen zu müssen. Bsp: Multi-Search-Manager Seite 22 von 85 SPRINT – Suche im Internet 4.8 Suchmaschinen Nachfolgend wird die Funktionsweise der Suchmaschinen genauer erläutert. Die Anfragenbearbeitung läuft zunächst als ein einfacher Zugriff auf eine Index-Datenbank ab. Der Nutzer gibt in ein WebFormular die Suchbegriffe ein, welche dann von der Retrievalsoftware mit der Datenbank abgeglichen wird. Anschließend wird die Ergebnismenge nach Relevanz sortiert dem Benutzer dargestellt. Viel interessanter ist natürlich der Aufbau der Suchmaschinendatenbank. Rund um die Suchmaschinen: • • • • • Die Funktionsweise Optimierung der Webseite Spam auf Webseiten Anzeige der Treffermenge Kommerzialisierung der Webseiten 4.8.1 Die Funktionsweise Ganz am Anfang, also beim Aufbau einer Suchmaschine, steht eine Start-URL-Liste, die zunächst vom Betreiber aufgestellt wird und sich aus bekannten Web-Sites, mitunter auch aus Katalogrubriken bzw. Hub-Pages anderer Anbieter zusammensetzen kann. Diese Liste wird dann vom Roboter Adresse für Adresse abgearbeitet. Die so erreichten Seiten werden zunächst inhaltlich erschlossen und die gefundenen Verweise an die URL-Liste angehängt. Dann werden die noch nicht verarbeiteten Adressen der URL-Liste nach dem gleichen Schema weiterverarbeitet. Roboterbasierte Suchmaschinen sind die dominierenden Typen von Suchdiensten im Web. Sie verwenden also maschinelle Verfahren zur Dokumentenbeschaffung, der Inhaltserschliessung und der Spezifizierung der Treffermengen auf Methoden des Information Retrieval. Die folgende Abbildung zeigt die wesentlichen Komponenten einer Suchmaschine. (Griesbaum et al., 2008, S. 14) Bei der Inhaltserschliessung, d.h. dem Aufbau einer resultierenden Indexdatenbank und der Suche in dieser wird auf bewährte Techniken des Information Retrieval zurückgegriffen. Roboterbasierte Suchverfahren, auch teilweise in Kombination mit Web-Katalogen, sind heute die dominierenden Werkzeuge zur Suche im WWW. Abbildung 6: Websuchmaschine (Quelle: Griesbaum et al., 2008, S. 15) Die Aufgaben einer Suchmaschine lassen sich grob in vier Teilaufgaben zerlegen: 1. 2. 3. 4. Dokumentenbeschaffung (Akquisition) Indexierung Aktualisierung Anfragenbearbeitung Im Folgenden werden diese vier Teilaufgaben genauer beschrieben: Seite 23 von 85 SPRINT – Suche im Internet Dokumentenbeschaffung (Akquisition) Hinsichtlich der Dokumentenbeschaffung stellt sich als Erstes die Frage, wie Suchmaschinen an Startpunkte beziehungsweise Startseiten für die weitere rekursive Erkundung gelangen. Dazu benutzen Suchmaschinen in der Regel Kataloge oder auch andere Suchmaschinen. Teilweise können von Benutzern Vorschläge in einer dafür eingerichteten WWW-Seite eingetragen werden. Dabei können oft auch zusätzliche Informationen über die Seite (Autor, Kommentare, EmailAdresse usw.) angegeben werden. Doch in der Regel findet die Dokumentenbeschaffung über Programme statt, da dieses rekursives Verfahren automatisierbar ist. Aus diesem Grund spricht man auch von einem maschinellen beziehungsweise von roboterbasierten Verfahren. Die traversierenden Programme selbst werden neben Roboter, auch als Spider, Crawler, Wanderer oder Worm bezeichnet, wobei die Unterschiede nur geringfügig sind. Spider, Crawler, Wanderer und Worms verfolgen Links über mehrere Seiten hinweg. Sie orientieren sich also primär an der Linktiefe (DepthFirst). Roboter (robots) hingegen gehen allen abgehenden Verweisen einer Seite nach und laden die so erreichten Zieldokumente herunter. Es wird erst dann ein weiterer Tiefenschritt in der HyperlinkVerfolgung vorgenommen, wenn bereits alle anderen Links erschlossen sind (Breadth-First). Über diese Quellen werden Roboter auf Dokumente erstmalig "aufmerksam" gemacht. Die Anwendungsmöglichkeiten für Roboter sind divers: von statistischen Analysen zu Web-Servern und Dokumenten, über das Aufspüren von nicht mehr erreichbaren Verweisen (Dead-Links), Unterstützung der Duplizierung von WWW-Seiten (Mirroring) mit zugehöriger Transformation der absoluten / relativen Adresskonvertierung, die Sammlung von E-Mail-Adressen, die auf vielen WebSeiten zu finden sind, bis zu der eigentlich wichtigsten Anwendung von Robotern, der Auffindung weltweiter WWW-Dokumente für eine Suchmaschine. Diverse Suchmaschinen (Search Engine) sind laufend in Betrieb und deren Roboter arbeiten große Teile des Webs regelmässig ab. Die zugehörigen Volltextindizes oder auch nur Teilindizes der Dokumente werden in Datenbanken gespeichert. Diese Datenbanken bilden die Grundlage für die Suchmaschinen bzw. Suchserver, die über Benutzerschnittstellen mit diversen Abfrageformularen die Suche nach Dokumenten im Internet ermöglichen. Ausgehend von der URL-Liste werden die Hyperlinks des Webs traversiert und die Inhalte der HTMLDokumente und weitere textbasierte Dateiformate extrahiert (Griesbaum et al., 2008, S. 15). Der Rest wird über WWW-Hypertextstrukturen automatisch weiterverfolgt. Die so erreichten Seiten werden verarbeitet, ihre URLs in einem Register gespeichert und in regelmäßigen Abständen wieder besucht und aktualisiert. Die Tiefe der rekursiven Verfolgung der Links ist von Suchmaschine zu Suchmaschine unterschiedlich. In diese Suche werden neben den Inhalten des WWW auch weitere Internet-Dienste wie z.B. FTP oder NewsGroups miteinbezogen. Es wird jedoch wenig erwähnt, dass Suchmaschinen in der Lage sind, die Navigationsprofile von Usern zu erfassen. Gerade durch das automatische Verfahren ist die Abdeckung solcher Informationen im Web sehr hoch und kann dementsprechend mehr erfasst werden. „Die letzten veröffentlichten Angaben der Suchmaschinenbetreiber Yahoo und Google aus dem Jahre 2005 geben eine Indexgröße von rund 20 Milliarden Dokumenten an.“ (Griesbaum et al., 2008, S. 15) Neben der Indexierung von Dokumenten, die als HTML-Dateien im World Wide Web vorliegen, werden auch weitere Dokumentformate wie PDF (Portable Document Format), Postscript oder Worddateien geladen und inhaltlich erschlossen. Selbst Grafiken, wie z. B. GIF-Dateien (Graphic Interchange Format) oder JPEG-Dateien (Joint Picture Motions Expert Group), werden auf vorhandenen Text untersucht. Es gibt jedoch auch die Möglichkeit die Indexierung auszuschliessen, d.h. die WWW-Server vor Roboterzugriffen zu schützen. „Seit 2005 kommunizieren die Suchdienstebetreiber Google, Yahoo und Microsoft das Linkattribut ‚Nofollow’.“ (Griesbaum et al., 2008, S. 17) Derart gekennzeichnete Links werden bei der Sortierung nicht berücksichtigt. Neben dieser Steuerungsmöglichkeit auf der Ebene der Seiten gibt es jedoch noch eine Konvention, der „Robots exclusion standard“, der das Verhalten von Suchmaschinen auf der Domainebene bestimmt. Websitebetreiber können Suchmaschinenrobotern mitteilen, dass ihre Domain bzw. Teilbereiche davon nicht indexiert werden sollen. Die entsprechenden Anweisungen werden in einer Textdatei namens Robots.txt hinterlegt. (Griesbaum et al., 2008, S. 17) Es bildet jedoch kein echter Zugriffsschutz, sondern es ist lediglich eine Art Abmachung unter den Betreibern der Suchdienste. Seite 24 von 85 SPRINT – Suche im Internet Folgende Abbildung zeigt ein Beispiel für die Website xyz.com, in der der Websitebetreiber für alle Roboter („User-agent: *“) spezifiziert, dass die Unterverzeichnisse „Templates“ und „CGI“ nicht indexiert werden sollen.“ (Griesbaum et al., 2008, S. 17) Abbildung 7: Robots.txt (Quelle: Griesbaum et al., 2008, S. 18) Fehlt der Meta Robots-Tag, dann wird eine Webseite von einer Suchmaschine in den Datenbestand aufgenommen und alle Links werden durch den Roboter verfolgt. 2006 einigten sich Google, Yahoo und Microsoft weiterhin auf ein „Standard Sitemap Protokoll“. Sitemaps gestatten es, in Form eines XML-Files, Metainformationen zum letzten Aktualisierungszeitpunkt, zur Aktualisierungsfrequenz und zur Priorität der aufgelisteten URLs einzutragen. Dies erleichtere es Suchmaschinen, Webseiten intelligenter zu indexieren. Google bietet des Weiteren mit den „Webmaster-Tools“ Websitebetreibern die Option, umfangreiche Crawling-Informationen zur Indexierung durch Google zu erhalten. Sitemaps und „Webmaster-Tools“ können als eine Weiterentwicklung der Steuerungsmöglichkeiten durch MetaTags und des „Robot Exclusion Standards“ betrachtet werden. Alle genannten Möglichkeiten tragen dazu bei, die Ressourcen der Suchmaschinen zur Dokumentbeschaffung effizienter zu nutzen und Probleme, wie die Mehrfachindexierung gleicher Inhalte oder niedrige Aktualitätsfrequenzen, zu minimieren. Zugleich wird mit Diensten wie den Webmaster-Tools die roboterbasierte Dokumentbeschaffung auch für Websitebetreiber transparenter. Damit ist zu erwarten, dass z.B. technische Problembereiche beim Crawling, die etwa durch nicht verfolgbare Links, dynamische oder dynamisch erzeugte Seiten auftreten, (tendenziell früher) entdeckt und behoben werden. (Griesbaum et al., 2008, S. 18) Des Weiteren führte Yahoo 2007 mit dem „robots-nocontent“-Tag eine Möglichkeit ein, auch Textinhalte im sichtbaren Bereich einer Webseite von der Indexierung auszuschließen. (Griesbaum et al., 2008, S. 17) Aber auch Suchmaschinen stossen an ihre Grenzen. Zum einen ist die Menge der im Internet verfügbaren Dokumente unterdessen derartig angewachsen, dass keine der Suchmaschinen auch nur eine annähernd vollständige Abdeckung zu erreichen vermag (siehe dazu auch Searchenginewatch mit der ermittelten Reichweite für einige bekannte Suchmaschinen des Internets). Zum anderen ist ein erheblicher Teil an Dokumenten und Daten, die im World Wide Web für die Nutzung durch unmittelbaren Zugriff des Menschen bereitstehen, für Suchmaschinen nicht zu erreichen und können demnach auch nicht in ihren Index aufgenommen und suchbar gemacht werden. WWW-Seiten mit Frames: Webseiten, die mit Frames aufgebaut sind, stellen für Suchmaschinen ein Problem dar. Sie können die einzelnen Seiten zwar indexieren, doch können sie nicht mehr in ihrer ursprünglichen Anordnung wiedergegeben werden. Link-Bilder über CGI: Dokumentreferenzen innerhalb von Bildbereichen, die über CGISchnittstelle abgearbeitet werden, können von Suchmaschinen nicht automatisch verfolgt werden. Bei dieser Art von Verweisen innerhalb von Bildbereichen ist es die Aufgabe des Browsers, die Mauskoordinaten bei Drücken der Maustaste an den Server bzw. das zugehörige CGI-Skript zu senden. Dort wird erst die entsprechende Web-Seite ermittelt. In den neueren HTML-Versionen wurde dieser Mechanismus durch ein HTML-Element ersetzt, bei dem Bildbereiche und zugehörige Linkadressen direkt angegeben werden können. Seite 25 von 85 SPRINT – Suche im Internet Neu erstellte / aktualisierte Dokumente: Hierbei ist die Verarbeitung abhängig von der Aktualisierungsfrequentierung sowie der Zeit zwischen der manuellen Eintragung einer Seite bei einer Suchmaschine und der tatsächlichen Analyse dieser und Speicherung in der IndexDatenbank, der so genannten "index-lag"-Zeit. Je nach Suchmaschine können hierbei bis zu vier Wochen vergehen. "Brandaktuelle" Informationen werden daher von den Suchmaschinen nicht nachgewiesen. Daten aus Datenbanken: Diese müssen erst aus der Datenbank in eine HTM extrahiert werden, damit sie von den Suchmaschinen indexiert werden können. Nicht verlinkte Dokumente: Da WWW-Server in der Regel keine Übersicht über ihren Gesamtbestand anbieten und der Zugriff auf interne Verzeichnisse meist nicht erlaubt wird, können auch keine Dokumente nachgewiesen werden, auf die von aussen kein Link verweist und die auch nicht bei den Suchmaschinen eingetragen wurden. Zugriffsgeschützte Dokumente: Dokumente, die durch Passwort, Registrierung oder eine Firewall geschützt sind, können von Robotern auch nicht erreicht werden. Dynamische Dokumente: Dokumente, die abhängig von Formulareinträgen oder ähnlichem auf dem Server dynamisch über CGI, Java oder JavaScript generiert werden, können nicht erreicht werden, da Suchmaschinen keine Möglichkeit haben, sinnvolle Formulareinträge automatisch vorzunehmen. Geschützte Seiten nach dem Roboter-Exclusion-Standard: Die meisten Suchmaschinen halten sich an den Roboter-Exclusion-Standard. Server-Bereiche, die in der Datei "robots.txt" spezifiziert sind, werden von Robotern nicht besucht. FTP-Daten: Suchmaschinen können natürlich nur auf frei zugängliche FTP-Server (Anonymous FTP) automatisch zugreifen. E-Mail: E-Mail Server bieten in der Regel keinen Zugriff auf ihre E-Mail Adressen. Oft werden aber E-Mail Adressen auf HTML-Seiten vermerkt. Diese werden von Suchmaschinen erkannt und können somit gesucht werden. Es gibt aber auch spezielle Suchmaschinen, die eine Suche nach Email-Adressen anbieten. (Beispiele siehe Kapitel Email-Suchdienste) Man spricht in diesem Zusammenhang von einem "Invisible Web" oder „Deep Web“. Es gibt aber auch Suchdienste des World Wide Web, die zumeist katalog-basiert, wenigstens einige dieser Quellen für eine Suche oder Browsing verfügbar machen sollen. Beispiele dafür sind Beaucoup und Direct Search. Vielfältige Bemühungen zur Indexierung des Deep Web sind klar erkennbar. So kann man feststellen, dass die Zahl der erfassten Dokumente und der unterstützten Dokumentenformate zunimmt und somit den Suchmaschinen gelingt, „die Inhalte des „Indexable Web“ durchsuchbar zu machen“ (Griesbaum et al., 2008, S. 18). „Eine erhebliche Leistung, denn nach einer Schätzung aus dem Jahre 2004 werden pro Woche ca. 300 Millionen Webseiten erstellt. Eine aktuelle Studie deutet zudem darauf hin, dass die populären Suchmaschinen Google, Yahoo und MSN einen Großteil von Webseiten innerhalb weniger Tage reindexieren. Suchmaschinen erreichen also eine hohe Abdeckung und sind i.d.R. relativ aktuell. Dennoch ist festzuhalten: Die Größe des (indexierbaren) Web ist nicht bekannt, ebenso ist unbekannt, welcher Anteil durch Suchmaschinen abgedeckt wird. Für den Suchmaschinennutzer ist es deshalb wichtig, sich zu vergegenwärtigen, dass Suchmaschinen zwar große Teilbestände des indexierbaren Web nachweisen, aber Wissensbestände des sogenannten Deep Web, oft umfangreiche Wissensbasen professioneller Anbieter, nur zu einem geringen Teil erfassen (können).“ (Griesbaum et al., 2008, S. 18) „Zur Größe dieses Deep Web gibt es unterschiedliche Schätzungen. So geht ein Whitepaper der Firma Brightplanet aus dem Jahr 2001 davon aus, dass das Deep Web 400- bis 550-mal größer sei als das indexierbare Web und mindestens 550 Milliarden Dokumente umfasse. Eine aktuellere Schätzung kommt für den Wissenschaftsbereich auf eine Größe von zwischen 20 und 100 Milliarden Dokumenten.“ (Griesbaum et al., 2008, S. 15) Indexierung Das Angebot von Suchmethoden und -operatoren ist stark von der Indizierung und der daraus resultierenden Datenbank abhängig. Dabei sind sowohl Analysemethoden als auch der Umfang der Indizierung der einzelnen WWW-Seiten von großer Bedeutung. Wie nun die vom Roboter laufend zusammengetragenen HTML-Seiten tatsächlich indiziert werden, lassen die einzelnen Suchmaschinenanbieter nur zum Teil erkennen. Die Indizierung gehört letztendlich zu den Seite 26 von 85 SPRINT – Suche im Internet Kernkompetenzen dieser Anbieter. Denn abhängig von dieser Kompetenz können in der Recherchekomponente mehr oder weniger fortschrittliche Suchoperatoren angeboten werden. Man kann aber davon ausgehen, dass hierbei die Methoden des klassischen Retrieval als Grundlage dienen. Wenn Suchmaschinen den Volltext von Webseiten erschliessen, werden die exakte Schreibweise erfasst und Groß- und Kleinschreibung sowie Umlaute meist normalisiert. „Morphologische und syntaktische Verfahren der Textanalyse, wie z.B. Grund- und Stammformreduktion, Kompositazerlegung oder die Erkennung von Mehrwortbegriffen, finden derzeit meist keine Anwendung. Neben den Stichwörtern werden auch: HTML-Strukturinformationen (HTML-Tags), ausgehende Links, dokumentinhärente Metainformationen (Meta-Tags), weitere formale Elemente (z.B. Dateigröße, Änderungsdatum), eingebettete Elemente (z.B. Dateinamen von Bildern, Java-Applets, Kommentare, unbekannte Elemente, die nicht vom Browser angezeigt werden usw.) und teilweise auch Formatelemente (z.B. Schriftgröße, Farbe) erfasst.“ (Griesbaum et al., 2008, S. 19) Auch im Umfang der Indizierung werden teilweise unterschiedliche Strategien verfolgt: Volltext: Bei den meisten Suchmaschinen werden inhaltsbedeutende Begriffe oder Elemente aus der gesamten HTML-Seite (Mehrsprachige Stoppwortlisten) indiziert. Teilindex: Suchmaschinen mit einem Teilindex indizieren meistens URL, Titel (TITLEElement) und Überschriften (Hx-Elemente) oder auch die ersten paar Zeilen der WWW-Seite. Spezielle Inhaltsbeschreibende Bereiche: Das Meta-Tag ist ein spezielles HTML-Element, über das der Autor eines Dokuments selbst Deskriptoren und Zusatzinformationen über die WWW-Seite strukturiert hinterlegen kann. Suchmaschinen, die solche META-Elemente unterstützen, extrahieren aus diesen die Metainformationen, so dass keine eigene Analyse bzw. Indizierung der Seite gemacht wird. Dieses Verfahren wird gerne bei FrameDokumenten genutzt, da Suchmaschinen diese „in der Regel“ nicht korrekt nachweisen können. Nur sehr wenige Suchmaschinen verarbeiten Frame-Dokumente ausserhalb der Startseite, d.h. entweder erkennt und indiziert die Suchmaschine die Einzelframes oder es wird nur die Definitionsseite des Framesets erkannt und indiziert. Die Suchmaschine kann den Zusammenhang zwischen Frameset und Einzelframes nicht richtig erkennen, bzw. diese nicht korrekt zusammensetzen. Das Problem bei den Framesets ist, dass ihnen kein bestimmter Inhalt zugeordnet werden kann und keine Links eingebunden werden können. Diese Informationen können in Metatags eingebunden und das Problem somit umgangen werden. Aktualisierung Die bekanntesten Suchmaschinen bearbeiten bis zu mehreren Dutzend Millionen Anfragen pro Tag. Die Verarbeitung und Aktualisierung einer stark wachsenden Anzahl von WWW-Dokumenten weltweit sowie die grosse Menge von Suchanfragen stellt höchste Ansprüche an Hard- und Software des Suchservers. Durch das "if-Modified-Since"-Feld" im HTTP-Protokoll ist technisch gesehen beim Übertragen einer WWW-Seite ein für die Aktualisierung wichtiger Mechanismus vorhanden. Über die Angabe dieses Feldes kann beim Laden eines Dokuments über das Internet die Übertragung von der letzten Änderung (Datum und Uhrzeit) abhängig gemacht werden. Das heisst, falls das Dokument seit dieser Zeitangabe geändert wurde, wird das Dokument übertragen, sonst nicht. Leider wird dieser Mechanismus nicht von allen WWW-Servern unterstützt und ist auch bei Programmen oder Datenbanken, die dynamische Dokumente generieren, nur selten implementiert. Ansonsten gibt es in der Aktualisierungsfrequentierung bei den verschiedenen Suchmaschinen große Unterschiede in Art und Zeit. Meist wird mit einer zeitabhängigen Frequentierung gearbeitet. Die Angaben für die zeitliche Aktualisierung einzelner WWW-Seiten bei den Suchmaschinen schwanken zwischen einem Tag und sechs Wochen. Oft wird dies von der Zugriffshäufigkeit auf ein Dokument abhängig gemacht. Ein Problem, welches bei Suchmaschinen aufgrund der hohen Dokumentenanzahl im World Wide Web und deren Streben nach einer möglichst umfassenden Abdeckung (Coverage) auftritt, wird durch eine zum Teil nicht unerhebliche Menge von „Dead-Links“ deutlich. Diese ergeben sich dann, wenn in der Index-Datenbank der Suchmaschine noch Einträge für Seiten des WWW in Form von Links enthalten sind, die sich nicht mehr an der zum Zeitpunkt der Indexierung gültigen URL befinden. Seite 27 von 85 SPRINT – Suche im Internet Solche Dokumente, die nach mehrmaligen Zugriffsversuchen zu unterschiedlichen Zeiten durch die Suchmaschine nicht zugreifbar werden, werden aus der Datenbank entfernt. Schwieriger gestaltet sich der Fall, dass eine als Suchergebnis nachgewiesene Seite zwar an der zum Zeitpunkt der Indexierung aktuellen URL noch vorhanden ist, zwischenzeitlich aber eine inhaltliche Aktualisierung erfahren hat. Es kann sein, dass nun die Suchbegriffe nicht mehr vorhanden sind und damit möglicherweise auch kein Bezug zur Suchanfrage mehr gegeben ist. Eine solche Variante kann mit Sicherheit erst nach Herunterladen und erneutem Erfassen des Dokumenteninhalts aufgedeckt werden. Die Aktualisierung der Webseiten im Index der Suchmaschinen sollte eigentlich in regelmässigen, kurzen Abständen erfolgen. Tatsächlich liegen oft mehrere Monate zwischen den Indizierungen. Das spielt bei Webseiten, deren Inhalt sich wenig ändert, keine Rolle. Manche Server dagegen sind auf Aktualität angewiesen. Man spricht dann von einer Spider-Frequenz (Häufigkeit eines Zugriffes durch den Spider auf einer Website). Um das Verhalten von Spiderprogrammen zu optimieren nutzen Suchmaschinen Informationen wie Besuchshäufigkeit bzw. Aktualisierungsfrequenz von Webseiten. (Griesbaum et al., 2008, S. 15) Durch häufige und umfangreiche Aktualisierung der Startseite eines Webauftritts kann man also eine häufigere Indizierung erreichen. Wer grossen Wert auf eine schnelle Bearbeitung, mehrfache Angabe der Seiten oder auf häufigere Indizierung legt, hat auch die Möglichkeit seine Webseite gegen Bezahlung anzumelden. Im Zuge der Kommerzialisierung der Suche im Internet bieten mehr Suchmaschinen solche Dienste an. 4 Anfragebearbeitung Wie bereits angedeutet, ist das Angebot an Funktionalität bei der Anfragenbearbeitung abhängig von der Inhaltserschließung der Dokumente. Je besser die Analyse und Indizierung der HTML-Seiten ist, desto umfangreicher ist das Angebot an Suchmethoden und -operatoren. Die Benutzerschnittstelle ist nach Funktionalität ausgerichtet und bei den meisten Suchmaschinen über verschiedene Stufen bedienbar: Verschiedene Suchmodi (Einfache / Erweiterte Suche) Formularbasierte Suchmasken mit diversen Einstellmöglichkeiten Voreinstellungen werden teilweise über Buttons, Menüs, Listen usw. ausgewählt. Java-basierte Suchmasken (eher selten) Ergebnislisten mit Ranking, Sortierung, Blätterfunktionen usw. Die Treffermenge wird dem Benutzer sortiert nach einer internen Relevanzberechnung (Ranking) der jeweiligen Suchmaschine präsentiert. Hinsichtlich der Frage, welche Methoden der Relevanzbeurteilung eingesetzt werden, halten sich die Betreiber der Suchmaschinen bedeckt. 5 . 4.8.2 Optimierung der Webseite Im Zuge der zunehmenden Konkurrenz im Internet ist die für Suchmaschinen optimierte Erstellung von Webseiten immer wichtiger geworden. Inzwischen gibt es eine ganze Branche, die sich mit „Search Engine Optimization (SEO)“ befasst. Um nicht nur professionell nach relevanten Informationen im WWW suchen zu können, sondern damit auch die eigenen WWW-Dokumente von anderen bei entsprechenden Suchbegriffen gefunden werden, werden nachfolgend einige Tipps für die Erstellung von WWW-Seiten aufgeführt. Weitere Hinweise auf suchmaschinengerechte Gestaltung findet man unter anderem bei Searchenginewatch und at-web. Eine Volltextindexierung stellt die Grundlage zur Anwendung klassischer termbasierter Abgleichsund Sortierverfahren dar, die auf der Analyse von Wortvorkommen in Dokumenttext und Metainformation aufsetzen. (Griesbaum et al., 2008, S. 20) Dabei muss darauf hingewiesen werden, dass die vielfache Wiederholung von Begriffen im TITLE-/ META-Element oder sonstigen Bereichen einer WWW-Seite, die vom Browser nicht angezeigt wird, auch "spamming" genannt, für die stärkere Gewichtung der Begriffe bei der Suche heutzutage nichts mehr einbringt. Im Gegenteil, viele bekannte Suchmaschinen sind inzwischen dazu übergegangen, solche Seiten nicht mehr in ihren Datenbanken zu speichern. 4 Nähere Beschreibungen zu diesem Thema werden im Kapitel 4.8.4. „Anzeige und Sortierung der Suchmaschinentreffermenge dargestellt“. 5 Die Aspekte der Trefferanzeige und der Relevanzbeurteilung finden Sie im Kapitel 4.8.4. Anzeige und Sortierung der Suchmaschinentreffermenge. Seite 28 von 85 SPRINT – Suche im Internet „Google spricht derzeit von über 200 „Signalen“, die beim Ranking berücksichtigt werden. Diese lassen sich im Wesentlichen drei zentralen Bereichen zuordnen: • On-Page-Faktoren • On-Site-Faktoren • Linkfaktoren“ (Griesbaum et al., 2008, S. 21). Folgende Abbildung stellt die Faktoren in einer grafischen Übersicht dar [1, S. 21]. Abbildung 8: Ranking-Faktoren bei Suchmaschinen (Quelle: Griesbaum et al., 2008, S. 21) In den folgenden Abschnitten werden die ersten drei Punkte genauer erläutert. On-Page-Faktoren „On-Page-Faktoren stellen den Kern jeder inhaltsbasierten Bewertung von Suchmaschinen dar“ (Griesbaum et al., 2008, S. 22). „Insbesondere von Bedeutung sind bezüglich der Terme: Häufigkeit, Position (Dichte, Abstand) Funktion (URL, HTML-Auszeichnungen: Titel, Überschriften, Linktexten…) Format von Termen (Schriftgröße, Farbe) Dabei gilt, je öfter Anfrageterme in einem Dokument vorkommen, je dichter sie zueinander bzw. je weiter am Anfang des Dokuments stehen, umso relevanter wird ein Dokument bewertet. Ebenso werden hervorgehobene Terme oder Terme in spezifischen Feldern höher gewichtet. Weitere eher formale Faktoren, z. B. das Entstehungsdatum oder die Änderungsfrequenz, können beispielsweise bei zeitbasierten Anfragekriterien berücksichtigt werden.“ (Griesbaum et al., 2008, S. 21ff) Diese Faktoren sind für das Ranking jedoch unzureichend. Dafür gibt es zwei Gründe: „Erstens das Suchverhalten der Nutzer: Internetnutzer stellen überwiegend kurze Suchanfragen, d.h. Anfragen mit nur wenigen Termen, oftmals auch nur sogenannte Einwort-Anfragen. Suchmaschinen weisen zu derartigen Suchanfragen i.d.R. Tausende bzw. Millionen potenziell relevanter Dokumente nach, von denen die Nutzer dann meist nur wenige Treffer sichten.“ (Griesbaum et al., 2008, S. 22) Zweitens können diese Faktoren von den Webseitenbetreiber sehr leicht manipuliert werden, z. B. durch das Formatieren von Textpassagen mit der gleichen Hintergrundfarbe, so dass sie für Nutzer unsichtbar sind oder „indem Metainformationen (Meta-Tags) gezielt mit inhaltlich „falschen“ aber populären Termen angereichert werden. Suchmaschinen verwenden zwar schon seit den 1990er Jahren inhaltsbezogene Filter, etwa bezüglich einer maximal tolerierten Wortdichte bzw. der Zahl von Wortwiederholungen, um manipulierte Seiten aus dem Ergebnis auszusortieren bzw. mit einem Rankingmalus zu versehen. Dennoch ist festzuhalten, dass die Anwendung zusätzlicher Rankingfaktoren, welche auch Kriterien außerhalb der Seite 29 von 85 SPRINT – Suche im Internet Dokumentinhalte berücksichtigen, den Missbrauch bzw. die Manipulation der Suchmaschinen zu Spamzwecken erschwert bzw. erheblich aufwändiger gestaltet.“ (Griesbaum et al., 2008, S. 22) Grundsätzlich kann man davon ausgehen dass die Ranking-Algorithmen vieler Suchmaschinen Auftreten und Häufigkeit von Schlüsselwörtern in Titel, URL, Text und Meta-Tag berücksichtigen. Es ist daher sinnvoll, relevante Suchbegriffe in diesen Bereichen unterzubringen: Schlüsselbegriffe im TITLE-Element und Ueberschrift, falls möglich auch in Adresse: Begriffe, die sich in diesen Bereichen befinden, werden bei der Suche stärker gewichtet. Zudem wird der Titel von vielen Suchmaschinen in der Trefferliste angezeigt. Wichtiger Text im oberen Bereich: Bei Suchmaschinen, die nur einen Teilindex bilden, wird meist der erste Teil einer Internetseite analysiert. Ausserdem zeigen einige Suchmaschinen die ersten Zeichen des Seitentextes in der Trefferliste an. Bei schlechten Trefferquoten evtl. Schlüsselbegriffe ändern: Bekommen die eigenen Seiten bei gezielten Suchbegriffen nur einen schlechten Ranking-Platz, sollte man die benutzten Begriffe im Dokument überprüfen. Ein Blick in die besser positionierten WWW-Seiten hilft in diesem Falle oft weiter. Ständige Überprüfung der eigenen Seiten, evtl. Eintragung wiederholen: Falls eine Suchmaschine die Möglichkeit bietet, einzelne URLs abzufragen, sollte der Index des entsprechenden Dokuments überprüft und die WWW-Seite evtl. geändert werden. Beschreibender Meta-Tag: Da eine qualitativ hochwertige inhaltliche Erfassung der Web-Seiten aufgrund der automatischen Indexierung durch Suchdienste bislang nicht möglich ist, wurden durch die HTML-Spezifikation so genannte Meta-Tags vorgesehen. Damit wird den HomepageAutoren die Möglichkeit gegeben, ihre Seiten selbst so zu beschreiben, dass eine bessere Erfassung des Inhalts aufgrund spezifischer Meta-Tags möglich ist. Die Meta-Tags beziehungsweise deren Attribute selbst, werden durch HTML (in der Version 4.0) nicht definiert, sondern nur das Schema zum Aufbau dieser Angaben. Sinnvolle Metatags für HTML sind in der nachfolgenden Tabelle dargestellt: Tab. 1: Metatags Metatag (in HTML Notation) <meta name="keywords" content="Stichworte" /> bzw. <meta http-equiv="keywords" content="Stichworte" /> Bedeutung / Verwendung Stichworte, die den Inhalt des Dokuments möglichst eindeutig und unterscheidbar charakterisieren <meta name="keywords" Stichworte, die den Inhalt des Dokuments möglichst content="Stichworte" /> bzw. <meta httpeindeutig und unterscheidbar charakterisieren. equiv="keywords" content="Stichworte" /> <meta name="keywords" Stichworte, die den Inhalt des Dokuments möglichst content="Stichworte" /> bzw. <meta httpeindeutig und unterscheidbar charakterisieren. equiv="keywords" content="Stichworte" /> <meta name="description" content="eine kurze Inhaltszusammenfassung" /> Eine kurze und prägnante Inhaltszusammenfassung, die gut verständlich und lesbar ist, da der Inhalt dieses Tags von einigen Suchdiensten beim Suchergebnis mit angezeigt wird. Wichtig vor allem bei Verwendung von Frames, Javascript und überwiegend nicht-indexierbaren medialen Anteilen im Dokument. <meta name="abstract" content="Stichworte" /> dito. <meta name="author" content="Name" /> Soll den Autor des Dokuments benennen. Nützlich ist die Seite 30 von 85 SPRINT – Suche im Internet Tab. 1: Metatags Metatag (in HTML Notation) Bedeutung / Verwendung Ergänzung weiterer Angaben wie Organisation und Ort. <meta name="copyright" content="Name" /> Kennzeichnung des Inhabers der Urheberrechte am Dokument bzw. dessen Inhalt. <meta name="date" content="jjjj-mmttThh:mm:ss+hh:mm" /> Angabe von Datum und Uhrzeit der Erstellung oder Veröffentlichung des Dokuments. Dieses muss einer speziellen Syntax folgen, wie nebenstehend angedeutet: Das "T" (für Time) ist ein feststehendes Schlüsselwort zur Trennung von Datum und Uhrzeit, die Stunden und Minuten-Angabe nach dem "+" betrifft die Zeitabweichung gegenüber der Greenwich-Zeit. <meta name="generator" content="Software-Werkzeug" /> Hier wird bei Erzeugung von HTML-Code durch Generatoren der Name des Software-Werkzeuges automatisch eingetragen. Prinzipiell wären aber auch andersartige, manuell vorgenommene Eintragungen gültig. <meta name="publisher" content="Name" /> Eintrag der veröffentlichenden Person oder Organisation. <meta http-equiv="Reply-to" content="mailto:Email@Adresse.de" /> Angabe der Email-Adresse für Mitteilung von Problemen, Fehlern usw. Die auch als Robot-Exclusion-Tag bekannte Angabe kann das Verhalten der Suchmaschinen im Umgang mit den HTML Dokumenten bestimmen. Als Attributwert kommen folgende Möglichkeiten in Betracht: noindex - Dokument soll nicht indexiert werden <meta name="robots" content="Attributwert" /> index - Dokument soll indexiert werden nofollow - Es sollen keine abgehenden Links vefolgt werden. Die Indexierung des aktuellen Dokuments ist allerdings erlaubt follow - Das Dokument soll indexiert werden und abgehenden Links kann per Crawling nachgegangen werden all - entspricht index und follow <meta name="revisit-after" content="Anzahl Tage" /> Dieses Metatag soll den Crawler einer Suchmaschine veranlassen, in der angegebenen Anzahl Tagen diese Seite erneut aufzusuchen. <meta name="page-topic" content="Stichworte" /> Hier können Angaben zum Themenbereich, auf den sich das Dokument bezieht, gemacht werden. <meta name="page-type" content="Stichworte" /> Durch diesen Tag kann die Ressourcenart des Dokuments bzw. dessen Darstellungsform angegeben werden, z.B. Grafik, Linkliste, Eingabemaske. Seite 31 von 85 SPRINT – Suche im Internet Diese Angaben werden durch den Meta-Tag im Header der HTML-Datei realisiert. Weitere Meta-Tags können zur Steuerung des Webservers dienen (z. B. zum Umleiten der Zugriffe auf eine andere URL), während sich andere Metatags an den Browser wenden. Eine weitere Möglichkeit besteht darin, Metaangaben nicht direkt in die HTML-Datei einzufügen, sondern durch Verlinken mit einer externen Metadaten-Datei zu realisieren. Dafür kommt das linkTag zum Einsatz, das gleichfalls im Header der HTML-Datei festgelegt wird. Wer die manuelle Eingabe solcher Metatags scheut, kann auch einen der zahlreichen MetatagGeneratoren im WWW benutzen, wie ihn auf Suchmaschinenoptimierung spezialisierte Websites oder auch Suchdienste selbst anbieten. Mittels dieser Generatoren müssen dann lediglich noch die Werte für die jeweiligen Tags angegeben werden. Daraufhin wird ein entsprechender HTML-Quellcode erzeugt, der direkt in das HTML-Dokument kopiert werden kann. Einige dieser im WWW angebotenen Werkzeuge sind zu finden bei: Searchcode.de, und sitesubmission.de. Metatags bieten aufgrund ihrer zuverlässigen, Inhaltskennzeichnenden Wirkung die Möglichkeit, dort vorgefundene Begriffe für das Ranking der Suchergebnisse höher zu gewichten als gleich lautende Begriffe aus dem Body des Dokuments. Allerdings wurde diese Funktion häufig missbraucht (siehe Kapitel Spam in der Suchmaschine), so dass die Bedeutung von Meta-Tags für das Ranking inzwischen wieder abnimmt. Da der jeweilige Verwendungszweck der durch HTML vorgesehenen Metatags in Ermangelung einer allgemein gültigen Spezifikation nicht eindeutig geregelt ist, kann auch nicht von einer einheitlichen semantischen Nutzung eines gleich bezeichneten Attributs unter mehreren Autoren beziehungsweise Web Sites ausgegangen werden. Die Freiheitsgrade der möglichen Eigenschaften, die durch ein gleich bezeichnetes Attribut für ein Dokument beschrieben werden können, sind für eine eindeutige semantische Zuordnung des Attributnamens und dessen Werte nicht geeignet. Dadurch wird der Nutzen dieser Metatags für eine übergreifende Inhaltsbeschreibung von Dokumenten unterschiedlicher Autoren deutlich geschmälert. Aus diesem Grund besann man sich auf eine Spezifikation für die bibliographische Kennzeichnung von Dokumenten namens Dublin Core. Das Dublin Core Element Set (kurz: Dublin Core) ist ein Metadaten-System, welches von einer Expertengruppe 1995 in Dublin, Ohio entworfen wurde und ständig weiterentwickelt wird. Es enthält 15 Kernelemente (Core Elements), mit denen sich literarische Inhalte beschreiben lassen. Tab. 2: Dublin-Core Dublin Core Element Identificator Bedeutung / Verwendung Title Name der Ressource Creator Für die Ressource verantwortlicher Autor als Person oder Organisation Subject Thema und Stichwörter für die Ressource Description Inhaltszusammenfassung oder Abstract Publisher Verleger bzw. Herausgeber des Dokuments Contributers Weitere an der Entstehung der Ressource beteiligte Person(en) oder Organisation(en) Date Datum für einen bestimmten Bearbeitungsstand, dieses muss einer besonderen Notation folgen Type Ressourcenart des Dokuments Format Die Form der physischen oder digitalen Ausprägung der Ressource (Format, Dateityp) Seite 32 von 85 SPRINT – Suche im Internet Tab. 2: Dublin-Core Dublin Core Element Identificator Bedeutung / Verwendung <meta name="publisher" content="Name" /> Eintrag der veröffentlichenden Person oder Organisation. Identifier Eine eindeutige Identifikation für die Ressource (URL, ISBN etc.) Source Quelle, wenn das Werk davon abgeleitet ist Language Sprache des Dokuments, einer bestimmten Notation folgend Relation Referenz zu verwandten Ressourcen Coverage Von der Ressource erfasster geographischer oder zeitlicher Bereich Rights Rechtliche Aspekte bezogen auf die Ressource und deren Inhalt Auch für Metatags nach der Dublin Core Spezifikationen gibt es im WWW Werkzeuge zur Erzeugung von HTML-Quellcode, der direkt in die Datei eingefügt werden kann. Zu benennen wären der DCMeta-Maker des Bibliotheksservice-Zentrums Baden-Württemberg und das Dublin Core Metadata Template des Nordic Metadata Projekts. Leider werden Dublin Core Metadaten bislang kaum von einer Suchmaschine unterstützt. Für den Test der eigenen Homepage auf ihre "suchmaschinenfreundliche" Gestaltung existieren verschiedene Werkzeuge im WWW, die analysieren, ob der HTML-Code an sich so gestaltet wurde, dass er von Suchdiensten leicht durch das Crawling erfasst und indexiert werden kann und bei welchen Suchdiensten die betreffende Seite nach der Anmeldung (Submit) bereits im Index vorhanden und damit auffindbar ist. Darüber hinaus wird auch eine Optimierung der Keywords für die Anmeldung bei Suchdiensten und als Metatags der HTML-Datei geboten, z.B. durch Vergleich mit häufig gesuchten Begriffen bestimmter Suchmaschinen. Beispiele für solche Werkzeuge sind Webmasterplan und Makemetop. On-Site-Faktoren „Die Analyse globaler Faktoren der jeweiligen Domain, auf der sich die Dokumente befinden, stellt einen weiteren wichtigen Faktor zu Bewertung von Suchergebnissen dar. Die Art der verwendeten On-Site-Faktoren und ihre reale Bedeutung sind aber weitgehend unbekannt. D.h. rankingbezogene Aussagen sind gerade in diesem Bereich hochgradig spekulativ. So gibt es z.B. seit mehreren Jahren Diskussionen zu vermuteten Sandbox- oder „trust rank”-Effekten, die zur Folge haben sollen, dass neuen Websites insbesondere für kompetitive Suchanfragen ein Rankingmalus zugeordnet werde. Inhaltlich untermauern lässt sich diese Annahme u.a. dadurch, dass Google 2005 selbst Domain Name-Registrar wurde und diesen Schritt damit begründete, dass Registrarinformationen dazu genutzt werden sollen, um Suchergebnisse zu verbessern. Denkbar ist u.a., dass neben dem Alter der Domain auch Faktoren wie die Art der Domain, ihre Linkpopularität, die thematische Ausrichtung der Gesamtsite, die Gesamtzahl der indexierten Seiten usw. bereits jetzt oder künftig herangezogen werden.“ (Griesbaum et al., 2008, S. 22) Link-Faktoren Obwohl Suchmaschinen ihre Ranking-Methoden häufig geheim halten, kann man davon ausgehen, dass die Anzahl der Links, die auf eine Seite verweisen, einen entscheidenden Einfluss auf die Positionierung in der Trefferliste hat. Ein Link wird als Empfehlung betrachtet und je mehr solche Empfehlungen eine Seite hat, desto höher steigt sie im Ranking. Allerdings ist Link nicht gleich Link. Ein Eintrag im Webkatalog von Yahoo! ist beispielsweise mehr Wert als ein Link von einer privaten Homepage. Generell wirken sich meist Links von Seiten, auf die selbst viele Links zeigen, günstiger auf das Ranking aus als Links von Seiten, auf die nur wenige Links zeigen. Vorteilhaft ist auch ein Verweis von einer Seite mit gleichem Seite 33 von 85 SPRINT – Suche im Internet oder ähnlichem Thema. Diese Anbieter werden sozusagen als Experten für ihr Themengebiet betrachtet. Eine Empfehlung von ihnen in Form eines Links wird deshalb höher bewertet. Allerdings wird es im kommerziellen Bereich eher selten vorkommen, dass Anbieter auf ihre Konkurrenten verweisen. Dabei zählen natürlich nur Links von externen Homepages auf die eigene Webseite. Die Linkpopularität einer Webseite lässt sich bei einigen Suchmaschinen über den Befehl "link:URL" feststellen (z. B. AltaVista, AllTheWeb). Daneben gibt es Tools zur Überprüfung der Linkpopularität, die gleichzeitig mehrere Suchmaschinen überprüfen, z. B. LinkPopularity, MarketLeap. Suchdienste, die dafür bekannt sind, dass sie Linkpopularität als Ranking-Kriterium verwenden, sind neben Google auch andere namhafte Anbieter wie z.B. Yahoo! und MSN Search. Der Einfluss, den man auf die Verlinkung der eigenen Webseite von anderen Seiten aus nehmen kann, ist begrenzt. Man kann beispielsweise Webmaster von Homepages mit verwandter Thematik anschreiben und sie bitten, einen Link auf die eigene Seite zu setzen. Wenn es möglich ist, sollte man sich in bekannteren Webverzeichnissen aufnehmen lassen. „Linktopologische Sortierverfahren beruhen auf der Analyse der Referenzstrukturen im Web. Die Idee ist, aus diesen Strukturen Kriterien zur Bewertung von Webdokumenten abzuleiten. Grundlage ist die These, dass Links nicht zufällig gesetzt werden, sondern ein Qualitätsurteil, d.h. eine Empfehlung aussprechen. Erstmalige Umsetzung fand dieser Ansatz 1998 in der damals neu entstandenen Suchmaschine Google. (…). Derartige linktopologische Verfahren setzen auf Ansätzen der Zitationsanalyse wissenschaftlicher Arbeiten. Zitationsanalysen sind auf der Annahme gegründet, dass sich die Bedeutung wissenschaftlicher Arbeiten durch die Zahl der zitierenden Arbeiten abschätzen lässt. Die Anwendung derartiger Verfahren im Web Information Retrieval lässt sich u.a. dadurch begründen, dass die Grundidee plausibel und einfach klingt und Links auch technisch relativ einfach extrahiert und analysiert werden können. Das bekannteste linktopologische Verfahren, das von Google verwendete Pagerank-Verfahren, ermittelt die Wichtigkeit einzelner Dokumente durch die Analyse der Verweisstrukturen aller indexierten Webseiten. Dabei gilt: Je größer die Zahl eingehender Links auf eine Seite, umso höher der Pagerank. Pagerank ist ein themenunabhängiges Qualitätsmaß und weist in seiner ursprünglichen Form jedem erfassten Objekt einen „Wichtigkeitsfaktor“ zu. Neben der Anzahl der Links fließt auch deren Gewicht in die Berechnung mit ein. Dieses bestimmt sich durch den Pagerank der Webseite, von der der jeweilige Link ausgeht, und wird gleichmäßig zwischen allen ausgehenden Links dieser Seite aufgeteilt. Folgende Abbildung veranschaulicht diesen Zusammenhang und zeigt z. B. wie etwa eine Internetseite mit einem (fiktiven) Pagerank von 100 den zwei von ihr ausgehenden Links jeweils ein Pagerankgewicht von 50 vererbt.“ (Griesbaum et al., 2008, S. 23) Abbildung 9: Pagerank – Google, Modell von 1998 (Griesbaum et al., 2008,S. 24) Seite 34 von 85 SPRINT – Suche im Internet „Neben dem Pagerank-Verfahren existieren weitere linktopologische Algorithmen (…). Das von Kleinberg entwickelte „Hyperlink-Induced Topic Search“ (HITS)-Verfahren berücksichtigt im Unterschied zu Pagerank auch den Kontext von Suchanfragen. Das HITS-Verfahren floss in die Entwicklung der Suchmaschine Teoma mit ein. Linkfaktoren stellen derzeit ein zentrales Kriterium dar, um Suchergebnisse zu bewerten. Dabei ist davon auszugehen, dass die vor rund 10 Jahren dokumentierten Algorithmen mittlerweile vielfältig modifiziert und weiterentwickelt wurden, nicht nur im wissenschaftlichen Bereich, sondern gerade auch im realen Einsatz bei Google und Co. Einen weiteren Aspekt linktopologischer Verfahren stellt die Analyse des Verweistexts ausgehender Verweise dar. Wird dieser (…) dem Inhalt der Objekte zugeschlagen, auf die verwiesen wird, so ist es möglich, diese Objekte auch für Terme nachzuweisen, die gar nicht in ihnen vorkommen. Das ermöglicht u.a. den Nachweis nicht indexierter Dokumente oder auch zunächst nichtindexierbarer Dokumenttypen (z. B. Bilder), kann aber auch zu inhaltlich verfälschten Suchergebnissen führen.“ (Griesbaum et al., 2008, S. 24) Linkfaktoren werden einerseits als zentraler Erfolgsfaktor bei der Sortierung von Suchergebnisse betrachtet, doch sind qualitätssteigernde Effekte kritisch zu hinterfragen. Tests haben ergeben, dass Systeme mit linktopologischen Verfahren keine bessere Leistung zeigen als andere. Es ist jedoch zu erwähnen, dass die Tests in Umgebungen durchgeführt wurden, welche webspezifische Bedingungen nicht erfüllen (bspw. keinen Bezug auf Spamseiten). Ein Vorteil von Linkfaktoren, ist, dass der Aufwand für eine erfolgreiche Manipulation relativ hoch ist, und somit dieses Verfahren Spams reduzieren kann. Ein Kontrapunkt gilt jedoch, ob das Setzen eines Links überhaupt ein Qualitätsmerkmal darstellt. Wenn man nämlich davon ausgeht, dass Websites, welche bereits eine hohe Zahl eingehender Links aufweisen, eine überproportional höhere Wahrscheinlichkeit besitzen, neue Links zu erwerben. D.h. linktopologische Verfahren benachteiligen unpopuläre Seiten in einem überproportionalen Ausmaß. Dies betrifft insbesondere neue Seiten (Inhalte), die noch wenig Zeit hatten, „Linkpopularität“ aufzubauen. (Griesbaum et al., 2008, S. 25) „Darüber hinaus beeinflusst das Wissen um die Verwendung von Linkfaktoren durch Suchmaschinen bei Websitebetreibern die Motivation bezüglich des Setzens von Links. Dadurch, dass eine hohe Zahl eingehender Links sich positiv auf die Sichtbarkeit des eigenen Webangebots auswirkt, bestehen starke Anreize, Links aktiv „einzuwerben“. Das ist ein qualitativer Effekt, der die Linkstruktur des Web insgesamt beeinflusst. Dass diese mittlerweile auch in hohem Maße direkt von Marketinginteressen (mit)bestimmt wird, zeigt sich u.a. daran, dass Links mittlerweile auch ein kommerzielles Gut geworden sind, das oft auch käuflich erworben werden kann. Folgende Abbildung illustriert, dass diesbezüglich eine Vielzahl von Dienstleistern und Informationen existiert.“ (Griesbaum et al., 2008, S. 25) Grafiken Obwohl seit einiger Zeit Verfahren zur Bildsuche existieren, können fast alle Suchmaschinen nur Text verarbeiten. Werden Grafiken in eine Homepage eingebaut, erkennt die Suchmaschine in der Regel nur den Dateinamen und die Bildbeschreibung im Alt-Text des HTML-Tags. Der Alt-Text sollte folglich eine aussagekräftige Beschreibung der Grafik enthalten. Ausserdem ist es eine Möglichkeit, relevante Schlüsselwörter unterzubringen, ohne dass sie vom Browser angezeigt werden. Allerdings wird auch hier häufige Wiederholung der Schlüsselwörter von den Suchdiensten als »spamming« betrachtet und entsprechend durch nicht Beachtung bestraft. Bei weitergehenden Verfahren der Bildersuche werden Grafiken, die Bestandteil von Webseiten sind, auf textuellen Inhalt hin untersucht und einer optische Zeichenerkennung (OCR - Optical Character Recognition) unterzogen. Diese Verfahrensweise entspricht der Erkennung von Textzeichen in mittels Scanner erfassten Textdokumenten. Frames Wie bereits erwähnt haben Suchmaschinen mit der korrekten Verarbeitung von Frame-basierten Webseiten häufig Schwierigkeiten. Die Frames werden zwar von den Suchmaschinen indexiert, können jedoch nicht richtig wiedergegeben werden. Will man dennoch nicht auf Frames verzichten, sollte man deshalb verschiedene Aspekte bei der Gestaltung berücksichtigen. Eine Möglichkeit ist die Verwendung von Metatags auf der Masterseite des Framesets. Allerdings unterstützen nicht alle Suchmaschinen Metatags. Suchmaschinen lesen aber den Noframe-Bereich. Suchdienste, die keine Metatags beachten, z. B. Google, stellen sogar den Text im Noframes-Bereich in der Ergebnisliste dar. Sätze wie "Ihr Browser unterstützt keine Frames" sind da wenig hilfreich. Der Text sollte vielmehr möglichst aussagekräftig sein und relevante Schlüsselwörter und Links auf Seite 35 von 85 SPRINT – Suche im Internet die anderen Seiten der Homepage enthalten. Fehlen Links, haben Suchmaschinen keine Möglichkeit, für die Indizierung auf die anderen Seiten des Webauftritts zuzugreifen. Selbst wenn Suchmaschinen mit Frames umgehen können, gibt es möglicherweise Probleme. Jeder Frame wird von der Suchmaschine als separate Seite betrachtet und dem Benutzer auch so angezeigt. Es sollten daher in jedem Frame Links zum vollständigen Frameset vorhanden sein. Cloaking Der Begriff "Cloaking" stammt aus dem englischen und bedeutet eigentlich verhüllen. Im Zusammenhang mit der Suche im Internet spricht man von Cloaking, wenn zwei oder mehr verschiedene Versionen einer Homepage existieren. Das bedeutet, dass eine oder mehrere Seiten für die Roboter der Suchmaschinen optimiert sind und dass gleichzeitig eine „normale Version“ für die Benutzer vorliegt. Die Version für die Suchmaschinen dient dazu, eine bessere Platzierung im Ranking zu erzielen und kann beispielsweise mit relevanten Suchbegriffen versehen sein. Auf gestalterische Elemente wie Frames usw. wird verzichtet. Wenn die Ranking-Algorithmen der Suchmaschinen bekannt sind, kann für jede Suchmaschine eine eigene, optimierte Version erstellt werden. Dieses Verfahren funktioniert, weil sich Suchmaschinen bei der Indexierung entgegenkommenderweise zu erkennen geben, um dem Homepage-Anbieter zu ermöglichen, die Anfragen von Suchdiensten zurückzustellen und zuerst die Anfragen der regulären Besucher zu bearbeiten. Für den Anbieter einer Homepage hat Cloaking zwei Vorteile. Zum einen kann die Positionierung im Ranking der Suchmaschinen verbessert werden, ohne dass in der Version für den Benutzer Abstriche bei der Gestaltung gemacht werden müssen. Zum anderen wird verhindert, dass der Besucher über den Seitenquelltext Zugriff auf Informationen über Metadaten und andere verwendete Optimierungstechniken erhält. Das ist vor allem relevant, wenn miteinander konkurrierende Unternehmen Internetauftritte erstellen. Allerdings besteht auch hier die Gefahr des Missbrauchs. Die Suchbegriffe auf der für die Suchmaschine bestimmten Seite müssen nichts mit dem eigentlichen Inhalt der Homepage, welche der Benutzer zu sehen bekommt, zu tun haben. Besucher können also gewissermassen unter Vorspiegelung falscher Tatsachen auf eine Seite „gelockt“ werden. Bei Suchmaschinen ist diese Technik daher wenig beliebt und sie versuchen, dem entgegenzuwirken. Wenn sie auf einen Fall von Cloaking aufmerksam werden, können die entsprechenden Seiten dauerhaft aus dem Index entfernt werden. Deshalb spricht man auch von Spam. 4.8.3 Spam in der Suchmaschine Im Zusammenhang mit Suchmaschinen werden Webseiten, die eine grosse Menge von Wörtern beinhalten, die nicht in erster Linie für den Besucher bestimmt sind, als "Spam" bezeichnet. Diese Wörter dienen lediglich dazu, die Position im Ranking der Suchmaschinen zu verbessern. Durch „spamming“ wird versucht, die Ranking-Algorithmen der Suchmaschinen zu überlisten. Verständlicherweise sind Suchdienste nicht daran interessiert, solche Seiten in ihren Index aufzunehmen. Allerdings ist nicht einheitlich festgelegt, was als Spam betrachtet wird. Vielmehr hat jede Suchmaschine ihre eigenen Richtlinien. Auch die Vorgehensweise unterscheidet sich. Manche Suchmaschinen werden erst auf Beschwerden von Benutzern hin aktiv und verlassen sich im Übrigen auf die abschreckende Wirkung ihrer Spam-Richtlinien. Andere setzen Spam-Filter ein und versuchen, solche Seiten bereits im Vorfeld zu entdecken und gar nicht erst in den Index aufzunehmen. Wird ein Anbieter erst einmal beim „spamming“ erwischt, führt das im Allgemeinen zur dauerhaften Sperrung der Seite. Da es kein Recht auf Aufnahme in den Index einer Suchmaschine gibt, hat es meist auch keinen Erfolg, dagegen vorzugehen. Vor allem kommerzielle Anbieter sollten alles vermeiden, was als Spam ausgelegt werden könnte. Obwohl die Richtlinien, wie schon erwähnt uneinheitlich sind, gibt es einige Praktiken, die von den meisten Suchmaschinen als Spam betrachtet werden. Dazu gehören: Cloaking: Diese Technik führt, wenn es entdeckt wird, meist zur Sperrung der Seite. Zur Enttarnung des Cloakings senden einige Suchmaschinen inzwischen mehrere Spider aus: eine offizielle, die sich als Suchmaschine zu erkennen gibt und eine andere, die sich wie ein normaler Benutzer anmeldet. Seite 36 von 85 SPRINT – Suche im Internet Texte oder Wortpassagen werden für Besucher unsichtbar gemacht: Da kein Benutzer glücklich wäre, wenn zeilenweise die gleichen Schlüsselwörter auftauchen, wird der Text auf der Seite „versteckt“. Dazu kann beispielsweise der Text die gleiche Farbe wie der Hintergrund haben. Dabei wird der Text vor einem unruhigen Hintergrund dargestellt und ist daher für den Besucher nicht sichtbar. Oder der Text ist so klein, dass ihn das menschliche Auge nicht wahrnehmen kann usw. Häufige Wiederholung desselben Schlüsselwortes: Dies kann vor allem in den Elementen der Webseite vorkommen, die der Browser nicht anzeigt, z. B. Alt-Text einer Grafik und Meta-Tags. Häufige Wiederholung desselben Schlüsselwortes im Seitentext: Je nach Suchmaschine wird eine Wiederholungsrate des Schlüsselworts von 1 -7% akzeptiert. Nicht als Wiederholung zählen dagegen verschiedene Variationen eines Schlüsselwortes z. B. Singular/Plural, Substantiv/Adjektiv oder diverse zusammengesetzte Begriffe. Schlüsselwörter, die nichts mit dem Thema zu tun haben: Dabei werden meistens Wörter, nach denen bekanntermassen häufig gesucht wird, in die Metatags aufgenommen. Bei rein maschineller Indizierung ist diese Form des „spamming“ nur sehr schwer aufzudecken. Für die Suchmaschine optimierte Weiterleitungsseiten: Dies sind Seiten, mit denen der Besucher nichts anfangen kann, die ihn aber sofort zur eigentlichen Homepage weiterleiten. Solche Seiten werden, wenn sie entdeckt werden, aus dem Index gestrichen. Linkfarmen: Linkfarmen bestehen aus einem Netzwerk stark miteinander verlinkter Seiten. Einziges Ziel der Links ist es, die Linkpopularität zu erhöhen. Mehrfachanmeldung einer Webseite unter verschiedenen URLs: Bei der redaktionellen Begutachtung fällt es im Allgemeinen auf, wenn eine Seite mehrmals auftaucht. Die Konsequenz daraus ist, die Streichung aller Seiten. Abbildung 10: Anmeldungsprozess einer Website 4.8.4 Anzeige und Sortierung der Suchmaschinentreffermenge Hat ein Benutzer eine Suchanfrage abgeschickt, so wird ihm relativ schnell das Ergebnis in Form einer Trefferliste präsentiert. Wie bereits erwähnt, halten sich die Betreiber hinsichtlich der Methoden ihrer Relevanzbeurteilung bedeckt. Nach den vorhandenen Informationen zu urteilen, werden aber neben statistischen Methoden, wie der Häufigkeit der Suchbegriffe auch Verfahren angewandt, welche Dokumente mit vielen Referenzverweisen stärker berücksichtigt. Auch durch die Verschmelzung von roboterbasierten Verfahren und WWW-Katalogen ergeben sich Synergieeffekte bezüglich der Relevanzberechnung: Dokumente, die auch im Katalog verzeichnet sind, bekommen einen höheren Relevanzgrad. Manche Suchmaschinen erlauben auch die Sortierung der Trefferliste nach Kriterien wie Dokumentengrösse, Alter des Dokuments oder nach Servern. Die Sortierung nach Servern (z. B. bei Excite und Lycos) bietet eine Erleichterung der Relevanzbeurteilung für den Benutzer. Denn typischerweise befinden sich auf einem Server meist gleichartige Dokumente. So genügt es oft, nur Seite 37 von 85 SPRINT – Suche im Internet noch wenige Dokumente pro Server zu betrachten, um die Relevanz der zugehörigen Web-Site zu beurteilen. Fortgeschrittenere Verfahren der Relevanzbeurteilung und der Positionierung im Ranking werden möglich durch die Nutzung von Informationen, die sich aus der Hyperlink-Struktur vernetzter Dokumente gewinnen lassen. Neben der Anzahl eingehender Verweise (Backlinks) und abgehender Verweise (Forward Links) kann auch die Qualität der Seite, von welcher der Link ausgeht, in die Berechnung einer hyperlinkbasierten Relevanz einbezogen werden. So können Dokumente, die nur wenige Verweise von einer qualitativ hochwertigen und mit entsprechend hohem Relevanzurteil bedachten Seite aufweisen (z.B. aus einem manuell erstellten Katalog) auch für die Seite, auf die verwiesen wurde, zu einem höheren Relevanzwert führen als eine grosse Anzahl von Verweisen, die von Seiten mit geringerer Qualität ausgehen. Diese Verfahrensweise findet bspw. Anwendung bei dem von Google entwickelten Verfahren PageRank, bei dem neben konventionellen, statistischen Grössen des Information Retrieval für die Berechnung der Rankingposition eines Trefferdokuments auch eine hyperlinkbasierte Relevanzkomponente durch die Suchmaschine genutzt wird. Darüber hinaus wird dabei durch die Suchmaschine sogar auch der Text der Hyperlinks beziehungsweise der Text im Umfeld von Hyperlinks nutzbar gemacht, um weitere Anhaltspunkte für die Relevanz der Dokumente zu erhalten. Dieser Text wird auch für die Relevanzbeurteilung des Dokuments, welche diese Links enthält, höher gewichtet als andere Terme. Anzeige durch Visualisierung Unter Visualisierung versteht man den Einsatz computergestützter interaktiver, visueller Repräsentation von Daten, welche die Erkenntnis fördern soll. Visualisierungen dienen also dazu, komplexe Sachverhalte und Datenstrukturen in einer Form darzustellen, die es dem Anwender ermöglicht, Zusammenhänge zu erkennen und daraus ein Fazit abzuleiten. Um dies zu ermöglichen, werden die Rohdaten zunächst durch verschiedene Techniken wie Interpolation, Sampling oder Clustering aufbereitet (Data Preparation und Filtering). Anschließend wird in Abhängigkeit zur Datenstruktur eine geeignete Visualisierungstechnik gewählt, wobei die darzustellenden Attribute wie beispielsweise Position oder Farbe zugeordnet werden (Mapping). Danach werden die Daten gerendert, so dass ein Bild entsteht. Dieser dreistufige Vorgang (Filtering, Mapping, Rendering) wird als Visualisierungspipeline bezeichnet. Zusätzlich wird das Interaktionsdesign festgelegt, wo also der Nutzer die Datenausgabe, respektive die Visualisierung, manipulieren kann. Während Visualisierungen noch vor wenigen Jahren nahezu ausschließlich in der Forschung eingesetzt wurden, nimmt ihre Popularität heutzutage nicht zuletzt durch den vermehrten Einsatz im Bereich des Business Intelligence zu. Visualisierungen haben sich zu einem Trend entwickelt, der bereits in zwei bis fünf Jahren die Produktivitätsphase erreicht und sich auf dem Markt als gewinnbringende Technologie durchsetzen wird. Auch in Web2.0-Anwendungen haben Visualisierungen, begünstigt durch Technologien wie Flash, Flex und Ajax, Einzug gehalten und werden dort immer häufiger eingesetzt. Einsatz von Visualisierung im Web-Retrieval Eine Vielzahl an Studien legt nahe, dass neben den bereits auf dem Markt etablierten WebSuchmaschinen, die in der Regel textbasierte Ergebnislisten ausgeben, künftig vermehrt Systeme entwickelt werden, die mit neuen, innovativen Nutzerschnittstellen den Anwender in der Interaktion mit den Suchsystemen unterstützen werden. Grundlage für diese Prognose sind neben der kontinuierlich anwachsenden Datenmenge und komplexität im Internet die gestiegenen Nutzerbedürfnisse im Bereich des explorativen Information Retrieval. Hierbei bildet nicht eine gezielte Fragestellung (Keyword Search) den Ausgangspunkt für einen Suchprozess, sondern der Suchende besitzt ein allgemeines Interesse zu einem Thema, wofür er den Kontext und weiterführende Informationen zu einer vage definierten Fragestellung ermitteln möchte. Insbesondere in diesem Kontext kommen Visualisierungen bei Web-Suchmaschinen deutlich zum Tragen, da sie die Exploration durch Anwender unterstützen und sich zur Darstellung komplexer Zusammenhänge sowie großer Datenmengen eignen. Während man noch vor wenigen Jahren lediglich wenige Suchmaschinen mit alternativer Ergebnispräsentation fand, gibt es heutzutage bereits eine Vielzahl an Systemen, die Visualisierungen und ausgefeilte Interaktionstechniken zur Anpassung von Ergebnissen oder Suchanfragen auf Grundlage visueller Oberflächen einsetzen und sich auf diese Weise auf dem Markt von den Mitbewerbern abzugrenzen versuchen. Es handelt sich dabei sowohl Seite 38 von 85 SPRINT – Suche im Internet um Anbieter frei zugänglicher Web-Suchmaschinen, als auch um Provider kostenpflichtiger Fachinformationen. Als Ergänzung zu gängigen textbasierten Listenausgaben der Ergebnisse, wie sie bei den bekannteren Suchmaschinenanbietern wie Google, Yahoo oder MSN üblich sind, werden unterschiedliche Visualisierungsmethoden zur Repräsentation der Ergebnisobjekte eingesetzt, die zu einer Verbesserung der Suchqualität führen sollen. Ziel ist es, im Vergleich zu gängigen text- und listenbasierten Darstellungen von Suchergebnissen anhand der Visualisierungen einen informationellen Mehrwert zu schaffen, der den Nutzer dabei unterstützt, sein Informationsbedürfnis zu decken. In der Regel werden beim Einsatz von Visualisierungskomponenten die Retrievalergebnisse nicht in Listenform dargestellt, sondern Ergebnisräume geschaffen, die sich beispielsweise durch Clustering auszeichnen oder Relationen zwischen den gefundenen Dokumenten graphisch darstellen. Grundsätzlich sind ganz grob zwei unterschiedliche Typen von Suchmaschinen mit Visualisierungen zu unterscheiden: Zum einen Suchmaschinen, bei denen eine Visualisierungskomponente allgemein dazu dient, dem Nutzer eine Hilfestellung im Retrievalprozess zu bieten – also beim Auffinden relevanter Dokumente und Daten, beispielsweise durch eine in Cluster unterteilte Ergebnisraumdarstellung, oder eine Unterstützung bei der Spezifizierung einer Suchanfrage. Die andere Art hingegen ist hinsichtlich ihrer Zielsetzung spezifischer und dient einem ganz konkreten – zumeist etwas enger gefassten - Zweck, der durch eine Visualisierungskomponente ermöglicht wird (beispielsweise die Darstellung geographischer Bezugspunkte zu Treffermengen oder eine Visualisierung zeitlicher Aspekte). Bei dieser zweiten Art ist der Typ der eingesetzten Visualisierung entscheidend („was wird visualisiert?“ und „wie wird visualisiert?“). Dies ist auf die Eigenschaft von Visualisierungen zurückzuführen, jeweils auf einen konkreten und spezifischen Anwendungskontext optimiert zu sein: Üblicherweise sind diese sehr domänen- und aufgabenspezifisch und unterscheiden sich somit massiv je nach Einsatzort und –zweck. Obwohl bisher eine Vielzahl an Ordnungssystemen und Klassifikationen für Visualisierungsmethoden und auch Taxonomien für Information Retrieval-Verfahren entwickelt wurden, hat sich in Bezug auf Retrievalsysteme mit Visualisierungskomponenten bis anhin noch keine allgemeingültige Kategorisierung der Anwendungen durchgesetzt. Diesen Anspruch erhebt auch das dieser Text nicht, dennoch werden zur groben Systematisierung und besseren Übersicht folgende Kategorien bei der Vorstellung konkreter Visualisierungsansätze unterschieden 6 : Ergebnisvorschau Visualisierung bei Ergebnismengenvergleich Clustering Darstellung/Nachweis von Relationen Visualisierung kollaborativer Komponenten Unterstützung des Nutzers bei der Suchanfragenformulierung bzw. -optimierung Visualisierung zeitlicher und geographischer Aspekte Es ist noch zu erwähnen, dass in verschiedenen Evaluationen bisher der empirische Nachweis weder erbracht noch widerlegt werden konnte, dass Suchmaschinen mit Visualisierungen tatsächlich zu einer Steigerung der Nutzerzufriedenheit oder zu besseren bzw. effizienter ermittelten Suchergebnissen führen. Es lässt sich jedoch eine steigende Anzahl von frei zugänglichen WebSuchmaschinen feststellen, bei denen Visualisierungen eingebunden sind. Zudem bestätigen auch Analysen von Gartner Research die zunehmende Relevanz der Thematik von Retrievalsystemen mit Visualisierungskomponenten. 4.8.5 Kommerzialisierung der Suche im Internet Die Benutzung von Suchmaschinen ist bekanntlich kostenlos. Auch die Anmeldung der eigenen Homepage bei den Suchdiensten war bis zum Ende der 1990er Jahre in der Regel frei. Suchmaschinen finanzierten sich meist über Werbung auf ihren Webseiten, indem z. B. bei Aufruf 6 Diese Ansätze werden im Kapitel 5.10. „Trefferanzeige“ näher erläutert. Seite 39 von 85 SPRINT – Suche im Internet bestimmter Schlüsselwörter entsprechende Werbebanner eingeblendet wurden (Key Word Sponsoring). Im Laufe der Zeit hat sich allerdings gezeigt, dass vor allem erfahrene Internet-Surfer die Bannerwerbung geistig „ausblenden“ und sich nur auf das Wesentliche, die Trefferliste, konzentrieren. Zusätzlich führte der Einbruch der New Economy im Jahr 2000 zum Wegfall vieler Werbekunden. Die Werbeeinnahmen reichten letztendlich nicht mehr aus, um kostendeckend zu arbeiten. So mussten einige Suchmaschinen ihre Dienste einstellen (z. B. Infoseek). Die überlebenden Suchdienste fanden neue Wege der Finanzierung. Im Allgemeinen bedeutet das, dass die Web-Seiten-Anbieter zur Kasse gebeten werden. Inzwischen ist bekannt, dass Benutzer eher einfache Suchstrategien verwenden und sich nur die ersten Ergebnisse der Treffermenge genauer anschauen. Eine gute Positionierung innerhalb der Trefferliste ist daher für den Anbieter einer Homepage wünschenswert. Die Suchdienste haben darin eine neue Einnahmequelle erkannt: Webseiten-Anbieter bekommen bei Paid Placement, Paid Listing die Möglichkeit, sich eine bessere Platzierung in der Trefferliste zu erkaufen. Eine andere Form ist das Keyword Advertising bzw. Suchwort-Vermarktung, wo derjenige zu oberst auf der Ergebnisliste steht, der den höchsten Preis je Klick zu zahlen bereit ist. (Buschmann, 2008, S. 90) Eine andere Möglichkeit ist die Erhebung von Gebühren bei der Anmeldung (Paid Submission) oder eine häufigere Indizierung der Homepage (Paid Inclusion). Dieses Vorgehen ist unproblematisch, wenn für den Benutzer die bezahlten Einträge deutlich erkennbar sind. Fragwürdig ist es aber, wenn der Benutzer nicht mehr zwischen objektiver Ergebnisliste und Werbung trennen kann. Eine Linksammlung mit Artikeln zur Kommerzialisierung der Suche bietet Searchenginewatch. Positionsersteigerung (Paid Placement, Paid Listing) Abbildung 11: Positionsersteigerung Dass sich die bekannteren Suchdienstbetreiber für die höhere Positionierung von Web-Seiten von deren Anbietern bezahlen lassen, wird schon lange gemunkelt. Es gibt jedoch auch Anbieter, die das offiziell machen: Der US-amerikanische Suchdienst "GoTo" (neu Overture) war der erste Anbieter, der Suchbegriffe vermarktet hat. Dabei handelt es sich um eine Veräußerung von Suchbegriffen in einer Art Versteigerung: Der Meistbietende wird bei der Suche nach dem gekauften Begriff im Ranking der Treffermenge an die erste Position gesetzt. Die zweite Position erhält derjenige mit dem zweitbesten Angebot usw. Die Gebühr wird meistens erst dann fällig, wenn der Link in der Trefferliste tatsächlich angeklickt wird ("Pay per Click"). Der Kaufbetrag wird dem suchenden Benutzer in der Trefferliste offen angezeigt. Auch im deutschsprachigen Bereich gibt es vergleichbare Anbieter: Qualigo. Dieses zunächst sehr befremdlich wirkende System weist inzwischen vor allem im B2B-Bereich gewisse Erfolge auf: Unternehmen, die dafür bezahlen, um in Trefferlisten ganz weit oben zu stehen, haben meist ein seriöses Interesse, ihre Produkte zu vermarkten beziehungsweise Kundenund Geschäftsbeziehungen aufzubauen. Dass dafür auch nur die tatsächlich branchenrelevanten Begriffe gekauft werden, liegt schon auf Grund der damit verbundenen Kosten auf der Hand. Durch die Offenlegung der Kaufbeträge der auf der Trefferliste referenzierten Anbieter kann der Seite 40 von 85 SPRINT – Suche im Internet Informationssuchende zumindest sehen, wie viel es dem jeweiligen Unternehmen wert ist, bei dem gesuchten Begriff ganz vorne zu stehen. Der Nachteil dieses Verfahrens für den Homepage-Anbieter liegt in den unter Umständen hohen, laufenden und nicht unmittelbar kontrollierbaren Kosten. Bei "Pay per Click" wird beispielsweise der Kaufbetrag bei jedem Klick auf den Link in der Trefferliste fällig. Egal, ob dadurch ein Geschäft zustande kommt oder nicht. Natürlich werden hierbei Manipulationsversuche wie z.B. gezieltes häufiges Anklicken eines Treffers mittels spezieller Methoden erkannt. Paid Submission und Paid Inclusion Normalerweise werden die Webseiten vor der Registrierung in einem Verzeichnis oder im Index einer Suchmaschine redaktionell begutachtet. Das kann mehrere Wochen dauern. Ist eine Homepage einmal aufgenommen, wird sie in regelmässigen Abständen neu indiziert und somit aktualisiert. Natürlich ist klar, dass es für den Anbieter vorteilhaft ist, wenn seine Seite schnell aufgenommen und häufig aktualisiert wird. Mittlerweile ist es vor allem bei Webverzeichnissen und -katalogen üblich, eine Gebühr für die Bearbeitung der Anmeldung zu erheben. Dieses System bezeichnet man als "Paid Submission". Je nach Zahlungswilligkeit des Anbieters kann dadurch auch die Bearbeitungszeit der Anmeldung verkürzt und eventuell die Frequenz der späteren Aktualisierung erhöht werden. Im Gegensatz zur Positionsersteigerung wird dem Anbieter einer Webseite aber keine bestimmte Position im Ranking zugesichert. Der Betreiber behält sich zudem vor, die Seite trotz Bezahlung abzulehnen. Unter welcher Rubrik ein Katalogeintrag erfolgt, entscheidet ebenfalls die Redaktion. Beim Webkatalog Yahoo wurde in der Vergangenheit die Gebühr bereits schon allein für die Begutachtung einer Homepage fällig ("Pay for Consideraton"). Etwas anders ist die Situation bei den Suchmaschinen. Die Anmeldung ist in den meisten Fällen auch heute noch kostenlos. Verschiedene Suchmaschinen bieten allerdings gegen Gebühr eine schnellere Bearbeitung der Anmeldung, garantierte Registrierung im Index und manchmal auch häufigere Aktualisierung an. Zudem werden meist mehr Seiten einer Homepage aufgenommen. Zwar wird dem Webseiten-Anbieter auch hier keine bestimmte Position im Ranking der Suchmaschine zugesichert, aber wenn mehr Seiten indiziert sind, erhöht sich die Wahrscheinlichkeit, dass eine Seite gefunden wird. Ebenso kann sich dadurch die Position in der Trefferliste indirekt verbessern. Dieses Verfahren ist in gewissem Sinn ein Spezialfall der Paid Submission und wird als "Paid Inclusion" bezeichnet. Beispielsweise wurde dieses Prinzip in der Vergangenheit von AltaVista angeboten. AltaVista hat dieses Angebot jedoch eingestellt, es werden nur noch bestehende Kunden bis zum Ablauf ihrer Verträge bedient. Beim Einsatz dieser Verfahren hat der Benutzer das Problem, dass er in der Regel nicht erkennt, welche Webseiten auf normalem Weg angemeldet wurden und welche Homepages gegen Bezahlung aufgenommen wurden. Bei entsprechend sorgfältiger redaktioneller Begutachtung kann zwar die Einschlägigkeit der Ergebnisse sichergestellt werden, aber der Benutzer erhält keine objektive Trefferliste mehr. Suchmaschinenoptimierung (SEO) Suchmaschinen sind für Unternehmen zunehmend Vermittler von Angebot und Nachfrage geworden. „Sie unterstützen den Nutzer bei der Ermittlung von für ihn relevanten Informationen, Dienstleistungen und Produkten.“ (Buschmann, 2008, S. 90) Somit ist es verständlich, dass Portale und andere Homepageanbieter aktive Suchmaschinenoptimierung betreiben. Da die Konkurrenz inzwischen sehr gross ist, garantieren technische Optimierungen nicht eine hohe Platzierung in den Suchergebnissen einer Suchmaschine. (Buschmann, 2008, S. 90) Diese Möglichkeit der Platzierung innerhalb der Suchergebnisse ist die Optimierung des eigenen Angebotes einer Unternehmung hinsichtlich der Platzierung innerhalb des natürlichen Rankings einer Suchmaschine. Als Grundlage dient als Erstes eine Keywordanalyse, wodurch ermittelt wird, welche Begriffe und Wort-Kombinationen ein User in die Suchmaschine eingibt. Weiter üben die Themen Design/Layout, HTML-Coding/Content Management und die Redaktion einen weiteren Einfluss auf den Erfolg von SEO-Massnahmen. Darüber hinaus sollte die „Usability“ (Bedienbarkeit aus Sicht des Nutzers) sowie die Verständlichkeit von Webseiten für die Suchmaschinen miteinbezogen werden. (Buschmann, 2008, S. 96) SEO nimmt zudem unmittelbar Einfluss auf die Gestaltung eines Portals, denn für die Suchmaschinen sind Flash- und Java-Anwendungen unantastbar und hinderlich. Daher muss überprüft werden, inwieweit diese Darstellung mit HTML oder DHTML (dynamic HTML) realisiert werden können. Seite 41 von 85 SPRINT – Suche im Internet Als weitere Optimierung sieht SEO vor, dass viel verwendete Suchbegriffe in der Hauptnavigation erscheinen, da sie dort verstärkt relevant auftreten und von Suchmaschinen dementsprechend aufgenommen werden. Dies bedingt unter anderem auch, dass möglichst allgemeingültige Begriffe verwendet werden. Letztlich geht es darum, die verwendete Sprache mit den Suchgewohnheiten der Nutzer zu synchronisieren. (Buschmann, 2008, S. 97) Das Portal http://spiele.t-online.de/ ist einer der Vorreiter von SEO bei T-Online. (Buschmann, 2008, S. 98) Suchmaschinenmarketing (SEM) Unter SEM (Suchmaschinenmarketing) versteht man die Platzierung von kommerziellen Ergebnissen (Sponsored Links) in Suchergebnissen (bei Google: Adsense for Search) und Content Angeboten (Adsense for Content) aus der Sicht des Werbetreibenden. Bei diesem Verfahren werden relevante Keywords und Platzierungen innerhalb einer Suchergebnisseite gebucht. Dabei gilt, je höher die Platzierung und damit die Visibilität, desto höher der Preis pro Klick („Pay per Click"). Die gute Platzierung kann jedoch nur so lange gewährleistet werden, bis das Budget des Werbetreibenden aufgebraucht ist. Somit ist diese Form von Werbung besonders gut kalkulierbar, was die ausserordentliche Beliebtheit und den Erfolg im Markt erklärt. (Buschmann, 2008, S. 94) Das Keyword Advertising nimmt laut OVK-Prognose im Jahr 2007 ca. 46% des gesamten OnlineWerbevolumens ein. Dieser Erfolg schliesst darauf, dass Keyword Advertising deutlich bessere Chancen bei Transaktionen, Abverkauf und Downloads aufweisen als andere Verlinkungen, wie Banner, Affiliate Marketing und Preisvergleiche. (Buschmann, 2008, S. 95) Banner werden, wie zu Beginn dieses Kapitels erwähnt, von den Benutzern „geistig“ ausgeblendet. Seite 42 von 85 SPRINT – Suche im Internet 4.9 Spezialsuchmaschinen „Websuchmaschinen indexieren zwar z.T. viele Milliarden Dokumente, erfassen damit aber derzeit nur einen Teil des Internet. Dabei sind die erfassten Ressourcen inhaltlich, strukturell und qualitativ sehr heterogen, so dass trotz der hohen Abdeckung und der oben dargestellten aufwändigen Sortiermechanismen eine hohe Unsicherheit bezüglich der Vollständigkeit und Qualität der Ergebnisse besteht. Hinsichtlich der Repräsentation der indexierten Objekte ist festzuhalten, dass diese meist nur einen geringen, je nach Dokumenttyp auch unterschiedlichen Strukturierungsgrad aufweisen und dass, sofern vorhanden, Metadaten nicht a priori als verlässlich einzustufen sind. Nicht zuletzt aus diesem Grund weisen Suchmaschinen nur rudimentäre Optionen zur Suchraumbegrenzung auf: meist Dateiformat, Domain, Datum, Sprachraum, Region. D.h. es bestehen erhebliche Defizite bzw. nur geringe Möglichkeiten zur Durchführung strukturierter Anfrageformulierungen. Speziell auf einen bestimmten Gegenstandsbereich fokussierte oder dokumenttypbezogene Spezialsuchdienste sind in ihrer Domäne wesentlich mächtiger, da sie in der Lage sind, spezifische, auf ihren jeweiligen Kontext bezogene Funktionalitäten bereitzustellen. Diese (…) versuchen damit, die Schwächen von Universalsuchdiensten zu kompensieren bzw. eröffnen zusätzliche Suchoptionen. Im Folgenden wird ein Überblick über wichtige Spezialsuchdienstetypen gegeben. Es handelt sich um: News & Blogsuchmaschinen Wissenschaftssuchmaschinen Online-Datenbanken (Multi-)Mediasuchdienste Einsatz von Visualisierungskonzepten Damit wird die bisherige Darstellung „allgemein“ ausgerichteter Suchdienstetypen durch die wichtigsten speziellen Suchdienstetypen ergänzt.“ (Griesbaum et al., 2008, S. 31) 4.9.1 News & Blogsuchmaschinen „News und Blogsuchmaschinen zielen darauf, aktuelle Inhalte verfügbar zu machen. Während Newssuchmaschinen klassische journalistische Nachrichten, i.d.R. erstellt von professionellen Fachleuten bzw. Agenturen, fokussieren, versuchen Blogsuchdienste die Inhalte der Blogosphäre, d.h. der Community aller Blogs zu erschließen, welche oftmals oder überwiegend von Privatpersonen, Firmen oder Organisationen verfasst werden. Kern der News- oder Nachrichtensuchmaschine stellt ein gesonderter Index dar. Dieser kann zum einen aus einem Teilbestand des Webindex aufgebaut werden, indem spezielle Nachrichtenwebseiten, z.B. Tageszeitungen, hochfrequent, etwa im Minutentakt, „gecrawlt“ werden. Ergänzend oder alternativ ist es möglich, Nachrichtenbestände zu kaufen, d.h. z. B. bei Nachrichtenagenturen (Feeds) zu erwerben und zu indexieren. Insbesondere im letzten Fall ist es für die Suchmaschine besonders einfach, aus den bereits vorstrukturierten Feeds den Zeitpunkt der jeweiligen Nachricht zu extrahieren, während dies bei selbstständig indexierten Webseiten aufwändiger ist und bspw. durch speziell angepasste (halb)automatische Extraktionsheuristiken vorgenommen werden kann. Auf dieser Grundlage ist es für Newssuchmaschinen möglich, zeitbasierte Sortier- und Anfragekriterien bereitzustellen. Im Unterschied zu den bei Newssuchdiensten speziell ausgewählten Nachrichtendiensten fokussieren Blogsuchdienste die Inhalte der Blogosphäre. D.h. sie zielen auf den Teil des Web, dem eine besonders hohe Aktualität zugeschrieben wird und dessen Inhalte quasi von jedermann generiert werden können. Aus der Perspektive einer Suchmaschine weisen Blogs im Vergleich zu Standard-HTML-Seiten meist die Besonderheit auf, dass die Inhalte auch in Form strukturierter XML-Formate (RSS-Feeds) bereitgestellt werden. RSS-Formate sind strukturell ähnlich oder gleich den Feeds, die von Suchmaschinen bei Nachrichtenanbietern erworben werden können. D.h. sie sind wesentlich einfacher und einheitlicher aufgebaut als HTML-Seiten mit ihrer Vielzahl unterschiedlicher, oft komplex ineinander geschachtelter Tags. Deshalb kann auch hier u.a. das Erstellungsdatum einzelner Blogbeiträge relativ einfach extrahiert werden. Aus diesem Grund ist es Blogsuchmaschinen wie z.B: „Google Blog Search“ oder „Ask.com Blog Search“ möglich, zusätzlich eine Sortierung nach Datum vorzunehmen bzw. es dem Nutzer zu gestatten, Datumsbereiche mit einer hohen Genauigkeit zu durchsuchen. Die folgende Abbildung zeigt diese Optionen auf der Trefferseite von „Google Blog Search“. Seite 43 von 85 SPRINT – Suche im Internet Abbildung 12: Google Blog Search Festzuhalten bleibt: News- und Blogsuchmaschinen bieten also nicht nur den Zugriff auf einen Teilbestand des Web, dem eine besonders hohe Aktualität zugeschrieben wird, sondern erlauben zugleich strukturiertere Anfragen als universell ausgerichtete Websuchmaschinen.“ (Griesbaum et al., 2008, S. 32) 4.9.2 Wissenschaftssuchmaschinen „Wissenschaftssuchmaschinen zielen darauf, wissenschaftliche Texte systematisch zu erschließen. Ähnlich Nachrichtensuchdiensten weisen Wissenschaftssuchmaschinen oftmals einen hybriden Index auf. D.h. der Datenbestand dieser Dienste besteht zum einen aus einem Subset des Webindex, der z. B. aufgrund von Dokument- und/oder Domaintyp sowie anderen Kriterien als wissenschaftlich eingestuft wird, zum anderen werden z. T. auch Inhalte von Verlagspartnern in den Index eingespeist. Wissenschaftssuchmaschinen können als Mischform einer Volltextsuchmaschine (Webdokumente) und Referenzdatenbank betrachtet werden, die Sekundärinformationen zu Veröffentlichungen, teilweise auch die korrespondierende Volltexte, verfügbar macht. Damit ermöglichen Wissenschaftssuchmaschinen zumindest teilweise auch den Zugriff auf nicht-indexierbare Wissensbestände des Deep Web. Der Volltextzugriff ist je nach erfasster Quelle z. T. kostenpflichtig bzw. nur nach einem Login möglich. Auch wenn die jeweiligen Standardsuchmasken von Wissenschaftssuchmaschinen zunächst häufig wenig Unterschiede zu denen von Universalsuchmaschinen zeigen, versuchen wissenschaftliche Suchmaschinen strukturierte Anfrageoptionen bereitzustellen. (…) Hier [ist] vor allem die Suche nach Autoren relevant. Des Weiteren werden z. B. in Google Scholar auch teilweise Textzitate analysiert und ähnlich der Websuche eine Möglichkeit zur Zitationssuche angeboten. Folgende Abbildung der „Advanced Search“ der Wissenschaftssuchmaschine Scirus zeigt das Bemühen, ähnlich Fachdatenbanken über vielfältige Optionen zur Suchraumeingrenzung präzise Suchanfragen zu ermöglichen." (Griesbaum et al., 2008, S. 33ff.) Seite 44 von 85 SPRINT – Suche im Internet Abbildung 13: Suchoptionen in Scirus.com (Quelle: Griesbaum et al., 2008, S. 35) "Wissenschaftsuchmaschinen stellen einen interessanten Ansatz dar, die Suche nach wissenschaftlichen Dokumenten in Form von Websuchmaschinen umzusetzen. Die Tauglichkeit für die Zielgruppe ist derzeit aber deutlich eingeschränkt. Die Suchoptionen sind gerade im Vergleich zu Fachdatenbanken bzw. den Rechercheoptionen bei Online-Hosts eher marginal. Insbesondere ist es nur begrenzt möglich, Suchanfragen weiter zu verarbeiten bzw. mit Hilfe einer Suchhistorie unterschiedliche Anfragen komplex miteinander zu verknüpfen. Auch hinsichtlich der Abdeckung stellen Wissenschaftssuchmaschinen derzeit keine Alternative zu bibliografischen Datenbanken dar. Wissenschaftssuchmaschinen eignen sich deshalb für eher explorative Kontexte, bei denen die Vollständigkeit und Genauigkeit der Suche von untergeordneter Bedeutung ist – beides ist typischerweise bei der Suche nach wissenschaftlicher Literatur nicht der Fall. Ebenso wie Websuchmaschinen stellen sie auch eine Möglichkeit dar, um schnell und kostengünstig an die Volltexte wissenschaftlicher Artikel zu gelangen. Als Alternative zu den thematisch unspezifischen Wissenschaftssuchmaschinen wie Google Scholar bietet sich im deutschsprachigen Raum das von den überregionalen Fachinformationseinrichtungen und wissenschaftlichen Bibliotheken getragene Wissenschaftsportal Vascoda an. Dort können unter einer einheitlichen Oberfläche wahlweise fachspezifisch oder interdisziplinär Inhalte gesucht werden. Der Einsatz moderner Suchmaschinentechnologie sowohl bei Vascoda selbst als auch bei den Partnern erlaubt eine strukturierte Suche über eine Vielzahl verschiedenster Datenbestände, wie Fachdatenbanken, Bibliothekskataloge und Internetquellen. Kennt ein informationssuchender Wissenschaftler das disziplinäre Ziel, so kann er aber auch direkt zu einem der in den letzten Jahren entstandenen Fachportale oder zu einer der virtuellen Fachbibliotheken in Deutschland verzweigen. Als meistgenutzte Portale gelten die virtuelle Fachbibliothek Medpilot zum Themengebiet Medizin und das Fachportal Pädagogik, welches das fachwissenschaftliche Pendant zu dem weiter oben genannten Deutschen Bildungsserver ist.“(Griesbaum et al., 2008, S. 33) 4.9.3 Online-Datenbanken „Die Überschrift Online-Datenbanken steht für eine Vielzahl von Suchdiensten, die thematisch oder dokumenttypbezogen abgegrenzte Wissensobjekte erschließen. Beispiele solcher Datenbanken stellen etwa Literatur-, Fachinformations-, Reise-, Job-, Event-, Film- und Produktsuchdienste dar. Seite 45 von 85 SPRINT – Suche im Internet Innerhalb der jeweiligen Datenbank werden die einzelnen Objekte durch eine Vielzahl von Feldern kategorisiert. Dabei werden z.T. semantisch eindeutige Kriterien (Postleitzahl, Preis, Gewicht, Größe) mit Feldern kombiniert, in denen eine textuelle Beschreibung eingegeben werden kann. Folgende Abbildung veranschaulicht eine solche Struktur anhand der von Google vorgegebenen Kategorien für die Produktsuche. Je nach Struktur können Suchanfragen und -ergebnisse nach den erfassten Kategorien selektiert werden. Die Ergebnissortierung lässt sich zum einen über die Einträge und Werte in den formalen Kategorien vornehmen, zum anderen ist es möglich, in den vorhandenen Textfeldern termbasierte Abgleichsverfahren zu nutzen. Schließlich können zusätzlich auch dokumentexterne Informationen (populärste, meistverkaufte, bestbewertete Produkte) für die Spezifikation der Ergebnisse herangezogen werden. Online-Datenbanken bieten also für und in den jeweiligen Domänen spezifisch zugeschnittene Suchfunktionen, die eine präzise Suche gestatten. Die Vollständigkeit des Ergebnisses ist dabei von der Abdeckung des jeweiligen Anbieters abhängig. Oft erschließen derartige Datenbanken Wissensbestände des Deep Web, die durch Websuchmaschinen nicht bereitgestellt werden, da deren Suchroboter i.d.R. keinen Zugriff darauf haben und auch nur unzureichend in der Lage sind, die jeweilige Objektstruktur zu erfassen und recherchierbar zu machen. Die Inhalte der jeweiligen Datenbank werden oftmals von speziellen Anbietern maschinell und manuell zusammengestellt. Häufig ist ein Eintrag in eine derartige Datenbank auch kostenpflichtig. Mit Google Base und Diensten anderer Anbieter, z. B. Freebase, existieren Ansätze, die dahin zielen, eine Vielzahl unterschiedlicher Produkte, Dienstleistungen, Publikationen usw. hochgradig strukturiert in einem Websuchsystem zusammenzuführen. Dabei werden die Daten von Nutzern bereitgestellt bzw. eingetragen. Sofern sich diese Ansätze in den nächsten Jahren etablieren, ist zu erwarten, dass Websuchdienste deutlich strukturiertere und damit genauere Anfrageoptionen ermöglichen, als es bislang der Fall ist.“ (Griesbaum et al., 2008, S. 36) 4.9.4 (Multi)Mediasuchdienste „Standen bislang Textobjekte bzw. die textbasierte Repräsentation von Wissensobjekten im Fokus, so ist festzuhalten, dass sich die Suche nach (bewegten) Bildern und gesprochenem Text bzw. Musik zwar nach wie vor zum Großteil auf objektbeschreibende Texte bzw. erfasste Metadaten stützt, zunehmend mehr aber darauf hinzielt, die Inhalte der Bilder, Filme, Lieder usw. selbst zu berücksichtigen. Die simpelste Form eines Multimediasuchdienstes stellen (…) Tagging Communities wie z.B. Flickr und YouTube dar. In diesen Diensten werden Bilder bzw. Videos primär über die von Nutzern eingetragenen bzw. erzeugten Schlagwörter und Metadaten erschlossen. Suchmaschinen sind in der Lage, neben den in Webdokumente eingetragenen Objekttiteln bzw. alternativen Textbezeichnungen sowie Metainformationen (z.B. Dateityp und Dateigröße) auch Kontextinformationen in Form von Termen, welche die jeweiligen Objekte umgeben oder in Form von Links auf diese verweisen, auszuwerten. Darüber hinaus soll die Google-Bildsuche beispielsweise eine Gesichtserkennungssoftware nutzen, die es gestattet, die Bildersuche auf Gesichter einzuschränken. Die Entwicklung derartiger Technologien steht zwar noch am Anfang, schreitet aber in einem schnellen Tempo voran.“ (Griesbaum et al., 2008, S. 38) 4.9.5 Einsatz von Visualisierungskonzepten "Aktuell kann auf dem Suchdienstemarkt ein steigendes Angebot an Systemen beobachtet werden, die mit spezifischen Visualisierungstechniken experimentieren oder diese schon standardmäßig einsetzen. Die Idee der Informationsvisualisierung im Internet ist dabei keineswegs neu. Schon unmittelbar nach dem großen Durchbruch des World Wide Web Mitte der 1990er Jahre wurden diverse Ansätze erarbeitet, wie man über spezifische graphische Darstellungen bzw. Visualisierung Informationsräume so gestalten kann, dass diese vom Benutzer intuitiver und schneller exploriert werden können. Die zugehörigen Konzepte reichten von einfachen Graphen zur Darstellung der Verlinkung innerhalb von Webseiten bis hin zu Virtuellen Welten, bei denen man versucht, Inhalte auf dreidimensionale Räume abzubilden. Der große Durchbruch blieb jedoch weitgehend aus, die Ideen scheiterten an zu komplexen Technologien und Darstellungen, die zuerst von Anwendern erlernt werden mussten, letztendlich aber dennoch die erhofften Mehrwerte vermissen ließen. Die weiterhin stetig zunehmende Menge an Formen und Inhalten sowie neue technologische Möglichkeiten ließen die Entwicklungen allerdings nicht ruhen, so dass mittlerweile sowohl bekannte als auch ganz neue Visualisierungskonzepte angeboten werden, die im Gegensatz zu vielen früheren Konzepten nicht in spezifischen Seite 46 von 85 SPRINT – Suche im Internet Umgebungen angewandt werden müssen, sondern im Realbetrieb auf entsprechenden Webseiten ausprobiert werden können. Dies führt zunächst einmal zu einer größeren Verbreitung, viel wichtiger aber dazu, dass die Benutzerakzeptanz jetzt verstärkt in Weiterentwicklungen und Verbesserungen einbezogen werden kann. Die aktuellen Einsatzgebiete von Visualisierungen bei Suchmaschinen sind zwar vielfältig, am häufigsten findet man diese jedoch bei der Ergebnisdarstellung. Sowohl die Trefferzahlen als auch die Heterogenität der Treffer sind so hoch, dass ein breiteres intellektuelles Sichten und Auswerten der Ergebnisse auf Nutzerseite bereits bei kleineren Ergebnismengen nicht mehr umsetzbar ist. Der Suchdienst Kartoo bspw. versucht dieser Problematik zu entgegnen, indem eine spezifische Darstellung der berechneten Relevanz und die Relationen zwischen den Trefferdokumenten in einer Art topographischen Landkarte abgebildet werden. Andere Konzepte wie z.B. Grokker stützen sich nicht nur auf die Visualisierung alleine, sondern versuchen den Informationsraum auf Basis von semantisch-lexikalischen Algorithmen zuerst zu strukturieren (im Beispiel über Clustering) und wenden anschließend darauf basierend Visualisierungsformen an, um dies den Benutzern geeignet zu vermitteln. Visualisierungen bei Suchdiensten findet man ferner auch bei der Suchanfragenformulierung bzw. zu deren Verbesserung oder für spezifische Inhaltsformen wie z.B. zeitbezogene oder geographische Bezugspunkte. Der Mehrwert bei der Visualisierung geographischer Bezugspunkte liegt auf der Hand: Weist eine Suchanfrage entsprechende Bezüge wie Firmen-, Orts-, Straßennamen oder gar exakte Adressen auf, lassen sich nicht nur entsprechende Positionen auf Landkarten zur besseren Übersicht darstellen, sondern es können auch interessante Objekte in der Umgebung (z.B. Hotels, Restaurants, Haltestationen) eingeblendet oder zusätzliche Dienste wie eine Routenberechnung angeboten werden. Die Umsetzung dieser Art Geovisualisierung bei Suchdiensten wie z.B. Google Maps, setzt entweder die Verwendung von direkten Geobezugspunkten in einer Suchanfrage (z.B. Orts/Straßennamen) voraus oder basiert auf dem einfachen Abgleich mit Branchendatenbanken (z.B. bei der Suche nach „Pizzeria“), um entsprechende Bezugspunkte zu einer Suchanfrage zu generieren. Viel interessantere Ansätze, bei denen mittels „intelligenter“ Verfahren geographische Zusammenhänge bei Ergebnismengen eruiert und dargestellt werden könnten (wie z.B. bei einer Anfrage nach „Sehenswürdigkeiten in Berlin“), gibt es bei den heutigen Suchdiensten allerdings noch nicht. Es ist festzuhalten, dass Lösungen auf diesem Gebiet nach wie vor nicht ausgereift sind. Zu hoch ist noch der Anspruch an entsprechende Konzepte, eine intuitive Bedienbarkeit oder zumindest einen geringen Lernaufwand zu gewährleisten und gleichzeitig eindeutige Mehrwerte gegenüber den heutigen textlastigen Darstellungsformen zu bieten." (Griesbaum et al., 2008, S. 38ff) 7 4.10 Suchmaschinen-Evaluation Wie in den vorangegangen Abschnitten dargestellt, existieren im Internet eine Vielzahl von Suchmaschinen mit den unterschiedlichsten Eigenschaften und Funktionen. Vermutlich hat jeder Benutzer eigene Kriterien für die Auswahl eines geeigneten Suchdienstes, oder nutzt immer nur die einzige ihm bekannte, z.B. Google. Für diesen Nutzer ist eine Suchmaschinenevaluation nicht nützlich. In der Informationswissenschaft wird aber immer wieder versucht, die Qualität einer Internetsuchmaschine fundiert einzuschätzen. Immer wieder tauchen mögliche Konkurrenten zu Google auf. Da stellt sich die Frage, ob das neue Produkt tatsächlich besser ist und sich ein Umstieg allenfalls lohnen würde. Zudem zeigt die Suchmaschinenevaluation allfällige Verbesserungspotenziale auf. Um eine Suchmaschine umfassend beurteilen zu können, reicht es nicht, die „Qualität“ der Trefferliste zu betrachten. Lewandowski und Höchstötter schlagen vier Dimensionen zum Vergleich vor: die Index-Qualität, die Qualität der Treffer, die Qualität der Recherchemöglichkeiten und die Usability. Weil dieser Ansatz weg von einer rein mathematischen Erhebung geht und den Nutzer mehr in den Mittelpunkt stellt, werden diese 4 Punkte in der Folge behandelt. (Lewandowski/Höchstötter, 2008) 7 Weitere Spezialsuchdienste sind im Kapitel Suchdienste zu finden. Seite 47 von 85 SPRINT – Suche im Internet 4.10.1 Indexqualität Die Relevanz der Ergebnisse hängt natürlich auch von der geschickten Formulierung der Suchanfrage ab. Aber selbst bei gleicher Fragestellung treten Unterschiede zwischen den Suchmaschinen auf. Die Gründe hierfür können vielfältig sein: einen grossen Einfluss hat sicher der unterschiedlich gute Ranking-Algorithmus, doch auch der Aufbau und die Vollständigkeit (Abdeckung des Internets) und Aktualität der Indexierung sind entscheidend. (mehr dazu im Kapitel Aktualisierung und Indexierung) Treffermenge Sicher ist der Umfang einer Trefferliste auf eine Anfrage noch kein Beweis für die Brauchbarkeit des Ergebnisses. Immerhin steigt mit zunehmender Anzahl der Treffer auch die Wahrscheinlichkeit, dass alle relevanten Webseiten enthalten sind. Die Grösse der Liste kann somit als erstes Indiz für ein gutes Anfrageergebnis gewertet werden. Es hat sich herausgestellt, dass die meisten Suchmaschinennutzer maximal die ersten drei Seiten der Trefferliste ansehen. Gemäss einer Studie aus dem Jahr 2006 sehen sich 93% sogar nur die erste Seite an und die Hälfte der Testpersonen klickte auf den ersten Treffer. (Nielsen/Loranger, 2006) Deshalb ist es nicht nur wichtig, dass die Suchmaschine möglichst viele relevante Webseiten findet, sondern, dass diese Treffer auch möglichst weit oben auf der Trefferliste stehen. Eine Webseite, die genau auf eine Suchanfrage passt, von der Suchmaschine auch gefunden wurde, aber Platz 200'367 der Trefferliste belegt, wird wohl kaum je angesehen. Im Internet bestehen mehrere Dienste, die für zwei Suchmaschinen die Anzahl Treffer vergleichen: Langreiter (Yahoo vs. Google) und Thumbshots. Etwas ausgefeiltere Anwendungen zeigen die Anzahl der Überschneidungen in den beiden Trefferlisten an: SearchCrystal. 4.10.2 Retrieval: Qualität der Treffer Wie schon erwähnt, ist nicht die Anzahl, sondern die Relevanz der Ergebnisse entscheidend. Zum einen sollten alle Treffer relevant (Precision: hoch) sein, zum anderen sollten alle relevanten Webseiten in der Trefferliste enthalten (Recall: hoch) sein. Im Internet, wo der Dokumentenraum fast unbegrenzt ist, ist die Evaluation des Recalls, also der Vollständigkeit nicht möglich. Deshalb fokussieren die meisten Studien im Bereich der Websuchdienste auf die Precision. Um die Retrievaleffektivität von verschiedenen Suchdiensten zu messen und zu vergleichen, gibt es zwei Methoden: Makroprecision "Die Retrievaleffektivität der Suchmaschinen bei den einzelnen Suchanfragen (Makropresicion) beschreibt, wie effektiv die Suchmaschinen Informationsbedürfnisse befriedigen“ [3]. Bei diesem Mass wird verglichen, welche Suchmaschine im Vergleich zur anderen mehr relevante Treffer liefert. Dementsprechend werden Rangplätze verteilt. Die meisten Suchanfragen geben eine zu grosse Treffermenge aus und deshalb wird die Relevanz bloss bis zu einem bestimmten Cut-Off-Wert gemessen. Eine sinnvolle Beschränkung können die Treffer der ersten Seite oder der ersten drei Seiten sein. Das entspricht auch dem Nutzerverhalten. (Nielsen/Loranger, 2006) Die Betrachtung von Makroprecision ist rein quantitativer Art. Es lassen sich keine qualitativen Aussagen darüber treffen, sondern es wird bloss die Anzahl relevanter Treffer verglichen. Griesbaum et al. (2002) drücken das so aus: Es ist „ein erheblicher Unterschied, ob eine Suchmaschine eine Suchanfrage, wenn auch eher schlecht, beantworten kann oder nicht.“ Das Messen der Qualität der einzelnen Treffer bzw. der einzelnen Suchanfragen ist ein Problem und eine Lösung ist sehr schwierig zu finden, da alle Bewertungen eine gewisse Subjektivität besitzen. Mikroprecision Bei der Mikromethode wird die Positionierung der einzelnen relevanten (inkl. verweisenden) Treffer untersucht. Damit wird eine Aussage über die Qualität des Rankings gewonnen. Eine aktuelle Studie zur Qualität der Treffer wurde von Lewandowski 2007/2008 durchgeführt. Mit 40 studentischen Juroren wurden die Suchdienste Google, Yahoo!, MSN, Ask.com und Seekport untersucht. Yahoo! Erreicht 48,5% relevante Treffer, Google 47,9%, der Unterschied sei nicht als signifikant zu betrachten. Die Studie befasste sich insbesondere mit den Trefferbeschreibungen. Da Seite 48 von 85 SPRINT – Suche im Internet wurden von Google 60,2% der Beschreibungen als zu relevanten Resultaten führend bezeichnet (Yahoo!: 52,8%). Bei der Frage, ob alle fünf Suchdienste fähig seien, die Suchanfragen mit zumindest einem relevanten Treffer zu beantworten, schnitten nur Google und Yahoo! positiv ab („Ask.com did not answer one query at all, and MSN and Seekport did not answer three queries from our set“ (Lewandowski, 2008a)). Interessante Ergebnisse ergaben auch die Messung der Mikro- und Makroprecision. Bei ersterer sind wiederum Google und Yahoo! führend mit Werten um 0.7 für die ersten drei Treffer. Yahoo! schaffte es 16 Suchanfragen am besten zu beantworten, die Spitzenpositionen teilen sich Google und Yahoo!. Lewandowski stellt fest: „ When looking at the complete result sets (20 results per engine), we see that no single engine is able to answer all queries the best.“ (Lewandowski, 2008a) Abbildung 14: Top 29 Mikroprecision (Lewandowski, 2008a, S. 927) Nachdem diese Studie also gezeigt hatte, dass zwischen Google und Yahoo! kein so grosser Unterschied bezüglich der Trefferqualität besteht, stellt sich die Frage, warum Google trotzdem so grosse Marktanteile bei der Suche im Internet hat. Die Studie schreibt dazu, dass es unter anderem daran liegen könnte, dass Google „by far the largest amount (and the largest ratio) of relevant result descriptions“ liefert (Lewandowski, 2008a). Lewandowski (2007) beschreibt noch einige weitere Massen zur Suchmaschinen-Evaluierung, die allerdings noch im experimentellen Stadium stehen. Es sind dies: Median Measure, Average Distance Measure und Importance of completeness of search results Importance of precision of the search to the user. Als web-spezifische Masse werden folgende von Lewandowski beschrieben: Salience, CBC ratio, Quality of result ratio, Ability to retrieve top ranked pages und Aktualitätsmasse. Ranking Das Ranking bestimmt die Sortierung der Treffer auf der Ergebnisliste. Durch die grosse Dokumentenmenge im World Wide Web (WWW) kommt dieser Art der Vorselektion für den Nutzer eine grosse Bedeutung zu. In der Regel versucht der Suchdienst, nach Relevanz in Bezug zur Suchanfrage zu ranken. Diese Mechanismen sind sehr komplex und aus verschiedenen Gründen nicht immer offengelegt. Ein gutes Beispiel ist der Rankingalgorithmus von Google: PageRank. Doch auch die Nutzung, die Klickaktivität auf der Zielseite oder eine kollektive Trefferbewertung sind Möglichkeiten, die Trefferliste für den Recherchierenden zu optimieren und Spam zu eliminieren. Auch das Ranking wird bei der Evaluation von Suchmaschinen bewertet. Die Methode der Top10 Seite 49 von 85 SPRINT – Suche im Internet MeanAverage Precision konzentriert sich auf die Qualität des Rankings. Der entsprechende Wert wird aus dem Anteil relevanter Treffer an der Gesamtmenge von Treffern für jede Trefferposition von 110 berechnet. Dabei wird der Durchschnitt sämtlicher Suchanfragen errechnet. (Griesbaum et al., 2002) Aktualität Es ist unmittelbar einleuchtend, dass die Relevanz der Treffermenge auch mit der Aktualität des Index einer Suchmaschine zusammenhängt. Nur wenn der aktuelle Inhalt einer Seite erfasst ist, kann man entscheiden ob sie relevante Information enthält. Ausserdem dürfte auch der Anteil toter Links geringer sein, je häufiger Webseiten von den Spidern der Suchmaschinen besucht werden. Eine Studie von Lewandowski aus dem Jahr 2005 hat „über einen Zeitraum von sechs Wochen (Februar/März 2005) 38 deutschsprachige Webseiten, die täglich aktualisiert werden, untersucht. Neben großen Nachrichtenseiten wurden regionale Newsportale, wissenschaftsorientierte Seiten und Special-Interest-Seiten ausgewählt“ (Lewandowski, 2006). Das wichtigste Resultat war, dass Google die meisten Seiten tagesaktuell indexiert (83%). MSN erreicht 48%, Yahoo! 42% der 1558 Datenpunkten. Eine weitere Untersuchung ergab, dass Google eine durchschnittliche Frequenz der Aktualisierung von 3.1 Tagen hat. Bei MSN sind es 3,5 und bei Yahoo! 9,8 Tage. (Lewandowski, 2006) Eine weiterführende Studie des selben Autors untersuchte die Aktualität des Index von mehreren Suchmaschinen (Google, Yahoo! und MSN Live Search) während der Jahre 2005-2007. Die Studie wurde anhand von 70 Seiten gemacht, die z. T. regelmässig, z.T. unregelmässig verändert wurden. Diese Studie fand heraus, dass Google im Jahr 2005 noch über 80% der täglich aktualisierten Seiten auch täglich frisch anbietet. In den Folgejahren nimmt dieser Anteil massiv ab (knapp 25%). Und auch die entsprechenden Anteile bei MSN sanken. Nur Yahoo! konnte sich knapp steigern und liegt jetzt bei knapp 50%. (Lewandowski, 2008b) Weiters stellte Lewandowski fest, dass Google offenbar in 68% der Fälle dem Nutzer eine zwei Tage alte Version im Index anbietet (immerhin). Zu Recht stellt er fest: „When the engine needs two days to bring the crawled page into the searchable index, there is no need to crawl the page every day— just to get a two-day-old copy every day“ (Lewandowski, 2008b). Gemäss Lewandowski ist Google im Gegensatz zu Microsoft nicht fähig, seinen Index innerhalb eines Monats zu aktualisieren, da im Jahr 2007 noch Seiten gefunden wurden, die bis zu 175 Tage alt waren. Bei Microsoft (MSN) sieht es so aus, als ob dies möglich sei. (Lewandowski, 2008b) 4.10.3 Recherchemöglichkeiten Der durchschnittliche Nutzer verhält sich etwa so:“Internet users who type two words for on a search engine query account for 31.9 percent of searches worldwide. Three-word phrases are used for 27 percent of searches. A single word accounts for 15.2 percent of queries, and four words are used for 14.8 percent of searches“ (Burns, 2007). Diese Art der Recherche führt natürlich dazu, dass nicht das bestmögliche Resultat aus der Suchmaschine herausgeholt wird. Für speziellere oder tiefere Recherchen müssen aber neben der Einbox-Suche noch weitere Recherchetools zur Verfügung stehen. Beispielsweise die Möglichkeit einer erweiterten Suche, der Einsatz von Boole’schen Operatoren (AND, OR, NOT), Phrasensuche, Trunkierung, Abstandsoperatoren, Gewichtung der einzelnen Suchbegriffe oder sinnvolle Möglichkeiten zur Suchraumeingrenzung. 8 Wie vielfältig und effizient der Nutzer in seiner Suche unterstützt wird, und ob diese Suchmethoden auch zuverlässig funktionieren, kann wichtige Hinweise auf die Qualität einer Suchmaschine geben. 4.10.4 Usability Die Dimension der Usability von Suchdiensten wird gerne etwas vergessen. Grundsätzlich haben Suchdienste die allgemeinen Usability-Anforderungen an Webseiten zu erfüllen. Da ein Suchdienst aber eine aktive Interaktion mit dem Nutzer eingeht, müssen hier weitere Punkte beachtet werden. Suchmaschinennutzer sind meist nur gelegentliche Nutzer. Umso wichtiger ist es, dass ein Suchdienst transparent über seinen Zweck und Umfang orientiert. (Schulz, 2007) Eine wichtige Usability-Norm ist die DIN EN ISO 9241 – 10. Sie legt sieben Grundsätze der Dialoggestaltung fest: 8 Mehr Informationen dazu im Kapitel 5 Operatoren & Methoden. Seite 50 von 85 SPRINT – Suche im Internet Aufgabenangemessenheit, Selbstbeschreibungsfähigkeit, Erwartungskonformität, Fehlertoleranz, Steuerbarkeit, Individualisierbarkeit und Lernförderlichkeit. (Wirth, 2005) Für Suchmaschinen ist besonders der Punkt der Erwartungskonformität sehr wichtig. Schulz nennt hierfür den Bedarf für einen „(erwartungskonformen) Button mit einem unmissverständlichen Label: z.B. suchen, finden“ (Schulz, 2007). Fauldrath/Kunisch formulieren sehr treffend: „dass auch für Suchmaschinen das bekannte KISSPrinzip (Keep it small and simple ) gilt. Der Nutzer will ein Problem lösen und nicht durch das Interface ein zusätzliches erhalten“ (Fauldrath/Kunisch, 2005). Der durchschnittliche Suchmaschinennutzer darf nicht gezwungen werden, irgendwelche Operatoren benützen zu müssen. Dies kann ihm abgenommen werden, indem „Eingaben ohne Operatoren im Sinne einer größtmöglichen Relevanz interpretiert werden (z.B. die Eingabe wird zunächst als Phrase interpretiert, dann als AND-Verbindung, dann als OR-Verbindung)" (Schulz, 2007). Die Suchmaschine soll nachsichtig sein und allfällige Tippfehler erkennen und korrigieren sowie bei zu vielen oder keinen Treffern sinnvolle und annehmbare Hilfestellung bieten (Filter, Suchtipps, Möglichkeit für erneute Suche, etc.) (Schulz, 2007). Bei der Trefferliste ist es wichtig, dass diese schnell aufgebaut wird und angibt, wieviele Treffer gefunden worden sind. „Der Siegeszug von Google beruht auf der leichten Bedienbarkeit bei relativ guter Ergebnisqualität. Google hat De-Facto-Standards gesetzt und die Erwartungen von Kunden nachhaltig geprägt. Kunden erwarten, dass eine Suchmaschine sich wie Google darstellt und auch so verhält: ein einfaches Eingabefeld - 1 Button "Suche" - ein relevanzsortierte Ergebnisliste auf einer neuen Seite“ (Schulz, 2007). 4.11 Intelligente Agenten Als Software-Agent oder auch Agent bezeichnet man ein Computerprogramm, das zu gewissem eigenständigem Verhalten fähig ist. Mit dem Fortschreiten der weltweiten Vernetzung und der damit verbundenen steigenden Komplexität bedarf es neben den teilweise schon ausgereiften Suchdiensten auch der Erforschung und Entwicklung neuer Methoden zur Unterstützung der Nutzer für ein effizientes und Zielgerichtetes Arbeiten im Internet. In diesem Zusammenhang hört man oft den Begriff "Intelligente Agenten" oder "Mobile Agenten“. Diese weiterführenden Konzepte aus dem Bereich der Künstlichen Intelligenz versprechen eine Professionalisierung im Umgang mit dem Internet. Die aufgrund dieser Konzepte entwickelten intelligenten Agenten sind Programme, die Aufträge eines Benutzers oder eines anderen Programms mit einem gewissen Grad an Eigenständigkeit und Unabhängigkeit ausführen und dabei Angaben über die Ziele und Wünsche des Benutzers anwenden. Die Forschung über Künstliche Intelligenz definiert einen Agenten als eine Software, die folgende Eigenschaften besitzt: • Autonomie Ein Agent ist in der Lage, eine Aktion zu starten, ohne unmittelbar vom Benutzer angesprochen worden zu sein. So könnte er beispielsweise automatisch eine Suche im Internet beginnen, wenn die Netzbelastung relativ niedrig ist. Dies kann auch geschehen, wenn der Benutzer gerade nicht am Computer eingeloggt ist. • Lernfähigkeit Das Programm lernt aufgrund vorher getätigter Entscheidungen bzw. Beobachtungen dazu und verhält sich bei einer nächsten Entscheidung je nach Situation anders. • Zielorientierung Der Benutzer kann auf einfache Art dem intelligenten Agenten komplexe Anfragen stellen. Die Entscheidung, wie die Aufgabe in Teilaufgaben zerlegt wird, wo und wann die erforderlichen Informationen zu finden sind, obliegt dann dem Agenten. Der Benutzer braucht sich dann nur um das „Was“ und nicht um das „Wie“ seiner Anfrage zu kümmern. • Flexibilität Die Aktionen eines Agenten zum Lösen einer Aufgabe sind zu keinem Zeitpunkt festgelegt. Der Agent ändert sein Verhalten, wenn ihn äußere Umstände dazu zwingen oder wenn Teillösungen einer Aufgabe neue Aspekte hervorbringen. Er reagiert mit einer geänderten Vorgehensweise zum Erreichen eines Zieles. Zu den äusseren Umständen gehört z.B. eine Veränderung der Softwareumgebung oder ein nicht erreichbarer Server im Internet. Seite 51 von 85 SPRINT – Suche im Internet • Mitarbeit Der Agent nimmt nicht nur blind Kommandos entgegen, sondern rechnet auch damit, dass der menschliche Benutzer Fehler macht, wichtige Informationen auslässt oder dass Mehrdeutigkeiten aufgedeckt werden müssen. Diese Unklarheiten müssen dann durch geeignete Mittel, wie zum Beispiel durch Nachfrage beim Benutzer, Heranziehen einer Wissensbasis oder ähnlichem, beseitigt werden. • Kommunikationsfähigkeit Ein intelligenter Agent muss in der Lage sein, auf effektive Art und Weise Informationen beschaffen zu können. Dazu dient die Kommunikation mit der Softwareumgebung, mit anderen Agenten und nicht zuletzt mit dem Benutzer. Zur Inter-Agenten-Kommunikation dienen so genannte Agent-Communication-Languages (ACL). Damit sind Agenten nicht nur fähig Wissen und Informationen von anderen Agenten zu bekommen, sondern können auch gemeinsam an der Lösung einer Aufgabe arbeiten. Zur Kommunikation mit dem Benutzer dienen heute meist noch Dialogboxen. Der Einsatz natürlichsprachlicher Zugänge wird erforscht. • Anpassungsfähigkeit Agenten sollen sich an den Benutzer anpassen können. Das heisst, er muss seine Gewohnheiten und seine Arbeitsweisen kennen. Manche Forscher gehen sogar soweit, dass sie fordern, ein Agent solle einen Charakter und einen "Gemütszustand" haben, um von seinem Benutzer als glaubwürdiger Partner akzeptiert zu werden. Agenten werden Einsatzmöglichkeiten in den Bereichen E-Commerce, Informationsrecherche, Simulation, Erledigen von Routineaufgaben und in autonomen Systemen eingeräumt. Bereits etabliert sind eine Reihe sogenannter Softbots. Das sind semiautonome Agenten, die charakterisierbar sind durch ein Formularbasiertes Interface. Weiter nützen diese Benutzerziele als Input (z. B. ein als Suchanfrage formuliertes Informationsbedürfnis) und eine Abfolge von vordefinierten Aktionen um das Ziel zu erreichen. Vorrangig stellen sich Softbots als lokal zu installierende Suchdienste oder Metasuchwerkzeuge für das Internet dar und werden dann auch Searchbots oder Webbots genannt. Nachfolgende Grafik gibt deren Funktionsweise schematisch wieder. Abbildung 15: Funktionsweise Intelligente Agenten An dieser Stelle sollen Beispiele für Vertreter dieser Klasse vorgestellt werden: Copernic Agent Dabei handelt es sich um ein lokal installierbares Metasuchwerkzeug der Copernic Technologies Inc., welches Suchanfragen an mehrere Suchdienste des Internet weiterreicht. Es wird zwischen drei Varianten der Software unterschieden. Die frei verfügbare Variante „Basic“ beinhaltet zehn Suchkategorien. Insgesamt können bei dieser Variante etwa 90 Quellen durch die Kategorie der Suche ausgewählt und parallel abgefragt werden. Die kommerziellen Varianten Copernic Personal und Copernic Professional bieten z.Zt. 120 Kategorien und über 1000 Suchdienste zur Weitergabe der Suchanfragen. In den kommerziellen Versionen wird u.a. eine Rechtschreibprüfung der Suchbegriffe mittels eines erweiterbaren Lexikons vorgenommen. Die Suchanfragen können unter Verwendung von AND, OR und Phrasen formuliert werden. Sie werden automatisch gespeichert und können so erneut ausgeführt werden, manuell initiiert oder im Rahmen des sog. Tracking automatisiert mit einer zeitlichen Planbarkeit (nur einmal, einmal an verschiedenen Zeiten Seite 52 von 85 SPRINT – Suche im Internet des Tages, an bestimmten Tagen der Woche oder des Monats). Tracking wird allerdings nur in der Variante Copernic Pro angeboten. Damit ist auch der automatische Download, die Validierung und das Refinement (Suchfragenüberarbeitung durch Auswertung der ersten Resultate) der Suchtreffer möglich, was bei der freien Variante Basic nur manuell, basierend auf allen oder einer Auswahl von Suchtreffern erreicht werden kann. Suchergebnisse der unterschiedlichen Quellen werden fusioniert und geordnet nach Relevanz (Score) angezeigt. Darüber hinaus ist eine Sortierung nach Titel, URL oder Datum für Anzeige und Ergebnisexport möglich. Duplikate werden selbsttätig eliminiert. Suchanfragen können nach der Durchführung modifiziert werden. Die Suchergebnisse werden ebenso automatisch gespeichert, zusätzlich ist es möglich, diese in den Formaten HTML, Text, XML, Comma Separated ASCII und dBASE zu exportieren. Dargestellt werden die Resultate der Suche entweder mittels eines integrierten Browsers oder durch den externen Standard-Browser. Weiterhin sind unterschiedliche Verknüpfungen mit dem Microsoft Internet Explorer möglich (Ersetzen dessen Suchmenüs usw.). Die Aktualisierung der genutzten Suchdienste findet automatisch über das Internet statt, ebenso wie das Software-Update. SearchPadTM SearchPad der Satyam Computer Services Ltd. ist ebenfalls ein lokal installierbares Metasuchwerkzeug, das sich durch ausgeprägte Möglichkeiten der Verbesserung der Suchergebnisse mittels der Bewertung von Resultaten eines ersten Suchlaufs durch den Suchenden auszeichnet (Relevance Feedback). Von Searchpad werden parallel 27 Suchdienste des WWW abgefragt. Die Suchanfrage kann unter Verwendung der Boole'schen Operatoren AND, OR, AND NOT, NEAR, + und - formuliert werden. Bestimmte URL's können als Suchergebnisse ausgeschlossen werden. Die Resultate werden nach Relevanz geordnet ausgewiesen, mehrere Suchergebnisse von einer Website werden gruppiert. Zusätzlich können die Ergebnisse nach Titel, Zusammenfassung und Quelle geordnet werden. Dead Links und Duplikate werden selbständig bereinigt. Eine Vorfilterung der Resultate wird durch Spezifizieren von Regeln zur Auswahl spezieller Begriffe oder Phrasen für die Felder Title, Document, Beginning, End, Header, Summary, Embedded links und URL des Ergebnisdokuments möglich. Hervorhebenswert ist der Feedback-Mechanismus, welcher zur automatischen Klassifikation der Suchergebnisse entsprechend der intellektuellen Relevanzbeurteilung des Suchenden (in fünf Stufen) führt. Dazu müssen auch Angaben über das Vorhandensein oder die Abwesenheit bestimmter Suchbegriffe gemacht werden, die als nützlich bzw. zu unerheblichen Resultaten führend empfunden wurden. Auch die Wissensbasis, die Interessengebiete des Nutzers aufnimmt (als sog. Topics) kann als ein Merkmal der Agententechnologie aufgefasst werden. Topics werden aus dem Feedback des Nutzers gebildet unter der Annahme, dass jene die Interessenlage des Suchenden widerspiegeln. Topics erfassen also das Wissen über die Nutzerinteressen. Sie werden als Filter auch für andere Anfragen desselben Nutzers und auch nutzerübergreifend auf inhaltsähnliche Fragestellungen anderer Suchender angewandt. Dadurch wird eine automatische Klassifikation der Suchergebnisse in thematisch orientierte Kategorien realisierbar. Ein signifikantes Unterscheidungsmerkmal zur Abgrenzung von agentenbasierten Anwendungen gegenüber anderen Systemen ist das Wissensniveau, mit welchem Agentensysteme operieren, gegenüber dem symbolischen, datenorientierten Niveau konventioneller Software. Wesentlich für autonom agierende Agenten ist ihre Fähigkeit, sich Kenntnisse über ihr Aufgabengebiet, die Interessen und Präferenzen ihrer Nutzer aneignen zu können. Dazu nutzen Agentensysteme verschiedene Formen des Wissenserwerbs. Die einfachste besteht in einer Anzahl von nutzerdefinierten Regeln zur Informationsverarbeitung, der Nutzer muss den Agenten in seiner Ausprägung selbst erschaffen (s. Softbots). Ein fortgeschrittener Ansatz, der sich Techniken des maschinellen Lernens zunutze macht, ist der Wissenserwerb durch Beobachten des Nutzers bei seiner Interaktion mit Systemen mit dem Ziel, sich Wissen zum Nachahmen dieses Verhaltens selbständig bei Vorliegen von minimalem Hintergrundwissen aneignen zu können. Der Agent soll Muster und Regelmäßigkeiten im Nutzerverhalten erkennen können. Weitere Möglichkeiten des Agenten, an das für die Erfüllung seiner Aufgaben notwendige Wissen zu gelangen, sind ausdrückliche Anweisungen des Nutzers an den Agenten und Nutzer-Feedback bzw. Programmierung durch vom Nutzer vorgegebene Beispiele. Eine Variante namens Collaboration-Technology bezieht sich auf die Kooperation von gleichartigen Agenten verschiedener Nutzer, um in kurzer Zeit zu Basiswissen für eine spätere nutzerspezifische Anpassung zu gelangen und einander in unbekannten Situationen zu helfen. Ein solcher Austausch beruht aber nicht immer auf Agent-Communication-Languages, sondern auch auf agentenspezifischen Konversationsmitteln, so u.a. auch auf dem Austausch von Emails. Seite 53 von 85 SPRINT – Suche im Internet Beim heutigen Stand der Technik ist man gerade bei der Realisierung "intelligenter" Eigenschaften von Agenten vom Ziel jedoch noch weit entfernt. Möglicherweise werden diese auch immer eine Utopie bleiben. Der momentane Stand der Agententechnologie soll deshalb an Beispielen existierender WWW-Agenten und Frameworks zur einfachen Erstellung solcher durch den Nutzer gezeigt werden: Narval Das Agentensystem Narval (Network Assistant Reasoning with a Validating Agent Language) des Unternehmens Logilab soll Begleiter beim täglichen Umgang in der Welt der Informationen sein. Dazu kann es mit einer Vielzahl von Plattformen wie Email, World Wide Web, Telnet, Telefon usw. kommunizieren. Es führt Aufträge des Nutzers (sog. Recipes) aus, welche die unterschiedlichsten Aufgaben im Zusammenhang mit diesen Plattformen realisieren können. Exemplarisch werden genannt: die tägliche Suche im WWW nach bestimmten Informationsbedürfnissen, Ausfiltern von Junk während des Browsing im WWW, Zusammenstellen von Informationen unterschiedlicher Quellen entsprechend der Interessen des Nutzers, automatisches Beantworten bestimmter Emails, Ausführen regelmäßig wiederkehrender Aufgaben u.v.a.m. Dabei soll es auch vom Nutzer lernen, um solche Aufgaben anstelle seiner zu übernehmen. Narval ist unter der Gnu Public License frei verfügbar. Es stellt einen persönlichen Assistenten dar, der in der Welt des Internet durch Zugriff auf alle auffindbaren Ressourcen, Dokumente und Programme, die vom Nutzer vorgegebenen Wünsche zufriedenstellen soll. Neue Aktionen werden unter Verwendung von XML spezifiziert und mit Python implementiert. Die Recipes als Abfolge einzelner Aktionen können durch ein grafisches Interface erstellt und getestet werden. Die Philosophie von Narval ist es nicht, die existierenden Softwaresysteme zu ersetzen, sondern deren Funktionalitäten so zu integrieren, dass die Nutzung erleichtert wird durch Verbergen der zugrunde liegenden Komplexität. WebMate: A Personal Agent for World-Wide Web Browsing and Searching WebMate ist Teil des Intelligent Software Agents Projekts am Computer Science Department der Carnegie Mellon University. Es stellt einen Persönlichen Agenten für das Browsing und Suchen im World Wide Web dar. Wesentliche Merkmale können wie folgt beschrieben werden: Unterstützung einer parallelen Suche mit mehreren Internet-Suchdiensten, Verfeinerung der verwendeten Suchbegriffe durch Extraktion relevanter Begriffe aus ersten Suchergebnissen (Refinement). Hinsichtlich des Browsing ist dieser Agent imstande, die Interessen des Nutzers zu erlernen, daraufhin neue URLs vorzuschlagen, die durch Bookmarks vorgegebenen Seiten zu überwachen, zur aktuell betrachteten Homepage weitere ähnliche Seiten aufzeigen, die von der aktuellen Homepage abgehenden Links automatisch weiterzuverfolgen und die Zieldokumente herunterzuladen usw. WebMate wird mittels eines lokalen Proxy-Servers realisiert, der zwischen dem WWW-Server und dem Browser des Nutzers lokalisiert ist. Dadurch ergeben sich weitere Nutzungsmöglichkeiten, wie z.B Aufzeichnen der Transaktionen zwischen Browser und WWW-Server, Filtern der Cookies, um die Privatsphäre zu schützen, Blockieren animierter GIF-Dateien, um die Performance zu verbessern. Das System richtet dynamisch alle erforderliche Arten von Ressourcen, wie Suchdienste, OnlineWörterbücher, Online-Übersetzungssysteme etc., selbsttätig ein. Es ist mittels Java erstellt und so plattformunabhängig nutzbar. InfoSpiders An der University of Iowa wird an einem Multi-Agenten-System namens Infospiders gearbeitet. Beschrieben wird es als adaptive Retrieval Agenten, die sich zur autonomen und skalierbaren Suche nach Informationen an Techniken des sog. künstlichen Lebens anlehnen. Dabei wird das World Wide Web als ökologische Umgebung mit einer Population von Agenten gesehen, die um relevante Informationsquellen gegenseitig im Wettbewerb zueinander stehen, aus Erfahrung lernen und sich reproduzieren, wenn sie erfolgreich sind oder absterben, wenn sie keinen Erfolg vorweisen können. Eine prototypische Implementierung derartiger Agenten mit Namen MySpiders wird vorgestellt als Bestandteile eines Java-Applets mit der Funktion des Durchforstens des World Wide Web im Interesse des Nutzers. Damit sollen sie traditionelle Suchdienste des Web ergänzen, indem sie neue oder bisher unbekannte Dokumente ausfindig machen, die von den Suchdiensten bislang möglicherweise noch nicht indexiert wurden. WebWatcher Project WebWatcher ist ein "tour Guide" durch das World Wide Web. Basierend auf dem vom Nutzer vorgegebenen Informationsbedürfnis, leitet ihn das System entlang der Web Sites gleich dem manuellen Browsing. Links, die das System dabei als relevant empfindet, werden hervorgehoben. WebWatcher ist fähig, aus Feedback zu lernen und das Erlernte für Hinweise der folgenden Touren zu nutzen. Das System erlangt seine Fähigkeiten durch Analyse der Nutzeraktionen, Meinungen der Nutzer zur Relevanz und der von ihnen wirklich betrachteten Seiten. Die Weiterführung von WebWatcher als Personal WebWatcher lässt sich deshalb als Persönlicher Agent bezeichnen. Im Seite 54 von 85 SPRINT – Suche im Internet Gegensatz zu WebWatcher ist Personal WebWatcher konzipiert, einem speziellen Nutzer zu dienen und dessen Interessen möglichst genau abzubilden. Es beobachtet den Nutzer bei seiner Tätigkeit, bezieht den Nutzer selbst aber nicht in den Lernprozess ein, wie es bei WebWatcher der Fall ist. Personal WebWatcher zeichnet die vom Nutzer abgerufenen URL's auf und analysiert diese in der Lernphase, um daraus ein Modell der Nutzerinteressen zu erzeugen. Das Modell wird dann genutzt, um den Nutzer zu unterstützen, indem ihm Hinweise auf potentiell interessante Links von bereits geladenen HTML-Seiten gegeben werden. Über die Agententechnologie hinaus gibt es noch andere Möglichkeiten, um im Internet oder mittels Internet an Informationen zu gelangen. Eine Form der personenbezogenen Informationsbereitstellung, bei der das World Wide Web als "Enabling Technology" fungiert, wird durch die Identifikation entsprechender Experten für den relevanten Problembereich ermöglicht. Dabei bedient man sich eines sog. Vertrauensnetzwerkes, bei dem zuverlässige Hilfe auf der Vertrauensgrundlage einer Community, durch Konstellationen wie "der Freund eines Freundes" etc. gegeben ist. Das nachfolgend beschriebene WWW-basierte System stellt den Versuch praktischer Umsetzung solcher Ideen dar: ReferralWeb Referral Web ist ein von AT&T Research Laboratory in Zusammenarbeit mit dem Massachusetts Institute of Technology und der Cornell University entwickeltes System zur Analyse persönlicher Beziehungen durch Verfolgen von Links zwischen den Homepages verschiedener Personen. Damit können soziale Netze im Internet erforscht werden z.B. um vertrauenswürdige Experten für die Lösung bestimmter Probleme zu finden mit der höheren Sicherheit einer zuverlässigen Unterstützung aufgrund eines gemeinsamen Freundes. Das Programm versucht die Verbindungen zwischen dem Nutzer und jemandem, der z.B über eine Expertise in einem bestimmten Gebiet verfügt und so hilfreich sein könnte, zu finden. Realisiert wird das, indem das System den Text von Web Sites nach Namen durchsucht und mit einer Datenbank von Telefonbüchern vergleicht, um die Begriffe, die wirklich Namen von Personen darstellen, zu identifizieren. Während das Programm so Namen sammelt, prüft es auf Verbindungen zwischen diesen in Form der Verfolgung von Links zwischen entsprechenden Web Sites. Ein Problem dieser Vorgehensweise liegt darin, dass nicht selten auch auf Web Sites von Personen verwiesen wird, ohne dass diese Personen persönlich miteinander bekannt sind (z.B. Verweise auf die Homepages von Persönlichkeiten). Deswegen soll ReferralWeb seine Fähigkeiten besonders bei der Suche nach Spezialisten in bestimmten Bereichen finden und weniger zur allgemeinen Suche nach Personen. 4.12 Entwicklungstendenzen In diesem Abschnitt werden Ansätze bei der Erschliessung von Wissensbeständen und bei der Ausgabe von Suchergebnissen dargestellt. 4.12.1 Erschliessung des Deep-Web Die zentrale Aufgabe von Web-Suchdiensten besteht darin, die Inhalte des Internet zu erschließen. Angesichts der enorm umfangreichen und stetig wachsenden Datenbestände des Internets eine gigantische Herausforderung. Schätzungen zufolge gibt es ca. 30 Milliarden frei zugängliche Internetseiten (Uni Bielefeld, o.A.). Dieser Teil des Internets ist das sichtbare Netz, das so genannte "Visible Web". Google hat davon ca. 15-20 Milliarden Internetseiten indexiert. Theoretisch könnte eine Suchmaschine alle Seiten aus diesem "Visible Web" indexieren, es gibt jedoch verschiedene Barrieren für die Suchmaschinen. Beispiele für Barrieren können sein (Uni Bielefeld, o.A.): Auf die Internetseite führt kein Link. Die Internetseite darf nicht indexiert werden. Die Internetseite ist nicht frei zugänglich (Login-Daten notwendig). Diese Seiten, welche für Suchmaschinen unsichtbar sind und die von Suchmaschinen nicht indexiert werden können nennt man das "Invisible Web" oder Deep Web. Schätzungen über die Größe des "Invisible Web" differieren sehr stark. Die Datenmenge im "Invisible Web" soll laut einer Studie der Firma Brightplanet aus dem Jahr 2001 etwa 500-mal größer sein als die des "Visible Web". Allerdings darf man die Datenmenge nicht mit der Zahl der Internetseiten gleichsetzen, da z.B. eine hoch aufgelöste Satellitenaufnahme die gleiche Datenmenge wie 1.000 Internetseiten haben kann. In einer Studie aus dem Jahre 2006 wurde die Zahl aus der Brightplanet-Studie als deutlich zu hoch bezeichnet. Seite 55 von 85 SPRINT – Suche im Internet Spezielle Deep-Web-Verzeichnisse katalogisieren ähnlich Webverzeichnissen Deep-Web-Ressourcen: Completeplanet verzeichnet beispielsweise rund 70’000 Deep Web Sites und Suchdienste. Incywincy durchsucht Websites, die im Open Directory Project (DMOZ) erfasst sind und liefert als Ergebnisse ODP-Kategorien und Einträge zurück. Zusätzlich werden die in ODP vorhandenen Seiten mit Hilfe eines Roboters indexiert. Enthalten solche Sites eine Suchfunktion, dann wird die Anfrage an diese Suchfunktion weitergeleitet. Weiter gehend versuchen Suchdienste wie Turbo10 direkten Zugriff auf die Bestände des Deep Web zu ermöglichen. Dazu bieten sie ihren Nutzern die Option, sich aus einer Vielzahl vorgegebener Quellen (vornehmlich Deep-Web-Datenbanken) individuelle Kollektionen zusammen zu stellen und diese anschliessend gezielt zu durchsuchen. 4.12.2 Erschliessung neuer Wissensbestände Neben der Erschliessung von Inhalten des „Deep Web“ stellen die Versuche der populären Suchdienste mit dem Wachstum des Surface Web Schritt zu halten und gezielt zusätzliche Wissensbestände recherchierbar zu machen eine wichtige Rolle. Google erschliesst seit Jahren kontinuierlich neue Datenbestände. Im Unterschied zu Ansätzen der Deep Web-Gateways wird aber kein allgemeiner Ansatz gewählt der darauf zielt, ein möglichst breites Spektrum von Deep-Web-Wissensbeständen durchsuchbar zu machen. Vielmehr werden schrittweise neue spezialisierte, themenspezifische beziehungsweise dokumenttypspezifische Suchdienste angeboten. Beispiele hierfür sind etwa Google Groups, Google News und Google Maps. Google Book Search ist ein Projekt, mit dem Google das Ziel verfolgt, Inhalte populärer Bücher zu erschliessen. Ein Schwerpunkt der Bereitstellung neuer Datenbestände liegt insbesondere bei der Erschliessung von Produktdatenbanken kommerzieller Anbieter. Diese Erschliessung lässt sich wiederum auf direkte oder indirekte Weise gewinnbringend vermarkten. Ein Beispiel ist Google´s Produktesuchmaschine Google Product Search. Treffer werden bei Produktanfragen als „Product Search“-Ergebnisse eingeblendet. Einen weiteren Kernpunkt der Erschliessung neuer Wissensbestände bilden Ansätze, die darauf zielen, geografische Suchoptionen verfügbar zu machen. Ziel ist es, örtlich spezifiziertes Suchen zu ermöglichen und damit Regionen-, Stadt-, Stadtteil- oder gar strassenbezogen genaue Suchanfragen zu ermöglichen. Ein Beispiel wäre etwa die Suche nach einem Arzt in einer speziellen Stadt. Solche Anfragen in der Art von „Zahnarzt Chur“ sind zwar bei vielen Suchdiensten möglich, aber häufig nicht sehr sinnvoll, da bei typischen Web-Resultaten die notwendigen Ortsangaben nicht strukturiert vorhanden sind und deshalb nicht erfasst werden können. Spezielle geografische Suchdienste wie Citysearch wie auch viele Webkataloge erfassen zwar heute schon strukturiert geografische Daten. Beispielsweise Stadtname oder Postleitzahl, respektive ZipCode zu den vorhandenen Einträgen. Insgesamt bieten sie aber nur Zugriff auf einen verschwindend geringen Anteil der Wissensbestände des Netzes. Die Entwicklung lokaler Suchdienste, beziehungsweise Suchoptionen ist für Suchdienste sehr attraktiv, da diesem Bereich ein gewinnbringendes Werbepotenzial zugesprochen wird. Deshalb ist es nicht erstaunlich, dass auch Google und Yahoo versuchen, derartige Suchoptionen zu integrieren und auszubauen. Google Maps ermöglicht geografische Anfragen, so dass der Nutzer explizit nach Ortschaften suchen kann. Yahoo.com wiederum führte mit “SmartView” entscheidende Verbesserungen beim Spezialsuchdienst Yahoo! Maps ein. Mit diesem Suchdienst wird die geografische Suche in Städten mit Hilfe von Stadtplänen gestattet. Zusätzlich werden Links zu kulturellen Einrichtungen, Hotels und sonstigen lokalen Adressen, angeboten. Zu den Einträgen werden direkte Links zum YahooRoutenplaner und der Web-Suche angeboten. 4.12.3 Personalisierung der Suche Für eine qualitative Verbesserung der Suchergebnisse in typischen Suchkontexten ist es entscheidend, inwieweit die Suchdienste in der Lage sind die Informationsbedürfnisse der Nutzer zu verstehen. Jim Lanzone von Ask.com formuliert diesen zentralen Punkt wie folgt: “Understanding the query perfectly would do much more to impact the quality of results for the everyday user (whether novice or expert) than perfecting the results themselves (though obviously we're trying to do both!).” Jeff Weiner von Yahoo formuliert das zentrale Ziel so: „Ultimately we want to understand the intention of the user, and I think we're going to get closer to that through personalization …” Seite 56 von 85 SPRINT – Suche im Internet Personalisierung meint die Berücksichtigung individueller Bedürfnisse bei der Ausgabe von Suchergebnissen. Interaktions- und Profildaten von Nutzern werden dazu genutzt, individuelle Informationsbedürfnisse besser nachvollziehen zu können. Ziel ist es, künftige Suchkontexte und intentionen der Nutzer zu antizipieren. Nach gescheiterten Ansätzen waren personalisierte Suchfunktionen bei Web-Suchdiensten lange Zeit kaum anzutreffen (Khopkar et al., 2003) Heute ist die Personalisierung in Suchdiensten etabliert und vor allem durch die zwei grössten Anbieter Goolge und Yahoo! bekannt geworden. (Griesbaum, o.A.) iGoogle ist der Nachfolger der personalisierten Startseite bei der Suchmaschine Google und wurde am 30. April 2007 veröffentlicht. My Yahoo! ist die personalisierte Suche von Yahoo. Zur Nutzung benötigt man eine Yahoo ID. Mit My Yahoo! können persönlich bevorzugte Resultate gespeichert, nicht bevorzugte Resultate geblockt oder alles Gespeicherte wieder gefunden werden, sortiert nach Titel, Schlüsselwort oder Datum. Folgende Chancen und Risiken gilt es zu beachten: (Griesbaum, o.A.) Chancen Verbesserung des Suchdienstes durch eine auf den Nutzer bezogenen Anordnung der Treffermenge Suchdienst kann nutzerspezifische Werbung platzieren lassen und die Wahrscheinlichkeit steigt, dass der Nutzer die angezeigte, auf ihn bezogene Werbung anschaut. Durch Personalisierung bei Suchdiensten können in Verbindung mit weiteren Internetdiensten umfassende Profile der Nutzer zusammengesetzt werden, z.B. Google mit Gmail und Chrome. Risiken Einschränkung in der Trefferliste, da nur noch die nutzerspezifischen Treffer angezeigt werden, die die obersten Plätze im Ranking belegen. Mangelnde Bewertungsfähigkeit der Treffer durch den Nutzer, da er oder sie denkt, dass ein personalisierter Webdienst einem "gut kennt" und die angezeigten Treffer "wahr" sind. SmartWeb Smart Web soll eine wichtige Stufe bei der Realisierung des Internets der nächsten Generation bilden, welches breitbandige Multimediadienste mobil und individualisiert bereitstellen soll. Durch konkrete Anfragen (über das mobile Internet) sollen konkrete Antworten mittels SmartWeb möglich sein. Etwa: "Wer wurde 2002 Fussball-Weltmeister"? Die Antwort wäre dann "Brasilien". Die Antworten könnten in Text, Bild oder Video auf eine mobile Empfangsstation übermittelt werden. (SmartWeb-Projekt, o.A.) Es bleibt offen, wie weit sich Smartweb durchsetzten wird; momentan sind kaum grösseren Entwicklungen in diese Richtung ersichtlich. Abbildung 16: SmartWeb (Quelle: BMW Group Trainingsakademie, 2007) Seite 57 von 85 SPRINT – Suche im Internet 5 Operatoren & Methoden Die Suchdienste des Internets bieten immer mehr Operatoren und Methoden zur Suche an. Die verschiedenen Möglichkeiten sind meist bei den Hilfe-Funktionen der einzelnen Suchdienste beschrieben. Nachfolgend werden Methoden und Operatoren erläutert, wie sie bei den meisten Suchdiensten in der einen oder anderen Weise anwendbar sind. 5.1 Suchmodus Einige Suchdienste bieten verschiedene Suchmodi an. Mit „einfacher Suche“ (Simple Search) wird dabei eine triviale Stichwortsuche in einem Feld bezeichnet. Die Möglichkeit der Angabe zusätzlicher Kriterien und Operatoren wird als „erweiterte Suche“ (Extended Search, Advanced Search) bezeichnet. Abbildung 17: Einfache Suche (Simple Search) Abbildung 18: Erweiterte Suche (Advanced Search) Einige Suchdienste helfen dem Nutzenden zusätzlich bei der Suche, indem sie eine Visualisierung für die Anfrageformulierung anbieten (mehr Informationen dazu online). Beispiele: Quintura, Sortfix und WebBrain 5.2 Gross-Schreibung Bei den meisten Diensten wird Gross- oder Kleinschreibung (Case-Sensitivity) nicht beachtet. Das heisst, die Sucheingaben sind nicht case sensitive und es kann darauf verzichtet werden, die entsprechenden Grammatikregeln zu beachten. Seite 58 von 85 SPRINT – Suche im Internet 5.3 Boole'sche Operatoren Grundsätzlich gibt es drei Boole‘sche Operatoren: AND, OR, NOT (auch AND NOT). Bei manchen Suchdiensten werden sie jedoch auch anders dargestellt, wie die nachfolgende Tabelle illustriert. Tab. 1: Boole’sche Operatoren Operator Beschreibung Grafische Darstellung fokussierte Suche: AND + Mit AND verknüpfte Begriffe einer Suchanfrage liefern nur diejenigen Dokumente, in denen alle verknüpften Begriffe vorkommen. Bsp.: information AND dokumentation breite Suche: OR Bei der OR-Verknüpfung werden alle Dokumente geliefert, die mindestens einen der verknüpften Begriffe beinhalten. Bsp.: information OR dokumentation schliesst einen Suchbegriff aus: NOT - Mit NOT können Begriffe ausgeschlossen werden, das heisst Dokumente mit den NOT verknüpften Begriffen werden nicht angezeigt. Bsp.: information NOT dokumentation Wenn in einem Suchfeld mehrere Worte ohne Operatoren dazwischen eingegeben werden, hängt das Resultat davon ab, welche Option der Suchmaschinenbetreiber voreingestellt hat. Oft ist dies bei Internetsuchmaschinen „AND“. Google beispielsweise schreibt auf seinen Hilfeseiten: „Google gibt standardmässig nur Seiten zurück, die alle Suchbegriffe enthalten. Zwischen den Ausdrücken muss kein „und“ eingegeben werden. Beachten Sie, dass sich die Reihenfolge, in der Sie die Begriffe eingeben, auf die Suchergebnisse auswirkt.“ (Google, 2009c) Die Anwendung boolescher Operatoren ist von Dienst zu Dienst unterschiedlich. Manche erlauben diese sogar mit Klammerung, andere aber nicht einmal als Mischung der verschiedenen Operatoren. Bei manchen Suchdiensten sind boolesche Operatoren nicht direkt in einem Eingabefeld erfassbar. Sie müssen durch ein Pulldown-Menü oder eine Checkbox ausgewählt werden, entweder auf einzelne Suchbegriffe oder auf die logische Verknüpfung aller Suchbegriffe bezogen. Wichtig bei der Verwendung von Boole’schen Operatoren ist die Klammerung. „htw AND bachelor OR master“ ergibt nicht (immer) das selbe wie „htw AND (bachelor OR master)“. Auch hier ist das Resultat davon abhängig, wie die Voreinstellungen der Suchmaschine sind. Es kann eine Abarbeitung der Suchbegriffe von links nach rechts erfolgen (im Beispiel: htw und bachelor kommen vor, oder es wird ein Dokument mit dem Wort master gesucht), oder ein Operator kann stärker sein als ein anderer und somit bevorzugt abgearbeitet werden (im Beispiel: angenommen, OR sei stärker als AND: es wird ein Dokument gesucht, welches das Wort bachelor oder das Wort master enthält und dann muss es auch noch htw enthalten). Um sicher zu gehen, dass die Suchmaschine das sucht, was man möchte, klammert man Zusammengehöriges wie im untenstehenden Beispiel. Boolesche Operatoren und Klammern bieten in der einfachen Suche schon viele Möglichkeiten. Seite 59 von 85 SPRINT – Suche im Internet Abbildung 19: Boole‘sche Operatoren und Klammern der einfachen Suche Google-Operatoren 9 (Google, 2009e): Google macht bei der Eingabe von zwei Suchbegriffen automatisch eine AND-Verknüpfung. Das Suchen mit dem OR-Operator ist möglich (Bsp.: Maui OR Hawai). Mit einem Minuszeichen vor einem Begriff wird jener Begriff ausgeschlossen (z.B. virus –computer). Ein vorangestelltes Plus hingegen bewirkt, dass genau das eingegebene Wort gesucht wird, ohne dass Google Pluralformen oder Variationen des Wortes sucht. Eine Tilde veranlasst Google, für das betroffene Wort auch nach Synonymen zu suchen und diese der Suchanfrage hinzuzufügen. Mit dem Stern kann bei Google nicht trunkiert werden, sondern es bewirkt, dass die beiden Wörter rechts und links des Sterns von einem oder mehreren Wörtern getrennt sind (red * blue). Eine Besonderheit stellt der Google-Button „I’m feeling lucky“ oder auf deutsch „Auf gut Glück!“ dar. Dieser Button leitet den Recherchierenden direkt zum höchst gerankten Treffer und überspringt somit die Trefferliste. Gemäss Google ist dieser Knopf vor allem für die Suche nach offiziellen Webseiten wie beispielsweise Webseiten von Universitäten gedacht. (Google, 2009d) Als Hilfe bieten Suchdienste oft die erweiterte Suche an. Somit muss beispielsweise bei Google nicht mit OR gesucht werden, sondern es kann das Feld „mit irgendeinem der Wörter“ in der erweiterten Suche verwendet werden. Abbildung 20: Erweiterte Suche ersetzt Boole’sche Operatoren 9 Alle Google-Sonderfunktionen sind auf dieser Seite zu finden: Google-Funktionen. Seite 60 von 85 SPRINT – Suche im Internet 5.4 Phrasensuche Mit der Phrasensuche (auch ADJ-Operator) bezeichnet man die Suche nach der exakten Reihenfolge der angegebenen Suchbegriffe. Um eine Phrasensuche einzuleiten, müssen die Suchbegriffe meist in Hochkomma eingeschlossen sein. Es existieren dazu jedoch auch oft vordefinierte Suchfelder mit Bezeichnungen wie „den genauen Ausdruck“ suchen. Dabei werden sogenannte Stoppwörter (Wörter ohne inhaltskennzeichnende oder inhaltsunterscheidende Bedeutung) von den meisten Suchdiensten ignoriert, auch wenn sie Bestandteil der Phrasen-Formulierung sind. Bei einigen Suchdiensten ist es immerhin möglich, durch einen Operator die als Stoppwort geführten Begriffe für die Berücksichtigung in der Suchanfrage zu erzwingen. Ein solches Beispiel ist der „+“ Operator bei Google. Hierzu ein praktisches Beispiel: Es wird nach der Zeitschrift für Psychologie gesucht. Einmal werden einfach alle Worte eingegeben, einmal wird nach der Phrase gesucht. Vergleichen Sie die Ergebnisse selbst, indem Sie auf die beiden Screenshots klicken. Abbildung 21: Zeitschriftentitel-Suche mit allen Wörtern (auf Bild klicken für Suche) Abbildung 22: Zeitschriftentitel-Suche mit der genauen Wortgruppe (auf Bild klicken für Suche) Tipp: Besonders bei der Suche nach Personennamen lohnt sich die Phrasensuche. 5.5 Trunkierung Mit Trunkierung (auch Platzhalter oder Wortstammsuche) bezeichnet man die Suche nach verschieden Wortvariationen. Bei den Suchdiensten ist meist wahlweise eine echte Teilwortsuche oder eine exakte Suche des Suchbegriffs einstellbar. Bessere Suchdienste erlauben auch die Benutzung des sogenannten *-Operators. An mehreren Positionen eines Suchwortes erhält er auch die Funktion des Platzhalters (engl. „Wildcard“). Bsp. Trunkierung hand* Sucht nach allen Worten, die mit „hand“ anfangen: Hand, Handschuh, Handlung... *hand Sucht nach allen Worten, die mit „hand“ enden: Treuhand... Seite 61 von 85 SPRINT – Suche im Internet Bsp. Wortstammsuche • m*ller Sucht nach allen Worten, die mit „m“ anfangen und mit „ller“ enden: Müller, Muller, Möller... Leider ist die Trunkierung, im Gegensatz zu kommerziellen Informationsdatenbanken, bei den meisten Websuchdiensten nicht möglich. Eine Ausnahme stellt Exalead dar. Exalead nennt die Trunkierung „Präfix Suche“: „Die Präfix-Suche ermöglicht das Auffinden von Dokumenten durch die Eingabe des Wortanfangs.“ (Exalead, 2009) Abb. 1: Trunkierung bei Exalead 5.6 Abstandsoperatoren Abstandsoperatoren (proximity operators, dts. auch Proximity-Operatoren) werden von den Suchdiensten heute leider kaum unterstützt. Anhand von Abstandsoperatoren können der Umkreis, in dem die Begriffe liegen sollen, oder auch die exakte Reihenfolge der Begriffe vorgegeben werden. In nachfolgender Tabelle sollen gängige Operatoren und deren Funktionen erwähnt werden. Je nach Dienst kann die Benennung etwas verschieden sein. Tab. 2: Abstandsoperatoren Beschreibung Die Begriffe, zwischen denen sich dieser Operator befindet, stehen unmittelbar ADJ nebeneinander. Teilweise ist auch ein bestimmter Abstand definierbar, z.B. Suche im Umkreis von 5 Wörtern. Die Begriffe, zwischen denen sich dieser Operator befindet, stehen entweder NEAR unmittelbar nebeneinander oder befinden sich meist im Umkreis von 10 bis 100 Worten. Teilweise sind diese Abstände auch definierbar. Legt die Reihenfolge von Wörtern fest, sagt jedoch nichts darüber aus, wie nahe die AFTER/BEFORE gesuchten Begriffe beieinander liegen. Operator Exalead beispielsweise erlaubt mit dem Abstandsoperator NEAR eine Suche mit einer voreingestellten Anzahl Worte zwischen den Suchbegriffen. Die unten stehende Suche ergibt Treffer mit maximal 16 Worten zwischen den Suchbegriffen „Suchmaschine“ und „Visualisierung“. Seite 62 von 85 SPRINT – Suche im Internet Abbildung 23: NEAR-Suche bei Exalead (auf Bild klicken für Suche) 5.7 Gewichtung Einige Dienste bieten auch Gewichtung der Suchbegriffe an. Stärker gewichtete Suchbegriffe werden dann bei der Suche bevorzugt. Dabei variiert die Art der Angabe nach Häufigkeit des Auftretens eines Begriffs in der Suchanfrage bis zur Angabe eines Gewichtungsgrades. Auch unterschiedliche Stellen des Dokumentes an denen die Suchbegriffe vorkommen, können flexibel gewichtet werden. Wie schon erwähnt, beachtet Google die Reihenfolge der Begriffe (Google, 2009c). Wichtige Begriffe sollten deshalb zuerst eingegeben werden. Bei SearchCloud ist eine Gewichtung einzelner Suchbegriffe möglich. Es kann für jeden Begriff die Gewichtung eingegeben werden, bevor der Begriff in die Suchstrategie aufgenommen wird. Abb. 1: Gewichtung einzelner Suchbegriffe Seite 63 von 85 SPRINT – Suche im Internet 5.8 Suchraumeingrenzung Von einigen Diensten werden verschiedene Eingrenzungen des Suchraums angeboten. Folgende Kriterien können dabei spezifiziert werden (Siehe auch Erweiterte Suche von Google): Sprache (z.B. „Seiten auf Deutsch“) Land (Google: „Region“), Top Level Domain (z.B. Seiten aus der Schweiz) Dokumentart (z.B. Bildersuche, Kartensuche, Newssuche, Suche in Groups, Blogs, Bücher) Dateiformat (z.B. PDF, Microsoft Excel/Word/Powerpoint, RTF, Shockwave Flash,...) Bei Bildern: nach Bildgrösse Vorkommen der Suchbegriffe in bestimmten Feldern (z.B. in der URL, im Hauptteil, in Links zu der entsprechenden Seite, im Titel, im Journaltitel, im Autorenfeld, ISSN,...) Zeitraum (der letzten Aktualisierung) Nutzungsrechte/Lizenz Informationen für Erwachsene/jugendfreie Informationen (z.B. Filter „SafeSearch“ von Google. Oft auch „Familienfilter“ o.ä. genannt.) Quellen (z.B. bei der wiss. Suchmaschine Scirus oder Seekport) Fachgebiete (z.B. bei der wiss. Suchmaschine Scirus) oder Rubriken Klang der Suchbegriffe (phonetische Suche bei Exalead) Abbildung 24: Suchraumeingrenzung in der erweiterten Suche Abbildung 25: Angebot an Suchraumeingrenzung nach Diensten bei Google-Schweiz Bei internationalen Suchdiensten können die Angebote und Funktionen je nach Land und/oder Oberflächensprache verschieden sein. So bietet Google.com (zugänglich ohne automatische Weiterleitung via www.google.com/ncr) stets mehr Dienste an. Diese Funktionen werden hier aber nur am Rande behandelt. Abbildung 26: Angebot an Suchraumeingrenzung nach Diensten bei Goolge.com Seite 64 von 85 SPRINT – Suche im Internet Tipp: Um nicht in Google die vielen einzelnen Sucharten einstellen zu müssen, kann auch folgende Webseite genutzt werden: Soople Meist sind diese Möglichkeiten zur Suchraumbegrenzung über die erweiterte Suchmaske sichtbar. Google zum Beispiel bietet aber auch noch eine Art eigenen Code an, um zum Teil weitere Suchmöglichkeiten auszuschöpfen, oder aber, um in der einfachen Suche Funktionen der erweiterten Suche nutzen zu können. (Google, 2009a) Tab. 3: Codes bei Google Code Beschreibung Site Suche in einer bestimmten Domäne Link Suche von Seiten, die auf die angegebene Webpage verweisen Related ähnliche Seiten suchen Define nach Definitionen suchen (macht bei Google zusätzlich eine Phrasensuche in diesem Modus) nach entsprechenden Börsen- informationen suchen. Hierfür muss mit den Ticker-Symbolen Stocks gesucht werden, nicht mit den Firmennamen allintitle Begrenzung der Suche auf Resultate, wo alle Suchbegriffe im Titel vorkommen allinurl Begrenzung der Suche auf Resultate, welche alle Suchbegriffe in der URL aufweisen Time Zeitzonen Weather Lokale Wettervorhersage Die Suchmöglichkeiten, insbesondere im erweiterten Suchmodus, unterscheiden sich sinnvollerweise je nach Inhalt, der gesucht wird. News: (Goolge News) Abbildung 27: Erweiterter Suchmodus der (Schweizer) Google-Newssuche Bilder: (Google Bildsuche) Für die Suche nach textuellen Informationen können andere Optionen eingesetzt werden als z.B. für die Suche nach Bildern. Google behauptet von sich, „mit mehr als 880 Millionen indizierten und für die Ansicht zur Verfügung stehenden Bildern […] die umfassendste [Bildsuche] im Web [zu sein].“ (Google, 2009b) Deshalb wird hier exemplarisch auf die Bildsuche von Google eingegangen. Andere Bildsuchen können durchaus auch noch über andere Suchfunktionen verfügen. In der „Erweiterten Bildsuche“ von Google sind folgende Möglichkeiten gegeben: Eingrenzung nach Content (beliebiger Content, Nachrichten, Gesichter, Fotos), Grösse (klein, mittel, gross, extra gross -> ), Dateiformat (jpg, gif, png, bmp), Farben (irgendwelche Farben, schwarz-weiss, Graustufen, alle Farben) Seite 65 von 85 SPRINT – Suche im Internet Abbildung 28: Erweiterte Bildsuche Offenbar funktioniert die Google-Gesichtersuche schon gut. Diese Funktion wird in der erweiterten Bildsuche und auf der Ergebnisseite angeboten. Abbildung 29: Google-Gesichtersuche (auf Bild klicken für Suche Patentsuche: (Google Patent Search) Google bietet unter anderem eine Patentsuche an. Gemäss Google können dort momentan über 7 Millionen Patente recherchiert werden (Google, 2009f). Entsprechend wurden natürlich die Möglichkeiten der Suche und der Suchraum eingegrenzt: Abbildung 30: Erweiterte Google-Patentsuche Seite 66 von 85 SPRINT – Suche im Internet 5.9 Suchanfrageunterstützung Um die Benutzer in ihrer Suchanfrage zu unterstützen hat Weitkämper Technology eine neue Suchtechnologie in die Eingabemaske eingebracht. Dabei werden bereits während der Suchbegriffseingabe sämtliche Ergebnisse geliefert. Wörter werden zudem direkt vervollständigt und dazu noch eine sogenannte Facettennavigation angeboten. Diese Neuerung ist allerdings noch nicht verbreitet, daher werden die Entwicklungen noch abgewartet. Mit Hilfe von Visualisierungen kann der Nutzer bei der Formulierung seiner Suchanfrage zusätzlich unterstützt werden. Dies kann auf verschiedene Arten geschehen. Zum einen werden dem Anwender zur eingegebenen Suchanfrage weitere korrelierende und damit potenziell zum Informationsbedürfnis passende Begriffe vorgeschlagen (Synonyme, Ober- oder Unterbegriffe, Übersetzungen oder Definitionen zu einzelnen Begriffen etc.). Zum anderen unterstützt die visuelle Oberfläche den Anwender bei der Anpassung seiner Suchanfrage anhand dieser weiteren Begriffe unter Verwendung von Booleschen Verknüpfungen, ohne die Booleschen Operatoren jedoch als „AND“, „OR“ oder „NOT“ in das Suchfeld eintippen zu müssen. So lassen sich durch einfaches Drag- & Drop, Anklicken oder Mouse-Over Funktionalitäten einzelne Begriffsvorschläge als Erweiterung oder Ausschluss in die Suchanfrage einbinden. Bsp.: Ouzi ; Beispiel-Suche nach „Jaguar“ bei Ouzi Quintura Bei Quintura werden Begriffsvorschläge als Wortwolke dargestellt, die per Klick auf einen Begriff eine Suchanfrageerweiterung mit einer OR-Verknüpfung ergibt bzw. beim Klick auf das neben einem Begriff dargestellte „-“ einen Ausschluss des Begriffs mittels einer NOT-Verknüpfung in der Suchanfrage zur Folge hat. Abbildung 31: Mindmap-artige Übersicht bei Mnemomap Mnemomap Mnemomapgeht noch einen Schritt weiter, indem die vorgeschlagenen Begrifflichkeiten in Synonyme, Tags, benachbarte Begriffe und Übersetzungen klassifiziert werden. Auch hier lässt sich durch Anklicken die Suchanfrage ausweiten oder Übersetzungen anzeigen. Der Nutzer wird mit dieser Art der Visualisierung auf spielerischem Weg zur Adaption seiner Suchanfrage motiviert und bekommt Alternativ-Formulierungen oder weiterführende Begriffe präsentiert, an die er vielleicht nicht gedacht hätte. Solche Ansätze können somit als potenzielle Grundlage verstanden werden, sich nicht nach einer EinWort-Suche auf das erstbeste Ergebnis als befriedigendes Resultat zu beschränken, sondern die Suchanfrage zu adaptieren und damit möglicherweise ein besseres Ergebnis zu erzielen. Seite 67 von 85 SPRINT – Suche im Internet Als zweiter wesentlicher Vorteil ist die Unterstützung des Einsatzes von Booleschen Operatoren zu werten, bei dem jedoch keine Kenntnisse der Funktionsweise selbiger vorausgesetzt werden. Beispielsweise lassen sich in der Suchmaschine SortFix auf einer visuellen Oberfläche vorgeschlagene Schlüsselbegriffe zur durchgeführten Suchanfrage mittels Drag- & Drop in die Bereiche „Add to Search“, „Remove“ oder „Dictionary“ ziehen, wodurch die Suchanfrage entsprechend adaptiert wird und die ausgewählten weiteren Suchbegriffe durch eine AND- bzw. NOT- (bei Ansicht der ExpertenSuchmaske weiterhin eine OR-) Verknüpfung ergänzt werden. Abbildung 32: Visualisierung statt Boole’sche Operatoren bei SortFix 5.10 Trefferanzeige Die Treffer werden in Form einer Verweis-Liste angezeigt. Aufgrund der Menge der Dokumente im Internet müssen die Verweise sinnvoll sortiert werden. Meist geschieht dies nach der berechneten Relevanz der gefundenen Webdokumente (Ranking). Die Qualität des ersten Treffers auf der Trefferliste hängt also neben der adäquaten Suchstrategie und der Qualität der Suchmaschine auch stark von der Leistungsfähigkeit der Rankingalgorithmen der Suchmaschine ab. Zu der Trefferanzeige gehört zudem die Angabe, wie viele Resultate gefunden wurden und wie lange die Suche gedauert hat. Bei jedem Internetsuchdienst werden auf der Resultatseite zumindest URL und Dokumenttitel jedes Treffers angezeigt. Die meisten Dienste präsentieren zusätzlich Ausschnitte, Stichworte oder Zusammenfassungen aus den Originaldokumenten, sowie zusätzliche Angaben wie Erstellungsdatum, Dokumentengrösse und so weiter. Zum Teil ist die Ausführlichkeit der Ergebnismenge stufenweise einstellbar. Das Ranking ist teilweise auch farbig oder graphisch aufbereitet. Die für die Suche verwendeten Begriffe werden in den Angaben der Treffer manchmal durch Fettdruck oder Farbe hervorgehoben. Oft ist auf der Trefferanzeige noch ersichtlich, wie die Suchstrategie ausgesehen hat. Bei Google ist das zuoberst der Fall. Danach folgt die „Statistikleiste“ (Google, 2009g), welche Angaben über die derzeit angezeigten Treffer enthält (1-10), die gesamthaft gefundenen Treffer (ungefähr 42‘400‘000) und die Dauer der Suche (0.38 Sekunden). Google bietet zu den einzelnen Treffern den Link „Im Cache“ an. Diese Funktion kann sehr nützlich sein, sollte eine Webseite einmal nicht zugänglich sein, denn man hat die Möglichkeit, ein Abbild der gewünschten Seite zum Zeitpunkt der letzten Indexierung durch Google anzusehen. Je nach Wichtigkeit der Seite, wie sie von Google eingeschätzt wird, kann dieses Abbild sehr aktuell sein. Zusätzlich markiert Google die Suchbegriffe mittels gelber Hervorhebung. Abbildung 33: Cache-Ansicht (auf Bild klicken) Google finanziert sich, wie auch viele andere Internetsuchdienste, mit Werbung. Eine Möglichkeit hierfür sind die farbig hinterlegten „Treffer“ zuoberst in der Trefferanzeige (zusätzlich gekennzeichnet mit „Anzeigen“). Zudem werden dem Nutzer im Block rechts weitere kommerzielle Angebote zu seiner Suchanfrage angeboten. 10 10 Hier finden sie die detaillierte Beschreibung der Google-Trefferseite. Seite 68 von 85 SPRINT – Suche im Internet Ausser der durch das Ranking vorgegebenen Reihenfolge können die Suchergebnisse bei einigen Suchdiensten wahlweise noch nach Datum, URL oder ähnlich geordnet ausgegeben werden. Auch die Gruppierung der nachgewiesenen Ergebnisse nach Servern oder die Option der Einschränkung der ausgegebenen Treffer auf einen bestimmten Server ist vereinzelt möglich. Bei Suchdiensten für Bilder werden die Suchergebnisse meistens durch Thumbnail-Darstellungen der gefundenen Bilder ergänzt. Abbildung 34: Thumbnail-Ansicht bei Bildersuche (auf Bild klicken für Suche) Bei der Google Patent Search kann gewählt werden, wie die Resultatliste angezeigt werden soll. Zudem kann bestimmt werden, wie die Treffer sortiert werden sollen (Ranking oder nach zeitlichen Aspekten). Abbildung 35: Trefferansicht bei Google Patents „List“ (auf Bild klicken für Suche) Abbildung 36: Trefferansicht bei Google Patents „Thumbnails“(Gleiche Suche) Seite 69 von 85 SPRINT – Suche im Internet Trefferanzeige mittels Visualisierung In letzter Zeit kann ein Trend zur Visualisierung 11 der Ergebnisse bemerkt werden. Konkrete Möglichkeiten sind: Ergebnisvorschau Clustering Darstellung/Nachweis von Relationen Visualisierung geographischer Aspekte Visualisierung zeitlicher Aspekte Visualisierung kollaborativer Elemente Visualsierung bei Ergebnismengenvergleich Ergebnisvorschau Die Visualisierung in Form einer Ergebnisvorschau wurde bereits gezeigt (z.B. die Ansicht Thumbnails bei Google Patents). Zusätzlich gibt es Browser-Add-Ons wie Cooliris, die von Anbietern wie Websnapr oder Alexa zur Verfügung gestellte Vorschaubilder in rein textbasierte Suchmaschinen einbinden. Hierbei werden die Thumbnails je nach Add-On direkt oder erst durch einen Mouse-Over-Effekt angezeigt. Clustering Ein viel verbreiterter Mechanismus ist das Clustering. Suchmaschinen mit Clustervisualisierung unterteilen die ermittelte Ergebnismenge in unterschiedliche grobe Kategorien und erleichtern dem Nutzer dadurch die Selektion der für ihn relevanten Trefferbereiche. Die Cluster werden anhand verschiedener Ansätze berechnet und dargestellt. Grokker (eng. To grok = begreifen, verstehen) ist hier sehr weit. Abbildung 37: Clustering von Grokker Weitere Dienste: Die experimentelle, nicht kommerzielle Metasuchmaschine meX-Search, die von Karsten Knorr 2004 im Rahmen einer Diplomarbeit entwickelt wurde, teilt die Ergebnisse von Yahoo! in thematische Cluster auf und visualisiert diese. Die Web-Suchmaschine Ujiko verwendet im Vergleich zu Grokker bzw. meXSearch eine völlig andere Clustervisualisierung. Über eine so genannte Circular Map werden ausschließlich Farbcodierungen zur Unterscheidung der Cluster verwendet. Die Clusterbildung spielt im Information Retrieval allgemein eine sehr wichtige Rolle, da hierbei Dokumente, so ähnlich wie dies bei Web-Katalogen der Fall ist, nach gemeinsamen inhaltlichen Kriterien gruppiert werden und dem Benutzer auf diese Weise die sonst bei Suchmaschinen fehlenden Kontextinformationen zur Verfügung stellen. Darstellung/Nachweis von Relationen Die Metasuchmaschine Kartoo verwendet zu diesem Zweck eine Visualisierungsform, die an eine Landkarte mit topographischer Darstellung angelehnt ist. Hierfür werden die Treffer einer Suchanfrage nach Stichworten spezifiziert, unterteilt und als Höhenzüge dargestellt. Bei der Visualisierung werden für unterschiedliche Dokumententypen jeweils unterschiedliche Icons 11 Die theoretischen Grundlagen zur Visualisierung finden sich im Kapitel 4.8.4 „Anzeige und Sortierung der Suchmaschinentreffermenge“. Seite 70 von 85 SPRINT – Suche im Internet in Form von kleinen Thumbnails verwendet, wobei die Größe eines Icons die Relevanz des dahinter liegenden Trefferdokuments repräsentiert. Im Zentrum der Relationendarstellung stehen Themenstichworte, welche als Ausgangsbasis für die Beziehungen zwischen den Ergebnisdokumenten dienen. Mit Hilfe von Mouse-Over-Effekten werden Verbindungslinien zwischen diesen Themenstichworten und/oder den Dokument-Icons von miteinander in Beziehung stehenden Treffern eingeblendet. Abbildung 38: Ergebnisvisualisierung als Landkarte Der Visualisierungsansatz von Tianamo (zugangsbeschränkte Beta-Version) geht aber noch einen Schritt weiter als das Konzept von Kartoo. Tianamo verwendet zur Ergebnisvisualisierung ebenfalls eine topographische Darstellung, wobei im Gegensatz zu Kartoo eine dreidimensionale Kartendarstellung erfolgt. Die Suchmaschine Webbrain, die auf dem Open Directory Project (ODP) aufbaut, verwendet für die Visualisierung einen eher an Mindmaps orientierten Ansatz. Die Struktur der Visualisierung ist dabei also nicht hierarchisch, sondern eher assoziativ angelegt. Hierdurch wird vor allem das Browsing in den Ergebnismengen unterstützt. Visualisierung geographischer Aspekte Um richtige Karten in der Ergebnisliste geht es bei Google Maps. Mit diesem Dienst kann eine Adresse gefunden, eine Route berechnet oder die Suche mit Kartenmaterial verknüpft werden (z.B. Branchen, Webseiten, Wikipedia-Artikel zu Orten des Kartenausschnittes). Zudem bietet Google Maps eine Verlinkung zu Fotos und YouTube-Filmen aus der gefundenen Region an. Abbildung 39: „Trefferansicht“ bei Google Maps Seite 71 von 85 SPRINT – Suche im Internet Visualisierung zeitlicher Aspekte Bei Google Labs findet sich ein interessanter Ansatz der Visualisierung mit Zeitachsen. Mit einem Filter kann der Zeitraum bestimmt werden und oberhalb der Trefferliste befindet sich eine Zeitachse mit Balkendiagrammen pro Zeitraum. Durch einen Klick auf eine Säulengruppierung kann die Zeitachse feiner dargestellt werden und die Trefferliste passt sich entsprechend an. Abbildung 40: Visualisierung zeitlicher Aspekte Visualisierung kollaborativer Komponenten Suchmaschinen, die kollaborative Aspekte beinhalten, wie beispielsweise die Möglichkeit, Suchergebnisse durch Nutzer bewerten, taggen oder kommentieren zu lassen, unterstützen diese Funktionalitäten häufig durch visuelle Komponenten. Dargestellt werden hierbei in der Regel entweder die in der Suchmaschine am häufigsten eingegebenen Suchanfragen oder Schlagworte, die durch andere Nutzer einem Suchergebnis, einzelnen Dokumenten oder auch Suchanfragen durch das in gängigen Web 2.0 Anwendungen vorherrschende Prinzip des Tagging hinzugefügt wurden. Die Visualisierung dieser Tags erfolgt analog durch so genannte Tag-Clouds, in denen häufiger genannte Tags proportional größer dargestellt werden als weniger oft getaggte Schlagworte. Das Anklicken einzelner Tags führt in der Regel zur Durchführung einer neuen Suche mit dem angewählten Tag als Suchbegriff. Ein Beispiel für eine Suchmaschine mit Visualisierungen kollaborativer Komponenten ist Eurekster. Als Vorteil einer visuellen Komponente dieser Art lässt sich der damit einhergehende „Vorschlagscharakter“ werten. Somit wird also der Mehrwert des kollaborativen Aspekts anhand der visuellen Aufbereitung dem Nutzer auf intuitive Weise zugänglich gemacht. Visualisierung bei Ergebnismengenvergleich Bei dieser Visualisierungsart geht es darum, die Ergebnismengen von mehreren Suchmaschinen miteinander zu vergleichen. Hierdurch lässt sich ermitteln, wie stark sich Treffermengen und auch das Ranking bei den verschiedenen angebundenen Suchmaschinen unterscheiden und welche Treffer bei einer Suchanfrage als Schnittmenge von mehreren Suchmaschinen ermittelt wurden. Die Metasuchmaschine SearchCrystal bietet eine vergleichende Visualisierung für die Suchdienste Yahoo!, Google, MSN, Ask und Exalead. Die Ergebnisdokumente werden kreisförmig ineinander geschachtelt angeordnet, wobei die Relevanz von aussen nach innen zunimmt, das heisst Dokumente im Zentrum wurden von mehreren Suchdiensten nachgewiesen. Optional kann die Anordnung der Ergebnisse auch spiralförmig oder in Listenform erfolgen. In der Ergebnisdarstellung ist jedem Dokument ein Icon zugeordnet, dessen Größe, Farbe und Form abhängig vom referenzierenden Suchdienst ist, seiner dortigen Rankingposition, sowie der Anzahl der Suchdienste, bei denen der Treffer nachgewiesen wurde. Eine weitere Visualisierung von Ergebnismengen unterschiedlicher Suchmaschinen wurde von Christian Langreiter entwickelt und wird bei der als Experiment betriebenen MetaanalyseSuchmaschine „Yahoo! vs. Google“ (Vergleich nur anhand des US-Rankings) angeboten. Dabei gehen aus der Visualisierung Unterschiede in den Treffermengen und im Ranking der gefundenen Seite 72 von 85 SPRINT – Suche im Internet Dokumente bei beiden Suchdiensten hervor. Der grundsätzliche Mehrwert bei der Visualisierung von Ergebnismengen liegt auf der Hand: Der Vergleich mehrerer Ergebnismengen unterschiedlicher Suchmaschinen in der traditionellen Listenform ist für den Benutzer wesentlich mühsamer zu erfassen als über eine Visualisierung, aus der auf einen Blick zu sehen ist, welcher Treffer von welchem Suchdienst nachgewiesen wird. Bei den beiden dargestellten Beispielen ist sofort ersichtlich, welche Rankingposition die jeweiligen einzelnen Treffer in ihrer Ergebnisliste belegen. 5.11 Ranking Alle Suchdienste berechnen Relevanzgrade, nach denen die Ergebnismenge sortiert wird, da eine Sortierung nach Alphabet oder Datum aufgrund der Ergebnisse und deren Menge nicht sinnvoll ist. Die Berechnung basiert dabei meist auf statistischen Verfahren, d.h. Worthäufigkeit, Wortabstände usw. Die Sortierung kann auch nach bestimmten Begriffen gesteuert werden. Alternative Ranking-Verfahren beruhen unter anderem auf der Nutzung von Informationen zur Häufigkeit von Links, die auf eine Webpage verweisen beziehungsweise von ihr abgehen. Ein solches Verfahren genannt PageRank findet bei Google Verwendung. Eine weitere Rankingmöglichkeit bezieht sich auf die Eruierung der Popularität einer Webpage. Aufgrund der Anzahl der bisherigen Abrufe dieser als Suchtreffer nachgewiesenen Seite durch andere Nutzer, wird die Wichtigkeit der Seite eingeschätzt. Als eine der wenigen Suchmaschinen kann bei SearchCloud angezeigt werden, als wie relevant ein Dokument der Trefferliste eingestuft wird. Abbildung 41: Ansicht mit Relevanzeinstufung bei SearchCloud Abbildung 42: Vergleich: Standard-Ansicht bei SearchCloud (Google-like) Seite 73 von 85 SPRINT – Suche im Internet Gewisse Suchdienste, z.B. die Google-Schweiz-Newssuche erlauben, dass die Trefferliste statt nach Relevanz nach Datum sortiert wird. Standardmässig wird nach Relevanz sortiert. Abbildung 43: Sortierung bei Google News Schweiz Google Groups lässt ebenfalls die Wahl zwischen einer Sortierung der Treffer nach Relevanz oder nach Datum zu. Exkurs Web 2.0: Seit dem Web 2.0-Zeitalter wird damit experimentiert, dass Nutzer die Treffer bewerten können. Ein bekannter Suchdienst, der diese Social-Komponente zu integrieren versucht, ist Wikia Search. Hier können die einzelnen Treffer schnell und anonym durch Anklicken von einem bis fünf Sternen bewertet werden (star ratings). Wikia ist aber immer noch in seiner zweiten Alpha-Phase und verändert sich derzeit sehr stark. Unter anderem können auch Kommentare, Hervorhebungen und Anmerkungen gemacht werden. Am 20. November 2008 hat Goolge zudem seinen neuen Dienst SearchWiki vorgestellt. SearchWiki erlaubt es dem eingeloggten Google-User, seine Suche zu personalisieren indem man das Ranking verändern, Treffer löschen, hinzufügen oder kommentieren kann. Diese Veränderungen werden dem eingeloggten Nutzer jedes Mal gezeigt, wenn er die selbe Suche ausführt. Google weist aber darauf hin, dass „The changes you make only affect your own searches. But SearchWiki also is a great way to share your insights with other searchers. You can see how the community has collectively edited the search results by clicking on the 'See all notes for this SearchWiki' link.“(Official Google Blog, 2009) 5.12 Treffermengeneingrenzung Die meisten Dienste bieten eine Eingrenzung durch Angabe einer Trefferanzahl pro Ergebnisseite an. Jede Suchmaschine hat ihren Standard, doch meist kann man in den Einstellungen die Anzahl der Treffer pro Seite herauf- oder herabsetzen. Blätterfunktionen am Ende einer Ergebnisseite ermöglichen das Navigieren zwischen den Trefferseiten. Abbildung 44: Einstellen der Treffermengenanzeige bei Google Diese Einstellungen sind jedoch nur technischer Natur. Am besten lassen sich die Treffer begrenzen, rsp. lässt sich die Treffermenge reduzieren, indem eine adäquate Suchstrategie verfolgt wird. 12 Hilfreich bei der Websuche sind insbesondere die Möglichkeiten zur Suchraumeingrenzung. 5.13 Trefferweiterverarbeitung Im Gegensatz zu den Hosts der Online-Datenbanken ist die direkte Weiterverarbeitung einer Treffermenge auf Seite des Suchservers nicht möglich. Dies liegt daran, dass HTTP ein „zustandsloses“ Protokoll ist. Dies meint, dass ein Server einen HTTP-Request in einem Ablauf 12 Vgl. dazu das Kapitel 6 „Vorgehen bei der Suche“. Seite 74 von 85 SPRINT – Suche im Internet abarbeitet und nach dem Verbindungsabbau keine Möglichkeit mehr bietet, auf diese Interaktion zurückzugreifen. Mittlerweile gibt es aber verschiedene Ansätze, dass die gemachte Suche verändert und neu abgeschickt werden kann. SearchCloud bietet beispielsweise einen Link „revise“, der zurück zum Suchfeld führt, so dass weitere Begriffe hinzugefügt werden können. Durch Klicken auf die Wolke kann zudem die „Grösse“ und damit die Gewichtung der gesuchten Begriffe nachträglich verändert werden. Leider generiert SearchCloud keine URLs für die einzelnen Suchen. Entsprechend wirkungslos ist auch der Zurück-Button des Browsers. Abbildung 45: Möglichkeit zur Trefferweiterverarbeitung bei Searchcloud Bei Google beispielsweise kann eine Art Weiterverarbeitung bei den einzelnen Treffern genutzt werden. Der Link „Ähnliche Seiten“ erlaubt die weitere Suche nach ähnlichen Dokumenten eines Treffers, während der Link „Im Cache“ die Anzeige aller Zeilen/Abschnitte eines Originaldokuments anzeigt, in denen der Suchbegriff vorkommt. Abbildung 46: Suche nach Ähnlichen Seiten -> Auf das Bild klicken, um zu sehen, was passiert Seite 75 von 85 SPRINT – Suche im Internet Exalead bietet ein ausführliches Menü zur Verfeinerung der Suche an. Es können weitere suchanfragenspezifische Begriffe gesucht werden, es kann nach Site-Art, Sprache, Kategorie und Dateityp eine weitere Suche gestartet werden. Abbildung 47: Trefferanzeige bei Exalead Abbildung 48: Facetten bei Exalead Eine Kombination mehrerer solcher „Facetten“ ist möglich. Die Google-News-Suche bietet eine RSS-Funktion an, die es dem Recherchierenden erlaubt, die Suchstrategie als RSS-Feed zu abonnieren. Somit kann eine Suche zu einem späteren Zeitpunkt erneut durchgeführt werden, um auf dem aktuellen Stand zu bleiben. Abbildung 49: RSS-Funktion für Suchanfrage (auf Bild klicken für Suche) Seite 76 von 85 SPRINT – Suche im Internet Abbildung 50: RSS-Anzeige für Suchanfrage (auf Bild klicken) Manchmal hat es auch Bilder im RSS-Feed. Ein Klick (aufs Bild) lohnt sich also! Seite 77 von 85 SPRINT – Suche im Internet 6 Vorgehen bei der Suche Eine ernsthafte Suche im Internet sollte nicht auf Anhieb und ohne jegliche Vorbereitung durchgeführt werden. Im Gegenteil, eine ernsthafte Suche sollte einer gewissen Strategie unterliegen. Sicherlich muss diese nicht so detailliert geplant werden, wie bei klassischen OnlineRecherchen üblich. Für die Suche selbst entstehen im Internet auch keine unmittelbaren Kosten, die auf der Verweildauer bei dem Suchdienst beruhen. Für eine erfolgreiche Suche sollte man aber auch im Internet zumindest wissen, für welche Fragestellungen sich welche Suchverfahren eignen und wie eine Suche sukzessive aufgebaut und verbessert werden kann. Jede erfolgreiche Informationsrecherche erfordert daher auch im Internet eine gewisse Vorbereitung. Drei zentrale Fragen sind Bestandteil einer Recherchestrategie (Bekavac/Tobler, o.A.): Bestimmung des Informationsbedarfs Formulierung der Suchanfrage Bewertung der Ergebnisse Je mehr Aufmerksamkeit dieser Vorbereitung gewidmet wird, desto weniger Zeit wird bei der eigentlichen Suche benötigt. 6.1 Informationsbedarf bestimmen Durch den immensen und heterogenen Informationsbestand im Internet und vor allem durch den einfachen Zugriff auf diesen, wird die Verlockung natürlich gross, fast ausschliesslich das Web zu nutzen. Dabei werden traditionelle Informationsquellen in den Hintergrund gedrängt. Die Informationsbestände und Anbieter im WWW betrachtend, kann aber nicht davon ausgegangen werden, dass über das Web zugängliche Informationen immer vollständig, richtig, objektiv oder professionell sind. Dies kann vor allem bei stark sensitiven Informationen, wie z. B. medizinischen, juristischen oder finanziellen Informationen beziehungsweise Tipps, durchaus zu fatalen Folgen führen. Werden relevante Informationen im WWW vermutet, so lohnt es sich vorab Gedanken zu machen, wo diese zu finden sein könnten und welcher Art und welchen Umfangs diese sein sollten. Anhand einiger Vorüberlegungen zum Informationsbedarf sollten diese Aspekte geklärt werden: Ist es überhaupt sinnvoll, im Internet zu suchen? Wo und bei welchen Internet-Diensten könnte die gesuchte Information veröffentlicht sein? Will man sich in ein neues Themengebiet einarbeiten (hohe Anzahl nachgewiesener WebSeiten) oder sucht man gezielt nach einer bestimmten Information (hohe Anzahl relevanter Web-Seiten unter den nachgewiesenen Seiten)? Ist das Thema schwer oder leicht eingrenzbar? Möchte man nur Neues zu einem Thema erfahren oder laufend darüber unterrichtet werden? 6.2 Suchanfrage formulieren Bei der Suche über Stichworte, also hauptsächlich bei Suchmaschinen und speziellen Datenbanken, ist die geeignete Auswahl der Suchbegriffe entscheidend: Bestimmung der Suchsprache und der Sprache der Resultate. Je grösser/spezieller der Suchdienst, desto spezieller sollten die Suchbegriffe sein: In Katalogen sollte man eher allgemeinere Suchbegriffe wählen, bei grossen Suchmaschinen oder speziellen Katalogen, einschlägigen Web-Sites oder Gateways zu Online-Datenbanken empfehlen sich eher spezielle Suchworte. Mit speziellen Suchbegriffen beginnen und dann zu allgemeinen übergehen: Da man vor allem bei den roboterbasierten Suchdiensten eher von zu vielen Treffern ausgehen kann, empfiehlt es sich, dort immer die Suche mit spezielleren Suchbegriffen zu beginnen. Sinnvolle Suchhilfen schon im Vorfeld überlegen: Die angebotenen Suchmethoden und operatoren der jeweiligen Suchdienste erkundschaften und einen sinnvollen Einsatz überlegen. Seite 78 von 85 SPRINT – Suche im Internet Synonyme überlegen: Oft hilft es, Synonyme oder Akronyme zu den gesuchten Begriffen zu verwenden. Weiter sollte man sich auch überlegen wie man bei der Suche vorgehen will. Man unterscheidet vier wichtige Suchstrategien (Bekavac, 2007): Abbildung 51: Die gesuchten Informationen werden in mehrere Themenblöcke zerlegt und anhand der Boole'schen Operatoren wird die Schnittmenge eruiert. Abbildung 52: Die Suche geht direkt auf den Kern des Problems. Bei Bedarf wird die Suche erweitert. Diese Strategie eignet sich besonders für Fragestellungen mit spezifischen Suchbegriffen. Seite 79 von 85 SPRINT – Suche im Internet Abbildung 53: Bei dieser Strategie geht man von einem relevanten Dokument aus. Von diesem geht die Suche weiter nach ähnlichen Dokumenten. Abbildung 54: Es wird zuerst eine allgemeine Suche durchgeführt und dann grenzt man die Treffermenge immer neu ein. Seite 80 von 85 SPRINT – Suche im Internet In folgender Tabelle werden zu verschiedenen Informationsbedürfnissen geeignete Suchverfahren mit Beispielen vorgestellt: Tab. 1: Suchanfrage formulieren Suchverfahren Beispiel Surfen, Links von interessanten Seiten aus weiterverfolgen. Allgemeines Interesse und Spezielle Seiten mit interessanten Neugier Links zu aktuellen und populären http://www.wohin.heute.de Überraschung und Zufall Web-Seiten sind vor allem bei den http://www.kinglinks.de stehen im Vordergrund Suchdiensten zu finden. Informationsbedürfnis Ein erster Überblick über ein bestimmtes Thema. Man weiss nicht ganz genau, wonach bzw. mit welchen Begriffen man suchen soll. Verzeichnisse/Kataloge FAQ-Listen/Posting-Archive und spezielle Home-Pages zu dem bestimmten Thema Diskussionsforen Weblogs Sonstige Übersichten Suchmaschinen Ein konkretes Informationsproblem liegt vor. Man kennt die Suchbegriffe und es wird eine präzise Antwort erwartet. Suchmaschinen Metasuchmaschinen Spezielle Kataloge Weblogs Spezielle Home-Pages zu einem bestimmten Thema und, falls möglich, eine lokale Suche in diesen Gateways zu speziellen Datenbanken (Online-Markt) http://dmoz.org http://faqs.cs.uu.nl/ http://archiv.twoday.net http://www.google.ch http://search.yahoo.com http://www.metacrawler.com http://mesa.rrzn.uni-hannover.de http://www.film-sprache.de http://creativecommons.org/sitemap Einschlägige Newsgroups lesen Eintragen in Mailinglisten (über WWW Listen finden und dann per E-Mail anmelden) bzw. Teilnahme an Diskussionsforen Weblogs Überwachung bestimmter Seiten Man möchte laufend über über Überwachungsdienste, d.h. ein Thema informiert http://www.sub.uni-hamburg.de bei jeder Änderung der Seite werden, z.B. Nachrichten http://segert.net/weblog bekommt man eine E-Mail. Einige http://www.doaj.org/ über eine Firma, WWW-Dienste ermöglichen Aktienkurse, Wetter usw.. Anmeldungen über Formulare, um laufend über ein Thema informiert zu werden. Elektronische Journale/E-Zines Bookmarks sorgfältig organisieren und pflegen Damit die Durchführung der Recherche erfolgreich verläuft, sollten weiter folgende Vorgehensweisen eine Hilfestellung leisten: 1. Mit Phrasensuche beginnen: Die von nahezu allen (roboterbasierten) Suchdiensten angebotene Phrasensuche, bei der nach der exakten Reihenfolge der Begriffe in der angegebenen Suchanfrage gesucht wird, eignet sich am besten, um einen ersten Eindruck der zu erwartenden Treffermenge und -qualität zu bekommen. Seite 81 von 85 SPRINT – Suche im Internet 2. Suchoptionen nutzen: Um während der Recherche die Suchanfrage weiter zu präzisieren, sollte die Verwendung weiterer Suchoptionen in Betracht gezogen werden. 3. Suche auf bestimmte Felder (URL, Titel...) eingrenzen: Um die Treffermenge einzugrenzen, eignet sich am meisten die Einschränkung der Suche auf bestimmte HTMLElemente (falls bei dem jeweiligen Suchdienst möglich). 6.3 Ergebnisse bewerten Nach dem ersten Suchvorgang wird entschieden, ob die erhaltenen Resultate zufrieden stellend sind und die Suche beendet werden kann, oder weitergeführt werden muss. Je nachdem kann sich der Informationsbedarf während der Recherche verändern oder sogar konkreter formuliert werden. Folglich kann der weitere Verlauf der Recherche dem Informationsbedarf angepasst werden. Die Treffer der jeweiligen Suchdienste sollten zur Relevanzbeurteilung in möglichst aussagekräftiger Form angezeigt und dadurch schon vor dem Laden der konkreten Trefferdokumente analysiert werden: URL „lesen“ (Dienstart, Ländercode, Domainname, Verzeichnispfad): Die URL eines Treffers beinhaltet oft erste aussagekräftige Informationen zu einem Treffer. Ausführliche Trefferangaben einstellen: Um eine wage Relevanzbeurteilung schon vor dem Laden einer WWW-Seite machen zu können, sollten möglichst viele Informationen über einen Treffer ausgegeben werden. Treffer parallel übertragen: Relevant aussehende Treffer sollten gleichzeitig, jeweils in einem eigenen Fenster übertragen werden. So werden während der Begutachtung eines Treffers andere Trefferseiten schon geladen. Relevante Treffer sofort merken und speichern: Als relevant eingestufte Treffer sollten sofort als Bookmark markiert werden, am besten in einem eigens bezüglich der Suchanfrage eingerichteten Bookmark-Folder. Bei stark temporären Web-Seiten, z. B. Zeitungsartikel usw., sollten die HTML-Dokumente gleich auf die eigene Festplatte gespeichert werden, da diese oft nur ein paar Tage im Internet gehalten werden. Seite 82 von 85 SPRINT – Suche im Internet 6.4 Aufbauelemente Recherche Zusammenfassend lässt sich der Ablauf einer Recherche in drei Blöcken einteilen: die Vorbereitung, die Durchführung und die Nachbearbeitung. Dazu kommt am Ende der Recherche der Teil Reflexion (Bekavac/Tobler, o.A.): „1. Vorbereitungsphase: Informationsbedarfsanalyse: Dabei soll der Anwender zugehörige Einzelfragen selbst ausformulieren und sich überlegen, was für Ergebnisse erwartet werden. Suchdienst(e) auswählen: Entscheidung treffen, mit welchem Suchdienst begonnen werden soll und welche Alternativen möglich sind (allg. Suchmaschine, Spezialsuchdienst, WebKatalog o.a.). Vorgehensweise bestimmen: Hier soll entweder nur der nächste Rechercheschritt aufgeführt, oder aber wenn möglich bereits mehrere Folgeüberlegungen angestellt werden, z.B. zuerst über eine Suchmaschine gehen, dann auf ein Spezialsuchdienst u.s.w. Sprachen bestimmen: Sprache der Suchbegriffe und der Resultate. Suchthemenanalyse: Aufgeteilt in Suchbegriffe, die gefunden werden sollten (Einzelworte, zusammengehörende Worte bzw. Phrasen), Ähnliche und verwandte Begriffe (z.B. Synonyme, Akronyme) und Begriffe, die nicht vorkommen dürfen (inkl. Antonyme). 2. Durchführungsphase: Formulierung der Suchanfrage: Suchbegriffe in Kombination mit sinnvollen Suchoperatoren (z.B. Boolesche Operatoren, Suchraumeingrenzung). Anfrage und (erste) Relevanzbewertung: Treffermengen überblicken und selektiv bewerten, ggfs. Suchbegriffe und Suchdienst revidieren. Ergebnisse sichern und kategorisieren: Relevante Inhalte sichern und kategorisieren (z.B. mit Bookmark-Foldern oder Favoriten). 3. Nachbearbeitungsphase: Standbeurteilung: Erkenntnisse in Hinblick auf die anfänglich gestellte Frage bewerten. Bei Beendigung der Recherche findet die Gesamtbewertung statt, bei Weiterführung der Recherche wird der nächste Vorgehensschritt geplant (Suche eingrenzen bzw. erweitern, weitere Suchdienste etc.). Gesamtergebnisse kategorisieren und bewerten: Zwischenergebnisse werden wieder aufgerufen und eine neue Ordnung nach Relevanz erstellt. Auf diese Weise kann das Gesamtergebnis bewertet werden. 4. Reflektion: Das Gesamtergebnis wird analysiert sowie der ganze Rechercheablauf reflektiert, Vor- und Nachteile des Vorgehens erkannt.“ Seite 83 von 85 SPRINT – Suche im Internet 7 Quellenverzeichnis Aus Sprint 2004/2005 Bekavac, Bernard et al. Methoden und Verfahren von Suchdiensten im WWW/Internet. Universität Konstanz Informationswissenschaft. 2002. Online unter http://www.inf-wiss.unikonstanz.de/suche/ Bekavac, Bernard / Griesbaum, Joachim (2004): Web-Suche im Umbruch? Entwicklungstendenzen bei Web-Suchdiensten. In: Bekavac, Bernard / Herget, Josef / Rittberger, Marc (Hg.): Information zwischen Kultur und Marktwirtschaft. Proceedings des 9. Internationalen Symposiums für Informationswissenschaft (ISI 2004), Chur, 6.-8. Oktober 2004. Konstanz: UVK. Bekavac, Bernard / Griesbaum, Joachim / Rittberger, Marc (2002): Deutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de. In: Hammwöhner, Rainer / Wolff, Christian / Womser-Hacker, Christa (Hg) Information und Mobilität, Optimierung und Vermeidung von Mobilität durch Information. Proceedings des 8. Internationalen Symposiums für Informationswissenschaft. Konstanz: UVK, S.201-223. Khopkar, Y. / Spink, A. / Giles, C. L. / Shah, P. / Debnath, S (2003): Search engine personalization: An exploratory study. First Monday, 8 Nr.7. Lyman, P. / Hal, R. Varian. How much Information 2003? Online unter http://www.sims.berkeley.edu/how-much-info-2003 Machill, Marcel / Welp, C. Wegweiser im Netz (2003): Qualität und Nutzung von Suchmaschinen. Bertelsmann Stiftung. Robertson, S. E (1981): The methodology of information retrieval experiments. In: Jones, K. Sparck (ed.). Information Retrieval Experiment. London. Butterworth, S. 9-31. Informationsanbieter Bauer, David (2008): Bla-Bla-Blogger – die Rebellen versinken im Mittelmass. NZZ; 2. November 2008, S. 103-104. Griesbaum, Joachim / Bekavac, Bernard / Rittberger, Marc (2008): Typologie der Suchdienste im Internet. Universität Hildesheim; Hochschule für Technik und Wirtschaft Chur; Deutsches Institut für Internationale Pädagogische Forschung. Suchverfahren im Internet Burns, Enid (2007): Most Searchers Have Two Words for Google. Online unter http://searchenginewatch.com/3627479 Buschmann, Michael (2008): Die Bedeutung von Suche im Online-Geschäft. In: Wie arbeiten die Suchmaschinen von morgen? – Informationstechnische, politische und ökonomische Perspektiven. Acatech – Deutsche Akademie der Technikwissenschaften, 2008. S. 89-100. Fauldrath, Jens / Kunisch, Arne (2005). Kooperative Evaluation der Usability von Suchmaschineninterfaces. In: Information: Wissenschaft und Praxis, Jahrgang 56 (2005), Ausgabe 1 S. 21-28. Online unter http://www.fauldrath.net/Kooperative-Evaluation-der-Usability-vonSuchmaschineninterfaces/ Griessbaum: Going 2.0? Online unter weboptimierung-griesbaum.de/files/web20_demo.pdf Griesbaum, J / Bekavac, B. / Rittberger, M. (2008): Typologie der Suchdienste im Internet. In: Dirk Lewandowski (Hrsg.), Handbuch Internet-Suchmaschinen – Nutzerorientierung in Wissenschaft und Praxis. Heidelberg: Akademische Verlagsgesellschaft. Griesbaum, Joachim / Rittberger, Marc / Bekavac, Bernard (2002): Deutsche Suchmaschinen im Vergleich. Alta.Vista.de, Fireball.de, Google.de und Lycos.de. Khopkar, Y. / Spink, A. / Giles, C. L. / Shah, P. / Debnath, S (2003): Search engine personalization: An exploratory study. First Monday, 8 Nr.7. Lewandowski, Dirk (2006). Aktualität als erfolgskritischer Faktor bei Suchmaschinen. In: Information. Wissenschaft & Praxis. 57(2006)3, 141-148. Online unter http://www.durchdenken.de/lewandowski/doc/Aktualitaet_IWP.pdf Seite 84 von 85 SPRINT – Suche im Internet Lewandowski, Dirk (2008a). The retrieval effectivenes of web search engines: considering results descriptions. In: Journal of Doumentation, Vol. 64, Nr. 6, 2008, S. 915-937 Lewandowski, Dirk (2008b): A three-year study on the freshness of Web search engine databases. Zu erscheinen in: Journal of Information Science. [Preprint] Online unter http://www.durchdenken.de/lewandowski/doc/JIS2008_preprint.pdf Lewandowski, D. / Höchstötter, N. (2008). Web Searching. A Quality Measurement Perspecitve. In: Spink, Amanda & Zimmer, Michael (eds.). Web Search. Multidisciplinary Perspectives. Springer Series in Information Science and Knowledge Management 14. Berlin: Springer. Machill, Marcel / Beiler, Markus / Zenker, Martin (2008). Suchmaschinenforschung: Überblick und Systematisierung eines interdisziplinären Forschungsfeldes. In: Mattern, Friedemann (Hrsg.): Wie arbeiten die Suchmaschinen von morgen? Informationstechnische, politische und ökonomische Perspektiven. Stuttgart: arcatech, S. 23-58 Nielsen, Jakob / Loranger, Hoa (2006). Prioritizing Web Usability. Berkeley: New Riders. Schulz, Ursula (2007). [Web Usability] Kriterien für Suchmaschinen. Online unter http://www.bui.haw-hamburg.de/pers/ursula.schulz/webusability/suchma.html SmartWeb-Projekt: Einleitung und Motivation. Online unter www.smartwebprojekt.de/main_pro_de.pl Software-Agent (Version 09.12.2008). In: Wikipedia. Online unter de.wikipedia.org/wiki/SoftwareAgent Uni Bielefeld: Invisible Web. Online unter www.ub.unibielefeld.de/biblio/search/help/invisibleweb.htm Weinhold, T. / Bekavac, B. / Hierl, S. / Öttl, S. (2008): Visualisierung bei Internetsuchdiensten. In: Dirk Lewandowski (Hrsg.), Handbuch Internet-Suchmaschinen – Nutzerorientierung in Wissenschaft und Praxis. Heidelberg: Akademische Verlagsgesellschaft. Wirth, Thomas (2005). Die DIN EN ISO 9241 – 10. Online unter http://www.kommdesign.de/texte/din.htm Operatoren & Methoden Exalead (2009): Exalead Websuchfunktionen. Online unter http://www.exalead.com/search/querySyntaxReference Google (2009a): Advanced Operators. Online unter http://www.google.de/help/operators.html Google (2009b): Bildsuche. Online unter http://images.google.ch/intl/de/help/faq_images.html Google (2009c): Das Wichtigste über die Google-Suche. Online unter http://www.google.de/support/bin/static.py?page=searchguides.html&ctx=basics Google (2009d): Google-Funktionen; Auf gut Glück. Online unter http://www.google.com/help/features.html#lucky Google (2009e): Google Help - Cheat Sheet. Online unter http://www.google.com/help/cheatsheet.html Google (2009f): Patent Search. Online unter http://www.google.com/patents Google (2009g): Suchergebnisseite. Online unter http://www.google.de/support/bin/static.py?page=searchguides.html&ctx=results Official Google Blog (2009). [Artikeltitel] SearchWiki: make search your own. Online unter: http://googleblog.blogspot.com/2008/11/searchwiki-make-search-your-own.html Vorgehen bei der Suche Bekavac, Bernard (2007): Modul Information Retrieval. Suchverfahren und Suchstrategien. HTW Chur. Bekavac, Bernard / Tobler, Laura: Vermittlung von Recherchekompetenz im Internet mittels Case Studies. HTW Chur. Seite 85 von 85