Vergleich von Internetsuchmaschinen
Transcription
Vergleich von Internetsuchmaschinen
Vergleich von Internetsuchmaschinen & Fachdatenbanken Dr. Joachim Griesbaum Informationswissenschaft Universität Konstanz Fach D 87 D-78457 Konstanz Department of Computer and Information Science at the University of Constance Inhalt (1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken (2) Vergleich von Internetsuchmaschinen & Fachdatenbanken a) Dokumentkollektion b) Repräsentation der Dokumente c) Anfrageninterpretation & -verarbeitung d) Retrievalfunktion (3) Recherchebeispiel (4) Ergebnis 2 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Architektur von Retrievalsystemen Nutzer mit Informationsbedarf Suchanfrage Suchergebnis Anfrageninterpretation & -verarbeitung Repräsentation des Informationsbedarfs Abgleich mittels einer Retrievalfunktion Wissensbasis Repräsentation der Dokumente Retrievalsystem Verfahren der Dokumentbeschaffung bestimmen Umfang und Inhalt der Dokumentkollektion Input Wissensobjekt 3 Internetsuchmaschinen & Fachdatenbanken Wissensobjekt Wissensobjekt Informationswissenschaft Konstanz Einordnung Internetsuchdienste – Fachdatenbanken Internetsuchdienste ermöglichen das Auffinden von Wissensbeständen im Internet. Kataloge Suchmaschinen – roboterbasierte Suchdienste Fachdatenbanken sind i.d.R online zugängliche fachspezifische Retrievalsysteme, die den Zugriff auf bzw. den Nachweis von Fachinformationen ermöglichen. Referenzdatenbanken bibliographische Datenbanken mit Sekundärinformationen zu Veröffentlichungen 4 Internetsuchmaschinen & Fachdatenbanken Faktendatenbanken Volltextdatenbanken Informationswissenschaft Konstanz Suchmaschinen Nutzer Index Anfragenbearbeitung -automatische TermSuchanfrage extraktion (Volltext): Position & Häufigkeit, Funktions- Struktur-, Formatelemente -Links Automatische Sortierung nach Dokumentbeschaffung Relevanzkriterien Roboter/Anmeldung Webpages Internet Bsp.: www.google.de ask.de, Tipp: exalead.de u.a. mit Wortstammsuche 5 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Fachdatenbanken Index bestehend aus bibliographischen Daten Nutzer Boole´sche Anfragenbearbeitung Suchanfragen und zusätzlichen inhaltserschließenden Angaben •Titel •Autor •Schlagwörter (Controlled, Treffermengen Ausgabe (meist free terms) Sortierung nach formalen und •Klassifikation Relevanzkriterien möglich) •Abstract •... Zyklische Aktualisierung, Meist intellektuelle Zeitschriften Dissertationen Inhaltserschließung Reports Fachliteratur Proceedings 6 Bücher Internetsuchmaschinen & Fachdatenbanken Bsp.: INSPEC, INFODATA, SOLIS, COMPUSCIENCE Informationswissenschaft Konstanz Inhalt (1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken (2) Vergleich von Internetsuchmaschinen & Fachdatenbanken a)Dokumentkollektion b) Repräsentation der Dokumente c) Anfrageninterpretation & -verarbeitung d) Retrievalfunktion (3) Recherchebeispiel (4) Ergebnis 7 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Dokumentraum und Dokumentbeschaffung Internetsuchmaschinen Suchmaschinen erfassen z.T. zwar viele Milliarden Dokumente, aber das ist nur einen Teil des Internet Fachdatenbanken Je nach Scope und Umfang der Datenbank fachlich einschlägig und das Themengebiet abdeckend Informationsressourcen inhaltlich, strukturell und qualitativ sehr heterogen Dokumente qualitativ hochwertig Hochgradig veränderlicher Dokumentraum Î State of the Art-Recherchen grundsätzlich möglich Î Unsicherheit bzgl. Vollständigkeit und Qualität der Ergebnisse 8 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Inhalt (1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken (2) Vergleich von Internetsuchmaschinen & Fachdatenbanken a) Dokumentkollektion b) Repräsentation der Dokumente c) Anfrageninterpretation & -verarbeitung d) Retrievalfunktion (3) Recherchebeispiel (4) Ergebnis 9 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Suchmaschinenspider-Simulation für Amazon.de Darstellung zur Veranschaulichung gekürzt, vgl. [www.se-spider.com] 10 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Beispiel für Erschließung aus INSPEC Accession number Author(s) & Editors Source Date Country Abstract & Abstract Number Subject Headings (kontrolliertes Vokabular) Key Phrase Identifiers (freies Vokabular) Classification Codes (Klassifikation) Treatment (Objekttyp: z.B. Product Review) CODEN: Code zur Identif. von z.B. Zeitschriften Language ISSN U.S. Copyright Clearance Center Code Doc. N. Publication Type SICI (Code nach ANSI Standard Z39.56) Volltext (noch) frei erhältlich unter Update Code web.archive.org/web/20040724094753/http://www.scils.rutgers.edu/~muresan/ Copyright Docs/ipmSpink2002.pdf (letzter Zugriff 16.03.2007) 11 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Repräsentation der Dokumente Internetsuchmaschinen Geringer Strukturierungsgrad & keine verlässlichen Standards (Metadaten) Missbrauch von Textinhalten (Spam) Repräsentation der Verlinkungsstruktur Î Reverse (Zitations-)Suche Fachdatenbanken Strukturierte Feldschemata Vorh. Informationen werden mit inhaltserschließenden Angaben ergänzt Indexierung: Vergabe kontrollierter und freier Schlagwörter & Klassifikation Î Strukturierte Anfragen (Felder) Î Eindeutiges Vokabular 12 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Inhalt (1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken (2) Vergleich von Internetsuchmaschinen & Fachdatenbanken a) Dokumentkollektion b) Repräsentation der Dokumente c) Anfrageninterpretation & -verarbeitung d) Retrievalfunktion (3) Recherchebeispiel (4) Ergebnis 13 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Anfragenverarbeitung in Internetsuchmaschinen – Bsp. Google [www.google.com/help/basics.html] Matcht exakte Terme: keine Trunkierung Bsp:Treffermengen: search engines = 82 Mio. URLs search engine =302 Mio. URLs (16.03.2007) Keine Suche in Metadaten (Ausnahme: Title) Teilweise Zugriff auf Funktionsund Strukturelemente: site, link, Maximale Anfragenlänge 32 Terme Î wenig Gestaltungsraum für komplexe Suchanfragen. daterange, filetype Voreingestellt AND-Verknüpfung OR und NOT sind extra anzugeben Keine Klammern, OR wird vor AND interpretiert, d.h patent AND (verzeichnis OR katalog) = patent verzeichnis OR katalog 14 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Benutzeroberfläche und Dialoggestaltung in Internetsuchmaschinen Simple Benutzerschnittstelle. Dialogführung. Request-Response-Paradigma. Optionen zur Modifikation der letzten Suchanfrage (related queries, related pages). 15 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Anfragenverarbeitung in Fachdatenbanken Terme werden mit Hilfe von boole´schen Operatoren AND, OR, NOT verknüpft. Verschachtelung mit Hilfe von Klammern möglich. Häufig zusätzlich Proximity-Operatoren (Abstandsbedingungen). Trunkierung: Suche nach Wörtern mit bestimmtem Wortstamm. Feldsuche: Einschränkung der Anfrage auf spezifische Felder. Beisp.: „Suche alle Dokumente der Autorin Spink, die sich mit der Evaluation von Suchmaschinen befassen und nach 2003 erschienen sind“ (Search engine? and evaluation)/TITLE AND information retrieval/CONTROLLED-TERMS AND spink/AUTHOR LIMIT:YEAR>2003 16 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Anfragenverarbeitung in Fachdatenbanken Anfragenlänge: Singuläre Anfragen i.d.R. bis zu 256 Zeichen Suchdialog: Suchhistorie bietet direkten Zugriff auf und Weiterverarbeitung vorheriger Anfragen. D.h. Anfragen nahezu beliebig komplex Î Elaborierte Suchstrategien umsetzbar Ablauf der Suche 1: TermA1 OR TermA2 OR TermA3 17 2: TermB1 OR TermB2 OR TermB3 3: TermC1 OR TermC2 OR TermC3 4: 1 AND 2 AND 3 = (A1 OR A2 OR A3) AND (B1 OR B2 OR B3) AND (C1 OR C2 OR C3) 5: ... Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Inhalt (1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken (2) Vergleich von Internetsuchmaschinen & Fachdatenbanken a) Dokumentkollektion b) Repräsentation der Dokumente c) Anfrageninterpretation & -verarbeitung d) Retrievalfunktion (3) Recherchebeispiel (4) Ergebnis 18 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Retrievalfunktion Internetsuchmaschinen Fachdatenbanken Ranking der primäre Erfolgsfaktor Ranking von geringer Bedeutung Automatische Sortierung: Rankingfaktoren Wortokurrenzen in Bezug auf Position, Häufigkeit, Funktion, Formatierung Analyse von Linkstrukturen (Linkpopularity/Pagerank) Sprach- bzw. lokalitätsbasierte Filter Explizite Sortierung der Treffer nach Termhäufigkeiten & formalen Kriterien möglich Î Relevanz der Treffer ist vollständig von der Qualität der Rechercheformulierung abhängig. Î Funktioniert häufig sehr gut Î Zustandekommen der Suchergebnisse kaum nachvollziehbar 19 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Inhalt (1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken (2) Vergleich von Internetsuchmaschinen & Fachdatenbanken a) Dokumentkollektion b) Repräsentation der Dokumente c) Anfrageninterpretation & -verarbeitung d) Retrievalfunktion (3) Recherchebeispiel (4) Ergebnis 20 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Recherchebeispiel "Evaluierung von Suchdiensten im WWW" Im Rahmen eines Forschungsprojekts soll die Qualität verschiedener Suchdienste bestimmt werden. Um das methodische Vorgehen zu entwickeln, ist zunächst der gegenwärtige Forschungsstand bei der Evaluation von Retrievalsystemen zu ermitteln. Die Recherche soll eine hohe Vollständigkeit erreichen und möglichst alle zentralen Artikel zum Themenfeld nachweisen. 21 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Recherche in Google „information retrieval“ „search engine“ evaluation 403.000 Treffer „information retrieval“„search engine“ evaluation filetype:pdf 138.000 Treffer „information retrieval“ intitle:„search engine“ evaluation 666 Treffer „information retrieval“ intitle:„search engine“ evaluation filetype:pdf 233 Treffer „information retrieval“ intitle:„search engine“ intitle:evaluation „information retrieval“ intitle:„search engine“ intitle:evaluation filetype:pdf 39 Treffer 4 Treffer Reverse Suche zu einer relevanten gefundene Website link:http://trec.nist.gov 62 Treffer Erwartung: In Google zumindest einige relevante Websites zu finden. Suche eher intuitiv unsystematisch, explorativ. Oft Zugriff auf Informationen möglich, die nicht (so schnell) in Fachdatenbanken erfasst werden. Trotz z.T. hoher Trefferzahlen ist der Vollständigkeitsgrad der Ergebnisse völlig unbekannt. 22 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Recherche in INSPEC Systematische Suche im freien und kontrollierten Vokabular. Erwartung: Die zentralen und wichtigen Dokumente sind nahezu vollständig und umfassend in Ergebnis #8 nachgewiesen. 23 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Inhalt (1) Überblick Retrievalsysteme: Einordnung Internetsuchmaschinen & Fachdatenbanken (2) Vergleich von Internetsuchmaschinen & Fachdatenbanken a) Dokumentkollektion b) Repräsentation der Dokumente c) Anfrageninterpretation & -verarbeitung d) Retrievalfunktion (3) Recherchebeispiel (4) Ergebnis 24 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Internetsuchmaschinen & Fachdatenbanken: Vertrauen vs. Kontrolle? Zufallstreffer vs. hochwertiger Information? In Internetsuchmaschinen sind systematische Suchstrategien kaum möglich. Sie eignen sich deshalb bei Recherchen vor allem für eine erste Orientierung und auch als Ausgangspunkt für das Aufspüren relevanter Communities, Portale und spezieller Suchdienste. D. h. Suchmaschinen sind einerseits für explorative Suchkontexte sinnvoll, des Weiteren stellen Sie auch ein hervorragendes Hilfsmittel zum langfristigen Aufbau und Erhalt von Expertise dar. Fachdatenbanken sind extrem mächtige Suchdienste, aber ohne Einarbeitung nicht intuitiv nutzbar. Für State of the Art-Suchkontexte, in denen alle zentralen und wichtigen Dokumente vollständig & umfassend nachgewiesen werden sollen, nach wie vor unverzichtbar. Kombination beider Instrumen te empfehlenswert 25 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Links & Literatur Recherchebeispiel unter http://www.inf-wiss.unikonstanz.de/CURR/summer05/infauf/recherchebeispiel_suchmasc hinenevaluation_inspec.html Brin, S.; Page, L. (1998), The Anatomy of a Large-Scale Hypertextual Web Search Engine, 1998 [http://citeseer.ist.psu.edu/brin98anatomy.html 24.10.2006] Broder, A. (2006), From query based Information Retrieval to context driven Information Supply [http://grupoweb.upf.es/workshop/slides/fws_broder.pdf 01.11.2006] Ferber, R. (2003), Information Retrieval. Suchmodelle und DataMining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt. 26 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Links & Literatur Fuhr, N. (2004), Theorie des Information RetrievaI: Modelle, in: Kuhlen, Rainer; Seeger, Thomas; Strauch, Dieter (Hg.): Grundlagen der praktischen Information und Dokumentation. 5. völlig neu gefasste Auflage. Band 1 - Handbuch zur Einführung in die Informationswissenschaft und -praxis. München: K G Saur, 2004, S.207-214. Korfhage, R. R. (1997), Information storage and retrieval. Wiley: New York. Lewandowski, D. (2005), Web Information Retrieval: Technologien zur Informationssuche im Internet, Frankfurt a.M.: DGI [http://www.durchdenken.de/lewandowski/web-ir/ 23.10.2006]. Smyth, B.; Balfe, E. (2006), Anonymous personalization in collaborative web search. Inf. Retr. 9(2): 165-190 (2006) [http://www.springerlink.com/media/570cdglxvm1twclrrvv3/contribu tions/4/9/j/6/49j6313t495h0w26.pdf 30.10.2006] 27 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz Vielen Dank für Ihre Aufmerksamkeit! [www.web-information-retrieval.de/vergleich_internetsuchmaschinen_fachdatenbanken.pdf] 28 Internetsuchmaschinen & Fachdatenbanken Informationswissenschaft Konstanz