Handout
Transcription
Handout
Einführung Internet-Suchmaschinen 1. Einführung Norbert Fuhr 2. April 2015 1/1 Web-Suche Internet-Suche 4/1 Produktsuche in Internet-Shops Intranet-Suche 5/1 Suche in Online-Publikationen 6/1 Suche in Digitale Bibliotheken 7/1 8/1 Multimedia -Suche Facetten der Suche Sprache Beispiel: cross-linguale Suche in Google 9/1 10 / 1 Facetten der Suche Facetten der Suche Struktur Medien Beispiel: XML-Retrieval Beispiel:Ähnlichkeitssuche auf Bildern 11 / 1 12 / 1 Facetten der Suche Facetten der Suche Objekte statische/dynamische Inhalte Beispiel: Personensuche mit 123people Beispiel: Twitter-Suche 13 / 1 Facetten der Suche 14 / 1 Suchqualität gefunden (GEF) I Sprache: monolingual, cross-lingual, multilingual I Struktur: atomar, Felder, baumartig (z.B. XML), Graph (z.B. Web) I Medien: Text, Fakten, Bilder, Audio (Sprache/Musik), Video, 3D,. . . I Objekte: Produkte, Personen, Firmen I statische/dynamische Inhalte 0000000000 1111111111 111111111111 000000000000 00000000 11111111 0000000000 1111111111 000000000000 111111111111 00000000 11111111 0000000000 1111111111 000000000000 111111111111 00000000 11111111 0000000000 1111111111 000000000000 111111111111 00000000 11111111 0000000000 1111111111 000000000000 111111111111 00000000 11111111 0000000000 1111111111 000000000000 111111111111 00000000 11111111 0000000000 1111111111 000000000000 111111111111 00000000 11111111 0000000000 1111111111 000000000000 111111111111 00000000 11111111 0000000000 1111111111 000000000000 111111111111 relevant (REL) Kollektion (ALL) 15 / 1 16 / 1 Retrievalmaße GEF: Menge der gefundenen Antwortdokumente REL: Menge der relevanten Dokumente in der Datenbank Precision p: Anteil der relevanten an den gefundenen Informationskompetenz Recall r : Anteil der gefundenen an den relevanten p= |REL ∩ GEF | |GEF | r= |REL ∩ GEF | |REL| Beispiel: 20 relevante Dokumente zur aktuellen Anfrage. System liefert 10 Dokumente, von denen 8 relevant sind. Precision: p = 8/10 = 0.8 Recall: r = 8/20 = 0.4 17 / 1 Information/Wissen als Entscheidungsgrundlage Informationskompetenz - 6 Schritte 1. Aufgabendefinition I I ”People’s actions are based more on what they believe than on what is objectively true” [Bandura, 1997; Pajares, 2002]. Definiere das Informationsproblem Identifiziere das Informationsbedürfnis 2. Informations-Beschaffungs-Strategien I I Bestimme alle möglichen Quellen Wähle die besten Quellen aus 3. Lokalisierung und Zugriff “What you see is all there is (WYSIATI)” (Entscheidung allein aufgrund der vorhandenen, unzureichenden Information) (Kahneman, 2011: Thinking fast and slow) I I Lokalisiere die Quellen (intellektuell und physisch) Finde die Information innerhalb der Quelle 4. Benutze die Information I I → Informationskompetenz als notwendige Fähigkeit, um sich ausreichende Entscheidungsgrundlage zu verschaffen Anschauen (z.B. lesen, hören, betrachten, anfassen) Extrahiere die relevante Information 5. Synthese I I Organisiere die Information aus verschiedenen Quellen Prozessiere/Präsentiere die Information 6. Bewertung I I 19 / 1 Ergebnisse bewerten Rechercheweg bewerten 20 / 1 Informationskompetenz - Beispiel I 1. Aufgabendefinition I I I I Definiere das Informationsproblem Ich will das neue Handy Galaxy Xperia Lumia Identifiziere das Informationsbedürfnis Wo kriege ich es am günstigsten? I I I Bestimme alle möglichen Quellen Freunde, Handy-Shop, Google, Preisvergleichs-Seiten, Amazon, ... Wähle die besten Quellen aus I I I Organisiere die Information aus verschiedenen Quellen Vergleichbare Zusammenstellung Prozessiere/Präsentiere die Information Übersichtstabelle, . . . 6. Bewertung I Lokalisiere die Quellen (intellektuell und physisch) Freunde/Shops aufsuchen, Web-Seiten aufrufen Finde die Information innerhalb der Quelle Fragen / Suchen / Browsen Anschauen (z.B. lesen, hören, betrachten, anfassen) Extrahiere die relevante Information Mit/ohne Vertrag, Lieferzeit, Gesamtpreis inkl. Versand 5. Synthese I 3. Lokalisierung und Zugriff I 4. Benutze die Information I 2. Informations-Beschaffungs-Strategien I I Informationskompetenz - Beispiel (2) I Ergebnisse bewerten Habe ich das günstigste Angebot gefunden? Rechercheweg bewerten Hätte ich schneller zum Ziel kommen können? Was war überflüssig? 21 / 1 Implizierte Fähigkeiten 22 / 1 Benachbarte Kompetenzen 1. Aufgabendefinition I Informationsbedarf erkennen 2. Informations-Beschaffungs-Strategien I I Kenntnis von Strategien Kenntnis von Quellen I Bibliothekskompetenz I Computerkompetenz I Digitalkompetenz (Fähigkeit,über Computer dargestellte Informationen unterschiedlicher Formate verstehen und anwenden zu können) I Internet-Kompetenz I Suchkompetenz I Kommunikationskompetenz I Lesekompetenz I Medienkompetenz I Schreibkompetenz 3. Lokalisierung und Zugriff I I Lokalisierung von Informationsquellen Suchen nach Information 4. Benutze die Information I I verschiedene Medien anschauen und Inhalt erfassen Extraktion der relevanten Information 5. Synthese I I Organisation von Information zweckoptimierte Gestaltung und Präsentation 6. Bewertung I I kritische Beurteilung von Information Selbstreflektion bzgl. Vorgehensweise 23 / 1 24 / 1 Suchkompetenz Suchkompetenz I Aufbau einer Web-Suchmaschine I Suchbarkeit I Linguistische Funktionen I Anfragesprache I Ranking I Suchtaktiken und Strategeme 26 / 1 Aufbau einer Web-Suchmaschine Basiskomponenten einer Web-Suchmaschine Crawler Sammelt Webseiten, interagiert mit Webservern beim Dokumentzugriff, folgt Links zu neuen Quellen Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiert die Dokumente Datenbank Effiziente Speicherung der extrahierten und aufbereiteten Daten (z.B. in einer Datenbank mit invertierten Listen) Searcher Entgegenname von Anfragen, sucht in der Datenbank nach den passenden Antworten 27 / 1 28 / 1 Suchbarkeit Welche Dokumente können überhaupt gefunden werden? I Zugriff: I I I I I I Aktualität Dokumentformat I I I öffentlich zugänglich verlinkt durch robots.txt erlaubt keine Datenbankinhalte (außer wenn verlinkt) nur Texte (kein Faksimile, andere Medien nur über Text) keine exotischen Dokumentformate keine Sprachübersetzung 30 / 1 Suchkompetenz - linguistische Funktionen Suchkompetenz - linguistische Funktionen Wortnormalisierung Patent US20090259643 ”normalizing query words in web search” Wortnormalisierung Fuhr – fuhr, Schuss – Schuß, colour – color, meta tag – meta-tag – metatag – meta tag’s Grundformreduktion Häuser – Hauses – Hause – Haus, Duisburg – Duisburgs, ¬ Duisburger Nominalphrasen ”information retrieval”, ”retrieval * information” Komposita Einfamilienhaus, Reihenendhaus, Doppelhaushälfte Synonyme Handy Mobiltelefon Smartphone / ∼handy 31 / 1 32 / 1 Anfragesprache I UND, ODER, Negation handy -vertrag I Zahlenbereiche: 100..200 EURO I Facetten: Objekttyp (Bilder/Maps/Videos/News/Shopping/..), Standort, Sprache, Zeitraum I I Ranking Faktoren, die eine Seite nach oben bringen site:, link:, filetype:, related: link:uni-due.de -site:uni-due.de I Suchbegriffe kommen häufig in der Seite vor I Suchbegriffe kommen in Ankertexten vor I Page rank I Nutzer-Klicks: fremde, eigene, Freunde (Google+) I Diversität (Faktoren werden als Merkmale in einem learning to rank-Ansatz verwendet, auf Klick-Daten trainiert) inurl:, intitle:, intext:, inanchor: duisburg -intext:duisburg Search engine optimization: Maßnahmen, eine Seite nach oben zu bringen aber: Web spam 33 / 1 34 / 1 Suchtaktiken und Strategien Taktiken: Term-Taktiken Auswahl/Variation der Suchterme Information Retrieval Suchformulierung verbreitern/einengen, viele/wenige Terme Strukturelle Taktiken auf der Menge der potenziellen Antworten Ideen-Taktiken offene Suchmöglichkeiten/Variation Monitoring ”Tactics to keep the search on track and efficient” Strategie: Plan zu Durchführung einer komplexen Suche 35 / 1 Internetsuche vs. klassischen Datenbanksuche Information Retrieval Information Retrieval (IR) beschäftigt sich mit Vagheit und Unsicherheit in Informationssystemen → Grundlage der Internetsuche I Schwierigkeit, passende Anfrage zu formulieren I iterative Anfrageformulierung (abhängig von Antworten) I viele Antworten, aber wenige davon relevant I Rangordnung der Antworten (statt Antwortmenge) 1962 Online-Informationssysteme I Repräsentation des Inhalts von Dokumenten inadäquat / unsicher 1991 WAIS (Wide area Information System): verteilte Suche im Internet 1950er frühe Arbeiten ab 1960 Gerard Salton (Harvard, Cornell) als populärer Pionier 1993 WWW 1994 Webcrawler als erste Internet-Suchmaschine 37 / 1 Vagheit und Unsicherheit 38 / 1 IR = inhaltsorientierte Suche Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren I vage Anfragebedingungen I iterative Frageformulierung (engere Definition) Suche auf verschiedenen Abstraktionsstufen: Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte I unsichere Repräsentation ( fehlerhafte Antworten) I unvollständige Repräsentation ( fehlende Antworten) 39 / 1 I Syntax I Semantik I Pragmatik 40 / 1 Syntax, Semantik und Pragmatik bei Texten Bildersuche auf der Syntaktischen Ebene Bild als Pixelmatrix mit Farbwerten 1. Konturen “Willkommen beim Fachgebiet Informationssysteme. Schwerpunkte unserer Arbeit sind Information Retrieval, Digitale Bibliotheken und Web-basierte Informationssysteme, wobei wir insbesondere Nutzer-orientierte Forschungsansätze verfolgen.“ Syntax: ’Forschungsansatz’ no match Semantik ’Forschungsschwerpunkt’ match Pragmatik ’potenzielle Kooperationspartner für Entwicklung multimedialer Informationssysteme’ ? 42 / 1 41 / 1 Syntaktische Ebene: 2. Texturen Syntaktische Ebene: 3. Farbe Häufigkeit/räumliche Verteilung von Pixelfarben Textures: Muster im Grauwert-Bild strukturelle und/oder statistische Muster d001 d056 d095 d020 d014 d006 d003 d004 d087 d005 d111 d066 d011 d103 d049 d015 43 / 1 44 / 1 Bildersuche: Semantische Ebene Bildersuche: Pragmatische Ebene Bedeutung eines Bildes / durch das Bild illustriertes Thema Objekte im Bild(+ räumliche Anordnung) Beispiel: Google Bildersuche nach’kangaroo’ A40-Ausbaupläne liegen weiter auf Eis I (basiert auf Textsuche im Dateinamen und der Bildunterschrift) I Themen sind sehr subjektiv Aber die pragmatische Ebene ist wichtig für viele Anwendungen 45 / 1 Syntax, Semantik und Pragmatik 46 / 1 Daten — Information — Wissen Suche auf verschiedenen Abstraktionsstufen: Syntax Dokument als Folge von Symbolen (z.B. Zeichenkettensuche in Texten, Farbe/Textur/Kontur in Bildern) Semantik Bedeutung eines Dokumentes (z.B. Textsemantik, in einem Bild vorkommende Objekte) Pragmatik Nutzung eines Dokumentes (Zweck) (z.B.: Löst das Dokument mein Problem? Was ist die Aussage des Textes / Bildes?) IR beschäftigt sich mit der Semantik und Pragmatik von Dokumenten 47 / 1 48 / 1 Information vs. Wissen I Wissen zur Entscheidungsunterstützung Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird (und häufig nicht vorhanden ist) I Nach Wissen wird in externen Quellen gesucht. I Die Transformation von Information in Wissen ist ein Mehrwert erzeugender Prozess Daten Information Wissen Entscheidung Nützlichkeit 49 / 1 Rahmenarchitektur für IR-Systeme Informations− bedürfnis Frage− Repräsentation Beispiel für ein Textdokument Objekt: Experiments with Indexing Methods. The analysis of 25 indexing algorithms has not produced consistent retrieval performance. The best indexing technique for retrieving documents is not known. Frage− Beschreibung Vergleich fiktives/ reales Objekt Objekt− Repräsentation 50 / 1 Repräsentation: (experiment, index, method, analys, index, algorithm, produc, consistent, retriev, perform, best, index, techni, retriev, document, know) Ergebnisse Objekt− Beschreibung Beschreibung: {(experiment,1), (index,3), (method, 1), (analys,1), (algorithm,1), (produc,1), (consistent,1), (retriev,1), (perform,1), (best,1), (techni,1), (retriev,1), (document,1), (know,1)} fiktives/ reales Objekt 51 / 1 Objekt− Repräsentation Objekt− Beschreibung 52 / 1 Beispiel für Textsuche Bezug zu den Vorlesungskapiteln Evaluierung Frage: “What is the best indexing algorithm?“ Informations− Repräsentation: (best index algorithm) bedürfnis Frage− Repräsentation Frage− Beschreibung Beschreibung: best ∧ index ∧ algorithm Vergleich Wissensrepräsentation Informations− bedürfnis Frage− Repräsentation Ergebnisse Frage− Beschreibung fiktives/ reales Objekt 53 / 1 Objekt− Repräsentation Objekt− Beschreibung Retrievalmodelle 54 / 1