Handout

Transcription

Handout
Einführung
Internet-Suchmaschinen
1. Einführung
Norbert Fuhr
2. April 2015
1/1
Web-Suche
Internet-Suche
4/1
Produktsuche in Internet-Shops
Intranet-Suche
5/1
Suche in Online-Publikationen
6/1
Suche in Digitale Bibliotheken
7/1
8/1
Multimedia -Suche
Facetten der Suche
Sprache
Beispiel: cross-linguale Suche in Google
9/1
10 / 1
Facetten der Suche
Facetten der Suche
Struktur
Medien
Beispiel: XML-Retrieval
Beispiel:Ähnlichkeitssuche auf Bildern
11 / 1
12 / 1
Facetten der Suche
Facetten der Suche
Objekte
statische/dynamische Inhalte
Beispiel: Personensuche mit 123people
Beispiel: Twitter-Suche
13 / 1
Facetten der Suche
14 / 1
Suchqualität
gefunden (GEF)
I
Sprache: monolingual, cross-lingual, multilingual
I
Struktur: atomar, Felder, baumartig (z.B. XML), Graph (z.B.
Web)
I
Medien: Text, Fakten, Bilder, Audio (Sprache/Musik), Video,
3D,. . .
I
Objekte: Produkte, Personen, Firmen
I
statische/dynamische Inhalte
0000000000
1111111111
111111111111
000000000000
00000000
11111111
0000000000
1111111111
000000000000
111111111111
00000000
11111111
0000000000
1111111111
000000000000
111111111111
00000000
11111111
0000000000
1111111111
000000000000
111111111111
00000000
11111111
0000000000
1111111111
000000000000
111111111111
00000000
11111111
0000000000
1111111111
000000000000
111111111111
00000000
11111111
0000000000
1111111111
000000000000
111111111111
00000000
11111111
0000000000
1111111111
000000000000
111111111111
00000000
11111111
0000000000
1111111111
000000000000
111111111111
relevant (REL)
Kollektion (ALL)
15 / 1
16 / 1
Retrievalmaße
GEF: Menge der gefundenen Antwortdokumente
REL: Menge der relevanten Dokumente in der Datenbank
Precision p: Anteil der relevanten an den gefundenen
Informationskompetenz
Recall r : Anteil der gefundenen an den relevanten
p=
|REL ∩ GEF |
|GEF |
r=
|REL ∩ GEF |
|REL|
Beispiel:
20 relevante Dokumente zur aktuellen Anfrage.
System liefert 10 Dokumente, von denen 8 relevant sind.
Precision: p = 8/10 = 0.8
Recall: r = 8/20 = 0.4
17 / 1
Information/Wissen als Entscheidungsgrundlage
Informationskompetenz - 6 Schritte
1. Aufgabendefinition
I
I
”People’s actions are based more on what they believe than on
what is objectively true”
[Bandura, 1997; Pajares, 2002].
Definiere das Informationsproblem
Identifiziere das Informationsbedürfnis
2. Informations-Beschaffungs-Strategien
I
I
Bestimme alle möglichen Quellen
Wähle die besten Quellen aus
3. Lokalisierung und Zugriff
“What you see is all there is (WYSIATI)”
(Entscheidung allein aufgrund der vorhandenen, unzureichenden
Information)
(Kahneman, 2011: Thinking fast and slow)
I
I
Lokalisiere die Quellen (intellektuell und physisch)
Finde die Information innerhalb der Quelle
4. Benutze die Information
I
I
→ Informationskompetenz als notwendige Fähigkeit, um sich
ausreichende Entscheidungsgrundlage zu verschaffen
Anschauen (z.B. lesen, hören, betrachten, anfassen)
Extrahiere die relevante Information
5. Synthese
I
I
Organisiere die Information aus verschiedenen Quellen
Prozessiere/Präsentiere die Information
6. Bewertung
I
I
19 / 1
Ergebnisse bewerten
Rechercheweg bewerten
20 / 1
Informationskompetenz - Beispiel
I
1. Aufgabendefinition
I
I
I
I
Definiere das Informationsproblem
Ich will das neue Handy Galaxy Xperia Lumia
Identifiziere das Informationsbedürfnis
Wo kriege ich es am günstigsten?
I
I
I
Bestimme alle möglichen Quellen
Freunde, Handy-Shop, Google, Preisvergleichs-Seiten, Amazon,
...
Wähle die besten Quellen aus
I
I
I
Organisiere die Information aus verschiedenen Quellen
Vergleichbare Zusammenstellung
Prozessiere/Präsentiere die Information
Übersichtstabelle, . . .
6. Bewertung
I
Lokalisiere die Quellen (intellektuell und physisch)
Freunde/Shops aufsuchen, Web-Seiten aufrufen
Finde die Information innerhalb der Quelle
Fragen / Suchen / Browsen
Anschauen (z.B. lesen, hören, betrachten, anfassen)
Extrahiere die relevante Information
Mit/ohne Vertrag, Lieferzeit, Gesamtpreis inkl. Versand
5. Synthese
I
3. Lokalisierung und Zugriff
I
4. Benutze die Information
I
2. Informations-Beschaffungs-Strategien
I
I
Informationskompetenz - Beispiel (2)
I
Ergebnisse bewerten
Habe ich das günstigste Angebot gefunden?
Rechercheweg bewerten
Hätte ich schneller zum Ziel kommen können? Was war
überflüssig?
21 / 1
Implizierte Fähigkeiten
22 / 1
Benachbarte Kompetenzen
1. Aufgabendefinition
I
Informationsbedarf erkennen
2. Informations-Beschaffungs-Strategien
I
I
Kenntnis von Strategien
Kenntnis von Quellen
I
Bibliothekskompetenz
I
Computerkompetenz
I
Digitalkompetenz (Fähigkeit,über Computer dargestellte
Informationen unterschiedlicher Formate verstehen und
anwenden zu können)
I
Internet-Kompetenz
I
Suchkompetenz
I
Kommunikationskompetenz
I
Lesekompetenz
I
Medienkompetenz
I
Schreibkompetenz
3. Lokalisierung und Zugriff
I
I
Lokalisierung von Informationsquellen
Suchen nach Information
4. Benutze die Information
I
I
verschiedene Medien anschauen und Inhalt erfassen
Extraktion der relevanten Information
5. Synthese
I
I
Organisation von Information
zweckoptimierte Gestaltung und Präsentation
6. Bewertung
I
I
kritische Beurteilung von Information
Selbstreflektion bzgl. Vorgehensweise
23 / 1
24 / 1
Suchkompetenz
Suchkompetenz
I
Aufbau einer Web-Suchmaschine
I
Suchbarkeit
I
Linguistische Funktionen
I
Anfragesprache
I
Ranking
I
Suchtaktiken und Strategeme
26 / 1
Aufbau einer Web-Suchmaschine
Basiskomponenten einer Web-Suchmaschine
Crawler Sammelt Webseiten, interagiert mit Webservern beim
Dokumentzugriff, folgt Links zu neuen Quellen
Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiert
die Dokumente
Datenbank Effiziente Speicherung der extrahierten und
aufbereiteten Daten (z.B. in einer Datenbank mit
invertierten Listen)
Searcher Entgegenname von Anfragen, sucht in der Datenbank
nach den passenden Antworten
27 / 1
28 / 1
Suchbarkeit
Welche Dokumente können überhaupt gefunden werden?
I
Zugriff:
I
I
I
I
I
I
Aktualität
Dokumentformat
I
I
I
öffentlich zugänglich
verlinkt
durch robots.txt erlaubt
keine Datenbankinhalte (außer wenn verlinkt)
nur Texte (kein Faksimile, andere Medien nur über Text)
keine exotischen Dokumentformate
keine Sprachübersetzung
30 / 1
Suchkompetenz - linguistische Funktionen
Suchkompetenz - linguistische Funktionen
Wortnormalisierung
Patent US20090259643 ”normalizing query words in web search”
Wortnormalisierung Fuhr – fuhr, Schuss – Schuß, colour – color,
meta tag – meta-tag – metatag – meta tag’s
Grundformreduktion Häuser – Hauses – Hause – Haus, Duisburg –
Duisburgs, ¬ Duisburger
Nominalphrasen ”information retrieval”, ”retrieval * information”
Komposita Einfamilienhaus, Reihenendhaus, Doppelhaushälfte
Synonyme Handy Mobiltelefon Smartphone / ∼handy
31 / 1
32 / 1
Anfragesprache
I
UND, ODER, Negation
handy -vertrag
I
Zahlenbereiche: 100..200 EURO
I
Facetten: Objekttyp (Bilder/Maps/Videos/News/Shopping/..),
Standort, Sprache, Zeitraum
I
I
Ranking
Faktoren, die eine Seite nach oben bringen
site:, link:, filetype:,
related:
link:uni-due.de -site:uni-due.de
I
Suchbegriffe kommen häufig in der Seite vor
I
Suchbegriffe kommen in Ankertexten vor
I
Page rank
I
Nutzer-Klicks: fremde, eigene, Freunde (Google+)
I
Diversität
(Faktoren werden als Merkmale in einem learning to rank-Ansatz
verwendet, auf Klick-Daten trainiert)
inurl:, intitle:, intext:,
inanchor:
duisburg -intext:duisburg
Search engine optimization:
Maßnahmen, eine Seite nach oben zu bringen
aber: Web spam
33 / 1
34 / 1
Suchtaktiken und Strategien
Taktiken:
Term-Taktiken Auswahl/Variation der Suchterme
Information Retrieval
Suchformulierung verbreitern/einengen, viele/wenige Terme
Strukturelle Taktiken auf der Menge der potenziellen Antworten
Ideen-Taktiken offene Suchmöglichkeiten/Variation
Monitoring
”Tactics to keep the search on track and efficient”
Strategie: Plan zu Durchführung einer komplexen Suche
35 / 1
Internetsuche vs. klassischen Datenbanksuche
Information Retrieval
Information Retrieval (IR) beschäftigt sich mit Vagheit und
Unsicherheit in Informationssystemen
→ Grundlage der Internetsuche
I
Schwierigkeit, passende Anfrage zu formulieren
I
iterative Anfrageformulierung (abhängig von Antworten)
I
viele Antworten, aber wenige davon relevant
I
Rangordnung der Antworten (statt Antwortmenge)
1962 Online-Informationssysteme
I
Repräsentation des Inhalts von Dokumenten inadäquat /
unsicher
1991 WAIS (Wide area Information System): verteilte
Suche im Internet
1950er frühe Arbeiten
ab 1960 Gerard Salton (Harvard, Cornell) als populärer Pionier
1993 WWW
1994 Webcrawler als erste Internet-Suchmaschine
37 / 1
Vagheit und Unsicherheit
38 / 1
IR = inhaltsorientierte Suche
Vagheit: Benutzer kann seinen Informationswunsch nicht
präzise spezifizieren
I vage Anfragebedingungen
I iterative Frageformulierung
(engere Definition)
Suche auf verschiedenen Abstraktionsstufen:
Unsicherheit System besitzt unsicheres (unzureichendes) Wissen
über den Inhalt der verwalteten Objekte
I unsichere Repräsentation
( fehlerhafte Antworten)
I unvollständige Repräsentation
( fehlende Antworten)
39 / 1
I
Syntax
I
Semantik
I
Pragmatik
40 / 1
Syntax, Semantik und Pragmatik bei Texten
Bildersuche auf der Syntaktischen Ebene
Bild als Pixelmatrix mit Farbwerten
1. Konturen
“Willkommen beim Fachgebiet Informationssysteme. Schwerpunkte
unserer Arbeit sind Information Retrieval, Digitale Bibliotheken
und Web-basierte Informationssysteme, wobei wir insbesondere
Nutzer-orientierte Forschungsansätze verfolgen.“
Syntax: ’Forschungsansatz’
no match
Semantik ’Forschungsschwerpunkt’
match
Pragmatik ’potenzielle Kooperationspartner für Entwicklung
multimedialer Informationssysteme’ ?
42 / 1
41 / 1
Syntaktische Ebene: 2. Texturen
Syntaktische Ebene: 3. Farbe
Häufigkeit/räumliche Verteilung von Pixelfarben
Textures:
Muster im Grauwert-Bild
strukturelle und/oder statistische Muster
d001
d056
d095
d020
d014
d006
d003
d004
d087
d005
d111
d066
d011
d103
d049
d015
43 / 1
44 / 1
Bildersuche: Semantische Ebene
Bildersuche: Pragmatische Ebene
Bedeutung eines Bildes / durch das Bild illustriertes Thema
Objekte im Bild(+ räumliche Anordnung)
Beispiel: Google Bildersuche nach’kangaroo’
A40-Ausbaupläne liegen weiter auf Eis
I
(basiert auf Textsuche im Dateinamen und der Bildunterschrift)
I
Themen sind sehr subjektiv
Aber die pragmatische Ebene ist wichtig für viele
Anwendungen
45 / 1
Syntax, Semantik und Pragmatik
46 / 1
Daten — Information — Wissen
Suche auf verschiedenen Abstraktionsstufen:
Syntax Dokument als Folge von Symbolen
(z.B. Zeichenkettensuche in Texten,
Farbe/Textur/Kontur in Bildern)
Semantik Bedeutung eines Dokumentes
(z.B. Textsemantik, in einem Bild vorkommende
Objekte)
Pragmatik Nutzung eines Dokumentes (Zweck)
(z.B.: Löst das Dokument mein Problem? Was ist die
Aussage des Textes / Bildes?)
IR beschäftigt sich mit der Semantik und Pragmatik von
Dokumenten
47 / 1
48 / 1
Information vs. Wissen
I
Wissen zur Entscheidungsunterstützung
Wissen ist die Teilmenge von Information, die von jemandem
in einer konkreten Situation zur Lösung von Problemen
benötigt wird
(und häufig nicht vorhanden ist)
I
Nach Wissen wird in externen Quellen gesucht.
I
Die Transformation von Information in Wissen ist ein
Mehrwert erzeugender Prozess
Daten
Information
Wissen
Entscheidung
Nützlichkeit
49 / 1
Rahmenarchitektur für IR-Systeme
Informations−
bedürfnis
Frage−
Repräsentation
Beispiel für ein Textdokument
Objekt:
Experiments with Indexing Methods.
The analysis of 25 indexing algorithms has not produced consistent
retrieval performance. The best indexing technique for retrieving
documents is not known.
Frage−
Beschreibung
Vergleich
fiktives/
reales
Objekt
Objekt−
Repräsentation
50 / 1
Repräsentation:
(experiment, index, method, analys, index, algorithm, produc,
consistent, retriev, perform, best, index, techni, retriev, document,
know)
Ergebnisse
Objekt−
Beschreibung
Beschreibung:
{(experiment,1), (index,3), (method, 1), (analys,1), (algorithm,1),
(produc,1), (consistent,1), (retriev,1), (perform,1), (best,1),
(techni,1), (retriev,1), (document,1), (know,1)}
fiktives/
reales
Objekt
51 / 1
Objekt−
Repräsentation
Objekt−
Beschreibung
52 / 1
Beispiel für Textsuche
Bezug zu den Vorlesungskapiteln
Evaluierung
Frage: “What is the best indexing algorithm?“
Informations−
Repräsentation: (best index algorithm)
bedürfnis
Frage−
Repräsentation
Frage−
Beschreibung
Beschreibung: best ∧ index ∧ algorithm
Vergleich
Wissensrepräsentation
Informations−
bedürfnis
Frage−
Repräsentation
Ergebnisse
Frage−
Beschreibung
fiktives/
reales
Objekt
53 / 1
Objekt−
Repräsentation
Objekt−
Beschreibung
Retrievalmodelle
54 / 1