Manage your information

Transcription

Manage your information
Information Management mit Sharepoint 2010
Taxonomien,
Multi faceted navigation und die
Möglichkeiten der neuen
FAST Search Engine (für Sharepoint)
Ralph Göllner ralph.goellner@e-ntegration.de
Überblick & zeitliche Aufteilung
•
•
•
•
•
Zieldefinition
Ausgeklammerte
Themen
Begriffe
UI Prinzipien
•
Allg. Grundlagen
für die Umsetzung
•
„Wir bauen uns selbst
eine Volltextsuche“
Volltextsuche mit
linguistischen Mitteln
Taxonomien und
hochqualitative Metadaten
Einführung
Sharepoint 2010 &
Fast für Sharepoint 2010
•
•
Beispielumsetzung
Abgrenzung der
Lizenzoptionen
Einführung
a) Was ist Informationsmanagement?
b) Was wollen wir „bauen“?
Zielvereinbarung: Was bedeutet Suche für Ihren Anwendungsfall?
1) Suche als „Zweitverwertung“
Die UI der Anwendung(en) wird anhand fester
Strukturen (meist Top-Down) aufgebaut. Als
Alternative wird eine separate Suchseite angeboten.
„Suche“ ist ein optionales Werkzeug - vergleichbar
mit einem alphabetischen Stichwort-Index am Ende
eines Fachbuchs.
2) Suche als primäres Navigationsmerkmal
Suche ist kein separates „Abteil“, sondern nahtlos in die UI
für Kunden und Mitarbeiter integriert.
Extrembeispiel: „Search Driven Application“ (z. B. Amazon,
eBay)
Produktgruppe
Produktbeschreibung
Metadaten
Loft
320.000€
Produktbeschreibung
Grundstück
155.000€
Große Anzahl verschiedener Dokumenttypen
ohne einheitliche Metadaten, oft auch „Altbestände“
Investition in Analyseverfahren und
Vereinheitlichung
Investition in Struktur und Verbesserung der
Datenqualität, mit dem Ziel konkrete Anwendungen
zu bauen (=Information Management)
Extrembeispiel: Search Driven Application für Endkunden
Suchbegriffe mit Vorschlagsliste während der Eingabe
Relevanz
Facetten
Ergebnismenge
Begriffsverwirrung: Facetten
Ein Ding – viele Namen…
Akad.
Hintergrund
Facette
FAST
=
Navigator
Microsoft
=
Refiner
Eine Wertemenge, die in der UI verwendet wird, um eine Ergebnismenge
einzuschränken („zu filtern“).
Dabei kann nie eine leere Ergebnismenge entstehen.
Abgrenzung: Was wird heute nicht Thema sein?
Aus Zeitgründen heute nicht im Programm:
Web 2.0 Features
•
•
•
Tagging von Inhalten durch User / Tag Clouds
Personenbezogene Features („People Search“, Nutzergruppen-Ranking)
Rating
Erweiterte FAST Funktionalitäten
•
•
•
•
Entity Extraction („erraten von Datenobjekt aus dem Fließtext“)
Federated Search („anbinden von anderen Suchen“)
FQL (Fast Query Language und Entwicklungsthemen)
Rating, Excel-Vorschau und sonstiger „Zuckerguß“
Installation & Betrieb
•
•
•
Skalierung der Systeme
Security und Crawler-Konfiguration
Einbindung in die Office-Welt
Unangenehm: Arbeiten mit Sprache bringt „Unschärfe mit sich“
Da der Benutzer die Möglichkeit hat, über den
„Suchschlitz“ beliebigen Text einzugeben, muß
natürliche Sprache „verarbeitet“ bzw. „verstanden“
werden.
Synonyme
Reihenhaus
Hier nur einige Beispiele:
Reihenmittelhaus
RMH
Reiheneckhaus
Fachbegriffe
Reihenmittelhaus
Geothermie
REH
DIN 4108
Sanierungsbedürftig
Wortstämme
Erstbezug
Geschossflächenzahl
GFZ
Häuser  Haus
ging  gehen
Warum ist Relevanz wichtig bzw. unbedingt notwendig?
Der Umgang mit natürlicher Sprache bringt eigene Regeln mit, die berücksichtigt werden müssen:
Villa
Suchen
Der obige Suchbegriff würde
natürlich auch die baufällige
Hütte im Suchergebnis
zurückliefern.
Mit Hilfe des Ranking-Faktors
wird das Wort „Villa“ aber in
der Überschrift wesentlich
höher „bewertet“ und taucht
deshalb weiter oben im
Suchergebnis auf.
Villa in Nürnberg
Die repräsentative Villa in bevorzugter
Ostrandlage bietet neben 500 qm Wohnfläche
einen parkähnlichen Garten von über 2000 qm.
Feld: „Dokumenttitel“
Schnäppchen für Heimwerker
Baufälliges Einfamlienhaus in der Nähe von
Hersbruck. Zugegebenermaßen keine Villa –
aber mit handwerklichem Geschick können Sie
hier noch ihren ganz persönlichen Wohntraum
verwirklichen.
Rankingwert: 200
Feld „Textkörper“
Rankingwert: 50
Objektklassen als Grundlage für die Metadaten-Zuweisung
Objektklassen liefern ein solides Fundament für alle Suchoperationen.
Dabei ist mit Objektklasse nicht der Ablageort und nicht das Dateiformat gemeint.
Beispiel: Kundensuche
Mitarbeitersuche
Expose
Expose
Angebot
Vertrag
SPObjekt
WebPage
SPObjekt
PDF
SPObjekt
WordDok.
SPObjekt
PDF
Expose
Expose
Anbieter
Angebot
SPObjekt
WordDok.
SPObjekt
…
SPObjekt
Listenelem.
SPObjekt
…
Taxonomien als Grundlagen für die Facetten/Navigation
Eine Taxonomie ist ein (meist) hierarchische Klassifikationssystem. Ein Sharepoint-Datenobjekt wird
einem oder mehreren Taxonomieknoten über die Metadaten zugeordnet.
Taxonomien können (je nach Anforderungssituation) selbst erdacht oder gekauft/bezogen werden.
Beispiel: eCl@ss als standardisierte Produkt-/Dienstleistungs-Klassifikation
Bestellung
Befestigungsmittel
Schraube, Mutter
Zuordnung über
Metadaten
SPObjekt
Schraube (mit Kopf)
Lieferschein
Holzschraube
Schraube mit Rechtecktkopf
SPObjekt
Wissensmodell: Typische Bestandteile
INFORMATIONSMANAGEMENT
1) Klassifzierungssysteme
Als Basis für maschinelle Regeln,
um Wissen zu gewinnen oder
zu vermitteln (z. B. Navigation)
2) Linguistik / Sprachverständnis
Fachgebietsspezifischer Wortschatz als Basis
für Attributierung und Inhaltsanalyse (z. B.
Volltextsuche)
3) Semantisches Beziehungsnetz
Explizite „Wissenskonservierung“ in Form von
Verbindungen zwischen(!) Objekten z. B. als
Basis für Empfehlungen („Ähnliche Objekte“)
Immobilie
Einfamilienhaus
Kunde
„ist der Mieter von“
Privat
DHH
Gewerbl.
Doppelhaushälfte
„wurde angeboten“
Immobilie
Reihenhaus
Kundengruppe
Privat
Gewerbl.
Immobilie
„ist ähnlich“
Wohnung
Appartment
Sharepoint Objekte, Metadaten und
Standard-Navigation
Textinhalte und
Volltextsuche
SpezialNavigation
Zielkonkretisierung: Was sollen die Leistungsmerkmale sein?
ANFORDERUNGEN
Facetten
Wert für den Benutzer
Kosten für den Anbieter
•
Kennenlernen des
Wertesystems des Anbieters
Wertesystem muß definiert und
entsprechende Metadaten
erfasst werden.
•
Vermeiden von Frustration
während der Suche
verursacht durch leere
Ergebnismengen
Modell muß ständig
weiterentwickelt werden.
Relevanz
•
„Erraten“ des für den
Benutzer am
interessantesten Ergebnisses
Relevanzregeln müssen
erarbeitet werden (u. U. sogar
pro Benutzergruppe)
Suchvorschlagsliste
•
„Hinlenken“ des Anwenders
auf vorhandene Inhalte
System muss ausreichend
schnell sein (ms-Bereich für
Antwortzeiten)
•
Direktes Feedback auf
Eingabe
Grundlagen
a) …der Volltextsuche
b) …der Metadatensuche
Bastelstunde: Wir bauen uns selbst eine Volltext-Suchmaschine
Vergleich: Interner Aufbau der Suchmaschine in Sharepoint 2010
Zweigeteilter Kern der Suchmaschine:
Indizierungsengine erzeugt Indexdatei,
die von der Abfrageengine verwendet
wird.
Unsere selbstgebaute Suchmaschine
zeigt, was intern passiert.
Beispielszenario: Immobilien-Expose (gespeichert als Web-Page)
Demo in Visual Studio: Textanalyse
Demo in Visual Studio: Hinter den Kulissen
Die Analysephase (Content Processing Pipeline) besteht aus mehreren
hintereinandergeschalteten Vorgängen:
Normalisierung
Stoppwortentfernung
Rückführung auf Wortstamm
Synonymerkennung
…
Deutsches
Wörterbuch
Thesaurus
(Synonymliste)
Volltextindex: Kern-Datenmodell
Das grundsätzliche Datenmodell besteht aus nur zwei „Tabellen“ – wobei der eigentliche
Index sehr groß werden kann.
Wortliste
Dokumentliste
Wort
Relevanz
DokumentID
DokumentID
Dokument
bestlage
5
17
17
Villa Fürth
bieten
2
17
18
Einfamilienhaus Erlangen
doppelgarage
2
17
19
Loft Stadtgrenze
bestlage
2
18
20
Reihenmittelhaus Katzwang
begehrt
1
18
21
Grundstück Lauf
waldrand
2
21
loft
5
19
stadtgrenze
5
19
modern
2
19
Ranking/Gewichtung
Je nach Fundstelle wird ein Wort
bewertet. Je höher der Wert, desto besser
der Treffer. Hier werden die Worte aus
dem Dokumenttitel („loft“) höher
bewertet als aus dem Dokumenttext
(„modern“).
Volltextindex: Standard-Datenmodell
Logisches Datenmodell (Abbildung in der Praxis
meist nicht über Tabellen)
Wortliste
Zugriffsrechte
Metadaten
Dokumentliste
„Das Wort Doppelgarage kommt vor in Angebot_23.htm, gültig bis 21.02.11, sichtbar nur für
Mitarbeiter“
Beispielszenario: Immoblienportal für Kunden und Mitarbeiter
„Unsere Kunden und Mitarbeiter sollen geeignete Immoblien schnell finden können.“
Suchfeld (Volltextfacette)
Durchsucht alles, was
„irgendwie relevant“ ist.
Villa
Suchen
Titel
Ort
Preis
Lagerhalle
Nürnberg
298.000
Doppelhaushälfte
Fürth
150.000
Architektenvilla
Nürnberg
450.000
Einfamilienhaus
Erlangen
560.000
Ergebnisliste
Zeigt alle Datensätze an,
mit einem Klick gelangt der
Benutzer zum Expose
(Detailseite)
* Anmerkung: Wir sind eine kleine Firma und haben nur vier Objekte im Angebot ;-)
Oft als Basis der Entwicklung: Klassische Web-Navigation
Klassische Navigation
Ermöglicht eine Filterung der
Ergebnisliste.
Klassische Form = Alle
Eigenschaften (auch wenn man
dort nichts finden kann)
Objektart
Grundstück
Einfamilienhaus
Mehrfamilienhaus
Wohnung
Gewerbeimmobilie
Denkrichtung
Titel
Ort
Preis
Lagerhalle
Nürnberg
298.000
Doppelhaushälfte
Fürth
150.000
Architektenvilla
Nürnberg
450.000
Einfamilienhaus
Erlangen
560.000
Ziel der Multi faceted navigation: Keine leere Ergebnismenge
Facette (=Refiner/Navigator)
Ensteht aus der Analyse der Ergebnismenge.
Es wird vermieden, dass der Benutzer eine
leere Ergebnismenge bekommt („in
Sackgassen navigiert“).
Villa
Objektart
Einfamilienhaus (2)
Mehrfamilienhaus (1)
Gewerbeimmobilie (1)
Denkrichtung
Suchen
Titel
Ort
Preis
Lagerhalle
Nürnberg
298.000
Doppelhaushälfte
Fürth
150.000
Architektenvilla
Nürnberg
450.000
Mehrfamilienhaus
Erlangen
560.000
Beispielszenario: Immoblienportal für Kunden und Mitarbeiter
Facetten spielen Ihre Stärke erst in Kombination mit anderen Facetten aus:
Suchfeld (Volltextfacette)
Durchsucht alles, was
„irgendwie relevant“ ist.
Preis
Villa
Suchen
Alle anzeigen
Unter 500.000 € (1)
Rücksetz-Option
Weil jede Facette das
Suchergebnis einschränkt,
muss die UI eine
Möglichkeit bieten, die
Filterung aufzuheben.
Titel
Ort
Architektenvilla
Nürnberg
Preis
450.000
Refiner: Sie sind überall…
…selbst in der Sharepoint 2010 UI
„Die Kirche im Dorf lassen“…
…nicht jedes Unternehmen muss gleich in der Enterprise-Liga mitspielen.
EigenEntwicklung
Kriterien
Sharepoint
2010
„Bordmittel“
Unternehmensweite Suche
mit FAST bzw.
FAST for
Sharepoint
2010
< 5.000 Objekte
< 200.000 Objekte
Millionen von Objekten
Alle Objekte in
einer DB
Viele Objekte in
in Sharepoint
Objekte in
Sharepoint und
außerhalb
Datenformat:
SQL
Sharepoint oder
Office Objekte
Beliebige
Dateiformate
Kleines Budget
Kein ExtraBudget für Suche
Budget für
Search-Team
Sharepoint 2010
Einige wichtige Neuerungen bei den Such-Features in Sharepoint 2010
Abfrage-Funktionalität
•
•
•
•
Faceted Search
Wildcard Search
Boolean Search (AND, NOT, OR)
…
UI-Funktionen
•
•
•
Wortvorschläge während der Suchbegriffeingabe
Korrekturvorschläge „Meinten Sie …?“
…
„Aufstiegsmöglichkeit“ nach FAST
•
Entsprechende Optionen sind in mit
FASTSearch
Server für
Sharepoint
gekennzeichnet
Lizensierungsoptionen/Produktvarianten: Überblick
Internet
Intranet
Lizensierung pro Server
Lizensierung pro Client (CAL)
FAST Search Server 2010
For Internet Sites
FAST Search Server 2010
For Internal Applications
MS Search Server 2010
Eigenständig
Integriert in
Sharepoint
MS Search Server Express 2010
Sharepoint Point Server 2010
For Internet Sites, Enterprise
FAST Search Server 2010
For Sharepoint
Sharepoint Point Server 2010
For Internet Sites, Standard
Sharepoint Point Server 2010
Sharepoint Foundation 2010
Einstiegslösung
Infrastruktur
Highend
Welche Varianten eigenen sich nicht für die Umsetzung unseres
Szenarios?
MS Search Server Express 2010
Keine Taxonomien und keine RefinementMöglichkeiten
Sharepoint Foundation 2010
MS Search Server 2010
FAST Search Server 2010
For Internet Sites
FAST Search Server 2010
For Internal Applications
Keine Taxonomien
…außer Sie haben Budget, ein Suchteam zu
unterhalten.
Lizensierungsoptionen/Produktvarianten: Heute im Fokus
Internet
Intranet
Lizensierung pro Server
Lizensierung pro Client (CAL)
FAST Search Server 2010
For Internet Sites
FAST Search Server 2010
For Internal Applications
MS Search Server 2010
Eigenständig
Integriert in
Sharepoint
MS Search Server Express 2010
Sharepoint Point Server 2010
For Internet Sites, Enterprise
FAST Search Server 2010
For Sharepoint
Sharepoint Point Server 2010
For Internet Sites, Standard
Sharepoint Point Server 2010
Sharepoint Foundation 2010
Einstiegslösung
Infrastruktur
Highend
Wissensmodell: Grundlagen für die Umsetzung in SP 2010
1) Klassifikationssysteme
2) Linguistik / Sprachverständnis
Müssen in Metadatenfelder
gespeichert werden.
Werden von FAST für 84 Sprachen
geliefert.
Dokumente sollten unbedingt
klassifiziert werden.
Können auch zu RechtschreibkorrekturVorschlägen verwendet werden.
Content Types
Term Store
•
Legen fest, welche Metadaten
zu welchen Content-Typen
gespeichert werden
•
Erlaubt den Aufbau
verschiedener hierarchischer
Taxonomien
•
Können als Facetten verwendet
werden.
•
Erlaubt die Zupflege von
Synonymen.
Metadata
Management
•
Übergreifende Schicht
3) Semantisches Beziehungsnetz
Verbindungen zwischen Objekten benötigen
Systemunterstützung (nicht ausreichend
gegeben in SP 2007 – zumindest wenn man
relationale Datenbanken kennt ;-)
Lookup Columns
„Anwendung“ des Wissensmodells
Im Rahmen des Beispiels „Immobiliensuche“ umgesetzt mit Sharepoint 2010:
Einstellmöglichkeiten
(Administration)
der FAST Engine
Einstellmöglichkeiten
der UI (WebParts)
Grundelemente
Basis
Listen
Lookup-Felder
Metadaten
Teminologiespeicher
Ranking
Webpart-Pages
Ablauf: Übersicht
1




Strukturen
vorbereiten
Grundobjekte gestalten:
Content-Types, die
Metadaten definieren
2
Search-Engine
konfigurieren
(Content-Sources, Scopes)
3
Suche
gestalten

Nutzen der MetadatenNavigation

Richtiges Suchcenter
auswählen und erstellen

Wissennetz über LookupFelder

Verwenden der Refiner

Verwenden der Managed
Properties

Relevanz-Tuning

Unwichtige
Informationseinheiten
ausblenden
Taxonomien definieren
Bibliotheks-Stukturen
festlegen
(eine oder mehrere,
Content Types aktivieren…)
Daten
erfassen

Erweiterungsmöglichkeit
Autoklassifizierer
Vorbereitung: Content Types und Metadaten definieren
Immobilie
+ Preis
+ Ähnliche Objekte
Grundstück
Wohnung
Haus
+ Grundfläche
+ Wohnungstyp
+ Wohnfläche
1
Strukturen
vorbereiten
2
Daten
erfassen
3
Suche
gestalten
Demo: Content Types („Websiteinhaltstypen“)
Taxonomien im „Terminologiespeichertool“ (Termstore) anlegen
Die Beispiel-Taxonomie soll nur für den Content-Typ „Wohnung
verwendet werden.
Oft gefragt: Wo liegen die Grenzen?
Maximale
Verschachtelungstiefe
7 Ebenen
Maximale Termsets (im
Beispiel „Wohnungstyp“)
1.000
Maximale Begriffe in einem
Termset
30.000
Maximale Objektanzahl in
einem Termstore
1.000.000
(Synonyme zählen hierbei nicht mit)
Termsets können „closed“ oder „open“ sein, d. h. in einem Fall dürfen
nur berechtigte Personen die Struktur bearbeiten – im anderen Fall
können die Endbenutzer die Struktur in der Pflegemaske erweitern.
1
Strukturen
vorbereiten
2
Daten
erfassen
3
Suche
gestalten
Taxonomien
Besondere Beachtung verdienen die etwas versteckteren
Befehle, die besonders die Fortentwicklung der Taxonomie
erleichtern:
Term wiederverwenden
Ein Term kann in mehreren Taxonomien verwendet
werden.
Merge Terms
Ein Term kann mit einem anderen zusammengefasst
werden. Dafür hätte man früher die Metadaten mit
einem separaten Script „patchen“ müssen!
Deprecate Term
Ein Term kann als veraltet gekennzeichnet werden.
Damit bleibt er zwar erhalten – die Benutzer können ihn
aber ab diesem Zeitpunkt nicht mehr vergeben.
1
Strukturen
vorbereiten
2
Daten
erfassen
3
Suche
gestalten
Wissensmanagement „light“: Der Sharepoint Term-Store
Closed Term Set
Open Term Set
Leistungsmerkmale
Keyword Set
Eingabeunterstützung
Begriffserklärung
Mehrsprachig
Synonym
Hierarchisch
Flache Liste
Hinzufügen neuer Metadaten
Überprüfung
Durch Endnutzer erweiterbar
Durch Admin kontrolliert
1
Strukturen
vorbereiten
2
Daten
erfassen
3
Suche
gestalten
Term-Store in der UI: Eingabeunterstützung
Nur bei Open Term Set
1
Strukturen
vorbereiten
2
Daten
erfassen
3
Suche
gestalten
Interne Veränderungen: Vom SSP zur flexiblen Service Application
Die Suche als Service Application ist nun hochgradig konfigurierbar:
Systemeinstellungen
- Accounts
- Ports
-…
Search
Search
Service
Service
Application
Application
1
Content
ContentSource
Source
Wo soll gesucht werden?
- Sharepoint Site
- Filesystem
- LOB-System
…
Scope
(optional)
Content
Source
Was soll durchsucht bzw. übersprungen
werden?
- Exclude Filetype „.PDF“
- Include „Author = Ralph Göllner“
…
Strukturen
vorbereiten
2
Daten
erfassen
3
Suche
gestalten
Grunddatenmenge im Beispiel
Metadatennavigation: Neues Feature muss erst aktiviert werden
1
Strukturen
vorbereiten
2
Daten
erfassen
3
Suche
gestalten
Listenansicht: Nutzen der Metadaten-Navigation
1
Strukturen
vorbereiten
2
Daten
erfassen
3
Suche
gestalten
Listenansicht: Nutzen der Metadaten-Navigation
1
Strukturen
vorbereiten
2
Daten
erfassen
3
Suche
gestalten
Neue FAST-Option: „Similar Results“ (Ähnliche Ergebnisse)
Beispiel für eine Option, die ich in unserem Szenario nicht verwenden würde.
Interessanter wäre eine „handoptimierte“ Ähnlichkeit: Auf der Expose-Seite wird im
Seitenlayout ein selbstgebautes Web-Part „Ähnliche Objekte“ hinzugefügt.
Villa in Hersbruck
Ähnliche Objekte
 Villa in Lauf
 Großes Architektenhaus in
Hersbruck
 Grundstück für
Villenbebauung in
Hersbruck
1
Strukturen
vorbereiten
2
Daten
erfassen
3
Suche
gestalten
FASTSearch
Server für
Sharepoint
Implementierung des semantischen Beziehungsnetzes: Basis
Verwendung einer Lookup-Column, z. B. „wurde angeboten“ bei Immobilie mit Verweis auf
Tabelle Kunden:
Neu in SP 2010
Neu in SP 2010
Referentielle Integrität wird endlich
abgeprüft ( Verhalten:
„Löschverhinderung“ (Aufpassen) oder
„Löschweitergabe“ (Aufräumen)
1
Strukturen
vorbereiten
Endlich können mehrere Felder aus der
Ursprungsliste angezeigt werden.
2
Daten
erfassen
3
Suche
gestalten
Pflege des Beziehnungswissens
UI-technisch vielleicht in der Grundform nicht umwerfend – aber bei entsprechender
Bibliotheks-Stukturierung durchaus verwendbar:
1
Strukturen
vorbereiten
2
Daten
erfassen
3
Suche
gestalten
Automatische-Pflege des Beziehnungswissens: Auto-Klassifizierer
Bei großen Datenmengen bzw. sich ständig verändernden Grundobjekten ist die
Beziehungspflege „von Hand“ zeitaufwändig. Deshalb suchen einige Kunden nach einer
Automatik, um die Beziehungen anhand von Regeln zu setzen.
a) Lösungsansatz „Buy“
Es werden externe Tools angeboten, um bestimmte Metadaten (wie z. B. Keywords) aus
den den eingegebenen Daten zu extrahieren (z. B. Matchpoint for Sharepoint, AutoTagger
von Layer2).
b) Lösungsansatz „Build“
Sharepoint 2010 stellt viele Anknüpfungspunkte für individuelle Lösungen zur Verfügung.
Beispielsweise lassen sich Klassifizierungs-Regeln über Workflows oder Event-Receiver
implementieren ( folgende Seite).
1
Strukturen
vorbereiten
2
Daten
erfassen
3
Suche
gestalten
Autoklassifizierer „selbstgebaut“
Sharepoint-Liste
Titel
Ort
Preis
Lagerhalle
Nürnberg
298.000
Doppelhaushälfte
Fürth
150.000
Architektenvilla
Nürnberg
450.000
Mehrfamilienhaus
Erlangen
560.000
Setze Taxonomiezuordnung
„Aktuelle Topangebote“
Event Receiver
Strukturen
vorbereiten
Wenn Preis < 500.000
Und ImmoTyp = „Villa“
Und ImAngebotSeit <
„2 Wochen“
Dann
„Objekt verändert oder neu“
1
Geschäftslogik
2
Daten
erfassen
3
Suche
gestalten
Sharepoint 2010 Suchcenter-Templates
Wir verwenden das Basis-Suchcenter für unser Beispiel.
Das Enterprise-Suchcenter enthält zusätzlich die Personensuche und die
Möglichkeit zwischen Suchbereichen per Karteireiter umzuschalten.
Das FAST-Suchcenter ist nur enthalten wenn FAST zusätzlich lizensiert wurde.
Dann läuft die Suche intern technisch völlig anders ab und es stehen weitere
WebParts und Konfigurationsmöglichkeiten (Site-Einstellungen,
Zentraladministation) zur Verfügung.
Such-UI: Vielseitig konfigurierbare Web-Parts
Eine Such-Site besteht im Grunde aus zwei Seiten:
Search.aspx
Sucheingabe ist ein WebPart
Einige Einstellmöglichkeiten (z. B.
Vorschlagsliste)
Search
Erweiterte Sucheinstellungen ist ein
Webpart
Result.aspx
Suchergebnisdarstellung ist eine Seite
mit u. U. sehr vielen WebParts
Search
-
Kernsuchergebnis Webpart
1
Strukturen
vorbereiten
2
Daten
erfassen
Refinement Panel (Facetten)
People Refinement Panel
Related Queries
Search Paging
Search Statistic
Best Bests
…
3
Suche
gestalten
Suchwort-Vorschlagsliste
Die Suchwort-Vorschlagsliste, die während der Eingabe des Suchbegriffs angezeigt wird,
befüllt sich nicht aus der Wortliste der Suchmaschine, sondern wird mit statistischen
Mitteln (von einem Timer-Job in der Nacht) aus den tatsächlich eingegebenen und
angeklickten Objekten gebildet.
So würde die Vorschlagsliste aussehen:
Eigene Vorschläge können per PowerShell zusätzlich „hochgeladen“ werden.
1
Strukturen
vorbereiten
2
Daten
erfassen
3
Suche
gestalten
Basis-Suchcenter: Suchergebnisseite
Standardmäßig sind die Refiner auf der Suchergebnisseite aktiviert:
Taxonomie wurde sofort
erkannt.
Bei Office-Dokumenten im
Suchergebnis kann dann z. B.
nach Typ oder Autor gefiltert
werden.
Da noch kein Suchscope
definiert wurde, wird die
ganze Site durchsucht.
Einstellung der Refiner im Webpart: 1) Managed Metadata Property
Damit Refiner verwendet werden können müssen diese als Managed Metadata oder als
Taxonomie vorliegen.
1.
Central Administration -> Manage Service Applications -> Search Service Application -> Metadata
Properties
2.
Neues Managed Property anlegen: Beispiel unten Feld „Grundfläche“
3.
Content-Source muß neu indiziert werden
Demo: Die Suchergebnisseite verändern
Einstellung der Refiner im Webpart: 2) XML Filter Category Definition
Die Einstellungen sind nicht sehr umfangreich dokumentiert und werden über eine XML-Konfiguration angegeben
(wichtig: Standard-Verhalten deaktivieren – sonst greift das XML nicht!):
<Category Title="Preis"
Type="Microsoft.Office.Server.Search.WebControls.ManagedPropertyFilterGenerator"
MetadataThreshold="5"
ShowCounts="Count"
NumberOfFiltersToDisplay="4"
MaxNumberOfFilters="20"
SortBy="Frequency"
SortByForMoreFilters="Name"
SortDirection="Descending"
SortDirectionForMoreFilters="Ascending"
ShowMoreLink="True"
MappedProperty=„Preis"
MoreLinkText="show more"
LessLinkText="show fewer" />
Wenn der Refiner nicht angezeigt werden sollte:
a) Sind genügend Treffer im Ergebnis (Threshold)?
b) Werden vielleicht schon zu viele Refiner angezeigt (Webpart-Einstellung?)
c) Wurde die Datenquelle neu indiziert?
Zwischenergebnis: Erste Refiner im Suchergebnis
Content Type (=implizites Metadatum) als Refiner verwenden
Tipp: Obwohl ContentType als Managed Metadata Property vorhanden ist, muss ein eigenes Mapping
definiert werden (ansonsten nichtssagende Fehlermeldung):
Refiner-Bereiche verwenden: Übersicht
Wertet Taxonomien aus (hierarchische
Wertebereiche).
TaxonomieFilter
Wertet beliebige Felder (flache
Wertebereiche) aus.
ManagedMetadataFilter
CustomFilter
ValueMapping
z. B. 1…1000, 1001…2000,
RangeMapping
z. B. Bilder: { JPG, GIF, BMP }
Taxonomien (hierarchisch) als Refiner verwenden
UI-Tuning: Anpassung der Refiner-Darstellung
FASTSearch
Server für
Sharepoint
Beim Bau einer größeren Suche oder einer „Search driven application“ ist meist
ein Customizing der Refiner-Darstellung gefordert:
Preis
Preis
Unter 100.000 €
100.000 bis 200.000 €
Über 200.000 €
100‘
200‘
300‘
400‘
>500‘
Objektart
Objektart
Einfamilienhaus (2)
Mehrfamilienhaus (1)
Gewerbeimmobilie (1)
1
Strukturen
vorbereiten
EFH (2)
2
Daten
erfassen
MFH (1)
3
Suche
gestalten
Gew. (1)
Ranking auf Basis von Promotions und Demotions
FASTSearch
Server für
Sharepoint
Einzelne Sites (und sogar einzelne Dokumente) könnten im Suchergebnis „hochgestuft“
(search-engine-slang: „ge-boostet“) werden.
Hier die Einstellmöglichkeiten, um eine Site nach oben zu „boosten“:
Promotion/Demotion
Site-URL
Benutzerkontext (opt.)
Zeitraum (opt.)
Ranking auf Basis von Promotions und Demotions
FASTSearch
Server für
Sharepoint
Oben im Suchergebnis
Site
„Exklusiv-Vertrieb“
Promotion
Site
„Reguläre Objekte“
Site
„Partner-Objekte“
1
Strukturen
vorbereiten
Demotion
2
Unten im
Suchergebnis
Daten
erfassen
3
Suche
gestalten
Benutzerkontextbezogene Suchergebnisse
FASTSearch
Server für
Sharepoint
Best Bets, Visual Best Bets, document promotions, document
demotions, site promotions and site demotions können auf
Sharepoint-Benutzerprofile bezogen werden.
Damit lassen sich z. B. bestimmte Dokumente oder Sites nach
oben „ranken“ entsprechend des Standorts-Benutzers (z. B.
„Münchner Homepage im Intranet“).
Diese Funktion zielt auf große Intranets bzw. regionalisierte
Internetauftritte und ist deshalb nur in FAST für Sharepoint 2010
enthalten.
„Hilfe! Unser Index kennt alles und jeden!!“
Es gibt verschiedene Ebenen, um Content aus dem Index auszuschließen:
1) Site nicht indizieren
„Hilfe! Unser Index kennt alles und jeden!!“ (Fortsetzung)
2) Page(-Typen) nicht indizieren
„Hilfe! Unser Index kennt alles und jeden!!“ (Fortsetzung)
3) Spalten einer Site nicht indizieren
4) Bestimmte HTML-Teile der Seite nicht indizieren
Tritt z. B. auf, wenn Navigation oder Fußzeileninhalte plötzlich im Suchergebnis auftauchen. Hier arbeitet
man i. d. R. über Rechte ( Webpart wird über Rechte-Einstellungen vor dem Crawl-Benutzer versteckt).
Für externe Quellen kann z. B. ein iFilter verwendet werden ( filtert Tags aus, z. B. über RegEx)
Abschließende
Bemerkung
Funktionsvergleich: Gelb = Was Sie in diesem Vortrag gesehen haben
Feature
Basic site search
Best Bets
Visual Best Bets
Similar Results
Duplicate Results
Search Scopes
Search Enhancement based on user
context
Crawled and Managed Properties
Query Federation
Query Suggestions
Sort Results on Managed Properties
or Rank Profiles
Relevancy Tuning by Document or
Site Promotions
Shallow Results Refinement
(nur Zähler auf die ersten 50 Treffer)
Deep Results Refinement
(exakte Zähler)
Document Preview
Windows 7 Federation
People Search
Social Search
Taxonomy Integration
Multi-Tenant Hosting
Rich Web Indexing Support
SharePoint
Foundation 2010
Search Server 2010
Express
Search Server 2010
SharePoint Server 2010 FAST Search Server 2010
for SharePoint
Erfolgreiche Suche basiert auf einem tragfähigen Konzept
Jenseits aller Technik gilt für alle Suchkonzepte folgendes Basisgerüst:
Nicht-funktionale
Aspekte
Benutzeroberfläche
Ranking-Strategien (insbes. bei verschiedenen Nutzergruppen)
Metadaten:
Taxonomie-Zuordnungen
Wörterbücher:
Keywords / Synonyme
Metadaten:
Beziehungswissen
Verständlichkeit
Wartbarkeit
Metadatenkonzept Content Types
Klassifizierung der Objekte bzw. Dokumente
Ausführungsgeschwindigkeit
Tiefes Verständnis der
INHALTE
Realistische Einschätzung
BENUTZER-ERWARTUNSHALTUNG
Anhang
Rückblick: Multi-Faceted-Search in Sharepoint 2007
http://facetedsearch.codeplex.com/
Wertigkeit von Begriffen: Managed und Crawled Properties
Managed Property
Titel
Crawled Property
Word_Dokument_Titel
Crawled Property
Webpage_Titel
Wissensmanagement benötigt unbedingt einen aktiven „Manager“
Neu in Sharepoint 2010: Zentralisierte Metadatenverwaltung
•
Managed Metadata Service
•
Da die Funktion als „Service“ integriert wurde kann auf verschiedenen Ebenen
gearbeitet werden („web“, „site“ und sogar „farm“-übergreifend)
Hintergrund für einen erfolgreichen Einsatz ist ein „Wissensmodell“
•
Das Wissensmodell ist Kommunikations-Vehikel für alle beteiligten Personen
•
Es wächst und verändert sich mit den Anforderungen im Unternehmen
•
Eine qualifizierte Person oder Team übt aktiv „Kontrolle“ über das Modell aus
Suchabfrageausdrücke sollten von Zeit zu Zeit analysiert werden
Noch nicht genug?
Video-Labs von Microsoft zum Thema
Sharepoint 2010 Enterprise Search
http://msdn.microsoft.com/de-de/sharepoint/ff960976(en-us).aspx
Hintergrund: Wohin kommt und geht der Code in der Microsoft
Entwicklung?
Microsoft Windows Codebasis
Sharepoint Server 2010 (+)
Sharepoint Search
„Best of“
FAST für Sharepoint
FAST Enterprise Search Platform
UNIX & Windows Codebasis
Search Server 2010 (+)
FAST Search Server 2010 for
Sharepoint
FAST Search Server for
Internet / Internal Applications
Eigenschaften der verbleibenden Basislösungen
Sharepoint Point Server 2010
For Internet Sites, Enterprise
Sharepoint Point Server 2010
For Internet Sites, Standard
LIZENZtechnisch unterschiedlich
SUCHtechnisch gleich
Sharepoint Point Server 2010