Suchportale und Intranet
Transcription
Suchportale und Intranet
SearchEngine Suchportale und IntranetSuchmaschinen mit YaCy ... und Beispiele von Anwendern Michael Christen, mc@yacy.net open-it summit, 23.05.2013 Messegelände Berlin Abstract Search Appliances sind weit verbreitete Werkzeuge, um Suchportale für Intranets oder Unternehmens/ Institutsdaten zu realisieren. In diesem Vortrag wird gezeigt, dass kommerzielle Appliances durch die freie Suchmaschinensoftware YaCy ersetzt werden kann. Wir zeigen als live-Demonstration: • wie einfach es ist, ein Suchmaschinenportal selbst zu erstellen • wie man einen Suchindex für das Web oder Intranet erstellt • wie leicht es ist, ein Produktions- set-up zu machen um wiederkehrende Aufgaben zu kontrollieren. • wie die Suchmaschine dann als Nachrichtendienst genutzt werden kann und mit automatischen Suchanfrage und RSS feeds Nachrichten aus den indexierten Daten erzeugt werden • wie die Suchmaschine als SEO-Tool genutzt werden kann. YaCy wurde als Peer-to-Peer Suchmaschine für das Web konzipiert, aber im stand-alone Modus kann sie auch wie eine Appliance genutzt werden. Durch zahlreiche Projekte in diesem Umfeld hat die Software nun eine Funktionsmenge erreicht, die sie zum Kandidaten für den Ersatz von kommerziellen Appliances macht. Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Michael Christen mc@yacy.net, http://yacy.net Anwendungen für eine Search Appliance Suche für Web-Portal Intranet- und Filesuche geteiltes Wissen für verteilte Systeme Konsolidierung der Datenablage (ftp/smb-Suche) Nachrichtendienste SEO & WebAdmin Tools automatisches Suchen ohne Suchananfrage fremde Server durchstöbern und Strukturen analysieren Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Finden was andere nicht finden (können) z.B. öffentl. FTP Server, torrents, div. binaries, etc. Michael Christen mc@yacy.net, http://yacy.net Anwendungen: Web-Portal Suche Suche für Web-Portal geteiltes Wissen für verteilte Systeme Suchmaschine Vernetzung Create / Share von Wissen Produktion Dokumente Projektsteuerung Versionskontrolle Discussion Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Bugtracker (micro)Blogging Michael Christen mc@yacy.net, http://yacy.net Anwendungen: Intranet- und Filesuche Intranet- und Filesuche Konsolidierung der Datenablage (ftp/smb-Suche) Suchmaschine Vernetzung Create / Share von Wissen Produktion Dokumente Projektsteuerung Versionskontrolle Vorteile im Unternehmen: • Information ist unabhängig Discussion Bugtracker (micro)Blogging vom Ablagesystem sichtbar • Gemeinsame Navigation Vernetzung von Menschen unterstützt Vernetzung • Technologische Vernetzung Nutzer wählen das optimale „wie setze ich Technik ein um Wissen zu generieren?“ System zur Ablage Soziotechnische Vernetzung „wie gehen Menschen mit Technik um?“ Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Michael Christen mc@yacy.net, http://yacy.net Anwendungen: Nachrichtendienste Nachrichtendienste automatisches Suchen ohne Suchananfrage Funktionsweise: • Jede Suche kann ein RSS Nachrichtenstrom sein • Suchergebnisse können nach Aktualität geordnet werden • Suchergebnisse können automatisch weiterverarbeitet werden (RSS Reader, Alerts, u.s.w.) Vorteile im Unternehmen: • Zeitnahe Reaktionsfähigkeit • Alerts für Aktivitäten der Mitarbeiter (im Intranet) • Alerts für Aktivitäten der Konkurrenz (im Einsatz in einer Websuche) Beispiel: Ausschreibungssuche Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Michael Christen mc@yacy.net, http://yacy.net Anwendungen: Business Analytics, SEO, Web-Admin SEO & WebAdmin Tools fremde Server durchstöbern und Strukturen analysieren Funktionen: • Die Datenstruktur fremder Server durchstöbern und Strukturen analysieren • Tote Links aufdecken • Visualisierung von Verlinkungsstrukturen • Durchsuchbarkeit des eigenen Webauftritts testen Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Michael Christen mc@yacy.net, http://yacy.net Anwendungen: zusätzliche nützliche Funktionen Finden was andere nicht finden (können) Suchergebnisdarstellung: z.B. öffentl. FTP Server, torrents, div. binaries, etc. • Facetten zu Hosts, Zeit, Dateitypen, Autoren, Protokoll • mehr Suchinterfaces: nicht nur 'übliche' Websuche, sondern auch GSA-Interface, RSS-Nachrichten, File-Suche, Opensearch, JSON, XML, native Solr-Interface • Benutzergenerierte Suchfacetten über Vokabularien • nicht ausschliesslich http(s), auch ftp + SMB-Shares Harvester, Datenaquise: • Parser: ,unübliche‘ Formate (z.B. torrents), Anpassung an spezielle Unternehmensdaten möglich • Skalierbarkeit durch Vernetzungsfähigkeit • besseres Timing: Individueller Crawler-Scheduler • Vielfältiges Harvesting: Crawler, Intranet-Scanner, sitelist, RSS feed import, OAI-PMH Import, mediawiki-Dump u.s.w. Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Michael Christen mc@yacy.net, http://yacy.net Wissen wie Suchmaschinen funktionieren search server web interface I crawler api search index opensearch gsa robots balancer queues schema facets network interfaces ranking moderation file http ftp smb oai-pmh doc parser document cache pdf xls html rss zip eml Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 solr monitoring I/O requests Disk/RAM administration/ steering Michael Christen mc@yacy.net, http://yacy.net YaCy Komponenten search server crawler api search index monitoring network interfaces document cache parser Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 administration/ steering Michael Christen mc@yacy.net, http://yacy.net YaCy subsumiert Solr Embedded Solr Solr ist die Indexing-Engine in YaCy administration crawler parser monitoring oder: externer Solr Solr kann per Solr-API extern eingebunden werden, Schemas lassen sich anpassen. Solr API in YaCy search interface der in YaCy integrierte Solr kann über die Standard Solr-API (http/xml) angesprochen werden Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Michael Christen mc@yacy.net, http://yacy.net Solr mit YaCy als Framework YaCy ist ein Suchmaschinen-Framework für Solr - Solr Schema in YaCy basiert auf dem „Solr Cell“ Schema - Support für remote Solr - Das YaCy Schema kann einem externen Solr Schema angepasst werden Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Michael Christen mc@yacy.net, http://yacy.net YaCy Nutzer: Peer-to-Peer Netz ,freeworld‘ freie dezentrale Suchmaschine für alle freeworld: http://search.yacy.net Suchmaschine, bestehend aus den Peers freiwilliger 1200 Peers im Monat, weltweit verteilt > 1 Milliarde Dokumente Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Michael Christen mc@yacy.net, http://yacy.net YaCy Nutzer: Johannes Gutenberg Universität Mainz http://www.uni-mainz.de/ Gutenberg-Universität Mainz Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Michael Christen mc@yacy.net, http://yacy.net YaCy Nutzer: Free Software Foundation Europe http://fsfe.org Free Software Foundation Europe Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Michael Christen mc@yacy.net, http://yacy.net YaCy Nutzer: Karlsruhe Institut für Technologie http://www.kit.edu Karlsruhe Institut für Technologie Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Michael Christen mc@yacy.net, http://yacy.net YaCy Nutzer: Verwaltungssuchmaschine NRW Anpassungen an YaCy für die Migration der Verwaltungssuchmaschine NRW von einer GSA im Vollausbau nach YaCy: • Implementierung des GSA Anfrageund Suchergebnisformates, entsprechend https://developers.google.com/search-appliance/ documentation/68/xml_reference • Mandantenfähigkeit • Crawler-Verbesserungen • Synonym-Matching • Host Browser / Crawling - Diagnose http://vsm.d-nrw.de Verwaltungssuchmaschine NRW > 10 Millionen Dokumente Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Michael Christen mc@yacy.net, http://yacy.net YaCy Nutzer: EnergieCity Leipzig http://www.energiecity-leipzig.de/ Energie- und Umwelttechnik für nachhaltiges Bauen Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Michael Christen mc@yacy.net, http://yacy.net YaCy Betrieb: automatische Prozesse, Verfügbarkeit Linux Back-End yacy0: master node Config + Crawls port 443 Portal Admin h rc a Se es u q Re ts Cron-Jobs Search-API Admin Appliance Administration during set-up: • Set-Up-Replikation: full copy of master node to replication node port 8090 Index Backup Storage Load Balancer using a Reverse Proxy with Failover Configuration • Supervisor: ,hot restore‘ Se ch ar yacy1: replication node es qu Re checkalive-Ping + restart if peer is dead • Software Update: automated download and alternating update Search-API ts Search Users • Index Replikation: dump to Backup + Restore from Backup Search Interface port 8100 (or 80) ,hot dump‘ • No Downtime: Availability is ensured for all processes port 8091 Suchportale & Intranet-Suchmaschinen mit YaCy Open-IT Summit, Messegelände Berlin, 23.05.2013 Michael Christen mc@yacy.net, http://yacy.net Bitte sprechen Sie mich an! Messestand 139, Halle 7.1A SearchEngine Dipl. Inf. Michael Christen mc@yacy.net http://pro.yacy.net Produkte und Beratung: • • • • QR-Code: vCard YaCy Search Appliance - Vorkonfiguration und Migration Betriebssupport - Inbetriebnahme, Support Software Entwicklung - Funktionserweiterungen, Suchportale Schulungen - Suchmaschinentechnik, Wissensmanagement, YaCy Operating