Recommended Search Engine Optimization
Transcription
Recommended Search Engine Optimization
Beispielbild Recommended Search Engine Optimization by Ralf Kuschel Student, Freie Universität Berlin Directory Informatik, Semesterarbeit, 28.01.2008 2 Architektur Informatik, Semesterarbeit, 28.01.2008 3 Architektur Document Index − übernimmt die Datenverwaltung − teilt Dokumenten eine eindeutige DocID zu − geschieht durch bilden einer Checksumme welche aus Buchstaben und Zahlen besteht − Bei erfolgreichem Durchlauf wird eine Lokale Kopie im Repository angelegt − gespeichert werden Erstelldatum, Änderungshäufigkeit, Seitentitel und IP-Adresse und Hostname des Hosters Scheduler − Verwaltungsorgan der Suchmaschine − organisiert und verteilt Aufträge an die Webcrawler − wechselt zwischen neu zu erfassenden Seiten und zu pflegenden Seiten (alternierende Folge) − weiß immer über den Zustand der Crawler bescheid Informatik, Semesterarbeit, 28.01.2008 4 Architektur Webcrawler − liegen im allgemeinen als Cluster vor (komplettes Rechnersystem) − arbeitet mit HTTP-Request und HTTP-Response − sammelt Daten von den jeweiligen Webservern − sind diese nicht mehr vorhanden, so löscht der Storeserver den Eintrag aus dem Dokumentenindex − gewichtet Seiten nach ihrer Aktualisierung, denn eine Webseite die häufig aktualisiert wird gilt als informativer und wird somit höher gewichtet − Webseiten sollten eine möglichst geringe Dokumententiefe haben, denn die Crawler erachten tieferliegende Dokumente unwichtiger, als Dokumente auf der Root-Ebene − Google betreibt ca. 10.000 Server, mit je 200 Crawlern − diese sind einfache Linux-Rechner − leitet gesammelte Informationen an den Storeserver weiter Informatik, Semesterarbeit, 28.01.2008 5 Architektur Informatik, Semesterarbeit, 28.01.2008 6 Pagerank-Verfahren Informatik, Semesterarbeit, 28.01.2008 7 On-Page Optimierung − Fehlerfreies HTML anwenden, das heißt keine Klammern vergessen, Rechtschreibfehler und weitere Fehler die aus Unachtsamkeit passieren − Darauf achten das eine richtige URL angegeben wird. <a href=”http://mindblast.de//projekte/index.html“> Diese Seite würde den Benutzer nicht auf die gewünschte Webseite verlinken, sondern ihm einen 404-Fehlercode (Gewünschte Ressource nicht mehr verfügbar) ausgeben. - Da dies für den Benutzer schon unerreichbar ist, ist die auch für die Crawler nicht erreichbar und wird somit nicht indexiert Informatik, Semesterarbeit, 28.01.2008 8 Webstandards − Immer den aktuell gültigen HTML-Code benutzen, da viele Programme die Webseiten generieren noch alte HTML-Codes beinhalten − Durch den Browser-Konkurrenzkampf kommt es zu proprietären HTML- Tags, die von den Suchmaschinen jedoch nicht unterstützt werden − Der allgemeine Standard dem HTML unterliegt ist der W3C-Standard WICHTIG Ein Dokument, welches einen fehlerfreien HTML-Code vorweist ist nicht nur ein Beweis für die Sorgfalt und Professionalität des Webautors, sondern stellen für die Suchmaschinen ein anwendbares Gütekriterium dar, denn eine gepflegte fehlerfrei programmierte Webseite gilt gleichzeitig auch als informativ. Informatik, Semesterarbeit, 28.01.2008 9 HTML-Standards Möglichkeit zur Überprüfung seines HTML-Codes Informatik, Semesterarbeit, 28.01.2008 10 Cascading Style Sheets − Mögliche Alternative zu HTML − Trennung von Inhalt und Design − Vorteil: CSS werden von Suchmaschinen nicht interpretiert − Dies erlaubt es Webautoren seine Inhalte so zu positionieren das sie für den Benutzer sichtbar sind, jedoch für die Crawler nicht − Dennoch begeht man hier eine Gradwanderung − Denn das gezielte verwenden von CSS zählt als Täuschungsversuch läuft man gleichzeitig Gefahr aus dem Index geworfen zu werden − Sollte man dies trotzdem verwenden, sollte man immer informiert sein ab wann Suchmaschinen auch CSS-Dokumente interpretieren können Informatik, Semesterarbeit, 28.01.2008 11 HTML-Tags Neben dem verwenden von fehlerfreien HTML-Code sollte auch darauf geachtet werden, dass man die korrekten HTML-Tags verwendet. Falsche Überschrift: <div class=“ueberschrift_gross“>Über Baumwurzeln</div> Richtige Überschrift: <h1 class=“ueberschrift_gross“>Über Baumwurzeln>/h1> Was für den Benutzer nicht sichtbar ist, ist für die Webcrawler sehr entscheidend denn diese lesen nur den Quelltext aus und erkennen in der falsch Überschrift zwar den Inhalt jedoch nicht, dass es eine Überschrift sein soll. Bei der richtigen Verwendung des HTML-Tags erkennt der Crawler das Fragment als Überschrift an und was besonders wichtig ist, als Überschrift der Ebene <h1> also der obersten Ebene. Informatik, Semesterarbeit, 28.01.2008 12 Seitenstruktur − Sollte in logisch hierarchischer Struktur aufgebaut sein − Wichtige Dokumente sollten direkt über die Navigation der Webseite erreichbar sein und eine geringe Dokumententiefe aufweisen (Gliederung der Webseite vorhanden). − Dokumententiefe gering halten und keine Sackgassen einbauen, aus denen der Benutzer nur mit der „Zurück“-Taste rauskommt, sondern immer einen Link im besten Fall zur Indexseite geben. − Dokumententiefe geringer als 4 halten, damit der Benutzer nicht die Orientierung verliert − Wahlweise kann man auch eine Pfadverfolgung angeben Informatik, Semesterarbeit, 28.01.2008 13 Frames − Suchmaschinen können Frames meist schwer oder garnicht auslesen −Eine Seite die aus Frames besteht ist ein leeres Dokument für den Crawler da die Informationen innerhalb der Rahmen liegen − Das <body>-Tag welches den eigentlich Inhalt der Webseite beschreibt ist wie man sehen kann hier leer − neue Webcrawler sind bereits in der Lage Frame-Webseiten zu indexieren, allerdings werden hier der nav und der main Bereich getrennt indexiert − weiteres Problem durch eingehende Links, da man auf Frame-Webseiten nicht ohne weiteres linken kann Informatik, Semesterarbeit, 28.01.2008 14 Keyword-Recherche - unterliegen Gütekriterien keine Abkürzungen verwenden sollte das Thema der Seite so genau beschreiben wie möglich keywords analysieren nach Häufigkeit und notfalls Synonym finden Mitbewerberdichte ergründen Informatik, Semesterarbeit, 28.01.2008 15 Keyword-Dichte - Maximale Häufigkeit eines Wortes welches im Dokument ein Keyword darstellt - Sollte maximal 3% - 8% des gesamten Wortanteils sein - Wird mit dem TF-Algorithmus errechnet - Verhinderung des Spams Informatik, Semesterarbeit, 28.01.2008 16 Zusammenfassung Optimierung Effekt HTML-Standards beachten - Webseite kommt in den Index - Crawler können die Webseite besser auslesen Link-Popularity - Erhöhung des Pageranks wenn man Kontakte zu kompetenten Webseiten hegt Keywords - Keywords an den wichtigen Stellen plazieren - Mit der Dichte nicht übertreiben „sauberes HTML“ -Zeugt von der Qualität der Webseite -Bescheinigt dem Programmierer eine hohe Kompetenz Hierarchische Seitenstruktur -Bessere Benutzbarkeit - Webseite gewinnt zusätzlich an Qualität Domain - Eine geeignete Domain die der Thematik der Webseite angepasst ist, erhöht die Chance bei gesuchtem Begriff weit oben zu stehen -Die Bekanntmachung der Seite kann einen größeren Effekt haben als die Optimierung selber -Wenn eine Seite als besonders wertvoll empfunden wird, so wird diese auch weiterempfohlen Public Relation Informatik, Semesterarbeit, 28.01.2008 17 Quellen 1. Suchmaschinen-Optimierung – Das umfassende Handbuch von Sebastian Erlhofer 2. http://www.wikipedia.de 3. http://www.seo-solutions.de/artikel/geschichte-der-suchmaschine-google.html 4. http://www.lousigerblick.de/archives/141-Grundlagen-der-On-Page-SEO.html 5. http://www-wi.uni-muenster.de/pi/lehre/ss05/seminarSuchen/Ausarbeitungen/ChristophLehrke.pdf 6. http://www.rechtsprobleme.at/doks/Diss-Frames.html Informatik, Semesterarbeit, 28.01.2008 18