Web-2015-11-12-Google
Transcription
Web-2015-11-12-Google
Online-Recherche:Web-Recherche WS2015/2016 5.Veranstaltung–12.November2015 PhilippSchaer-philipp.schaer@gesis.org PhilippMayr-philipp.mayr@gesis.org GESIS–Leibniz-InsItutfürSozialwissenschaMen 2 Themenderheu3genVeranstaltung • AllgemeinesThema:Ranking • RankingimWeb – EigenschaMenvonWeb-SeitenundihreAuswirkungenaufdasRanking – AuswertenvonVerlinkungenzurUnterstützungdesRankings 3 ÜberblicküberdasThemaRanking 1. AllgemeineRanking-Prinzipien(letzteWoche) – „200Signals“ 2. BesonderheitenderAuszeichnungssprachen(letzteWoche) – Meta-Tags,Header-undLink-Texte – SpezielleSuchoperatoren 3. Link-Popularität(dieseWoche) 4. DieBedeutungvonSocialMedia-Signalen(nächsteWoche) 4 TermgewichtungimWWW? • FrüheSuchmaschinenarbeitenz.B.mitTermgewichtenwie TF-IDFimWeb,z.B. – AltaVista • Nachteile: – DieseAnsätzesindsehrspamanfällig(„Casino“,„Money“,„Sex“)und – dieGrößedesWebisteinProblem, – genausowiedasSprachproblem! • EsbrauchtealternaIveAnsätzeumdenbesonderen ProblemenimWebHerrzuwerden! Mo3va3on “WhensearchingforinformaIonontheWWW,usersperforma querytoasearchengine.Theenginereturns,asthequery’s result,alistofWebsiteswhichusuallyisahugeset.Sothe rankingofthesewebsitesisveryimportant.Becausemuch informaIoniscontainedinthelink-structureoftheWWW, informaIonsuchaswhichpagesarelinkedtootherscanbe usedtoaugmentsearchalgorithms.” Quelle:hhp://europa.nvc.cs.vt.edu/~cegyhazy/cs5604/pagerank.ppt DerPageRank-Algorithmus ZentralesPapier: ThePageRankCita3onRanking:Bringing OrdertotheWeb. Page,LawrenceandBrin,Sergeyand Motwani,RajeevandWinograd,Terry (1999)ThePageRankCita.onRanking: BringingOrdertotheWeb.Technical Report.StanfordInfoLab. hhp://ilpubs.stanford.edu:8090/422/ 7 Einschub:Websitevs.Webpage • WasistderUnterschiedzwischeneineWebsiteundeiner Webpage? • Webpage:Eineeinzelne(HTML-)SeiteimWeb z.B.hhp://www.test.de/arIkel2.html • Website:EineSammlungvonWebpages(synonym: Webpräsenz,WebauMrihetc.)z.B.hhp://www.test.de • SchwierigeSituaIonimDeutschen:Webseitevs.Website àWebseite=Webpage! 8 PageRank:DiezentraleIdee(1) • JedeWebpagehateineAnzahlanausgehendenLinks (ForwardLinks,Outlinks)undeineAnzahlaneingehenden Links(Backlinks,Inlinks). Webpagev1 Webpagex1 Inlinks Webpagev1 Webpagew Outlinks Webpagex2 9 PageRank:DiezentraleIdee(2) • WebpagesunterscheidensichstarkinderAnzahlihrerInlinks. – SohatdieWebseitewww.spiegel.de/index.htmlmehrals 8,2MillionenInlinks*,währendvieleandereWebseitennurwenige Inlinksbesitzen. – MeinepersönlicheWebseitehatz.B.<100Inlinks. • DieAnnahmeist,dassdieseSeitenmitvielenInlinks „wichIger“sind,alsdiesemitwenigenInlinks. – Oder„populärer“? – Oder„einflussreicher“? – Oder„interessanter“? • DieInterpretaIondesPageRanksistschwierig... *Quelle:hhp://www.seokicks.de/backlinks/www.spiegel.de 10 PageRank:DiezentraleIdee(3) • Weiterhinkönntemandavonausgehen,dassInlinks,dievon einer“wichIgen”Seitenwiederrummehr“WichIgkeit” ausdrücken,alsInlinksvon“unwichIgen”Seiten. • Verlinktbspw.dieWebseitewww.spiegel.deaufeineandere Webseite,hatdiesevielleichtnureineneinzigenInlinks,aber dieseristeinflussreichundwirdggf.auchsehroMgeklickt. • Zusammengefasst:EineWebpagehateinenhohenPageRank, wenndieSummederRankingsderInlinksebenfallshochist. DiesumfasstdieFälle,dasseineWebpagevieleInlinkshat,als auchdasssiewenige,aberdafür“wichIge”Inlinksbesitzt. 11 PageRank:EinfacheDefini3on w Outlinksv |Outlinksv| Inlinksw EineWebpage EineMengevonWebpages,aufdievzeigt DieAnzahlderOutlinksvonv EineMengevonWebpages,dieaufwzeigen PageRank(v) PageRank(w) = ∑ Outlinksv v∈Inlinksw • DieGleichungistrekursiv(ruMsichselberauf),kanniteraIv gelöstwerden,bissiekonvergiert. 12 EinBeispiel PR=2 PR=1 PR=1 Hinweis:AlleSeitenstartenmitPR=1 PR=? PR=4 PR=3 13 hhp://en.wikipedia.org/wiki/PageRank#mediaviewer/File:PageRank-hi-res.png 14 PageRank:ProblemdesRankSink • DievorherigeDefinitonhateinProblem:ranksink • WennzweiodermehrWebpagesimZirkelaufeinander zeigen,allerdingszukeineranderen,wirdeineSchleifein Ganggesetzt. • EinhoherRankwirdakkumuliert,allerdingsnieaufandere Seitenübertragen. Quelle:hhp://europa.nvc.cs.vt.edu/~cegyhazy/cs5604/pagerank.ppt 15 DasRandomSurfer-Modell • Manstellesicheinen(menschlichen)Websurfervor,der irgendwanngelangweiltistundzubeliebigenanderenSeiten springt.Z.B.miteinerWahrscheinlickeitvon10%. • SokannerniemalsineinerSchleifefeststecken. Quelle:hhp://europa.nvc.cs.vt.edu/~cegyhazy/cs5604/pagerank.ppt 16 Prak3scheAnwendungdesPageRank 1. PageRankfüralleWebseitenwirdberechnet. 2. NutzerstelltAnfrageanWebsuchmaschine. 3. AufGrundlagederSuchtermewirdzunächsteine ungeordneteMengevonpotenIellrelevantenWebseiten zusammengestellt. 4. AnschließendwirddieMengeanWebseitenineine geordneteListeüberführt,indemabsteigendnacheinem ScoresorIertwird,deru.a.aufdemPageRankbasiert. NatürlichfließenindietatsächlicheBerechnungdesScorenoch vieleandereFaktorenmitein(siehevorherigeVeranstaltungen). 17 SpammingdesSystems... • hhps://www.youtube.com/watch?v=anwy2MPT5RE 18 BekannteSchwächen • GoogleBombs – UntereinerGoogle-BombeverstehtmaneineManipula3ondes Google-SuchergebnissesfüreinebesImmteWebseitedurch vielfachesSetzenvonLinksmiteinemvereinbartenAnkertext. – Google-Bombenwerdeneingesetzt,umWebseitenbesImmter PersonengezieltmitoMdiffamierendenSchlagworteninVerbindung zubringen. – DieersteGoogle-Bombekam1999auf,alsmitdemSuchbegriff„more evilthansatanhimself“aufdieSeitevonMicrosoMverwiesenwurde. • GoogleBowling – DaSuchmaschinenversuchen,Manipula3onsversuchezubestrafen, nutzenmancheFirmendiesaus,umWehbewerbernbewusstim Rankingzuschaden. Quelle:hhp://de.wikipedia.org/wiki/Google-Bombe 19 AusnutzungderSchwächen • Link-Farmen – AlsLinkfarmwirdeineAnsammlungvonWebseitenimWeb bezeichnet,dieprimärdemZweckdient,möglichstvieleHyperlinks aufeineandereWebpräsenzzulegen. – DieErstellungsolcherLinkfarmendientder Suchmaschinenop3mierung(SEO)bzw.derManipulaIonvon Suchmaschinen,d.h.,dieverlinkteWebsitesollfürSuchanfragenauf einendererstenPlätzederTrefferlistegebrachtwerden.Dabeisind dieeinzelnenSeiteneinersolchenLinkfarmvielfacheinandersehr ähnlichoderidenIsch. • GoogleselbstbeschreibtseineGegenmaßnahmenz.B.hier: hhps://support.google.com/webmasters/answer/93713 Quelle:hhp://de.wikipedia.org/wiki/Linkfarm 20 WeitereSchwächen • EntscheidendistnichtdasInteressederLeser,sondern lediglichdasandererWebseitenbetreiber. • FinanzkräMigeSeitenbetreiberkönnensichInlinkserkaufen. Diesführtdazu,dassstahqualitaIvhochwerIgemInhaltoM diefinanziellenMöglichkeitenüberdieReihenfolgeder Suchergebnisseentscheiden. • WebmastersehenoMimPageRankdaseinzige BewertungskriteriumfürdenLinktausch.DerInhaltder verlinktenSeitengerätindenHintergrund. • DerPageRankliefertkeinenBeitragzurqualita3ven EinordnungvonWebsites. hhp://de.wikipedia.org/wiki/PageRank 21 PageRank:Zusammenfassung § FürSiealsOnline-Redakteure: § § § § § Google-Rankingbzw.PageRankisteinRanking-Prinzip,dassSie hinterfragensollten. SorIerunginDatenbankenvs.Web-Ranking PageRankisteinglobalesRanking,dassaufderStrukturdes WorldWideWebbasiert. PageRankverwendetInformaIonenüberBacklinks/Inlinks umdasWebzuordnen. PageRankverwendeteinsogenanntesRandomSurfer-Modell. 22 Literaturhinweise • • • • • • • • • • • • Ferber,R.:InformaIonRetrieval.SuchmodelleundData-Mining-Verfahrenfür TextsammlungenunddasWeb.Heidelberg2003 Erlhofer,S.:Suchmaschinen-OpImierung.4.Aufl.Bonn2008. Glöggler,M.:SuchmaschinenimInternet.FunkIonsweisen,Ranking,Methoden.2. Aufl.Berlin2008. Lehmann,K./Schetsche,M.(Hg.):DieGoogle-GesellschaM.Bielefeld2005 Lewandowski,D.:„SuchmaschinenforschungimKontexteinerzukünMigen WebwissenschaM“,inScherfer,K.(Hg.):WebwissenschaM-EineEinführung.Münster 2008,S.268-282 Lewandowski,D(Hg.):HandbuchInternet-Suchmaschinen.Heidelberg2009. Machill,M./Beiler,M.(Hg.):DieMachtderSuchmaschinen.Köln2007. Wimmeroth,U./Brochhagen,Th.:Google.DirtyTricks.Düsseldorf2003 Meier,K.:„GrundlagenjournalisIscherRechercheimInternet“,inMeier,K.:InternetJournalismus.Konstanz.3.Aufl.2002,S.297-357. RegionalesRechenzentrumfürNiedersachsen:SuchenundFindenimInternet. Hannover6,2001 www-SuchseitenderInformaIonswissenschaM hhp://www.inf-wiss.uni-konstanz.de/suche/sel~tml hhp://sel~tml.teamone.de/html/kopfdaten/meta.htm 23 Kontakt • Dr.PhilippMayr GESIS-Leibniz-InsItutefortheSocialSciences UnterSachsenhausen6-8,50667Köln Tel:+49(0)221/47694-533 philipp.mayr@gesis.org • Dr.PhilippSchaer GESIS-Leibniz-InsItutefortheSocialSciences UnterSachsenhausen6-8,50667Köln Tel:+49(0)221/47694-521 philipp.schaer@gesis.org • hhp://www.schaer.de/teaching/web-recherche-ws-1516