Besedilo

Transcription

Besedilo

FAKULTETA ZA INFORMACIJSKE ŠTUDIJE
V NOVEM MESTU
DIPLOMSKA NALOGA
UNIVERZITETNEGA ŠTUDIJSKEGA PROGRAMA PRVE STOPNJE
ALEŠ HOČEVAR
FAKULTETA ZA INFORMACIJSKE ŠTUDIJE
V NOVEM MESTU
DIPLOMSKA NALOGA
ANALIZA IN PRIMERJAVA STATIČNIH
LASTNOSTI OMREŽIJ PRIJATELJSTEV V
SPLETIŠČU FACEBOOK S TEORETIČNIMI
Mentor:
izr. prof. dr. Janez Povh
Novo mesto, september 2012
Aleš Hočevar
IZJAVA O AVTORSTVU
Podpisani Aleš Hočevar, študent FIŠ Novo mesto, v skladu z določili statuta FIŠ izjavljam:
o da sem diplomsko nalogo pripravljal samostojno na podlagi virov, ki so navedeni v
diplomski nalogi,
o da dovoljujem objavo diplomske naloge v polnem tekstu, v prostem dostopu, na
spletni strani FIŠ oziroma v digitalni knjižnici FIŠ:
takoj,
po preteku 12 mesecev po uspešnem zagovoru,
ne dovoljujem objave na spletni strani oziroma v elektronski knjižnici FIŠ
zaradi prepovedi organizacije, v sklopu katere je bil pripravljen empirični del
naloge,
o da je diplomska naloga, ki sem jo oddal v elektronski obliki, identična tiskani verziji,
o da je diplomska naloga lektorirana.
V Novem mestu, dne: ________________
Podpis avtorja: __________________
POVZETEK
Analiza omrežij spada med interdisciplinarne vede, saj vključuje matematične, računalniške
in družboslovne raziskovalne metode. Po eni strani mora odkriti zakonitosti, po drugi pa
razlage, zakaj do njih prihaja.
Navkljub različnim oblikam realnih omrežij pa imajo pogosto ta omrežja nekatere skupne
značilnosti. V tej nalogi bomo preverili domnevo, da izmerjene lastnosti vzorca podomrežij
prijateljstev spletnega socialnega omrežja Facebook sledijo nekaterim teoretičnim
predpostavkam: (i) velikost in premer omrežja (pregled literatura navaja predpostavko, da je
premer omrežja šest povezav), (ii) število in velikost komponent (literatura navaja, da
povprečno omrežje sestavljata ena velika komponenta in več manjših) ter (iii) porazdelitev
stopnje točk sledi potenčnemu zakonu. Za to potrebujemo množico podomrežij, ki jih bomo
analizirali v programskem okolju R za statistično analizo in grafiko.
KLJUČNE BESEDE: analiza omrežij, realna omrežja, lastnosti realnih omrežij, programski
jezik R
ABSTRACT
Network analysis is an interdisciplinary discipline since it involves methods from
mathematics, computer and social sciences. On one hand, it discovers regularities in networks
while on the other hand explains the reasons behind them.
Despite the various forms of real networks, they have some common characteristics. In this
BSc thesis we will try to confirm the hypothesis that the observed sample of Facebook subnetwork has properties that follow basic theoretical assumptions, such as (i) the size and the
diameter of the network (theory suggest an assumption that the diameter of the network is
six), (ii) number and size of components (theory indicates that average network consists of
one large and several smaller component) and (iii) degree distribution follows the power law.
All this needs a large number of individual sub-networks, which will be analyzed using
program R for statistical computing and graphics...
KEY WORDS: network analysis, real networks, properties of real networks, R programming
language
KAZALO
1
2
3
UVOD................................................................................................................................. 1
TEORIJA GRAFOV .......................................................................................................... 2
ANALIZA OMREŽIJ ........................................................................................................ 6
3.1
Analize omrežij skozi čas ........................................................................................... 8
3.2
Analiza omrežij danes .............................................................................................. 10
3.3
Realna omrežja ......................................................................................................... 12
3.3.1
Lastnosti realnih omrežij.................................................................................. 12
3.3.2
Porazdelitev stopnje točk in potenčni zakon..................................................... 13
3.3.3
Velikost in premer omrežja............................................................................... 15
3.3.4
Število in velikost komponent ........................................................................... 17
3.4
Spletna družabna omrežja......................................................................................... 18
3.5
Socialna omrežja v Sloveniji .................................................................................... 22
3.6
Facebook................................................................................................................... 23
4
CILJI DIPLOMSKEGA DELA IN RAZISKOVALNE DOMNEVE ............................. 24
4.1
Raziskovalne domneve ............................................................................................. 25
4.2
Glavni rezultati diplomskega dela ............................................................................ 25
5
METODA ......................................................................................................................... 25
5.1
Opis parametrov vzorca................................................................................................ 26
5.2
Vzorec........................................................................................................................... 26
5.3
Postopek ....................................................................................................................... 28
5.3.1
Facebook Query Language (FQL) ................................................................... 28
5.3.2
Način pridobivanja podatkov ........................................................................... 28
5.4
Analiza podatkov...................................................................................................... 28
5.5
Metode za obdelavo podatkov.................................................................................. 29
5.5.1
Stoufferjeva metoda .......................................................................................... 29
5.5.2
Kolmogorov-Smirnov test ................................................................................. 29
6
REZULTATI .................................................................................................................... 29
6.1
Številske karakteristike............................................................................................. 30
6.2
Premer omrežja......................................................................................................... 34
6.3
Velikost velike komponente ..................................................................................... 36
6.4
Porazdelitev stopenj vozlišč ..................................................................................... 37
7
ZAKLJUČEK ................................................................................................................... 38
8
RAZPRAVA..................................................................................................................... 38
9
LITERATURA ............................................................. Napaka! Zaznamek ni definiran.
10 VIRI.............................................................................. Napaka! Zaznamek ni definiran.
PRILOGE
KAZALO SLIK
Slika 2.1: Enostaven usmerjen graf z eno komponento ............................................................. 2
Slika 2.2: Podgraf prejšnjega grafa............................................................................................. 3
Slika 2.3: Graf z dvema šibko povezanima komponentama ...................................................... 3
Slika 2.4: Utežen graf ................................................................................................................. 3
Slika 2.5: Primer okvirja z ročaji................................................................................................ 5
Slika 3.1: Histogram porazdelitve stopenj točk v realnem omrežju......................................... 13
Slika 3.2: Binomska porazdelitev............................................................................................. 14
Slika 3.3: Dendrogram – drevo združevanja po minimalni metodi.......................................... 18
Slika 3.4: Razvoj večjih spletnih socialnih omrežij skozi čas.................................................. 21
Slika 6.1: Število vozlišč .......................................................................................................... 31
Slika 6.2: Število povezav ........................................................................................................ 31
Slika 6.3: Premer omrežja ........................................................................................................ 32
Slika 6.4: Velikost glavne komponente.................................................................................... 32
Slika 6.5: Povprečna stopnja točk............................................................................................. 33
Slika 6.6: Število komponent ................................................................................................... 33
Slika 6.7: Gostota omrežja........................................................................................................ 34
Slika 6.8: Porazdelitev najkrajših razdalj ................................................................................. 34
Slika 6.9: Cohenov koeficient .................................................................................................. 35
Slika 6.10: Odstotek vozlišč v glavni komponenti in število komponent ................................ 36
Slika 6.11: Porazdelitev povprečnih stopenj točk .................................................................... 38
KAZALO TABEL
Tabela 5.1: Število pridobljenih datotek po državah uporabnikov........................................... 27
Tabela 6.1: Prikaz osnovnih opisnih karakteristik.................................................................... 30
Tabela 6.2: Prikaz osnovnih opisnih karakteristik glede na spol ............................................. 30
1
UVOD
Analiza socialnih omrežij je interdisciplinarno znanstveno področje in obsega računalniške ter
informacijske znanosti, statistiko, uporabno matematiko, znanosti o življenju (npr. biologija,
kemija, bioinformatika) ter družboslovne (npr. sociologija) in humanistične (npr. jezikoslovje)
znanosti (Wasserman in Faust, 1994).
V zadnjih letih uporaba analize socialnih omrežij močno narašča, čemur so vsekakor
doprinesli tudi internet, socialna spletna omrežja in programi za analizo (velikih) podatkovij.
Pred razcvetom interneta so analize izdelovali predvsem teoretično, praktično pa na majhnem
številu enot.
Več avtorjev navaja (Blatt 2011, Chakrabarti in Faloutsos 2006, Clauset, Shalizi in Newman
2009, Kadushin 2004, Leskovec in Horvitz 2007, Newman 2004, Travers in Milgram 1959,
Watts 2004), da obstajajo nekatere teoretične lastnosti, ki so skupne mnogim realnim in
naključnim omrežjem. V nadaljevanju bomo opisali tri takšne lastnosti oziroma značilnosti.
Prva značilnost je, da je premer omrežja (najdaljša najkrajša razdalja med poljubnima
točkama omrežja) šest. To pomeni, da obstaja velika verjetnost, da je v velikem omrežju, med
poljubnima paroma točk najkrajša razdalja šest. Povedano drugače – v povprečnem omrežju
najbolj oddaljeni točki med seboj loči le pet vozlišč.
Naslednja skupna lastnost je, da velika omrežja v večini primerov vsebujejo eno veliko
komponento in več manjših.
Skupna značilnost je tudi ta, da porazdelitev stopenj točk sledi potenčnemu zakonu. To pa
pomeni, da ima mnogo vozlišč nizko stopnjo točk in da število točk z večanjem stopenj
upada.
Obstaja še nekaj skupnih značilnosti, katerih obravnava presega okvir tega dela. Bralec, ki ga
bo problematika podrobneje zanimala, naj poseže po dodatni literaturi (npr. Sabidussi 1966,
Ciglarič 2003, Leskovec 2008).
Pregled empirične evidence kaže, da doslej ni še nihče analiziral te lastnosti na primeru
prijateljstva v socialnem spletnem omrežju Facebook (v nadaljevanju FB). Naš osnovni
raziskovalni cilj je zato raziskovalna (eksploratorna) analiza omrežja FB v luči prej naštetih
lastnosti (premer omrežja, porazdelitev stopnje točk in število ter velikost komponent).
1
Pri raziskovanju odnosov med opazovanimi osebami je najnaravnejši način predstavitve le-teh
z omrežji. Kot smo že omenili, socialna spletna omrežja ponujajo bogat vir podatkov, kjer
opazovane osebe obravnavamo kot vozlišča, njihove odnose pa kot povezave. Tudi
pridobivanje teh podatkov ni zapleteno. Eden od načinov je kupovanje podatkov, drugi je
uporaba sekundarnih virov, lahko pa tudi sami zbiramo podatke, pri čemer udeležence
prosimo, naj nam te podatke posredujejo. Primarnega zbiranja podatkov smo se lotili tudi
sami.
2
TEORIJA GRAFOV
Da bi v nadaljevanju sledili pojmom, je prav, da nekatere med njimi malo bolje spoznamo.
Vseh pojmov je preveč, da bi jih zajeli v tej nalogi, omejili se bomo na tiste, ki jih bomo v
raziskavi uporabili.
Graf je množica točk in njihovih povezav v prostoru. Kadar graf nima zank (povezava, ki se
začne in konča v isti točki) in večkratnih povezav (med dvema točkama je ena sama
povezava), govorimo o enostavnem grafu, drugače pa o multigrafu. Pri usmerjenem grafu
obstaja najmanj ena povezava, po kateri lahko pridemo iz točke A v točko B, iz točke B v
točko A pa po isti povezavi ne moremo, smer povezave je pomembna. Drugače govorimo o
neusmerjenem grafu.
Slika 2.1: Enostaven usmerjen graf z eno komponento
Vir: Lastni prikaz (2012)
Podgraf je del grafa, kjer so točke iz podgrafa podmnožice točk iz grafa. Enako velja za
povezave. Graf je povezan, če lahko iz poljubne točke pridemo do vsake druge točke v grafu,
v nasprotnem primeru govorimo o nepovezanem grafu. Povezan graf ima eno samo
komponento. Kadar graf ni povezan, govorimo o grafu z več komponentami.
2
Slika 2.2: Podgraf prejšnjega grafa
Slika 2.3: Graf z dvema šibko povezanima komponentama
Če lahko iz vsake točke skupine pridemo v vsako drugo točko te skupine in pri tem
upoštevamo smer povezav, govorimo o krepko povezani komponenti, kadar pa smeri ne
upoštevamo, govorimo o šibko povezani komponenti. Graf je neutežen, kadar ima vsaka
povezava v grafu enako vrednost (primer grafa prijateljstva: si prijatelj, povezava obstaja, nisi
prijatelj, povezava ne obstaja), v nasprotnem primeru (kadar merimo komunikacijo med
prijatelji: poslano pošto, klepet itd) ima lahko vsaka povezava svojo vrednost in govorimo o
uteženem grafu.
Slika 2.4: Utežen graf
3
Omrežje je sistem povezanih enot (stvari ali ljudi), ki lahko med sabo komunicirajo. Omrežje
je graf, obogaten s podatki. Običajno je omrežje utežen graf. Omrežje, sestavljeno iz dveh
enot, imenujemo diada, iz treh pa triada. Stopnja točke nam pove število povezav, ki imajo
točko za krajišče. Pri enostavnem grafu lahko rečemo, s koliko ostalimi točkami ima točka
neposredno povezavo. Kadar omrežje naredimo sami z uporabo generatorja naključnih števil,
največkrat s pomočjo računalnika, govorimo o naključnih, slučajnih omrežjih. Kadar pa
omrežje nastaja spontano (recimo spletna socialna omrežja), govorimo o realnih omrežjih. Za
premer omrežja je treba izračunati najkrajšo povezavo med pari točk, tj. za vsak par točk,
koliko povezav potrebujemo, da pridemo iz ene točke do druge. Točki, ki sta po povezavah
najbolj oddaljeni med seboj, določata premer omrežja. Premer omrežja seveda lahko
izračunamo samo v eni komponenti (Povh 2011, Kastrin 2011).
Gostota omrežja je razmerje med številom povezav in številom vseh možnih povezav. Torej
več ko imamo povezav v omrežju, večja je gostota omrežja.
V nadaljevanju bomo opisali srednje vrednosti (aritmetična sredina, harmonična sredina,
geometrična sredina in mediana) (Wikipedia-5).
Aritmetična sredina ali povprečje niza podatkov je v statistiki seštevek vseh vrednosti,
razdeljen na skupno število teh vrednosti oziroma podatkov.
Harmonična sredina je ponavadi primerna v primerih, ko je treba najti srednje vrednosti
stopenj. Izračunamo jo tako, da število enot delimo z vsoto vseh obratnih vrednosti.
Geometrična sredina je v matematiki n-ti koren zmnožka vseh elementov množice, kjer je n
število elementov.
Mediana je v matematiki srednja vrednost nekega zaporedja števil, ki razdeli števila,
razvrščena po velikosti, na dve enaki polovici po številu elementov. Prednost mediane pred
aritmetično sredino je ta, da osamelci (podatki, ki ekstremno odstopajo od ostalih podatkov)
manj vplivajo na njeno vrednost.
Za vse množice podatkov, ki vsebujejo vsaj en par neenakih vrednosti, je harmonična sredina
vedno najmanjša, aritmetična sredina največja, geometrična sredina pa vmes. Če so vse
vrednosti v neprazni množici podatkov enake, so sredine vedno enake med seboj (Wikipedia5).
4
Kvartili so vrednosti, ki razdelijo proučevane podatke populacije ali vzorca na štiri enake dele
(Q1, Q2, Q3 in Q4). Seveda pa morajo biti podatki urejeni po velikosti (Wikipedia-6).
Kvartili omogočajo prikaz strukture porazdelitve podatkov v obliki “okvir z ročaji” (box and
whiskers plot, boxplot na kratko). Škatla sega od Q1 do Q3 in je predeljena v dva dela z
mediano. Na obeh straneh škatli dodamo ročaja, daljici, ki segata od škatle do najmanjšega
(največjega) podatka oziroma največ do 3/2kr. Ta nam pove velikost intervala, na katerem je
zbrana osrednja polovica podatkov. Predstavlja eno izmed mer za razpršenost (raztros)
podatkov. Kadar obstajajo podatki, ki so od škatle oddaljeni za več od 3kr/2 (kjer je kr =
Q3−Q1 kvartilni razmik), te vrednosti imenujemo osamelci (outliners) in jih označimo npr. z
majhnimi krožci (kot točke). Običajno preverimo, ali so vrednosti resnične, saj so tolikšna
odstopanja izjemna in morda tudi posledica napak. Takšen strukturni prikaz s kvartili je
ugoden za primerjavo porazdelitev statistične spremenljivke na različnih populacijah (npr.
moški – ženske) (Lešnjak, 2010).
Slika 2.5: Primer okvirja z ročaji
Najvišja vrednost
Najnižja vrednost
Ker je vedno bolj jasno, da rezultati statističnih testov ne povedo tistega, kar od njih želimo,
nastajajo vedno nove mere, ki naj bi raziskovalcem pomagale pri ugotavljanju praktične
pomembnosti razlik med vzorci. Mere povezanosti lahko interpretiramo kot stopnjo
povezanosti med odvisno in neodvisno spremenljivko. Pri standardiziranih razlikah med
aritmetičnimi sredinami gre za prikaz razdalj med aritmetičnimi sredinami vzorcev v enotah
določene standardne deviacije. Najbolj znane med njimi so Hedgesov g koeficient, Glassov ∆5
in Cohenov d, ki ga izračunamo tako, da razliko aritmetičnih sredin (M1 – M2) delimo s
skupnim standardnim odklonom (SDSKUPNO), ki ga izračunamo iz dosežkov v vseh vzorcih
skupaj (Cankar in Bajec, 2003).
5
d=
(M1 − M 2 )
SDSKUPNO
Vrednosti d okoli 0,2 naj bi predstavljale majhen učinek, srednje velik učinek 0,5 in vrednosti
okoli 0,8 velik učinek. Te vrednosti lahko interpretiramo na dva načina. Pri prvem načinu
interpretiramo, na katerem centilu kontrolne skupine se nahaja aritmetična sredina
eksperimentalne skupine. Pri vrednosti d = 0,2 je to 58. centil. Pri d = 0,5 je to 69. centil. Pri
d = 0,8 je to 79. centil. Centili nam v tem primeru povedo, koliko odstotkov posameznikov
kontrolne skupine se nahaja pod aritmetično sredino eksperimentalne skupine. Pri drugem
načinu pojasnimo, kolikšen del porazdelitve eksperimentalne skupine se prekriva s
porazdelitvijo rezultatov kontrolne skupine. Tako je pri vrednosti d=0,2 v eksperimentalni
skupini 85,3 % enakih rezultatov kot v kontrolni skupini, pri vrednosti d=0,5 so enaki 67 %
rezultatov, pri vrednosti 0,8 pa 52,6 % rezultatov (Cankar in Bajec, 2003).
Statistični testi predpostavljajo, da ničelna hipoteza veljavno opisuje parametre ene ali več
populacij (M, SD, korelacije …), nato pa ocenjujejo verjetnost rezultatov, dobljenih na
vzorcih (vzorčne M, SD, korelacije …) ali bolj ekstremnih, glede na velikost vzorca ob
predpostavki, da ta vzorec izhaja iz populacije, za katero drži ničelna hipoteza. Rezultat
statističnega testa bo statistično pomemben, kadar bo verjetnost, da izhaja vzorec iz
populacije, kjer ničelna hipoteza popolnoma drži, enaka ali manjša od poljubno izbrane
stopnje tveganja (Cankar in Bajec, 2003). V nadaljevanju še dodajata, da je v strokovni
literaturi najpogostejša meja za statistično pomembnost rezultatov 5-odstotna stopnja tveganja
(0,05).
3
ANALIZA OMREŽIJ
Področje analize omrežij združuje vrsto statističnih, matematičnih in drugih metod, ki se
ukvarjajo z analizo relacijskih podatkovij, tj. odnosov med enotami v omrežju.
Prednost analize omrežij pred klasičnim načinom analize značilnosti enot oziroma
spremenljivk (npr. spol, starost ali izobrazba) je opazovanje odnosov med enotami omrežij
(npr. obstoj prijateljskih odnosov, sorodstvenih odnosov ali izmenjava socialne opore).
Podatki za analizo socialnih omrežij se zbirajo na različnih ravneh analize. Preučujemo lahko
enote ali člane omrežja in njihove povezave, diade in triade (podskupine dveh ali treh enot in
povezave med njimi), skupine enot ali pa celotno omrežje. Zbiranje podatkov se razlikuje tudi
glede na popolno in egocentrično omrežje. O popolnem omrežju govorimo, ko v medsebojno
6
povezani skupini enot (oseb) opazujemo vse pripadajoče relacije (odnose) – npr. prijateljski
odnosi v srednješolskem razredu. O egocentričnem omrežju pa govorimo, ko opazujemo
(slučajno) izbrane posamezne enote, ki jih imenujemo »egi« (angl. ego), in njihova osebna
(lokalna ali egocentrična) omrežja, ki so sestavljena iz alterjev (angl. alters) – npr. osebna
omrežja starostnikov. Pri zbiranju podatkov o popolnih socialnih omrežjih navadno vsi
anketiranci poročajo o svojih relacijah z drugimi člani omrežja. Če pa je raven raziskovanja
egocentrično omrežje, potem anketiranci (egi) poročajo zase in za člane (alterje) svojega
egocentričnega omrežja (Zemljič in Hlebec, 2002).
Obvladovanje relacijskih podatkov služi tudi kot osnova drugim znanstvenim področjem. Naj
naštejemo samo nekatera (Wasserman in drugi, 2006). Epidemiologi so ugotovili, da se
epidemije po populaciji ne širijo enakomerno. Fiziki so razvili aplikacije, ki so odgovorile na
vprašanja, o katerih so dolga leta razglabljali znanstveniki. Raziskave v telekomunikacijah so
se začele z vpogledi telefonskih uporabnikov za namen odkrivanja prevar. Zaradi velike
pozornosti medijev za teroristične mreže se je število metodologov za to področje izjemno
povečalo.
Hlebec in Kogovšek (2006) ugotavljata, da analiza omrežij sega od zaposlitvene mobilnosti v
organizacijah, raziskav o razširjanju drog in nalezljivih bolezni do razširjanja informacij in
inovacij v neposrednih ali računalniško posredovanih komunikacijah. V politologiji in
sociologiji je moč raziskovati povezave med različnimi političnimi in/ali drugimi akterji, kako
prek teh povezav poteka proces političnega odločanja. Podobno velja za ekonomiste, ki so se
s politologi in sociologi povezali in analizirali omrežje pri preučevanju nacionalnih elit. Na
organizacijskem področju je mogoče raziskovati strukturo povezav znotraj organizacij
(Hlebec in Kogovšek, 2006).
Omrežje lahko opredelimo kot skupek vozlišč ali enot in odnosov (ali ne) med njimi. Glede
na raziskovalni problem omrežja analiziramo na različnih ravneh, ki vključujejo posamezna
vozlišča, delna omrežja (diade, triade in druge sistemske sklope) in sistem popolnega omrežja
(Bristor in Ryan, 1987).
Raziskovalci so opisali tri vrste omrežij (Kadushin, 2004): egocentrično, sociocentrično in
odprti sistem (open-system). Egocentrično omrežje je omrežje, ki je zgrajeno okoli enega
vozlišča (npr. moji dobri prijatelji). Pomembno je, da mora omrežje poleg seznama vozlišč
vsebovati tudi informacijo o povezavah med vozlišči, v nasprotnem primeru analiza ni možna.
Sociocentrična omrežja, imenovana tudi osebna komunikacija, so nekakšna »omrežja v
7
škatli« (npr. komunikacija med učenci v razredu). Pri odprtih sistemih pa so meje omrežja
zabrisane (npr. povezave med podjetji), kjer ne moremo jasno določiti meje. Tako recimo
imamo povezavo med dvema podjetjema, kjer ima vsako od teh podjetij svoje povezave do
drugih podjetij in spet te do naslednjih. Meje je tukaj nemogoče določiti. Po svoje so to
najzanimivejša omrežja, a hkrati tudi najtežja za preučevanje (Kadushin, 2004).
Čeprav lahko ljudje dolgo časa vzdržujejo tudi stike na daljše razdalje z ljudmi, ki so jih kdaj
prej osebno srečali, je bilo do nedavnega razmeroma nenavadno, da bi se prijateljstvo razvilo
med ljudmi, ki se niso nikoli srečali v živo. Za razvoj prijateljstva je bila nujno potrebna
fizična prisotnost, vsaj v začetni fazi. S sodobno tehnologijo in z razvojem komunikacij ter
transporta pa so se možnosti ohranjanja in celo vzpostavljanja prijateljstev zelo povečala
(Adams, 1998). Eden od dejavnikov za razvoj prijateljstva je torej geografska bližina. Drugi
bi lahko bil skupni interes. Ljudi, ki imajo enak hobi, interes …, ponavadi druži posebno
prijateljstvo. Znano sta prijateljstvo in solidarnost med lovci, ribiči ali železničarji.
3.1
Analize omrežij skozi čas
Razvoj področja analize omrežij lahko razvrstimo v tri smeri (Scott, 1996): filozofska,
antropološka in psihološka. Euler je leta 1736 razrešil problem, znan kot sedem mostov
Koningsberga, ki ga je prevedel v matematični zapis kot točke in povezave, iz katerih je nato
izpeljal nekaj dokazov. Njegovo idejo so nato mnogokrat povzeli tudi v drugih znanstvenih
disciplinah.
Zanimiv je tudi tako imenovani problem štirih barv, ki ga je leta 1852 prvi predstavil Guthrie,
ko je ugotovil, da za barvanje grofij potrebujemo le štiri barve. Ugotovitev sta leta 1976, s
pomočjo računalnika, dokazala Appel in Haken (1976). To je bil hkrati tudi eden prvih velikih
teoremov z uporabo računalniške opreme. Pri samem dokazovanju tega problema pa so
matematiki iznašli veliko osnovnih pojmov in zamisli s področja teorije grafov (Pisanski,
1981).
Kohler in Koffko sta uveljavila novo smer v psihologiji, ki so jo poimenovali gestalt (smer, ki
preučuje, kako deluje um v smislu dojemanja in strukture misli). Nekje v tem času so, pred
vojno v Evropi, v ZDA prispeli tudi Heider, Lewin in Levy Moreno, ki so nadaljevali tradicijo
gestalt (Scott, 1996).
Moreno (Scott, 1996) je razvil metodo sociometrija. Učence je povpraševal, kdo so njihovi
prijatelji, in raziskoval, kako jih relacija z drugimi omejuje oziroma bogati v njihovih
8
dejavnostih in kako vplivajo na njihovo vedenje. Tehniko zbiranja relacijskih podatkov je
poimenoval sociogram – diagram točk in linij, ki predstavljajo odnose med osebami.
Sociogram je uporabljal za prepoznavanje pomembnih oseb v družbi in osamelce, asimetrijo
in vzajemnost pri izbiri prijateljstva. Med drugim je opazil tudi sociometrično zvezdo –
posameznika, ki ga mnogo drugih izbere za prijatelja.
Lewin (Scott, 1996) je preučeval skupine in obnašanje. Trdil je, da skupina in okolje
medsebojno vplivata ena na drugo in da bi lastnosti lahko preučevali matematično z uporabo
teorije vektorjev in topologije.
Heider (Scott, 1996) je deloval na področju socialnih zaznav in razvil teorijo ravnovesja.
Posameznik išče kognitivno ravnovesje tako, da zadrži tiste ideje, ki niso v nasprotju z
drugimi, kar velja tudi v odnosu med ljudmi. Posebno pozornost je posvečal situaciji, kjer je
ena oseba čustveno blizu drugima dvema, ki se med seboj ne marata. Napetost mora biti
sproščena. Eden izmed načinov je izbira enega izmed njiju. Oseba, ki je čustveno blizu
dvema, izbere enega izmed njiju.
Harary in Cartwright (Scott, 1996) sta pokazala, da na koncu nujno privede do skupin, v
katerih so vse vezi pozitivne, med skupinami pa so vezi negativne.
V antropologiji je bil v prejšnjem stoletju največji poudarek na družbenih odnosih. RadcliffeBrown je preučeval odnose med zaposlenimi v podjetju, kako socialni status vpliva na odnose
med posamezniki. Dolgo je veljalo, da so v predindustrijski družbi sorodstveni odnosi izredno
kompleksni in pomembni. Druga razmerja, kot recimo prijateljstvo, pa so v industrijski družbi
ravno tako pomembni (Scott, 1996).
Werner, Mayo, Roethlisberger in Dickson (Mayo, 1949) so sredi 20. let prejšnjega stoletja
ugotavljali, kako izboljšanje delovnih pogojev (povečanje svetlobe, ogrevanje, počitek …)
vpliva na storilnost. Ugotovili so, da se s povečanjem katerega koli dejavnika poveča tudi
storilnost, zato so se zadeve lotili tudi antropološko. Gledali so zaposlene skozi cel čas
proizvodnje in bili še posebej pozorni na odnose med delavci. Opisali so koncept “neformalne
organizacije” v organizaciji, ki ima ravno takšen učinek na storilnost kot drugi dejavniki.
V 50. letih so raziskovalci na univerzi v Manchesterju začeli preučevati konflikte v skupinah,
kako odnosi med ljudmi vplivajo ne samo na posameznika, ampak tudi na družbo kot celoto
(npr. svojo kohezivnost). Granovetter (Scott, 1996) je spraševal ljudi, kako so prišli do
zaposlitve, ki jo imajo. Večina jo je dobila prek stikov in ne prek časopisnih oglasov. Med
9
tistimi, ki so dobili službo prek osebnih stikov, je bil majhen delež tistih, ki so jo dobili od
svojih sorodnikov ali najbližjih prijateljev. Večina jih je službo dobila s pomočjo znancev. Ta
fenomen je pojasnjen s teorijo razširjenosti informacije v socialnem omrežju. To je bil tudi
začetek analize socialnega omrežja.
Zanimiva raziskava je bila narejena leta 1969, ko so bili splavi nelegalni, torej oglaševanja o
tem ni bilo. Da bi našle zdravnike, so ženske spraševale svoje prijateljice in znance. V
povprečju so bile do zdravnika potrebne štiri povezave (ženska – kontakt – kontakt – kontakt
– zdravnik) (Scott, 1996).
Wasseman in Faust (Wasserman in Faust, 1994) omenjata prvo uporabo besedne zveze
socialna omrežja v letu 1954. V nadaljevanju dodajata Morenov sociogram iz zgodnjih 30. let
prejšnjega stoletja, ki je pomenil začetek sociometrije (predhodnica analize socialnega
omrežja z močno socialno psihologijo). Prvi, ki so uporabljali matrike za preučevanja
socialnih omrežij z izvirnimi metodami, so bili Forsyth in Katz leta 1946, Luce in Pery leta
1949, Bock in Husain leta 1950 ter Harary in Norman leta 1953. Tudi antropologi, posebno
britanski, so v 50. letih prejšnjega stoletja spoznali, da tradicionalni pristop opisovanja
družbenih oblik ni dovolj za razumevanje vedenja posameznikov v zapletenih družbah
(Wasserman in Faust, 1994).
3.2
Analiza omrežij danes
Socialna omrežja, omrežja metrojev, vozni redi, elektroomrežja, telekomunikacijska omrežja
itd. so lahko oblikovana kot zelo veliki in kompleksni grafi, ki so lahko zelo zanimivi in
uporabni na področju marketinga, varnosti, psihologije ... Vse več zanimanja je za upravljanje
in analiziranje podatkov ter podatkovno rudarjenje. Vendar pa z redkimi izjemami ti podatki
ostajajo zaupne narave in je do njih težko priti. Pot do zbiranja podatkov pa je še vedno
enostavna, zato je vprašanje varovanja osebnih podatkov še vedno pereč problem.
Danes smo priča močnim središčem, ki razvijajo področje analize omrežij, med njimi so zlasti
pomembni:
• oddelek matematične sociologije na American Sociological Association (ASA), ki se
ukvarja s spodbujanjem raziskav, njihovo krepitvijo in skrbjo, poučevanjem in ostalim
strokovnim delom na področju matematične sociologije za razvoj sociologije in v
korist družbe;
10
• Austrian Network for Social Network Analysis (ASNA) je omrežje ljudi, ki se ukvarja
s socialnimi analizami omrežij za zainteresirane za uporabo sinergij, mreženja in
medsebojne podpore;
• Kimmo Soramaki, ki se ukvarja z raziskavami in razvojem programskih orodij za
finančne analize omrežij in finančno stabilnost, predvsem s centralnimi bankami;
• LINKS center (International center for research on social networks in business) na
univerzi v Kentuckyju, posvečen študiju in optimizaciji socialnih omrežij v
organizacijah na področju raziskav, izobraževanj, svetovanj in konferenc;
• NetWiki, ki se ukvarja z zbiranjem podatkov in sodelovanjem na področju raziskav o
kompleksnih omrežjih in z aplikacijami znanstvenih omrežij;
• NodeXL (Network Overview, Discovery and Exploration for Excel). Skupina je
razvila odprtokodni dodatek za Excel 2007 in 2010 za risanje grafov;
• Quintus-ential Solutions je specializiran za analizo omrežij in vizualizacijo, posebno
velikih podatkovnih baz na področju javnega zdravja;
• MelNet, kjer so razvili program za izdelavo simulacije modela eksponentnega
slučajnega grafa;
• The Nuffield Network of Network Researchers je mednarodno usmerjena fakulteta na
univerzi v Oxfordu, specializirana za družbene znanosti. To je eden od vodilnih
evropskih centrov za analizo omrežja.
• West Point Network Science Center združuje zaposlene, civiliste in kadete v
raziskavah in razvoju pomembnih prispevkov pri študiju omrežij s področja fizičnih,
bioloških in družbenih pojavov, s katerimi lahko predvidimo modele;
• Social Network Image Animator (SONIA) je program, zasnovan na osnovi Jave, ki so
ga na Univerzi Stanford razvili za vizualizacijo dinamičnih podatkov (poleg vozlišč in
vezi so prikazani tudi podatki, kdaj se ti odnosi pojavijo ali vsaj njihov vrstni red)
(INSNA).
11
3.3
Realna omrežja
Omrežje je sistem povezanih enot (stvari ali ljudi), ki lahko med sabo komunicirajo. Omrežje
je graf, obogaten s podatki. Običajno je omrežje utežen graf. Poznamo realna in naključna
omrežja. Realna so večinoma tista, ki se generirajo sama (spletna socialna omrežja so lep
zgled realnih omrežij), slučajna omrežja pa so tista, ki jih generiramo sami z uporabo
generatorjev naključnih števil (npr. vozlišča so med seboj povezana glede na verjetnost
povezave). Modele naključnih omrežij lahko v grobem razdelimo v pet skupin (Chakrabarti in
Faloutsos, 2006):
• naključni modeli omrežij (angl. random graph models) – Omrežja generiramo z
naključnim procesom. Ti modeli so zanimivi predvsem zaradi lepih matematičnih
lastnosti. Kljub temu da ne modelirajo najbolje realnega sveta, so jih v preteklosti
podrobno preučevali;
• modeli po načelu prednostne povezanosti (angl. preferential attachment models) – Ti
modeli temeljijo na načelu »bogati bogatijo« (the rich get richer) in s tem pripeljejo do
potenčnih zakonov v omrežju. V to skupino spada danes nekaj najzanimivejših
modelov;
• geografski modeli (angl. geographical models) – Pri teh modelih se pri generiranju
omrežja upošteva tudi geografska lokacija vozlišč. To je še zlasti pomembno pri
generiranju komunikacijskih omrežij. Vpliv geografske lokacije se opazi tudi pri
socialnih omrežjih;
• optimizacijski modeli (angl. optimization-based models) – Optimizacijski modeli
skušajo optimizirati neko mero modela z uporabo čim manjšega števila sredstev, kar
naj bi prav tako privedlo do potenčnih zakonov;
• modeli, prilagojeni posebnostim interneta (angl. internet-specific models) – Ti modeli
so prilagojeni posebnim lastnostim internetnega omrežja.
3.3.1 Lastnosti realnih omrežij
Kadar imamo enostavno usmerjeno omrežje, v katerem je n vozlišč, je število možnih
povezav med vozlišči n( n − 1) , kar pomeni, da je vsako vozlišče povezano z vsemi drugimi
vozlišči (razen samo s seboj), kadar govorimo o neusmerjenem omrežju, pa je takih možnih
12
povezav za polovico manj (če obstaja povezava med vozliščema A in B, jo moramo šteti
samo enkrat, bodisi povezave pri točki A bodisi pri točki B). Naključne grafe oziroma
omrežja so raziskovalci podrobno preučevali in rezultati, tako približni kot eksaktni, so bili
čvrsto dokazani. Zadnja leta pa je raziskovalce pritegnilo spoznanje, da večina omrežij
realnega sveta ni podobna naključnim grafom. Realna omrežja so nenaključna in nekatera
odkritja nakazujejo oba možna mehanizma, ki lahko tvorita omrežje. Obstaja nekaj
značilnosti, ki se zdijo skupne različnim tipom realnih omrežij (Newman, 2004).
3.3.2 Porazdelitev stopnje točk in potenčni zakon
Stopnja točke nam pove, koliko povezav kaže na točko oziroma gre iz te točke. Porazdelitev
stopnje točk pa upošteva stopnje vseh točk v omrežju in jih razvrsti od najmanjše stopnje do
največje po skupinah. Najmanjšo stopnjo točke imajo osamelci (otoki), ki nimajo povezav.
Porazdelitev stopnje točk nam torej pove, koliko je takšnih točk, ki imajo stopnjo 0, koliko je
takšnih, ki imajo stopnjo točk 1 …
Slika 3.6: Histogram porazdelitve stopenj točk v realnem omrežju
14
13
12
11
10
število točk
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
stopnja točke
Če pogledamo večje število histogramov realnih omrežij, ugotovimo, da so porazdelitve
stopenj močno desno asimetrične in ne sledijo binomski porazdelitvi stopenj, ampak bolj
potenčni porazdelitvi.
13
Slika 3.7: Binomska porazdelitev
Potenčni zakon se pojavlja v mnogih primerih znanstvenega dela in ima pomembno vlogo pri
razumevanje naravnih in umetnih pojavov. Na žalost pa je njegovo odkrivanje in raziskovanje
zapleteno zaradi velikih nihanj, ki se pojavijo v repu porazdelitve. Poznamo zvezne
porazdelitve, kjer so vrednosti izražene z realnimi števili, in diskretne porazdelitve, kjer so
vrednosti lahko izražene običajno kot pozitivna cela števila (Clauset in drugi, 2009).
Medtem ko je normalna porazdelitev v naravi zelo pogosta, obstaja mnogo primerov, kjer je
verjetnost dogodkov bistveno višja kot po normalni porazdelitvi (pomaknjeno daleč v desno
stran).
Definicija 1: Dve spremenljivki (x in y) sta povezani s potenčnim zakonom, ko:
y(x) = ax−γ
kjer sta a in γ pozitivni konstanti. Konstanto γ pogosto imenujemo eksponent potenčnega
zakona.
Definicija 2: Diskretna slučajna spremenljivka X se porazdeljuje potenčno, kadar gostota
verjetnosti sledi potenčnemu zakonu:
P(X = x) = p(x) = Ax−γ , γ > 1, x ≥ xmin
Dodatek γ > 1 zagotavlja, da se funkcija p(x) normalizira. V naravi se γ < 1 pojavi zelo redko,
če sploh kdaj. Asimetrična porazdelitev, kakršna je potenčni zakon, se pojavlja zelo pogosto
(Chakrabarti in Faloutsos, 2006).
Denimo, da s pk označimo delež vozlišč, ki imajo v omrežju stopnjo k. Torej je pk verjetnost,
da bo slučajno izbrano vozlišče imelo stopnjo k. Diagram pk za katero koli omrežje se lahko
nariše v obliki histograma stopenj točk. Ta histogram prikazuje porazdelitev stopenj vozlišč.
V naključnem grafu je vsaka povezava prisotna ali odsotna z enako verjetnostjo. Posledično
porazdelitev stopnje točk v slučajnem grafu sledi binomski porazdelitvi. Za večino realnih
14
omrežij pa je ugotovljeno, da se porazdelitev stopnje točk razlikuje od naključnih.
Porazdelitve stopenj točk so močno razpotegnjene v desno, kar pomeni, da ima porazdelitev
dolg rep vrednosti, ki so nad povprečjem (Newman, 2004).
Merjenje tega repa je nekoliko zapleteno. V teoriji nekdo lahko naredi histogram stopenj točk,
v praksi pa ima le redko dovolj meritev za dobro statistično obdelavo repa. Obstajata dva
načina, kako zaobiti to težavo. Eden je, da se naredi histogram, v katerem rang velikosti
narašča s stopnjo. Na primer prvih nekaj stopenj lahko pokriva stopnje 1, 2-3, 4-7, 8-15 in
tako naprej. Število vzorcev v posameznem rangu nato delimo s širino ranga, da dobimo
normalizirane vrednosti. Alternativa tej metodi je kumulativna porazdelitev
∞
Pk = ∑ pk '
k '= k
ki je verjetnost, da je stopnja večja ali enaka k. Prednost te metode je, da so zastopani vsi
originalni podatki (pri prejšnji metodi se zaradi rangov prvotni podatki porazgubijo, dobimo
samo povprečje). Slabost pa je, da nam neposredno ne prikaže porazdelitvene stopnje in
posamezne točke na prikazu niso dovolj neodvisne, kar povzroča zapleteno korektno
interpretacijo (Newman, 2004).
3.3.3 Velikost in premer omrežja
Eden izmed empiričnih fenomenov, ki ga s klasično teorijo ne moremo pojasniti, je dejstvo,
da je razdalja v omrežju velikokrat manjša od pričakovanj. Ta fenomen je verjetno prvi opisal
Frigyes Karinthy v kratki zgodbi, imenovani »Verige«, v kateri teoretizira, da v sodobnem
svetu razdalja med dvema osebama verjetno ni večja od petih oseb (Stam in Reijneveld,
2007).
Ni presenetljivo, da so omrežja kompaktna (omrežja so majhne velikosti v linearnem smislu).
Še več, razsežnosti te kompaktnosti so resnično osupljive. Termina small-worlds in smallworld-effect sta standardna v Milgramovi teoriji. Vzemimo navadno mrežo ali rešetko, kjer je
vsako stičišče točka. Tukaj ni dvoma, kakšna je linearna velikost. Razdalja med dvema
točkama v rešetki je Evklidska, torej lahko enostavno vzamemo merilo in izmerimo razdaljo.
V omrežju so razdalje bolj kompleksne. Torej, kakšna je linearna velikost omrežja?
(Dorogovtsev in Mendes, 2003).
15
Kot prvo, predpostavimo, da je omrežje neusmerjeno in da so vse povezave omrežja izražene
v enotah. Tedaj je razdalja med dvema točkama omrežja enaka dolžini najkrajše poti med
njima (geodezična razdalja med točkama). Razdalja l med paroma točk je izražena v funkciji
P(l) kot verjetnost, da je najkrajša razdalja med dvema naključnima točkama enaka l. P(l) je
ena glavnih strukturnih karakteristik omrežja in nam omogoča oceniti linearno velikost
omrežja. Za hitro padajoče porazdelitve je značilna karakteristika povprečna (ali pričakovana)
dolžina najkrajše poti:
l ≡
Σ l l P(l )
Druga je dolžina najdaljše najkrajše poti, ki obstaja v omrežju (Dorogovtsev in Mendes,
2003).
Milgram in Travers (1959) sta preizkusila domnevo o majhnem svetu. Izbrala sta 296 ljudi v
Nebraski in Bostonu in jih prosila, naj s pomočjo svojih znancev ustvarijo poštno verigo do
določene osebe v Massachutsettsu. Šestdeset pisem je prispelo na cilj, dovolj, da sta prišla do
osupljivega podatka. Povprečno je pismo potovalo preko 5,2 osebe.
Najenostavnejše vprašanje majhnega sveta je, “kolikšna je verjetnost, da se poljubna dva
državljana ZDA med seboj poznata?” Bolj zanimiva formulacija vprašanja bi bila, da se ti dve
osebi med seboj ne poznata neposredno, vendar pa imata skupne prijatelje. Še bolj splošno, ti
dve osebi morda ne poznata istega prijatelja, ampak serijo vmesnih ljudi (Travers in Milgram,
1959).
Če pogledamo neusmerjeno omrežje in definiramo l kot povprečno razdaljo med dvema
točkama v omrežju,
l=
1
∑
1
n(n + 1) i ≥ j
2
dij
kjer je l povprečna razdalja v omrežju, dij najkrajša razdalja med točkama i in j. Opazimo
lahko, da smo uporabili tudi razdaljo točke do same sebe, kar je seveda 0, in jo uporabili v
povprečju. Zato lahko l pomnožimo z (n+1)/(n-1). Ta definicija je problematična v omrežjih z
več kot eno komponento. V teh primerih obstajajo pari točk, ki nimajo povezav. V tem
primeru take rezultate ne vključujemo v povprečje (Newman, 2004).
16
Skorajda vsak izmed nas je prišel v situacijo, ko se je srečal z neznancem in začel pogovor, a
sta nato nepričakovano ugotovila, da imata skupnega znanca. Ponavadi pravimo, da je ta svet
res majhen (»It's a small world«). Ta »small world« fenomen je posplošena verzija omenjene
situacije. Tudi v primeru, ko dve osebi nimata skupnih prijateljev, je med njima le kratka
veriga posrednikov (Watts, 2004).
Vedno pa lahko najdemo izjeme, odvisno od naloge, ki si jo zadamo. Povezanosti igralcev
NBA lige je raziskoval Ben Blatt (Blatt 2004). Sestavil je bazo vseh igralcev, ki so kdaj koli v
62-letni zgodovini lige zaigrali v njej. Naredil je matriko igralcev, v kateri je z 1 označil pare
igralcev, ki sta kadar koli igrala v isti ekipi, in z 0 tiste pare igralcev, ki nista nikoli zaigrala v
isti ekipi. Nato je meril, kakšen je premer omrežja. Ugotovil je, da je največji premer 8. Kot
razlog za to število je navedel, da je bilo potrebnih več prehodov od igralcev, ki so začeli
igrati nedavno, do tistih, ki so igrali na začetku lige.
Leta 2007 sta Leskovec in Horvitz (Leskovec in Horvitz, 2007) preučevala komunikacijo prek
Microsoft Messaging sistema, v kateri sta zajela 240 milijonov ljudi s 30 milijardami
komunikacij. Med drugim sta ugotovila tudi to, da je povprečna dolžina poti 6,6. Ta rezultat
pomeni, da je naključni par vozlišč v omrežju Messenger na razdalji 6,6.
Nekateri zaradi tega že govorijo o "the seven degrees of separation" (Wikipedia-1).
3.3.4 Število in velikost komponent
Obstaja več različnih metod za odkrivanje števila in velikosti komponent. Hierarhično
združevanje je ena idealnejših, saj deluje na povezovanju v skupine glede na podobnost
elementov v skupini, kar pomeni, da lahko združujemo elemente v skupino po metodi najbolj
podobnih ali najmanj podobnih (minimalna ali maksimalna Evklidska razdalja). Pri metodi
najbolj podobnih (Slika 3.3) združimo dva najbolj podobna elementa v novo skupino, ki sedaj
postane nov element. Vse elemente znova primerjamo med seboj in združimo dva najbolj
podobna. Postopek ponavljamo do zadnjega para (Wasserman in Faust, 1994).
17
Slika 3.8:
Dendrogram – drevo združevanja po minimalni metodi
Število in velikost komponent razberemo iz drevesa združevanja. Povezave, ki so najdaljše,
pomenijo največjo razliko med elementi. In če povlečemo horizontalno črto v višino
najdaljših povezav, vidimo, da seka štiri povezave. Naše omrežje lahko torej razdelimo v štiri
komponente. Velikosti komponent dobimo tako, da preštejemo elemente, ki so pod določeno
najdaljšo povezavo. V primeru na sliki 3.8 je omrežje sestavljeno iz ene večje komponente
(na dendrogramu levo) in treh manjših.
Newman (2004) podaja več vzrokov, zakaj bi se lahko omrežje razdelilo na več komponent,
kot recimo skupni interes, starost, poklic in podobno. Vendar pa tehnike komponent ne
smemo enačiti s tehniko združevanja podatkov, ki je način odkrivanja združevanj podatkov v
visoko dimenzionalnih podatkovnih prostorih. Za način odkrivanja komponent pa tudi on
izpostavlja dendrogram.
3.4
Spletna družabna omrežja
Ljudje komuniciramo besedno (verbalno) in nebesedno (neverbalno). Strokovnjaki ocenjujejo
(Pease, 1996), da ljudje pri komunikaciji v živo dojemamo samo 7 % prek verbalnih sporočil,
ostala so neverbalna. Tudi znotraj verbalnega sporočila obstajajo neverbalna (jakost in ton
glasu, premori, poudarki itd). Pri pisni komunikaciji, ki je primarno tudi verbalna, tudi
obstajajo neverbalna sporočila (slike, grafi, barva in velikost črk, slog itd).
Ker verbalno komuniciranje lažje obvladamo, so socialna spletna omrežja idealen prostor tudi
za tiste, ki so v komunikaciji v živo nekoliko bolj zadržani.
Kadar računalniško omrežje povezuje ljudi ali organizacije, govorimo o socialnem omrežju.
Tako kot je računalniško omrežje skupek strojev, povezanih z nizom kablov, je socialno
18
omrežje množica ljudi (ali organizacij ali drugih družbenih subjektov), povezanih z vrsto
socialnih odnosov, kot so prijateljstvo, sodelavci ali izmenjava informacij. Veliko raziskav se
je osredotočalo na to, kakšna je povezava med ljudmi in njihovimi računalniki, kako dve
osebi sodelujeta na spletu ali kako majhne skupine delujejo na spletu. Ko se je komunikacija
prek računalnikov razširila, so analitiki morali preseči študije posameznih uporabnikov, dveh
uporabnikov in njunih vezi. Analiza socialnih omrežij se osredotoča na odnose med ljudmi,
organizacijami, državam itd. (Garton in drugi, 1997).
Raziskovalci socialnih omrežij iščejo razlago za odnose v največji možni meri. Poskušajo
odkriti vzorce v teh omrežjih, tok informacij (in drugih virov) in kakšne posledice imajo te
povezave na ljudi in organizacije (Garton in drugi, 1997).
Spletna socialna omrežja so večinoma namenjena vzdrževanju in širitvi prijateljstev, zato je
prav, da besedo ali dve namenimo tudi pojmu prijateljstvo. Milivojević (2011) navaja, da sta
pamet in ljubezen osnovna razloga, zaradi katerih je človeška vrsta zavladala našemu planetu.
Zaradi ljubezni in čustvenega povezovanja so se lahko ljudje združevali v trdno povezane
skupine. Skupina je bila velika evolucijska prednost, saj je bilo v njej mogoče doseči vse,
česar posameznik ni zmogel. En sam človek ni mogel ubiti mamuta ali si zgraditi domovanja,
skupina pa je to zmogla. Sile, ki so povezovale skupino, so bile različne oblike ljubezni. Poleg
ljubezni, ki je obstajala med ljudmi v sorodu, je bila pri tem nadvse pomembna ljubezen, ki ji
pravimo prijateljstvo. Prijateljstvo je zelo pomemben medčloveški odnos. Poleg partnerske
ljubezni je to najtrdnejša čustvena vez, ki jo vzpostavimo z ljudmi, s katerimi nismo v sorodu.
Prijateljstvo velja za osnovni odnos in model za širšo kategorijo odnosov, ki jim pravimo
prijateljski odnosi. To pomeni, da za vzpostavitev prijateljskega odnosa ni nujno, da smo
prijatelji, saj smo lahko v prijateljskem odnosu tudi z neznanci ali celo z ljudmi, ki jih sploh
nismo spoznali v živo (Milivojević, 2011).
Raziskovalci na Univerzi Stanford pod vodstvom Leskovca so razvili algoritem, s pomočjo
katerega lahko napovedujejo časovni razvoj prijateljstev na spletnih socialnih omrežjih. Torej
lahko sklepamo, da kdo bo naš naslednji prijatelj, ni tako naključno, kot si mislimo (Zeitler,
2011).
Spletna socialna omrežja definiramo kot spletne storitve, ki omogočajo posameznikom, da:
•
naredijo javen ali na pol javen profil v omrežju,
•
izoblikujejo seznam uporabnikov, s katerimi si delijo povezavo, in
19
•
imajo pregled nad njihovim seznamom povezav, kakor tudi seznamom povezav drugih
oseb v sistemu.
Izraza spletno socialno omrežje in spletno socialno mreženje sta sopomenki (Boyd in Ellison,
2007).
Na spletu je moč najti veliko spletnih omrežij, ki se razlikujejo po interesih, uporabi,
možnostih itd., vsa pa imajo isti cilj – spoznavati nove ljudi in ohranjati odnose z že
poznanimi. Smisel obstoja spletnega omrežja se lahko tudi spremeni oziroma dopolni.
Omrežje je bilo morda narejeno za določeno skupino ljudi (npr. študente iste fakultete), ki se
kasneje razširi na celotno prebivalstvo. Po mojih lastnih izkušnjah imajo socialna spletna
omrežja tako dobre kot slabe lastnosti. Dobra je predvsem ta, da je v večini primerov uporaba
brezplačna, dostopnost in komunikacija raznolika in drugo. Največja slabost spletnih
socialnih omrežij je zagotovo varnost podatkov. Obstaja tudi nevarnost zasvojenosti z
uporabo določenih aplikacij. Morda je slabost tudi ta, da se spletno oglaševanje seli tudi na
socialna spletna omrežja in z reklamnimi sporočili zasedajo velik del prostora na zaslonu,
hkrati pa se podatke uporabnikov za primerno ceno posreduje organizacijam, ki nato izvedejo
oglaševanje za ciljno populacijo. Verjetno podatkov nikoli ne izbrišejo. Nevarnost
predstavljajo tudi znanci, sorodniki in prijatelji, ki brez odobritve objavljajo informacije in
slike drugih oseb. Sicer pa vedno obstaja možnost, da prek spleta ne komuniciramo s tistim,
za katerega mislimo, da je naš sogovornik, izjemi sta glasovni ali videoklepet. Svoj profil na
socialnih spletnih omrežjih zelo težko izbrišemo. Ponavadi z opcijo izbris svoje podatke samo
naredimo nedostopne, na strežniku pa še vedno obstajajo. Za popoln izbris je potrebno
kontaktirati uradne predstavnike omrežja ali pa izpolniti poseben obrazec. Seveda pa slabost
lahko postane prednost in obratno, odvisno od zornega kota, iz katerega gledamo nanj.
Spletno socialno omrežje je spletna stran, ki omogoča komunikacijo med njenimi uporabniki.
Med prva spletna mesta, ki so začele graditi spletno skupnost, sodi spletišče Classmates.com,
ki je začelo s svojim delovanjem leta 1995. Prvo pravo omrežno storitev, ki je povezala
določene kroge uporabnikov in začela graditi pravo socialno omrežje, je leta 2002 ponudilo
spletišče Friendster. Spoznavanje novih prijateljev, izmenjava mnenj, objavljanje fotografij
ter videoposnetkov so storitve, ki jih je uspešno nadgradila platforma Myspace. Primat
spletnega socialnega omrežja z video vsebinami je prevzelo spletno socialno omrežje
YouTube, ki ga dnevno obišče več kot dve milijardi uporabnikov. Tudi velikan Google se je
20
odločil vstopiti v svet socialnih omrežij z aplikacijo Google+, za katerega predvidevamo
uspeh zaradi integracije z aplikacijama gmail in google chat.
Trenutno je eno najpopularnejših socialnih spletnih omrežij Facebook, ki ga bomo opisali v
nadaljevanju.
Slika 3.9: Razvoj večjih spletnih socialnih omrežij skozi čas
Vir: Boyd in Ellison (2007)
Analiza socialnih omrežij se večinoma naslanja na lastne vire, podatke, zbrane s pomočjo
intervjujev in vprašalnikov. Zbiranje takšnih podatkov je zamudno in drago, zato so raziskave
omejene na majhno število ljudi (običajno manj kot 100). Pojav sodobnih spletnih aplikacij
omogoča analizo velikega števila podatkov, ki so na voljo, vendar pa obstajajo nastavitve, ki
nam otežujejo dostop do podatkov celotnega omrežja. Nekatere podatke pa je skorajda
nemogoče zbrati (primer uporabe drog ali spolna usmerjenost posameznika). Take podatke se
običajno zbira z opazovanjem (Leskovec in Myers, 2010).
21
Vse več socialnih spletnih omrežij zahteva resnične podatke (ime in priimek) in razvijajo
načine za odkrivanje psevdonimov in lažnih imen. Mnogo kritik gre na ta račun, saj je v
nekaterih državah nevarno izpostavljati stališča, ki so v nasprotju z večinskimi, vendar za
sedaj lastnikov socialnih spletnih omrežij še niso prepričali. Nekateri uporabljajo zgolj
zbiranje prijav drugih uporabnikov, medtem ko drugi razvijajo aplikacije, ki omogočajo
preverjanje identitete.
Eden izmed načinov je, da vpišete svojo mobilno številko, na katero vam pošljejo kodo, nato
pa to kodo vpišete v potrditveni obrazec na spletu. Ko imajo potrjeno vašo mobilno številko,
lahko prek spletnih imenikov preverjajo resničnost vaših podatkov, kot denimo ime in
priimek ter naslov.
Naslednji način je odkrivanje ponarejenih profilov s primerjanjem slik. Obstajajo aplikacije,
kot je TinEye, ki je imela septembra 2011 v bazi več kot dve milijardi fotografij. Aplikacija je
brezplačna, naložite sliko ali spletni naslov in z indeksiranjem poišče fotografije v svoji bazi.
Zadetke potem preverite in vidite, če so res od osebe, ki se predstavlja, da je
(www.tineye.com).
Ni popolnoma jasno, kako zasebnost in zaupanje vplivata na socialno vzajemno delovanje s
socialnimi mrežnimi stranmi. T.i. online anketa dveh razširjenih spletnih strani (Facebook in
MySpace) glede dojemanja zaupanja in zasebnosti je zaskrbljujoča vsaj glede voljnosti delitve
informacij in širitve novih poznanstev. Uporabniki Facebooka so izrazili večje zaupanje
portalu in njegovim uporabnikom in so bili pripravljeni deliti več osebnih informacij.
Uporabniki MySpacea pa so izkazali več izkušenj pri spoznavanju novih oseb. Ti rezultati so
napeljevali na to, da zaupanje ni nujno za novo prijateljstvo, kot je to iz oči v oči. Pokazalo se
je tudi, da zaupanje in voljnost razkrivanja osebnih podatkov ne pomenita avtomatično tudi
sklepanja novih prijateljstev. Ta študija demonstrira, da se t.i. online odnos lahko razvije na
strani, kjer je zaščita zasebnosti slaba (Dwyer in drugi, 2007).
3.5
Socialna omrežja v Sloveniji
V Sloveniji nimamo tipičnih poslovno usmerjenih socialnih mrež, kot je LinkedIn. Kljub
vsemu velja omeniti zaposlitveni portal MojeDelo.com. Po drugi strani je v Sloveniji veliko
izjemno popularnih socialnih mrež, namenjenih zabavi in druženju. Kot recimo
GlasujZame.com, FrendiInFlirt.24ur.com, Ona-on.net, Ona-on.com in www.zveze.net.
22
Rezultati kažejo, da ima približno 60 % anketirancev oblikovan profil na vsaj enem od
številnih spletnih socialnih omrežij (n = 1124) (Vehovar in drugi, 2011).
3.6
Facebook
Socialno omrežje Facebook, ki je zagledalo luč sveta leta 2004, se je, sodeč po številu
uporabnikov, z več kot 750 milijoni rednih uporabnikov prelevilo v eno najbolj priljubljenih
spletnih socialnih omrežij na svetu. Omrežje nudi široko paleto storitev, kot so npr. iskanje
prijateljev, pošiljanje sporočil, objavljanje slik in komentarjev, uporaba spletnih aplikacij, igre
itd. Med vsemi aktualnimi spletnimi socialnimi omrežji (npr. Twitter, Myspace itd.) ima
Facebook trenutno največ registriranih uporabnikov. Facebook omrežje prijateljev je realno
omrežje, saj enote in relacije med njimi zrcalijo realne odnose med uporabniki storitve.
Omrežje Facebook je zasnovano tako, da nekdo vpraša nekoga, če ga ta potrdi kot prijatelja in
v primeru potrditve se naredi recipročna povezava, kar pomeni, da je Facebook neusmerjen
graf. Če je oseba A prijatelj osebe B, je tudi oseba B prijatelj osebe A. Torej je Facebook
neusmerjeno omrežje.
Besedo facebook uporabljajo ameriške univerze za album, v katerem so slike in imena
študentov, da bi se med seboj lažje spoznali. V začetku 21. stoletja so začele nekatere
univerze te facebooke objavljati na spletu. Leta 2003 je študent Harvarda Mark Zuckerberg
napisal Facemash, ki je te slike s spleta postavljal po dve in dve skupaj in spraševal, katera
slika je boljša. V prvih nekaj urah je privabil 450 obiskovalcev, ki so pogledali 22.000
fotografij. Univerza ga je hotela tožiti zaradi kršenja varnosti, avtorskih pravic in zasebnosti,
zaradi česar mu je grozila izključitev s fakultete. Tožbo so nato umaknili, Mark pa je naredil
spletno stran z okoli petstotimi fotografijami, kjer je bila vsaka na svoji strani skupaj s poljem
za komentarje. Naslednje leto je odprl stran »Thefacebook«, za katero je dobil navdih pri
sodelovanju vzpostavitve nekega drugega socialnega omrežja, katerega lastniki so ga tudi
tožili, vendar so dosegli poravnavo.
Članstvo je bilo sprva omejeno samo na Harvard in že v prvem mesecu je bilo vpisanih več
kot polovica dodiplomskih študentov. Kmalu se je razširil na Stanford. Leta 2005 so kupili
domeno »Facebook.com« za 200.000 US$ in izpustili »The« iz imena. Mark je obdržal 24odstotni lastniški delež (Wikipedia-4).
Facebook dobi večino prihodkov od oglaševanja. V drugem četrtletju leta 2012 so prodali za
992 milijonov dolarjev reklamnega prostora, kar je 84 odstotkov vseh prihodkov in za 28
23
odstotkov več kot v drugem četrtletju lani. Facebook je imel 30. junija 955 milijonov aktivnih
uporabnikov, kar je za 29 odstotkov več kot lani ob enakem času (Časopis Dnevnik).
Julija 2011 je bilo na straneh facebook.com registriranih 657.520 uporabnikov, ki so navedli
državo bivanja Slovenijo, kar predstavlja 32,82 % celotne populacije in 50,64 % uporabnikov
internetnih storitev. Od 213 držav, ki jih SocialBakers spremlja, zaseda Slovenija 85. mesto
po številu prijavljenih uporabnikov. Če je še pred tremi meseci število uporabnikov naraslo za
skoraj 2 odstotka, pa v mesecu juliju 2011 beležijo 0,29-odstotni padec (Socialbakers).
Vendar pa Facebook šteje tudi tiste, ki jih ni več med nami. Znani so primeri, ko je oseba že
dalj časa mrtva, profil na Facebooku pa živi še naprej. Sam obstoj profila je logičen, vendar
pa zna biti marsikdo šokiran, ko mu Facebook priporoča, da bi določena oseba znala biti
kandidat za prijatelja, za katerega pa ve, da ga ni več med nami. Facebook sicer ima obrazec,
ki ga je treba izpolniti in priložiti nekakšen dokaz, da osebe ni več, nato profil postane v
spomin na to osebo. Vendar pa obrazce malokdo izpolnjuje, z izjemo za slavne oziroma bolj
znane ljudi.
Kako popularen je Facebook, nam pove nekaj podatkov z začetka leta 2011. Prvi konec tedna
leta 2011 (1. in 2. januar 2011) je bilo na Facebook naloženih kar 750 milijonov fotografij. V
povprečju se v dvajsetih minutah objavi milijon povezav, pošlje poldrugi milijon povabil na
dogodke, spremeni skoraj dva milijona stanj na zidovih uporabniških profilov, sprejme dva
milijona povabil za prijateljstvo, naloži skoraj tri milijone fotografij in sporočil, napiše več
kot deset milijonov komentarjev (Računalniške novice 2011).
Če se to zgodi v času dvajsetih minut, potem si niti ne moremo predstavljati, koliko
informacij se nahaja na Facebooku. To je pravi magnet za raziskovalce.
Z raziskovalnega vidika ponuja FB omrežje prijateljev domala neomejen vir relacijskih
podatkov, ki jih potrebujemo za preizkušanje obstoječih teoretičnih modelov o strukturi in
dinamiki realnih omrežij kot tudi za razvijanje novih.
4
CILJI DIPLOMSKEGA DELA IN RAZISKOVALNE DOMNEVE
Pregled empirične evidence kaže, da se z analizo FB omrežja prijateljev raziskovalci še niso
intenzivno ukvarjali. Zlasti niso sistematično preverili predpostavk, ali statične lastnosti
(majhen premer omrežja, potenčna porazdelitev stopenj točk omrežja, št. in velikost
24
komponent) veljajo tudi v FB omrežju prijateljstev. Opaziti je, da so se vse analize do sedaj
omejevale na enem velikem omrežju.
Cilj diplomskega dela je zajeti oziroma pridobiti čim več Facebook omrežij prijateljstev in na
njih izvesti prvo sistematično analizo statičnih lastnosti realnih omrežij na Facebook omrežju
prijateljstev. Vsako omrežje prijateljev bomo analizirali, nato pa tiste rezultate, ki so za to
primerni, povprečili in jih primerjali s teoretičnimi vrednostmi.
4.1
Raziskovalne domneve
Raziskovalne domneve, ki jih bomo preverili, so:
• povprečna najkrajša razdalja med poljubnima prijateljema v Facebook omrežju
prijateljev je okoli 6;
• porazdelitev stopenj vozlišč Facebook omrežja prijateljev sledi potenčni porazdelitvi
in
• Facebook omrežje prijateljev sestavljajo ena velika komponenta in več manjših
komponent.
4.2
Glavni rezultati diplomskega dela
Glavni rezultati diplomskega dela so:
• prva sistematična analiza Facebook omrežja prijateljstev;
• rezultate dela bomo v okviru študentske sekcije predstavili na mednarodni konferenci
ITIS2012 (http://itis2012.fis.unm.si);
• rezultate dela bomo v soavtorstvu objavili v tuji znanstveni reviji s faktorjem vpliva in
• rezultati dela bodo služili kot osnova za poglobljeno analizo statičnih in dinamičnih
lastnosti spletnih socialnih omrežij, s katero se ukvarjajo raziskovalci v Laboratoriju
za podatkovne tehnologije na Fakulteti za informacijske študije.
5
METODA
Kvantitativne metode temeljijo na predpostavki, da je najboljša pot do razumevanja osnovnih
vzorcev in odnosov preučevanja pojavov na velikem številu primerov (enot). Če se omejimo
25
le na en primer ali majhno število primerov, lahko dobimo zelo popačeno sliko pojava.
Opazovanje velikega števila enot omogoči povzemanje posebnosti posameznih enot in
oblikovanje slike družbenega življenja, iz katere so izločeni pojavi, značilni zgolj za
posamezen primer ali za majhno skupino primerov. Ostane torej le splošni vzorec (Ragin,
2007). Zbiranje naših podatkov je omejeno samo na uporabnike socialnega spletnega omrežja
Facebook, ki jih je v času nastajanja diplomske naloge več kot 750 milijonov.
Raziskovalci so pogosto v skušnjavi pri načrtovanju in postavljanju vprašanj, ki jim bodo
omogočila izmeriti verodostojnost odgovorov ali pa samo ugotavljala prisotnost ali odsotnost
odgovarjajočih. Uporaba nedihotomnih spremenljivk (možni odgovor da ali ne) je korak
naprej k večji natančnosti, ki omogoča formuliranje in testiranje kompleksnejših hipotez z
uporabo sofisticiranih statističnih procedur (Foddy, 2003). V našem primeru zbiranja
podatkov udeleženci nimajo možnosti izbiranja odgovorov. Ali datoteko naredijo ali ne.
Za potrebe naše naloge bomo uporabili kvantitativno metodo in z njo poskušali potrditi ali
zavreči osnovne hipoteze.
5.1
Opis parametrov vzorca
Relacijska podatkovja smo zajeli s pomočjo spletne aplikacije friends2pajek (glej Prilogo 1),
ki je dostopna na spletnem naslovu http://apps.facebook.com/friends_to_pajek. Aplikacija je
bila razvita v Laboratoriju za podatkovne tehnologije na Fakulteti za informacijske študije in
je prosto dostopna. Jedro aplikacije je implementirano v programskih jezikih Python in PHP.
Spletni strežnik bazira na Apache, Operacijski sistem pa CentOS.
5.2
Vzorec
Raziskovanje, ki temelji na vzorcu populacije, je danes splošno sprejet pristop pri zbiranju
statističnih podatkov. Vzorčenje uporabljamo na najrazličnejših področjih v raziskovalne,
poslovne, upravne in administrativne namene. Tako so na podlagi proučevanja vzorcev ciljne
populacije na mnogih znanstvenih področjih razvili, preverili ali redefinirali številne
raziskovalne hipoteze, posebej v sociologiji, demografiji, političnih vedah, ekonomiji,
izobraževanju, socialni psihologiji in zdravstvu. Vzorne raziskave rutinsko uporabljajo tudi
vladne in druge javne institucije za ugotavljanje razmer na področju brezposelnosti,
dohodkov, življenjskih stroškov, stanovanjskih razmer, izobrazbe, prehrane, zdravja, potovanj
ipd. (Kalton in Vehovar, 2001). V nadaljevanju avtorja opredeljujeta populacijo in vzorec,
26
kjer izraz populacija uporabljata v smislu množice vseh elementov, na katere se nanašajo naše
ugotovitve. Vzorec pa pridobimo potem, ko je populacija opredeljena. Ena od možnosti je, da
vključimo v raziskavo vse elemente populacije in jih enostavno popišemo.
Naš vzorec šteje 193 datotek, ki imajo vsaj 4 povezave. Povprečna velikost omrežja je 284,74
vozlišč s 4.366,63 povezavami.
V vzorcu je sodelovalo 127 moških, 53 žensk, 13 pa je takšnih, ki iz različnih vzrokov nimajo
izbranega spola.
Prilagamo tabelo, iz katere se vidi, da smo pridobili največje število datotek od uporabnikov
omrežja Facebook, ki imajo v brskalniku izbrane jezikovne nastavitve brazilska portugalščina,
ameriška angleščina in slovenščina. Odstotek pridobljenih podatkov iz teh treh držav je 68,39.
Pomembno število datotek smo dobili tudi od uporabnikov z jezikovnimi nastavitvami
britanska angleščina, italijanščina in tistih, ki nimajo opredeljenega jezika.
Tabela 5.1: Število pridobljenih datotek po državah uporabnikov
jezikovna nastavitev
brazilska portugalščina
ameriška angleščina
slovenščina
britanska angleščina
italijanščina
neizbrano
nemščina
španska laoščina
francoščina
kastiljanska španščina
valežanska španščina
hrvaščina
indonezijščina
korejščina
poljščina
portugalščina
slovaščina
švedščina
turščina
kitajščina
kantonska kitajščina
27
število datotek
57
47
28
14
10
10
6
5
3
2
1
1
1
1
1
1
1
1
1
1
1
5.3
Postopek
5.3.1 Facebook Query Language (FQL)
Facebook Query Language (FQL) nam omogoča uporabo SQL vmesnika za poizvedbo
podatkov, ki v Graph API niso na voljo (ta omogoča le splošen pogled na vozlišča in njihove
povezave), vključno z zahtevo več poizvedb z enim samim klicem.
Poizvedbe so lahko oblike »SELECT [] FROM [] WHERE []«. Za razliko od SQL lahko FQL
FROM vsebuje le eno tabelo. Uporabimo lahko IN določbo za SELECT ali WHERE, da bi
naredili podquery, ki pa se ne more sklicevati na zunanje spremenljivke.
FQL zmore preproste matematične operacije, osnovne logične operatorje (BOOLEAN), AND
ali NOT logičnih operaterjev ter ORDER BY in LIMIT.
Za kakršno koli poizvedbo, ki vrne uporabniški ID, lahko uporabimo ukaz me(), ki vrne
prijavljenega uporabnika.
5.3.2 Način pridobivanja podatkov
Dobivanje podatkov je potekalo po metodi snežne kepe (Chakrabarti in Faloutsos, 2006).
Vsem svojim prijateljem v Facebook omrežju smo poslali elektronsko sporočilo (glej Prilogo
2), v katerem je bil na kratko predstavljen namen raziskave ter prošnja za njihovo pomoč pri
zbiranju podatkov. Priloženo je bilo navodilo za zajem podatkov ter izjava o zaupnosti.
Sporočilo je vsebovalo prošnjo, da prejemnik sporočila k sodelovanju v raziskavi povabi tudi
svoje prijatelje. Na ta način smo pridobili zadostno število podatkov, saj ni bilo pričakovati,
da bi se vsi naši prijatelji odzvali na prošnjo.
Podatke smo zbirali od 17. 6. 2011 do 4. 9. 2011. Uporabili smo vse kontakte v aplikaciji
Facebook, kakor tudi kontakte ostalih poštnih strežnikov. Da bi bilo število datotek še večje,
smo obvestilo prilepili tudi na skupinah Facebook, kamor je prijavljenih veliko uporabnikov.
5.4
Analiza podatkov
Zbrane podatke smo uredili v podatkovno zbirko in preverili njihovo veljavnost. Za analizo
zbranih podatkovij smo uporabili knjižnico igraph (http://igraph.sourceforge.net) v okolju R
za statistično analizo in grafiko (http://cran.r-project.org). Analizo podatkovij
smo avtomatizirali s pomočjo skriptnih datotek (glej Priloge 3, 4 in 5). Sama skripta je
28
zasnovana tako, da izloči tiste datoteke, ki imajo samo tri ali manj povezav, saj gre bodisi za
napako bodisi za zelo majhno omrežje. Jedro računskega dela analize predstavlja izračun
statičnih parametrov posameznega omrežja ter statistični prikaz statičnih lastnosti na zbranem
vzorcu omrežij. Rezultate skriptnih datotek smo izvozili v datoteko tipa csv (glej Prilogo 6).
5.5
Metode za obdelavo podatkov
5.5.1 Stoufferjeva metoda
V nalogi bomo uporabili tudi Stoufferjevo metodo, ki za razliko od Fisherjeve, ki uporablja pvrednosti, računa z Z-vrednostmi:
∑
Z=
k
i =1
Zi
k
.
Ena izmed prednosti računanja s Stoufferjevo metodo je tudi ta, da lahko enostavno vključimo
uteži (Wikipedia-2).
k
Z=
∑ wZ
∑ w
i =1
k
i =1
i
i
2
i i
To metodo bomo uporabili za dokazovanje obstoja velike komponente.
5.5.2 Kolmogorov-Smirnov test
Kolmogorov-Smirnov test statistično količinsko ovrednoti razdaljo med empirično funkcijo
distribucijskega vzorca in kumulativno porazdelitveno funkcijo za referenčno distribucijo ali
med empiričnimi distribucijskimi funkcijami dveh vzorcev. Porazdelitev se izračuna na
podlagi ničelne hipoteze, da so vzorci sestavljeni iz iste porazdelitve (v primeru dveh
vzorcev) ali pa da je vzorec sestavljen iz referenčne distribucije (v primeru enega vzorca).
Kolmogorov-Smirnov test je ena izmed najbolj uporabnih in splošno neparametričnih metod
za primerjavo dveh vzorcev, saj je občutljiv na razlike v obeh (Wikipedia-3).
6
REZULTATI
Zbranih je bilo 193 datotek. Povprečno število vozlišč je 284,74. Največje omrežje je omrežje
z 1.465 vozlišči, najmanjše pa ima 6 vozlišč. Povprečno število povezav je 4.366,63. Največje
število povezav v omrežju je 82.865, najmanjše pa 4.
29
6.1
Številske karakteristike
V spodnji tabeli smo opisali osnovne karakteristike omrežij: mediano, aritmetično sredino,
standardni odklon, minimalno vrednost, maksimalno vrednost in interkvartilni razmik (IQR).
Za vsako omrežje smo izračunali omenjene karakteristike, v tabeli 6.1 pa so prikazana
povprečja vseh omrežij.
Tabela 6.2: Prikaz osnovnih opisnih karakteristik
Parameter
št. povezav
Me
x
SD
mediana
aritmet.sred.
standardni odklon
min
maks
IQR
1380,5
4366,63
10332,59
4
82865
3221
št. vozlišč
192
284,74
249,22
6
1465
240
premer omrežja
7,00
7,28
2,48
1
21
3
168,00
258,23
243,04
3
1455
224
velikost glavne kompon.
povp stopnja točk
12,87
19,60
17,47
1,33
113,13
15,63
število komponent
11,00
17,36
21,78
1,00
167,00
14,00
gostota omrežja
0,072
0,095
0,08 0,012
0,525
0,065
N=193
Poglejmo še, kakšne so karakteristike, ločene po spolu (Tabela 6.3). V tabeli seveda ni vključenih tistih, ki niso
izbrali spola pri registraciji profila.
Tabela 6.3: Prikaz osnovnih opisnih karakteristik glede na spol
ŽENSKE
Parameter
x
SD
min
MOŠKI
maks
IQR
x
SD
min
maks
IQR
št. povezav
2551,47
2579,35
16
19696
2136
5378,37
11225,20
4
82865
4125
št. vozlišč
241,13
141,94
23
998
177
312,97
264,36
6
1465
260
premer omrežja
velikost glavne kompon.
7,17
1,41
3
12
4
7,39
2,57
1
21
2
218,57
134,16
9
851
173
283,55
260,91
3
1455
246
15,55
povp stopnja točk
14,64
7,36
1,39
56
9,10
21,77
19,47
1,33
113,13
število komponent
14,92
10,82
1
117
12,00
19,04
24,11
1,00
167,00
15,00
gostota omrežja
0,089
0,044
0,020
0,38
0,064
0,092
0,08
0,012
0,500
0,062
N =53
N =127
30
Slika 6.10: Število vozlišč
Pri številu vozlišč lahko opazimo, da imamo večino omrežij s številom vozlišč med 100 in
400 in da obstajajo tudi takšna, ki se približujejo številu 1500.
Slika 6.11: Število povezav
Pri številu povezav v omrežju imamo dva močna ekstrema pri 8000 povezavah. To sta
omrežji, ki imata tudi največje število vozlišč.
31
Slika 6.12: Premer omrežja
Okvir z ročaji za premer omrežja nam pove, da je prvi kvartil v višini 6 in mediana malo
preko 7, kar nam že nakazuje, da naša hipoteza, da je povprečni premer omrežja enak 6, ne
drži.
Slika 6.13: Velikost glavne komponente
Velikost glavne komponente nam sam po sebi ne pove kaj dosti, saj nam pokaže, koliko
odstotkov vozlišč je v glavni komponenti, ampak nam pove samo število vozlišč v njej.
32
Slika 6.14: Povprečna stopnja točk
Od vseh okvirjev z ročaji ima ta, ki predstavlja povprečno stopnjo točk, še najmanj
osamelcev.
Slika 6.15: Število komponent
Večina omrežij ima število komponent do 25. Redkejša so tista nad 50.
33
Slika 6.16: Gostota omrežja
Za gostoto omrežij smo povedali, da ima polni graf gostoto enako 1. Naša omrežja, razen
dveh, imajo vsa gostoto pod 0,5.
6.2
Premer omrežja
Analiza povprečnega premera, ki je 7,28, vrednosti premera pa so med 1 in 21, pokaže, da je
hipoteza, ki pravi, da je povprečni premer okoli 6, napačna. Zanimiva je tudi porazdelitev
premera omrežja, ki močno spominja na normalno.
Slika 6.17: Porazdelitev najkrajših razdalj
40
35
30
25
20
15
10
5
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Vidimo, da ima večina omrežij (73,6 %) premer vrednosti 5, 6, 7, 8 ali 9.
34
18
19
20
21
Izračunali smo t-test (priloga 6) s hipotezo, da je srednja vrednost premera omrežja enaka 6
(kot je to ugotovil Milgram in so kasneje potrdili še ostali). Rezultat testa je pokazal, da
srednja vrednost ni enaka 6. To smo izračunali tudi sami in ugotovili, da je naša povprečna
vrednost 7,2. Ker je rezultat t vrednosti pozitiven, ugotavljamo, da je naša hipoteza prenizka.
Lahko pa z 95-odstotno gotovostjo trdimo, da je tveganje vrednosti srednje (povprečni premer
FB omrežja na intervalu med 6,89 in 7,5). S t-testom smo ugotavljali tudi, ali je razlika
statistično značilno različna od hipotetične, saj je izračunani p manjši od kritičnega (pvrednost = 7.445e-13).
Izračunali smo Cohenov d koeficient (nadaljevanje priloge 6), ki znaša 0,56. V tabeli (glej
sliko 6.18, kjer se nahaja razlaga Cohenovega d-ja) vidimo, da gre za praktično razliko
srednje pomembnosti.
Zanimalo nas je tudi, kaj pokaže izračun, če vzamemo, da je povprečni premer enak 7.
Uporabili smo isto formulo in izračunali še t-test za srednjo vrednost omrežja 7. V tem
primeru je p-value = 0,093, Cohenov d koeficient pa 0,2. Rezultat znova preverimo. V tabeli
(slika 6.18) vidimo, da gre za praktično razliko majhne pomembnosti, kar pomeni, da gre za
majhno tveganje napovedi.
Iz vsega tega ne moremo potrditi prve hipoteze, ki pravi, da je povprečna najkrajša razdalja
med poljubnima prijateljema v Facebook omrežju prijateljev okoli 6.
Slika 6.18: Cohenov koeficient
Cohenov
standard
VELIK
SREDNJI
MAJHEN
Velikost
učinka (d)
% ene skupine pod
sredino druge skupine
%
neprekrivanja
2,0
1,9
1,8
1,7
1,6
1,5
1,4
1,3
1,2
1,1
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
97,7
97,7
96,4
95,5
94,5
93,3
91,9
90
88
86
84
82
79
76
73
69
66
62
58
54
50
81,1%
79,4%
77,4%
75,4%
73,1%
70,7%
68,1%
65,3%
62,2%
58,9%
55,4%
51,6%
47,4%
43,0%
38,2%
33,0%
27,4%
21,3%
14,7%
7,7%
0,0%
Vir: Becker (2000, str. 3)
35
6.3
Velikost velike komponente
Naša hipoteza je, da naj bi Facebook omrežje prijateljev sestavljalo ena velika komponenta in
več manjših. Zagotovo lahko trdimo, da je komponenta velika, če vsebuje vsaj polovico vseh
vozlišč. Takšnih omrežij je več kot 95 %. Povedano drugače, samo 8 omrežij nima največje
komponente, v kateri bi bila vsaj polovica vseh vozlišč. V povprečju ima teh 8 omrežij 22,25
komponente in 138,75 vozlišča.
Naša omrežja imajo različno število komponent. Takšnih, ki imajo eno samo, je 8. Torej
imajo ta omrežja samo eno veliko komponento, ostala imajo poleg velike komponente še vsaj
eno manjšo.
Slika 6.19: Odstotek vozlišč v glavni komponenti in število komponent
180
100%
160
št. komponent
velikost glavne komponente
140
120
100
50%
80
60
40
20
0
0%
Zaradi boljše preglednosti smo podatke razvrstili glede na odstotek velikosti glavne
komponente (modra barva) glede na število vozlišč v omrežju. Vsako omrežje namreč lahko
ima, ni pa nujno, več komponent. In z modro barvo je označen odstotek vozlišč omrežja v
največji komponenti le-tega. Na desni strani je odstotkovna os, ki nam pove, koliko odstotkov
vozlišč je v največji komponenti.
Z rdečo barvo smo označili število komponent v posameznem omrežju. Na levi strani je
številska os, ki nam pove, koliko komponent obstaja v tem omrežju.
36
Grafa sta med seboj povezana, kar pomeni, da lahko za vsako omrežje razberemo število
komponent v tem omrežju in odstotek zastopanosti točk v največji komponenti tega omrežja.
S testom za proporcionalne vrednosti bomo poskušali dokazati, da velike komponente v naših
omrežjih obstajajo. Torej je naša ničelna domneva, da obstaja velika komponenta omrežja, ki
ni večja od 50 % (H_0: pmax≤ 0,5; pmax označuje delež vozlišč v največji komponenti
omrežja), in alternativna domneva, ki pravi, da obstaja velika komponenta omrežja, ki je večja
od 50 % (H1: pmax> 0,5). V prilogi 8 lahko vidimo, na kakšen način smo izračunali
proporcionalnost. Uporabljena funkcija je v bistvu
pričakovanimi in v našem primeru znaša
test, ki opazovane frekvence primerja s
=107 pri stopnji prostosti df = 1, z zelo majhno
vrednostjo p (p < 0.0001).
Obstoj velike komponente v omrežju FB lahko potrdimo.
6.4
Porazdelitev stopenj vozlišč
Prileganje naše porazdelitve teoretični potenčni porazdelitvi smo izračunali s pomočjo
Kolmogorov-Smirnovega testa. Vsakemu omrežju smo, glede na njegove lastnosti, generirali
ustrezno teoretično porazdelitev in jo primerjali z našim dejanskim omrežjem. Dobili smo p
vrednosti, ki smo jih na koncu povprečili po Staufferjevi metodi, ki je v našem primeru
znašala 0,999. Vrednost je zelo visoka, zato lahko domnevamo, da se naša omrežja prilegajo
teoretičnim omrežjem in dejansko sledijo potenčni porazdelitvi. Naše ničelne hipoteze, da
porazdelitev stopenj točk sledi potenčni porazdelitvi, ne moremo zavreči, torej jo lahko
sprejmemo, saj so empirični podatki skladni z našo domnevo.
37
Slika 6.20: Porazdelitev povprečnih stopenj točk
80
70
60
50
40
30
20
10
0
0-10
10-20
20-30
30-40
40-50
50-60
60-70
70-80
80-90
90-100
100-110
110-120
Iz grafa »Porazdelitev stopenj točk« je razvidno, da ima največ omrežij povprečno stopnjo
točk med 10 in 20 (takšnih omrežij je 74), sledijo omrežja, ki imajo povprečno stopnjo točk
do 10 (takšnih je 58 omrežij), nato omrežja s povprečno stopnjo točk med 20 in 30 (25
omrežij), nato pa število omrežij z višjimi povprečnimi stopnjami točk upada. Dve omrežji
imata povprečno stopnjo točk med 110 in 120. To sta tudi omrežji z največjo stopnjo točk in
hkrati omrežji z največjim številom vozlišč in povezav.
7
ZAKLJUČEK
Prve domneve, da je povprečen premer omrežij enak 6, ne moremo potrditi. Drugače pa je z
ostalima domnevama (obstoj ene velike komponente in več manjših ter da porazdelitev
stopnje točk sledi potenčni porazdelitvi), ki ju lahko potrdimo.
8
RAZPRAVA
V diplomski nalogi smo pristopili k analizi lastnosti omrežij na področju, ki ga po nam znanih
podatkih ni analiziral še nihče, tj. lastnosti omrežja na podatkih Facebook prijateljstva. S
pomočjo Facebook aplikacije smo od 17. 6. 2011 do 4. 9. 2011 zbrali 193 omrežij, ki imajo
najmanj 3 povezave, in na njih izvedli analizo njihovih lastnosti. Podatke je prispevalo 127
moških, 53 žensk, 13 oseb pa nima navedenega spola. Zbiranje podatkov je potekalo po
metodi snežne kepe.
38
Zanimalo nas je, ali statične lastnosti omrežij veljajo tudi na primeru Facebook prijateljstva.
Postavili smo tri domneve:
•
povprečna najkrajša razdalja med poljubnima prijateljema v Facebook omrežju
prijateljev je okoli 6;
•
porazdelitev stopenj vozlišč Facebook omrežja prijateljev sledi potenčni porazdelitvi
in
•
Facebook omrežje prijateljev sestavlja ena velika komponenta in več manjših
komponent.
Izračunana povprečna razdalja med poljubnima prijateljema v Facebook omrežju je v našem
primeru 7,28 in nas je sprva presenetila, saj smo računali, da bi lahko bila vrednost bližje 6. S
prebiranjem literature pa se je izkazalo, da tudi zadnji rezultati na veliki količini podatkov
(raziskava na 240 milijonov ljudi s 30 milijard komunikacij) (Leskovec in Horvitz, 2007)
kažejo, da je premer omrežja 6,6 in da se že govori o premeru omrežja 7. Kljub temu da smo
za kontrolno skupino izbrali izhodišče 6, smo izračunali, da je 67 % vrednosti enakih kot v
kontrolni skupini.
Postopek smo naknadno ponovili še z izhodiščem 7 in izračunali, da je 85,3 % vrednosti
enakih kot v kontrolni skupini.
Ugotovili smo, da lahko potrdimo domnevo, da omrežje sestavlja ena velika komponenta
komponenta in več manjših, saj jo ima več kot 95 odstotkov omrežij. To smo potrdili tudi s
Stoufferjevo metodo.
Tudi izračun porazdelitev stopenj točk smo naredili s pomočjo Stoufferjeve metode in
dokazali, da porazdelitev stopnje točk sledi potenčnemu zakonu.
39
40
9
LITERATURA
1. Adams G., Rebecca in Allan, G. ur. (1998) Placing Friendship in Context. Adams G.
Rebecca The demise of theritorial determinism: online friendship (153–182). Cambridge
university press.
2. Boyd, M. Danah in Ellison, B. Nicole (2007) Social network sites: Definition, history and
scholarship. Journal of Computer–Mediated Communication, 13(1), article 11.
3. Bristor, H. Julija in Ryan, J. Michael (1987) The Buying Center is Dead, Long Live the
Buying Center in Advances in Consumer Research Volume 14, eds. Melanie Wallendorf
and Paul Anderson, Provo, UT : Association for Consumer Research (255–258).
4. Cankar, Gašper in Bajec, Boštjan (2003) Velikost učinka kot dopolnilo testiranju
statistične pomembnosti razlik. Ljubljana: Univerza v Ljubljani.
5. Chakrabarti, Deepayan in Faloutsos, Christos (2006) Graph Mining: Laws, Generators,
and Algorithms, ACM Computing Surveys, št. 38, zv. 2.
6. Ciglarič, Mojca (2003) Usmerjanje ponavljajočih se poizvedb v vsebinskih omrežjih.
Doktorska disertacija. Ljubljana, Fakulteta za računalništvo in informatiko.
7. Dorogovtsev, N. Sergey. in Mendes, Jose Fernando (2003) Evolution of Networks. From
Biological Nets to the Internet and WWW. Oxford University Press.
8. Foddy, William (2003) Constructing questions for interviews and questionnaires.
Cambridge university press.
9. Garton Laura, Haythornthwaite Caroline in Wellman Barry (1997) Studying Online Social
Networks. University of Toronto and Illinois.
10. Hlebec, Valentina in Kogovšek, Tina (2006) Merjenje socialnih omrežij. Ljubljana,
Grafika Fric.
11. Kalton, Graham in Vehovar, Vasja (2001) Vzorčenje v anketah; Ljubljana: Fakulteta za
družbene vede.
12. Kastrin, Andrej (2011) Prosojnice s predavanj. Novo mesto: Fakulteta za informacijske
študije 08.03.2011.
13. Newman, Mark (2004) The structure and function of complex networks. University of
Michigan, Department of Physics.
14. Pease, Allan (1996) Govorica telesa. Ljubljana: Mladinska knjiga.
15. Povh, Janez (2011) Prosojnice s predavanj. Novo mesto: Fakulteta za informacijske
študije 25.02.2011.
16. Ragin, Charles (2007) Družboslovno raziskovanje: Enotnost in raznolikost metode;
Ljubljana: Fakulteta za družbene vede.
17. Sabidussi, Gert (1966) The centrality index of a graph. Psychometrika. Volume 31
number 4.
18. Travers, Jeffrey in Milgram, Stanley (1959) An Experimental Study of the Small World
Problem. Sociometry, št. 32.
19. Vehovar, Vasja, Jerman, Kuželički Ajda in Lebar, Lea (2011) Socialna omrežja 2011.
Ljubljana: Fakulteta za družbene vede.
20. Wasserman, Stanley in Faust, Katherine (1994) Social network analysis: Methods and
applications. New York, NY: Cambridge University Press.
21. Watts, J. Duncan. (2004) Small worlds: the dynamics of networks between order and
randomness. New Jersey, Princeton University Press.
10
VIRI
1. Becker, A. Lee (2000) Effect size (ES). Dostopno na:
http://www.bwgriffin.com/gsu/courses/edur9131/content/EffectSizeBecker.pdf
(9.10.2011).
2. Blatt, Ben in Modi, Arjun (2011) Six Degrees of NBA Separation. Dostopno na
http://harvardsportsanalysis.wordpress.com/2011/03/04/six-degrees-of-nba-separation/
(11.10.2011).
3. Clauset, Aaron, Shalizi, Cosma Rohilla in Newman, Mark (2009) Power-law Distributions
in Empirical Data. Dostopno na:
http://each.uspnet.usp.br/sistcomplexos/SC1/Fractal/PowerLawDistributions.pdf
(8.7.2011).
4. Časopis Dnevnik. Facebook v prvem četrtletju na borzi s 157 milijoni dolarjev izgube
Dostopno na http://www.dnevnik.si/poslovni_dnevnik/1042543830 (26.8.2012).
5. Dwyer, Catherine, Hiltz, Starr Roxanne in Passerini, Katia (2007) Trust and privacy
concern within social networking sites: A comparison of Facebook and MySpace.
Dostopno na: http://csis.pace.edu/~dwyer/research/DwyerAMCIS2007.pdf (25.8.2011).
6. INSNA. International Network for Social Network Analysis. Dostopno na
http://www.insna.org/sna/links.html (5.7.2011).
7. Kadushin, Charles (2004) Introduction to Social Network Theory. Chapter 2. Some Basic
Network Concepts and Propositions. Dostopno na:
http://hevra.haifa.ac.il/~soc/lecturers/talmud/files/521.pdf (16.8.2011).
8. Leskovec, Jure (2008) Mere središčnosti. Prosojnice s predavanj. Dostopno na:
http://agava.ijs.si/~jure/ao08/03-centrality.pdf (1.10.2011).
9. Leskovec, Jure in Myers, A. Seth (2010) On the Convexity of Latent Social Network
Inference. Stanford University. Dostopno na
http://cs.stanford.edu/people/jure/pubs/connie-nips10.pdf (15.8.2011).
10. Leskovec, Jure in Horvitz, Eric (2007) Planetary-Scale Views on an Instant Messaging
Network. Dostopno na: http://arxiv.org/PS_cache/arxiv/pdf/0803/0803.0939v1.pdf
(13.11.2011).
11. Lešnjak, Gorazd (2010) Statistika. Dostopno na http://www.mp.feri.unimb.si/osebne/lesnjak/STA_ITK/p_1.pdf (8.10.2011).
12. Mayo, Elton (1949) The Social Problems of an Industrial Civilisation. Dostopno na:
http://xa.yimg.com/kq/groups/30802428/1886432542/name/elton+mayo+%2B+studiu+de
+caz.pdf (5.7.2011).
13. Milivojević, Zoran (2011) Prijateljstvo v postmodernem času. Dostopno na
http://www.viva.si/mnenja/6200/Prijateljstvo-v-postmodernem-%C4%8Dasu (14.8.2011).
14. Pisanski, Tomaž (1981) Problem štirih barv. Dostopno prek: http://www.presek.si/9/537Pisanski.pdf (8.7.2011).
15. Scott, John (1996) Social Network Analysis. Dostopno na:
http://www.analytictech.com/networks/history.htm (5.7.2011).
16. Socialbakers. Facebook Statistics by country. Dostopno na
http://www.socialbakers.com/facebook-statistics/#chart-intervals (14.8.2011).
17. Stam, J. Cornelis in Reijneveld, C. Jaap (2007) Graph theoretical analysis of complex
networks in the brain. Dostopno na: http://www.biomedcentral.com/content/pdf/17534631-1-3.pdf (11.10.2011).
18. Računalniške novice (2011). Zanimiva dejstva o socialnem omrežju Facebook. Dostopno
na http://www.racunalniske-novice.com/novice/splet/socialnaomrezja/facebook/zanimiva-dejstva-o-socialnem-omrezju-facebook-1.html (16.8.2011).
19. Wikipedia-1. Six degrees of separation. Dostopno na:
http://en.wikipedia.org/wiki/Six_degrees_of_separation (13.11.2011).
20. Wikipedia-2. Fisher's method. Dostopno na:
http://en.wikipedia.org/wiki/Stouffer%27s_method (19.2.2012).
21. Wikipedia-3. Kolmogorov–Smirnov test. Dostopno na
http://en.wikipedia.org/wiki/Kolmogorov-Smirnov (19.2.2012).
22. Wikipedia-4. Facebook. Dostopno na http://en.wikipedia.org/wiki/Facebook#History
(16.8.2011).
23. Wikipedia-5. Srednje vrednosti. Dostopno na:
http://sl.wikipedia.org/wiki/Kategorija:Srednje_vrednosti (8.10.2011).
24. Wikipedia-6: Kvartil. Dostopno na: http://sl.wikipedia.org/wiki/Kvartil(8.10.2011).
25. Zeitler, Nicolas (2011). Computer Scientist Predicts Your Next Facebook Friends.
Dostopno na:
http://www.pcworld.com/article/237825/computer_scientist_predicts_your_next_faceboo
k_friends.html (15.8.2011).
26. Zemljič, Barbara in Hlebec, Valentina (2002) Zanesljivost mer središčnosti in
pomembnosti v socialnih omrežjih. Dostopno na:
http://www.fdvinfo.net/uploadi/editor/1141994570dr37-38zemljichlebec.pdf
(14.10.2011).
PRILOGE
Priloga 1: Spletna aplikacija friends2pajek
Priloga 2: Prošnja z navodili za uporabo aplikacije
Priloga 3: Funkcija za izračun lastnosti (premer omrežja in velikost glavne komponente)
Priloga 4: Funkcija za izračun potenčne porazdelitve
Priloga 5: Zagonska skripta
Priloga 6: Skripta za hipotezo premer omrežja je 6
Priloga 7: Skripta za hipotezo potenčni zakon
Priloga 8: Skripta za hipotezo velikost glavne komponente
Priloga 1: Spletna aplikacija friends2pajek
Za kreiranje Facebookove aplikacije za generiranje potrebnih datotek se je treba prijaviti na
https://developers.facebook.com/apps in uporabiti uporabniško ime in geslo, ki ga sicer
uporabljamo za vstop na Facebook. S klikom na »+ Create New App« ustvarimo novo
apikacijo. Naši smo dodelili ime friends_to_pajek. V kodi namenoma ni podatkov
uporabniško ime, geslo in strežnik. Koda izgleda takole:
#!/bin/bash
prog=$(basename $0)
NO_ARGS=0
E_OPTERROR=85
# Script invoked with no command-line args?
if [ $# -eq "$NO_ARGS" ]; then
echo "Usage: $prog [-h host] [-u username] [-p password]"
echo " $prog -help for help."
exit $E_OPTERROR
fi
showhelp() {
echo "Usage: $prog [-h host] [-u username] [-p password]"
echo " -h: host"
echo " -u: username"
echo " -p: password"
echo " -help: this help message"
exit 2
}
user=""
host=""
pass=""
now=$(date +"%m-%d-%Y")
dir="data_$now"
file="data.tgz"
while getopts "h:u:p:help" name; do
case $name in
h)
host=$OPTARG
;;
u)
user=$OPTARG
;;
p)
pass=$OPTARG
;;
help)
showhelp $0
;;
esac
done
if [ -d "$dir" ]; then
rm -R $dir
mkdir $dir
else
mkdir $dir
fi
cmd1=$(expect << EOF
spawn ssh $user@$host
expect "password: "
send "$pass\n"
expect {
"Permission denied, please try again." {
send_user "Wrong password."
exit
}
"$ " {
send "cd /tmp\n"
expect "$ "
send "tar -czf $file \`find . -maxdepth 1 -name 'f2p_*' -print\`\n"
expect "$ "
send "logout"
exit
}
}
EOF)
cmd2=$(expect << EOF
spawn scp $user@$host:/tmp/$file $dir
expect "password: "
send "$pass\n"
expect "$ "
EOF)
CMD3=$(expect << EOF
spawn ssh $user@$host
expect "password: "
send "$pass\n"
expect "$ "
send "cd /tmp\n"
expect "$ "
send "rm $file\n"
expect "$ "
send "logout"
EOF)
echo "$cmd1"
echo "$?"
echo "$cmd2"
echo "$?"
echo "$cmd3"
cd $dir
tar -xzf $file
rm $file
count=$(ls -1 | wc -l | awk '{gsub(/^ +| +$/, "")}1')
cd ..
clear
echo "All done. Extracted $count *.net files."
Priloga 2: Prošnja z navodili za uporabo aplikacije
Naslednja vsebina je bila poslana vsem avtorjevim kontaktom v Facebooku in tudi kontaktom
v elektronski pošti. Prvi del je bil v pisni obliki kot besedilo, dodatna navodila po korakih
potrjevanja pa so bila prilepljena kot datoteka v obliki pdf. Napisanih je bilo več inačic, v več
jezikih, prilagamo samo slovensko inačico vikanja.
Spoštovani,
v okviru diplomskega dela na Fakulteti za informacijske študije se ukvarjam z analizo
podatkov s spletišča Facebook. Delo poteka pod mentorstvom doc. dr. Janeza Povha. Cilj
moje raziskave je zbrati čim večje število anonimnih seznamov prijateljev posameznega
uporabnika spletišča Facebook. Upam, da mi lahko pri tem pomagate tudi vi.
Vse, kar morate storiti, je, da sledite spodnjim korakom.
1.
2.
3.
Kliknite na naslov http://apps.facebook.com/friends_to_pajek/ in se prijavite v
spletišče Facebook.
S klikom na gumb »Allow« dovolite aplikaciji friends2pajek, da zbere podatke o
vaših prijateljih.
Odprlo se bo glavno okno aplikacije friends2pajek. Kliknite na gumb »Submit«
in postopek je zaključen.
Podrobna navodila z ilustriranimi koraki najdete v priponki. Podatki, ki mi jih boste zaupali,
bodo ostali anonimni. Zbrani podatki se bodo uporabljali izključno za raziskovalne namene.
Za vsa vprašanja sem vam na voljo na naslovu ales_hocevar@hotmail.com.
Prosim vas, da to elektronsko sporočilo posredujete tudi svojim prijateljem.
Za sodelovanje se vam najlepše zahvaljujem in vas lepo pozdravljam.
Aleš Hočevar
Priloga 3: Funkcija za izračun lastnosti (premer omrežja in velikost glavne komponente)
Te funkcije ni potrebno zaganjati ročno, mora pa biti v istem direktoriju kot sta ostali dve.
# Read Pajek file to igraph object
data.dir <- "data_07-25-2011"
GetGraph <- function(file)
{
awk.str <- "awk \'{if(NR==1)sub(/^\xef\xbb\xbf/, \"\"); print}\'"
file.nobom <- paste(awk.str, " ", "./", data.dir, "/", file, sep="")
pipe.con <- pipe(description=file.nobom, encoding="UTF-8")
my.graph <- read.graph(file=pipe.con, format="pajek")
return(my.graph)
}
# Compute diameter
GetDiameter <- function(graph)
{
graph.diam <- diameter(graph=graph, directed=FALSE)
rval <- list(diam=graph.diam)
return(rval)
}
# Compute size of giant component
GetGiantCompSize <- function(graph)
{
graph.size <- vcount(graph=graph)
cl <- clusters(graph=graph)
subgraph <- subgraph(graph=graph,
v=which(cl$membership == which.max(cl$csize) - 1) - 1)
subgraph.size <- vcount(graph=subgraph)
rval <- list(g.size=subgraph.size)
return(rval)
}
# Count vertices
CountVertices <- function(file)
{
graph <- GetGraph(file=file)
return(vcount(graph))
}
# Count edges
CountEdges <- function(file)
{
return(ecount(graph))
}
# Compute power distribution parameters
TestPowerLaw <- function(graph)
{
degree <- degree(graph) + 1
fit <- FitPowerLaw(x=degree)
rval <- list(d.stat=fit$statistic, p.val=fit$p.value, xmin=fit$xmin,
n=fit$n, alpha=fit$alpha)
return(rval)
}
# Select graphs according to number of edges
FilterGraphs <- function(file.list, limit)
{
edges <- sapply(X=file.list, FUN=CountEdges)
if (limit >= min(edges)) {
index <- which(edges <= limit)
message(paste("Filtered", length(index), "out of", length(all.files),
"graphs."))
rval <- list(files=all.files[-index], ind=index)
return(rval)
}
}
# Compute degree
GetDegree <- function(graph)
{
graph.degree <- sum(degree(graph=graph))/vcount(graph)
rval <- list(degree=graph.degree)
return(rval)
}
# Compute vertices
GetVozlisca <- function(graph)
{
graph.vozlisce <- vcount(graph=graph)
rval <- list(vozlisca=graph.vozlisce)
return(rval)
}
# Compute edges
GetPovezave <- function(graph)
{
graph.povezave <- ecount(graph=graph)
rval <- list(povezave=graph.povezave)
return(rval)
}
# Compute clusters
GetClusters <- function(graph)
{
graph.clusters <- no.clusters(graph=graph)
rval <- list(clusters=graph.povezave)
return(rval)
}
# Wrapper for functions above
ComputeAll <- function(file)
{
vertices <- GetVozlisca(graph=graph)
edges <- GetPovezave(graph=graph)
diam <- GetDiameter(graph=graph)
g.size <- GetGiantCompSize(graph=graph)
kompon <- GetClusters(graph=graph)
p.law <- TestPowerLaw(graph=graph)
degree <- GetDegree(graph=graph)
return(c(vertices, edges, degree, diam, g.size, kompon, p.law))
progress_bar_text$step()
}
Priloga 4: Funkcija za izračun potenčne porazdelitve
Tudi te funkcije ni potrebno zaganjati ročno.
# Check direct variant to solve xmin problem
FitPowerLaw <- function(x) {
suppressMessages(require(VGAM))
x <- as.integer(x)
# Range of scaling parametersfunction(c)
vec <- seq(1.5, 3.5, 0.01)
zvec <- zeta(vec)
xmins <- sort(unique(x))
# limit <- c()
xmins <- xmins[-length(xmins)]
xmax <- max(x)
dat <- matrix(0, nrow=length(xmins), ncol=2)
z <- x
for (i in 1:length(xmins))
{
xmin <- xmins[i]
z <- z[z >= xmin]
n <- length(z)
# Use maximization of likelihood function to estimate alpha
if (xmin == 1)
{
zdiff <- rep(1, length(vec))
} else
{
zdiff <- apply(X=rep(t(1:(xmin-1)), length(vec))^t(kronecker(t(array(1, xmin - 1)), vec)), MARGIN=2, FUN=sum)
}
L <- -vec * sum(log(z)) - n * log(zvec - zdiff)
I <- which.max(L)
# Compute KS statistic
fit <- cumsum((((xmin:xmax)^-vec[I])) /
(zvec[I] - sum((1:(xmin-1))^-vec[I])))
# Dirty, dirty, ...
cdi <- cumsum(hist(z, c(min(z) - 1, (xmin + 0.5):xmax, max(z) + 1),
plot=FALSE)$counts / n)
dat[i, ] <- c(max(abs(fit - cdi)), vec[I])
}
D <- min(dat[, 1])
I <- which.min(dat[, 1])
xmin <- xmins[I]
n <- sum(x >= xmin)
alpha <- dat[I, 2]
# Correction for finite sample size
alpha <- alpha * (n - 1) / n + 1 / n
pval <- 1 - .C("pkolmogorov2x", p = as.double(D), as.integer(n), PACKAGE = "stats")$p
rval <- list(statistic=D, p.value=pval, xmin=xmin, n=n, alpha=alpha)
return(rval)
}
Priloga 5: Zagonska skripta
To je edina skripta, ki jo zaženemo ročno. Končni produkt je generirana datoteka graph_invariants.csv, ki jo
odpremo v Excelu ali OpenOfficeu.
setwd("~/Namizje/fb_graph")
data.dir <- "data_10-06-2011"
require(VGAM)
require(package=igraph, quietly=TRUE)
source(file="my_functions.R")
source(file="power_law.R")
limit <- as.integer(3)
all.files <- dir(path=data.dir)
my.files <- FilterGraphs(file.list=all.files, limit=limit)$files
if (is.null(my.files)) stop("Try again with different limit value.")
message("Start processing. Please wait...")
lol <- lapply(X=my.files, FUN=ComputeAll)
# Reshape list of lists to data.frame
out <- as.data.frame(do.call(rbind, lapply(X=lol, FUN=c, recursive=TRUE)),
row.names=my.files)
write.csv(x=out, file="graph_invariants.csv")
Priloga 6: Skripta za hipotezo premer omrežja je 6
source("my_functions.R")
data <- read.csv(file = "graph_data.csv", row.names = 1)
diam <- data$diam
diam.rm <- FindOutliers(x = diam, rm = TRUE)
t.stat <- t.test(x = diam.rm, mu = 6)
t.stat
One Sample t-test
data: diam.rm
t = 7.6989, df = 189, p-value = 7.445e-13
alternative hypothesis: true mean is not equal to 6
95 percent confidence interval:
6.89254 7.50746
sample estimates:
mean of x
7.2
Cohen
mean.diff <- mean(diam.rm) - 6
sd.rm <- sd(diam.rm)
cohen.d <- mean.diff/sd.rm
cohen.d
[1] 0.5585401
Priloga 7: Skripta za hipotezo potenčni zakon
p.val <- data$p.val
p.combined <- pnorm(sum(qnorm(p.val))/sqrt(length(p.val)), lower.tail = FALSE)
p.combined
[1] 0.9999999
Priloga 8: Skripta za hipotezo velikost glavne komponente
H_0 = 0,5
H_1 >0,5
my.prop <- sum(data$giant.r > 0.5)
my.n <- length(data$giant.r)
prop.test(x = my.prop, n = my.n, p = 0.5, alternative = 'greater')
1-sample proportions test with continuity correction
data: my.prop out of my.n, null probability 0.5
X-squared = 107.0205, df = 1, p-value < 2.2e-16
alternative hypothesis: true p is greater than 0.5
95 percent confidence interval:
0.8845861 1.0000000
sample estimates:
p
0.9315068

Besedilo

Transcription

Similar documents

Več o podjetju - Karierni center Univerze v Mariboru

PETERSEN - odločanje na podlagi teorije grafov

Zaključki sekcije CIGR

Milan Švajger - Komite CIGRE CIRED

Načrt vsebin in študentskih obveznosti - Andrej Blejec

Osnove verjetnosti in statistike

Blaž Traven - Pregled stanja zaščite v prenosnem omrežju Slovenije

Komunikacije v avtomatiki

IZBRANI ALGORITMI

4. meni «veseli december«

HOTEL TARTINI PIRAN, TARTINIJEV TRG 15, 6330 PIRAN

naslovna strana

Oberkrainer - ritmi klaviature sampli