Taller de Cibermetría - Dirección General de Evaluación Institucional

Transcription

Taller de Cibermetría - Dirección General de Evaluación Institucional
Cibermetría
Introducción teórico-práctica
Isidro F. Aguillo
Versión 1.56 (Octubre’09)
Isidro.aguillo@cchs.csic.es
CCHS - CSIC
Presentación: Isidro F. Aguillo

Puesto actual


Formación




Laboratorio de Cibermetría
Centro de CC. Sociales y Humanas. Consejo
Superior de Investigaciones Científicas (CSIC)
Licenciado CC. Biológicas (UCM)
Máster en Información y Documentación (UC3M)
Doctor Honoris Causa (UI)
Líneas de trabajo y otros datos


Portal de rankings: webometrics.info
Proyectos nacionales: QEAVIS (e-humanidades),
MAVIR (acceso multilingüe al Web), CARTO
(cartografía de I+D), ICYTnet (Bibliotecas
Virtuales), Ciencia e Internet (Análisis, descripción
y evaluación)
 Proyectos europeos: WISER (cibermetría),
EICSTES (indicadores I+D), PEKING (gestión del
conocimiento), IMPACT-INFO2000 (sociedad de la
información)
 Revistas: Editor “Cybermetrics”; Comité asesor
“El Profesional de la Información”
 Premio IWE 1996 Personalidad del año
2
Agenda


Definición y objeto de la cibermetría
Cibermetría descriptiva

El tamaño de Internet



Infraestructuras: Ordenadores, servidores y dominios
Cibergeografía, Ciberdemografía
Webespacio

El problema de los gTLD





Traductores de IP
El Webespacio académico
Ficheros ricos y ficheros media
Idiomas en la red
Internet invisible
3
Agenda (II)

Métodos, herramientas y aplicaciones (I)

Captura directa: Agentes personales


Métodos indirectos






Motores de búsqueda: - Características y problemática
Multibuscadores
Cibermetría de los motores de búsqueda


Volcadores, inspectores de enlaces y mapeadores
Tamaño y solapamiento
Composición y estructura
Calidad, actualización y cobertura
Recuperación automática inteligente
Cibercienciometría




Desarrollo de indicadores de I+D en el Web
Análisis de enlaces hipertextuales (sitas) y Factor de Impacto Web
Co-sitación, redes sociales y teoría del “small world”
Bibliometría de revistas electrónicas y depósitos de documentos
4
Agenda (III)

Métodos, herramientas y aplicaciones (II)

Evaluación cuantitativa de sedes Web



Webmetría


El modelo Google (PageRank)
Calidad de los enlaces, visibilidad e impacto
Análisis de las visitas a sedes Web (“Web usage Mining”)
Informetría


Web data mining
Leyes informétricas

Ley de Lotka (Zipf)
5
CIBERMETRIA
Infraestructuras y Servidores, redes, tráfico
Ciberdemografía, cibergeografía
usuarios
Correo electrónico
Mensajería
Listas y foros
electrónica
Mensajería interactiva: chat, videoconferencia
Topología de la Web
Análisis de objetos/ficheros
Indicadores
Webometría
Análisis de enlaces
Web
Evolución y dinámica
Volumen y composición
Web visible
Motores de búsqueda
Algoritmos
Estudios de usuarios
Métricas de la arquitectura Usabilidad
Calidad
Accesibilidad
de la información
Blogometría / Wikimetría
Comunidades online
Revistas electrónicas
Repositorios
Internet invisible e-Bibliometría
Bases de datos bibliográficas
Análisis de citas
Cibermetría
Posicionamiento en motores de búsqueda
aplicada
Webmetría
Análisis de ficheros log
Minería Web
Análisis de texto
Comparación/combinación datos Web/no Web
e-Cienciometría
6
MODULO 1
Cibermetría Descriptiva
Análisis Web
Otros temas:
Usabilidad
Accesibilidad
Definición

Cibermetría es la disciplina dedicada a la
descripción cuantitativa de los contenidos y
procesos de comunicación que se producen en
el ciberespacio


Ciberespacio es el conjunto de contenidos accesibles en
formato electrónico. La condición de accesibilidad
universal de Internet aconseja utilizar el termino como
sinónimo de la Internet de los contenidos,
fundamentalmente pero no exclusivamente, el webespacio
Puesto que la Cibercienciometría es el sub-campo más
desarrollado, por razones prácticas se nombra con el
término más general de Cibermetría o el más específico
de Webometría
8
Disciplinas cuantitativas
informetría
bibliometría
cienciometría
Cibercienciometría
webometría
cibermetría
Adaptado de Björneborn
9
Cibermetría y afines
10
Otras relaciones
Política científica
Gestión de la investigación
Documentación científica
Bibliotecas
Servicios para
Investigación en
Economía
Sociología de la ciencia
aplicada
Biblioeconomía y
Documentación
Historia de la ciencia
Cienciometría
básica
Informetría
Ciencias de la vida
Webometría
Matematicas/Física
Otras ciencias/Humanidades
www.ulb.ac.be/unica/docs/Sch-com-2004-pres-Glanzel.ppt
11
Contenidos
12
Unidades
13
Internet Invisible
14
Ventajas métricas

La presencia en el Web refleja mas y mejor las
actividades de la institución o individuo que las
publicaciones tradicionales en papel


El Web alcanza una mayor audiencia que otros
medios tradicionales de comunicación científica.


En el entorno académico, profesores, investigadores y
estudiantes colocan en la Red material inédito, borradores de
trabajos, versiones preliminares de artículos, material para
cursos, transparencias para presentaciones o bases de datos
Las revistas científicas tienen una distribución restringida
La naturaleza hipertextual del Web ofrece la
posibilidad de descubrir patrones ocultos entre las
diferentes sedes

Las sedes académicas enlazan con otras sedes de carácter
económico, industrial, cultural, político o social
15
Áreas de aplicación: Informetría
Informetría: Estudio matemático de la información,
descripción cuantitativa de los patrones de aparición,
distribución, frecuencia, gestión, recuperación.
Estadística de las unidades básicas de transmisión de
información


Comportamiento matemático de las unidades en Internet
 Determinación del tamaño
 Distribuciones informétricas
 Dinámica y evolución (páginas Web, mensajes de correo electrónico)
Caracterización cuantitativa de herramientas de recuperación
 Motores de búsqueda
16
Áreas de aplicación: Cienciometría
Cienciometría: Estudio cuantitativo y evaluación de los
factores, procesos de la actividad investigadora y de los
resultados producidos por científicos y tecnólogos
Producción y distribución de contenidos científicos
 Presencia institucional y niveles inferiores
 Comunicación científica: formal e informal
 Análisis de citas
 Citas bibliográficas entre revistas en papel y electrónicas
 Citas de recursos Web en revistas
 Análisis de enlaces hipertextuales
 Desarrollo de indicadores para I+D+i
 Estudios de caso
 Cooperación internacional
 Estudios de género

17
Áreas de aplicación: Bibliometría
Bibliometría: Estudio de las características de una
colección de documentos de acuerdo al volumen de
información que contienen y la descripción cuantitativa
de los elementos descriptivos individuales: autor, editor,
fuente, características físicas, etc…
Bases
de datos bibliográficos
Internet Invisible
Colecciones de documentos
Repositorios
Revistas electrónicas
Formatos ricos: pdf, ps, doc, rtf, ppt, ...
18
Nuevas áreas de aplicación

Webometría

Topología de redes hipertextuales
Redes sociales
PageRank, HITS

Análisis comparativo de herramientas de búsqueda



Cibercienciometría





Estudios de correo y foros electrónicos
“Big Science” & Grid
Cibergeografía y ciberdemografía
Nuevas unidades: sedes Web
Nuevos indicadores


Visibilidad
Popularidad
19
Cibergeografía, ciberdemografía

Datos y fuentes






Internet Geography Project
www.zooknic.com
Cybergeography
www.cybergeography.org
Clickz Surveys
www.clickz.com/stats
Blog
www.internetworldstats.com/blog.htm
Demography and Geography of the Internet
www.sociosite.org/demography.php
www.sociosite.net/topics/webgeography.php
Internet Demographics Directory
internet-demographics.netfirms.com
20
Ciberdemografía
www.internetworldstats.com/stats.htm
21
Ciberdemografía (II)
22
Ciberdemografía
www.internetworldstats.com/stats7.htm
23
Tamaño de Internet: Infraestructuras

Hosts




Servidores


Lottor (Mundo)
www.isc.org/solutions/survey/
RIPE (Europa)
www.ripe.net/info/stats/hostcount/
Asia Web Watch (2002)
www.ciolek.com/Asia-Web-Watch/main-page.html
Netcraft
Dominios
www.netcraft.com
Mundo
www.norid.no/domenenavnbaser/domreg.html

Domain worldwide
www.domainworldwide.com
www.verisign.com/Resources/Naming_Services_Resources/Domain_Name_Industry
_Brief/

Web Hosting Info
www.webhosting.info

Alemania (y otros)
www.denic.de/en/domains/statistiken

España
www.nic.es

Estudios
www.zooknic.com


Experimentos


Capturando Tablas con Excel
Servidores en universidades iberoamericanas
24
Evolución de Internet (Lottor)
25
Lottor y Excel
26
Servidores Web
http://news.netcraft.com/archives/web_server_survey.html
27
Zooknic
28
Situación en España
https://www.nic.es/estadisticas/article/293
29
Web Hosting Info
30
Contenidos en el Web


Webespacio

Spireproject

Actualidad
10.000 millones (10/02)
spireproject.com/art13.htm
+120.000 millones
Archive
Google Cache
www.archive.org
www.google.com
Depósitos



Tráfico

El 80% de las sesiones de navegación en el Web implican el
uso de un motor de búsqueda o un directorio. Yahoo, Live y,
muy especialmente, Google son los intermediarios más
importantes
31
Wayback Machine
32
El problema de los gTLD

gTLD





Tradicionales: com, org, net, int
Nuevos: biz, info, name, aero, coop, museum, eu, cat
De facto: .cx, .tv, .cc, .fm, .nu, .ws
Casos especiales: edu
Experimentos

Google/Yahoo/MSN/Exalead




Delimitador site: Problemática con TLD
Dominios y países
Dominios internacionales
Traductores de IP




IP Locator 1.41
AW IP Locator 2.0
IP Address Locator
Ip2location
www.atelierweb.com/iploc
www.geobytes.com/IpLocator.htm?GetLocation
www.ip2location.com/free.asp
33
Tamaño
Google, Enero 2008
34
gTLD de facto
Google, Enero 2006
35
Google: Idiomas y países
36
Exalead: Idiomas y países
37
Invocación (mención)
38
gTLD y cTLD especiales
Intranet
Google, Enero 2006
39
Contribución UE a los gTLD
Intranet
Google, Enero 2006
40
IP Locator
41
IP Address Locator Tool
42
El Webespacio académico

Sedes

Dominios institucionales




OCLC Web Characterization (1998-2002)
http://www.oclc.org/research/projects/archive/wcp/
Sitios y Sedes
Netcraft mayo 2009: 240 millones de sitios web
 Activos (50%) * (5-10 sedes/sitio) ~ 1000 mill. sedes
Webespacio académico

Subdominios académicos

No todos los países
43
Subdominios académicos
ac.ae
ac.at
ac.bd
ac.be
ac.bw
ac.by
ac.ci
ac.cn
ac.cr
ac.cy
ac.fj
ac.gg
ac.gs
ac.id
ac.il
ac.im
ac.in
ac.ir
ac.je
ac.jp
ac.ke
ac.kr
ac.lk
ac.lv
ac.ma
ac.mu
ac.mz
ac.nz
ac.pa
ac.pg
ac.pl
ac.ru
ac.rw
ac.se
ac.sg
ac.sz
ac.th
ac.tz
ac.ug
ac.uk
ac.uz
ac.vn
ac.yu
ac.za
ac.zm
ac.zw
acad.bg
edu.al
edu.am
edu.ar
edu.au
edu.az
edu.ba
edu.bb
edu.bh
edu.bm
edu.bn
edu.bo
edu.br
edu.bs
edu.bt
edu.by
edu.bz
edu.ck
edu.cn
edu.co
edu.cu
edu.dm
edu.do
edu.dz
edu.ec
edu.ee
edu.eg
edu.gd
edu.ge
edu.gh
edu.gr
edu.gs
edu.gt
edu.gu
edu.hk
edu.hn
edu.hu
edu.jm
edu.jo
edu.kg
edu.kh
edu.kn
edu.kw
edu.ky
edu.kz
edu.lb
edu.lc
edu.li
edu.lv
edu.mk
edu.mm
edu.mn
edu.mo
edu.mp
edu.mt
edu.mx
edu.my
edu.na
edu.nf
edu.ng
edu.ni
edu.np
edu.om
edu.pa
edu.pe
edu.ph
edu.pk
edu.pl
edu.pr
edu.pt
edu.py
edu.qa
edu.ru
edu.sa
edu.sg
edu.sh
edu.st
edu.sv
edu.to
edu.tr
edu.tt
edu.tw
edu.ua
edu.uy
edu.ve
edu.vg
edu.vn
edu.ws
edu.ye
edu.yu
edu.za
edu.zm
44
Caracterizando la academia
Google, Enero 2006
45
Contexto
Web Pública
Web Privada
Internet Invisible
Web Visible
Bases de
datos
Repositorios
Revistas
electrónicas
46
Bases de datos académicas

Web pública
Google Scholar
Publish or Perish
scholar.google.com
www.harzing.com/resources.htm#/pop.htm
Scirus
CiteSeerX
Citebase
Paracite
DBLP
Dialnet
In-extenso
www.scirus.com
citeseerx.ist.psu.edu
www.citebase.org
paracite.eprints.org
dblp.uni-trier.de
dialnet.unirioja.es
www.in-extenso.org
Google Scholar Blog
weblogs.elearning.ubc.ca/googlescholar
47
Google Scholar
48
Scholar
Publicaciones en dominios universitarios
(Datos propios, Julio 2006)
49
Scholar (II)
Trabajos en dominios
universitarios
(Enero ‘07)
50
Scholar: Publish or Perish
51
CiteSeerX
52
Subdominios y páginas personales

Yahoo Search

Comando feature:




Errores



feature:index
feature:homepage (sitios con ~)
feature:homepage feature:index
Respuestas no subdominios
Respuestas duplicadas
GoogSpy

Términos en dominios/subdominios
53
Subdominios
54
GoogSpy
55
SpyFu
56
Ficheros ricos y ficheros media

Ficheros ricos

Definición y tipos



Tamaño


Adobe Acrobat (pdf) y Postscript (ps)
MS Office: Word (doc, rtf), Excel (xls), Powerpoint (ppt)
Delimitadores: filetype (Google, Live, Exalead, Ask);
originurlextension (Yahoo)
Ficheros media

Definición y tipos


FilExt
www.filext.com
Localización en motores



Términos
Delimitadores
Bases de datos autónomas
57
Google (filetype)
58
Google (filetype)
FORMATOS
html
htm
php
asp
pdf
swf
doc
xls
ppt
ps
rtf
eps
Oct'02
62.600
55.500
18.700
25.600
7.360
2.500
2.120
502
442
658
342
125
Oct'04
129.000
88.800
78.600
65.700
20.100
4.220
4.530
1.150
901
1.380
689
171
Ago'05
846.000
276.000
89.700
137.000
73.800
16.100
10.600
2.490
3.700
3.520
1.340
784
Oct'07
4.110.000
1.460.000
1.140.000
684.000
190.000
36.100
30.700
13.900
11.800
9.240
6.010
825
Miles de ficheros
59
Bing (filetype)
60
FilExt
61
Imágenes en motores
62
Idiomas en la red

Fuentes y estudios

Usuarios según idioma



Global Reach
global-reach.biz/globstats/index.php3
Composición del webespacio
Experimentos con buscadores





Google
Yahoo!
Live (MSN) Search
Ask (Teoma)
Copernic
63
Usuarios según idioma
http://www.glreach.com/globstats/index.php3
64
Idiomas (Google)
<lr> value
Idioma
Arabic
Chinese (S)
Chinese (T)
Czech
Danish
Dutch
English
Estonian
Finnish
French
German
Greek
Hebrew
Hungarian
Código
lang_ar
lang_zh-CN
lang_zh-TW
lang_cs
lang_da
lang_nl
lang_en
lang_et
lang_fi
lang_fr
lang_de
lang_el
lang_iw
lang_hu
Language
Language
Idioma
Icelandic
Italian
Japanese
Korean
Latvian
Lithuanian
Norwegian
Portuguese
Polish
Romanian
Russian
Spanish
Swedish
Turkish
Código
lang_is
lang_it
lang_ja
lang_ko
lang_lv
lang_lt
lang_no
lang_pt
lang_pl
lang_ro
lang_ru
lang_es
lang_sv
lang_tr
65
Idiomas
Language
<lr> value
Language
Google, Enero 2006
66
Países (Google)
Andorra
United Arab Emirates
Afghanistan
Antigua and Barbuda
Anguilla
Albania
Armenia
Netherlands Antilles
Angola
Antarctica
Argentina
American Samoa
Austria
Australia
Aruba
Azerbaijan
Bosnia and Herzegowina
Barbados
Bangladesh
Belgium
Burkina Faso
Bulgaria
Bahrain
Burundi
Benin
Bermuda
Brunei Darussalam
Bolivia
Brazil
Bahamas
AD
AE
AF
AG
AI
AL
AM
AN
AO
AQ
AR
AS
AT
AU
AW
AZ
BA
BB
BD
BE
BF
BG
BH
BI
BJ
BM
BN
BO
BR
BS
Bhutan
Bouvet Island
Botswana
Belarus
Belize
Canada
Cocos (Keeling) Islands
Congo, DR
Central African Republic
Congo
Switzerland
Cote D'ivoire
Cook Islands
Chile
Cameroon
China
Colombia
Costa Rica
Cuba
Cape Verde
Christmas Island
Cyprus
Czech Republic
Germany
Djibouti
Denmark
Dominica
Dominican Republic
Algeria
Ecuador
BT
BV
BW
BY
BZ
CA
CC
CD
CF
CG
CH
CI
CK
CL
CM
CN
CO
CR
CU
CV
CX
CY
CZ
DE
DJ
DK
DM
DO
DZ
EC
Estonia
Egypt
Western Sahara
Eritrea
Spain
Ethiopia
European Union
Language
Finland
Fiji
Falkland Islands (Malvinas)
Micronesia, FS
Language
Faroe Islands
France
France, Metropolitan
Gabon
United Kingdom
Grenada
Georgia
French Quiana
Ghana
Gibraltar
Greenland
Gambia
Guinea
Guadeloupe
Equatorial Guinea
Greece
South Georgia/South Sandwich I.
Guatemala
Guam
EE
EG
EH
ER
ES
ET
EU
FI
FJ
FK
FM
FO
FR
FX
GA
UK
GD
GE
GF
GH
GI
GL
GM
GN
GP
GQ
GR
GS
GT
GU
Guinea-Bissau
Guyana
Hong Kong
Heard and Mc Donald Islands
Honduras
Croatia (Hrvatska)
Haiti
Hungary
Indonesia
Ireland
Israel
India
British Indian Ocean Terr.
Iraq
Iran
Iceland
Italy
Jamaica
Jordan
Japan
Kenya
Kyrgyzstan
Cambodia
Kiribati
Comoros
Saint Kitts and Nevis
Korea, DPR
Korea, Republic of
Kuwait
Cayman Islands
GW
GY
HK
HM
HN
HR
HT
HU
ID
IE
IL
IN
IO
IQ
IR
IS
IT
JM
JO
JP
KE
KG
KH
KI
KM
KN
KP
KR
KW
KY
Kazakhstan
Lao PDR
Lebanon
Saint Lucia
Liechtenstein
Sri Lanka
Liberia
Lesotho
Lithuania
Luxembourg
Latvia
Libya
Morocco
Monaco
Moldova
Madagascar
Marshall Islands
Macedonia, FYR
Mali
Myanmar
Mongolia
Macau
Northern Mariana Islands
Martinique
Mauritania
Montserrat
Malta
Mauritius
Maldives
Malawi
67
KZ
LA
LB
LC
LI
LK
LR
LS
LT
LU
LV
LY
MA
MC
MD
MG
MH
MK
ML
MM
MN
MO
MP
MQ
MR
MS
MT
MU
MV
MW
Países II (Google)
Mexico
Malaysia
Mozambique
Namibia
New Caledonia
Niger
Norfolk Island
Nigeria
Nicaragua
Netherlands
Norway
Nepal
Nauru
Niue
New Zealand
Oman
Panama
Peru
French Polynesia
Papua New Guinea
Philippines
Pakistan
Poland
St. Pierre and Miquelon
Pitcairn
Puerto Rico
Palestine
Portugal
Palau
Paraguay
MX
MY
MZ
NA
NC
NE
NF
NG
NI
NL
NO
NP
NR
NU
NZ
OM
PA
PE
PF
PG
PH
PK
PL
PM
PN
PR
PS
PT
PW
PY
Qatar
Reunion
Romania
Russian Federation
Rwanda
Saudi Arabia
Solomon Islands
Seychelles
Sudan
Language
Sweden
Singapore
St. Helena
Language
Slovenia
Svalbard and Jan Mayen Is.
Slovakia (Slovak Republic)
Sierra Leone
San Marino
Senegal
Somalia
Suriname
Sao Tome and Principe
El Salvador
Syria
Swaziland
Turks and Caicos Islands
Chad
French Southern Territories
Togo
Thailand
Tajikistan
QA
RE
RO
RU
RW
SA
SB
SC
SD
SE
SG
SH
SI
SJ
SK
SL
SM
SN
SO
SR
ST
SV
SY
SZ
TC
TD
TF
TG
TH
TJ
Tokelau
Turkmenistan
Tunisia
Tonga
East Timor
Turkey
Trinidad and Tobago
Tuvalu
Taiwan
Tanzania
Ukraine
Uganda
United States Minor Outlying I.
United States
Uruguay
Uzbekistan
Holy See (Vatican City State)
Saint Vincent and the Grenadines
Venezuela
Virgin Islands (British)
Virgin Islands (U.S.)
Vietnam
Vanuatu
Wallis and Futuna Islands
Samoa
Yemen
Mayotte
Yugoslavia
South Africa
Zambia
TK
TM
TN
TO
TP
TR
TT
TV
TW
TZ
UA
UG
UM
US
UY
UZ
VA
VC
VE
VG
VI
VN
VU
WF
WS
YE
YT
YU
ZA
ZM
68
Listados de universidades
Braintrack
www.braintrack.com
Universities Worldwide
univ.cc
Webometrics Catalogue
www.webometrics.info/university_by_country_select.asp
HEIR
siu.no/heir
General Education Online
www.findaschool.org
International Colleges and Universities
www.4icu.org
Portal Tecnociencia
www.tecnociencia.es
Universia
www.universia.es
Canadian Universities
www.uwaterloo.ca/canu
U.S. Universities by State
www.utexas.edu/world/univ/state
Top American Research Universities
thecenter.ufl.edu
UK Higher Education Map
www.scit.wlv.ac.uk/ukinfo/uk.map.html
Times World Universities Rankings
www.thes.co.uk/worldrankings
German University Ranking
www.university-ranking.org
Academic Ranking of World Universities
ed.sjtu.edu.cn/ranking.htm
All Universities around the World
www.bulter.nl/universities
Ranking of China Universities
rank2005.netbig.com
Alphabetical Index of Japanese Universities camp.ff.tku.ac.jp/TOOL-BOX/JapanUNIV
Language
Language
69
Internet invisible

Características


Tamaño y Calidad
Fuentes



Complete Planet
Internet Invisible
Descripción

Identificación




Institución
País/Idioma
Temática
www.completeplanet.com
www.internetinvisible.com

Cualitativa


Cuantitativa




Tamaño
Visibilidad
Estructura
Cobertura
Actualización
Recuperación
70
Agentes personales (I)

Volcadores
AaronWebVacuum 2.72
JOC WebSpider 5.5
Teleport Pro 1.60
Leech 4.3
WebCopier 4.6
BlackWidow 5.22
MemoWeb 4.0
Offline Commander 2.1
WebReaper 10
Offline Explorer Pro 5.1
Website Extractor 9.70
WebWhacker 5.0
WebZip 7.1
www.surfwarelabs.com
www.jocsoft.com
www.tenmax.com
www.aeria.com
www.maximumsoft.com
www.softbytelabs.com
www.goto.fr
www.zylox.com
www.webreaper.net
www.metaproducts.com
www.asona.org
www.bluesquirrel.com
www.spidersoft.com
71
Agentes personales (II)

Inspectores de enlaces
Alert LinkRunner 6.01
HTML Link Validator 4.47
HTML Validator Professional 9.0
Link Checker Pro 3.3
LinkScan Workstation 12
Web Link Validator 5.0
Xenu's Link Sleuth 1.3
www.alertbookmarks.com/lr
www.lithopssoft.com
www.htmlvalidator.com
www.link-checker-pro.com
www.elsop.com
www.relsoftware.com/wlv
home.snafu.de/tilman/xenulink.html
72
Agentes personales (III)

Extractores HTML


WebData Extractor 7.2 www.webextractor.com
Experimentos


Volcado de sede con el volcador Teleport Pro
Mapeado de la sede volcada con Xenu


Mapeado directo de la sede con Xenu


Inspección de links
Inspección de links
Tamaño de la sede según los motores de búsqueda

Google, Yahoo, Exalead, Ask, Gigablast
73
WebDataExtractor
74
Volcado, inspección y mapeado
75
Cibermetria de motores de búsqueda

Motores de búsqueda: Características y
problemática

6? grandes motores “distintos”









Google
Yahoo Search
Bing (ex-Live, ex MSN Search)
Ask (ex-Teoma)
Exalead
Wisenut
Gigablast
Alexa
Estudios sobre motores
Search Engine Showdown
searchengineshowdown.com
Search Engine Watch
searchenginewatch.com
76
¿Sólo siete (+uno)?
2003
Base de datos
Sede
GOOGLE
NETSCAPE
YAHOO
ALTAVISTA
ALLTHEWEB
LYCOS
IWON
HOTBOT
MSN SEARCH
TEOMA
ASK JEEVES
ALEXA
GOOGLE
ALTAVISTA
FAST
GOOGLE
INKTOMI
2004-2005
Base de datos
Sede
GOOGLE
NETSCAPE GOOGLE
YAHOO
ALTAVISTA YAHOO
ALLTHEWEB
LYCOS
TEOMA
IWON
GOOGLE
WISENUT
WISENUT
MSN SEARCHMSN SEARCH
TEOMA
TEOMA
ASK JEEVES
ALEXA
GOOGLE/MSN SEARCH
A9
EXALEAD
EXALEAD
WISENUT
WISENUT
GIGABLAST
GIGABLAST
GIGABLAST GIGABLAST
TEOMA
GOOGLE
2006-2007
Base de datos
Sede
GOOGLE
NETSCAPE
YAHOO
ALTAVISTA
ALLTHEWEB
LYCOS
IWON
HOTBOT
LIVE
LIVE
ASK
ASK
ALEXA
A9
EXALEAD
WISENUT
GIGABLAST
HEREUARE
ALEXA
LIVE
EXALEAD
WISENUT
GOOGLE
YAHOO
ASK
GIGABLAST
77
Cibermetria de motores de búsqueda
GOOGLE
YAHOO
BING (LIVE)
EXALEAD
ASK
GIGABLAST
site:xx
NO
site:xx
site:xx
site:xx
site:xx
site:aa.xx
NO 1
site:aa.xx
site:aa.xx
site:aa.xx
site:aa.xx
directorio
site:aa.xx/bb
(inurl:aa.xx/bb)
site:aa.xx/bb
site:aa.xx/bb
NO
palabra url
inurl:xx
inurl:xx
NO
NO
inurl:xx
url:xx
inurl:xx
inurl:xx
link:aa.xx/b.htm
NO
NO
link:www.aa.xx
(NO)
(NO)
NO
(linkdomain:aa.xx)
NO
link:aaa.xx
NO
NO
tipo fichero
filetype:yy
originurlextension:yy
filetype:yy
filetype:yy
filetype:yy
filetype:yy
idioma
Avanzada
Avanzada
Avanzada
Avanzada
Avanzada
NO
país
Avanzada
Avanzada
(Avanzada)
Avanzada
Avanzada
NO
TLD
dominio
enlace
enlace
dominio
78
Delimitadores (I)
MOTORES DE
BUSQUEDA
GOOGLE
site:es
MSN SEARCH
site:es
YAHOO SEARCH site:es
site:es
ASK
+inurl:es
EXALEAD
site:es
GIGABLAST
site:es
DOMINIO
AGO'05
AGO'06
11.500.000 138.000.000
18.137.099 16.710.809
117.000.000 70.400.000
49.130.000
32.150.000
3.160.589
10.823.751
1.288.876
MOTORES DE
BUSQUEDA
GOOGLE
site:csic.es
MSN SEARCH
site:csic.es
YAHOO SEARCH site:csic.es
site:csic.es
ASK
+inurl:csic.es
EXALEAD
site:csic.es
GIGABLAST
site:csic.es
SUBDOMINIO / SITIO
AGO'05
AGO'06
346.000 3.320.000 site:www.cindoc.csic.es
117.099 153.363 site:www.cindoc.csic.es
199.000 272.000 site:www.cindoc.csic.es
site:www.cindoc.csic.es
256.100 129.500
+inurl:www.cindoc.csic.es
19.978
46.150 site:www.cindoc.csic.es
15.916
13.764 site:www.cindoc.csic.es
AGO'05 AGO'06
4.590 21.700
2.647 2.174
2.430 3.930
3.270
3.520
901
500
1.243
455
79
Google Data Centers
http://www.vaughns-1-pagers.com/internet/google-data-centers.htm
80
http://www.webrankinfo.com/english/tools/google-data-centers.php
81
Delimitadores (II)
MOTORES DE
BUSQUEDA
GOOGLE
MSN SEARCH
ASK
EXALEAD
SUBDIRECTORIO
AGO'05 AGO'06
site:www.csic.es/cbic
site:www.csic.es/cbic
inurl:www.csic.es/cbic
site:www.csic.es/cbic
AGO'05 AGO'06
8.050 29.700 site:www.cindoc.csic.es/cybermetrics
1.926 2.228 site:www.cindoc.csic.es/cybermetrics
3.650 2.290 inurl:www.cindoc.csic.es/cybermetrics
619
914 site:www.cindoc.csic.es/cybermetrics
MOTORES DE
BUSQUEDA
GOOGLE
MSN SEARCH
YAHOO SEARCH
ASK
EXALEAD
GIGABLAST
249
643
1.890
217
9.540
342
2.290
183
PALABRA EN URL
AGO'05 AGO'06
inurl:cybermetrics
inurl:cybermetrics
inurl:cybermetrics
inurl:cybermetrics
inurl:cybermetrics
suburl:cybermetrics
702 14.700
0
0
1.920 3.620
2.050 1.250
977
536
496
82
Delimitadores (III)
MOTORES DE
ENLACE A DOMINIO / SITIO
AGO'05 AGO'06
BUSQUEDA
MSN SEARCH
linkdomain:csic.es
205.127 229.310
YAHOO SEARCH linkdomain:csic.es
152.000 245.000
EXALEAD
link:csic.es
26.637 24.941
AGO'05 AGO'06
MSN SEARCH
linkdomain:cindoc.csic.es
YAHOO SEARCH linkdomain:cindoc.csic.es
EXALEAD
link:cindoc.csic.es
36.608
19.000
2.133
45.184
26.400
2.785
AGO'05 AGO'06
MSN SEARCH
linkdomain:www.cindoc.csic.es
YAHOO SEARCH linkdomain:www.cindoc.csic.es
EXALEAD
link:www.cindoc.csic.es
9.460
12.700
1.448
9.840
15.300
2.016
83
Delimitadores (IV)
MOTORES DE
ENLACE A SECUENCIA DE CARACTERES
AGO'05 AGO'06
BUSQUEDA
GOOGLE
link:www.csic.es/cbic
7
639 link:www.csic.es/cbic/cbic.htm
MSN SEARCH
link:www.csic.es/cbic
15
16 link:www.csic.es/cbic/cbic.htm
YAHOO SEARCH link:http://www.csic.es/cbic
44
69 link:http://www.csic.es/cbic/cbic.htm
EXALEAD
link:www.csic.es/cbic/cbic.htm
GIGABLAST
link:www.csic.es/cbic/cbic.htm
AGO'05 AGO'06
288
3.015
11500
553
429
639
2.666
3130
783
221
84
Delimitadores (V)
MOTORES DE
BUSQUEDA
GOOGLE
MSN SEARCH
YAHOO SEARCH
ASK
EXALEAD
MOTORES DE
BUSQUEDA
GOOGLE
MSN SEARCH
YAHOO SEARCH
ASK
EXALEAD
PAISES
AGO'05
formulario (España) site:com
6.550.000
loc:es site:com
50.797.387
formulario (España) site:com 140.000.000
sedes nacionales
formulario (España) site:com
IDIOMAS
AGO'05
AGO'06
72.100.000
41.904.669
90.700.000
32.560.000
15.902.881
AGO'06
formulario (español) site:com 18.000.000 163.000.000
language:es site:com
114.474.312 117.455.638
formulario (español) site:com 224.000.000 133.000.000
lang:ES site:com
114.330.000 58.020.000
language:es site:com
12.333.552 31.087.150
85
Delimitadores (VI)
MOTORES DE
BUSQUEDA
GOOGLE
MSN SEARCH
YAHOO SEARCH
EXALEAD
GIGABLAST
TIPO DE FICHERO
AGO'05
filetype:pdf site:com
filetype:pdf site:com
originurlextension:pdf site:com
filetype:pdf site:com
type:pdf site:com
AGO'05
GOOGLE
MSN SEARCH
YAHOO SEARCH
EXALEAD
GIGABLAST
filetype:doc site:csic.es
filetype:doc site:csic.es
originurlextension:doc site:csic.es
filetype:doc site:csic.es
type:doc site:csic.es
AGO'06
17.600.000 98.900.000
74.963.752 60.397.991
72.600.000 69.200.000
4.082.595 8.115.109
133.271
4.060
264
2.690
317
109
AGO'06
32.100
185
2.530
471
195
86
Siguiendo a Notess

Instalación de Copernico 5.2


Capacidad de exportación a Excel
Experimentos


Cobertura
Tamaño (Copernic)




Solapamiento (Copernic)


Búsqueda de términos (varios motores)
Búsquedas delimitadas (cada motores)
Teoría del máximo
300 primeros resultados
Calidad de los enlaces (Copernic)

Porcentaje de enlaces muertos (un único motor seleccionado)
87
Copernic
88
Visualización

Relaciones “ocultas”

TouchGraph Google
www.touchgraph.com/TGGoogleBrowser.html







Instalación previa del Java JRE 1.3+
Prácticas con un nodo
Prácticas con más de un nodo
Kartoo
Grokker
Mooter
Ujiko
www.kartoo.com
www.grokker.com
www.mooter.com
www.ujiko.com
89
TouchGraph
90
Kartoo
91
Metabuscadores

Primera generación
Vivisimo
ZapMeta
Mooter
iBoogie
Infonetware
MetaEureka
Surfwax
Info

www.vivisimo.com
www.zapmeta.com
www.mooter.com
www.iboogie.tv
www.infonetware.com
www.metaeureka.com
www.surfwax.com
www.info.com
Segunda generación
Copernico (5.2/6.1)
www.copernic.com
92
Límites de los Metabuscadores
Resultados proporcionados por buscadores y metabuscadores (Octubre
scientometrics ornithology "Albert Einstein"
Términos de búsqueda:
ALLTHEWEB
6.718
258.498
1.108.420
GOOGLE
8.260
112.000
554.000
Buscadores
WISENUT
2.932
90.608
565.892
ALTAVISTA
2.522
50.845
452.982
TEOMA
2.087
42.290
233.850
GIMENEI
73
70
71
ICYSPICY
33
57
55
METAEUREKA
42
46
56
Metabuscadores EZ2WWW
395
339
302
IBOOGIE
221
238
236
VIVISIMO
307
466
220
FUZZLE
1.050
1.057
1.016
2002)
God
39.421.287
36.800.000
13.475.757
12.488.621
7.535.000
82
72
73
335
299
454
999
93
Metabuscadores
94
Recuperación automática inteligente

Copernic 6.1 Pro









www.copernic.com
Indización
Asignación automática de idiomas
Filtrado por región y dominio
WebQL 4.2
Screen Scraper 4.5
Web Content Extractor 3.1
Brown Recluse 1.58
WebAnalyst/PolyAnalyst 6.0
Anthracite (Mac) 1.7
www.ql2.com
www.screen-scraper.com
www.newprosoft.com
softbytelabs.com
www.megaputer.com
www.metafy.com
95
Copernic
96
WebQL
97
Calidad, visibilidad e impacto

Evaluación cuantitativa de sedes Web

El modelo Google


Instalación de la ToolBar (toolbar.google.com)
Page Rank



Escala logarítmica
rankwhere.com/google-page-rank.php
www.rustybrick.com/pagerank-prediction.php
Componentes: visibilidad + peso
Visibilidad




Tipos de enlaces: inlinks, outlinks, self-links, back-links
Cálculo mediante el uso de motores de búsqueda
Impacto Web (WebIF)
Calidad de los enlaces: Inspectores de enlaces
98
Google Toolbar
99
RankWhere
100
PageRank Prediction
101
urltrends
102
Nutch
search.isc.swlabs.org/en
103
Popularidad

Número de visitas


Dificil de conseguir en estudios amplios comparativos
Posición relativa






Popularidad según Alexa
 Sólo dominios
 Amplia cobertura mundial
 Algunos valores “absolutos”
 Evolución temporal
 Sesgos geográficos (+ Asia)
Snapshot
 Solo USA!!!
Ranking.com
Traffic Estimate
Popularidad según Netcraft
 Sedes y variantes
 Cobertura más restringida
No comparables
www.alexa.com
snapshot.compete.com
www.ranking.com
www.trafficestimate.com
toolbar.netcraft.com/site_report
104
Alexa
105
Limitaciones de Alexa
106
Desigualdades en Alexa
Posición
% VISITAS
Top 3
23
Top 500
45
Número 10
5
Número 100
0,1
Número 1.000
0,06%
Número 10.000
0,02%
107
Snapshot
108
109
110
111
Trabajando con enlaces

Visibilidad

Inlinks (enlaces recibidos)



Outlinks (enlaces emitidos)=Luminosidad

Inspectores de enlaces
Bing: linkfromdomain:

Yahoo: linkdomain: +site:



Selflinks (auto-enlaces)
Impacto Web

Definición del WebIF


Yahoo: linkdomain: -site:
Exalead: link: -site:
Cálculo=Visibilidad/tamaño
Calidad

Inspectores de enlaces
112
Terminología básica


A

B
E
G


C
D
F

B has an outlink to C : ~ reference
B has an inlink from A : ~ citation
B has a selflink : ~ self-citation
E and F are reciprocally linked
A is transitively linked with H via B-D
A has a transversal link to G : short cut
H

co-links

C and D are co-linked from B,
i.e. shared inlinks: co-citation
B and E are co-linking to D,
i.e. shared outlinks: bibliog.coupling
113
Cibercienciometria

Desarrollo de indicadores de I+D en el Web

Unidades




Modelos
Indicadores
Co-sitación, redes sociales y teoría del “small world”


sede institucional
Small World
vip.db.dk/lb/phd/phd-presentation.ppt
Bibliometría de revistas-e y depósitos de documentos






CiteSeerX
CiteBase
Google Scholar
Arxiv
Scirus
DBLP
citeseerx.ist.psu.edu
www.citebase.org/search
scholar.google.com
arxiv.org
www.scirus.com
dblp.uni-trier.de
114
Indicadores Web
115
Indicadores (I)
116
Indicadores (II)
117
Indicadores (III)
118
Indicadores (IV)
119
Indicadores (V)
120
Obtención de indicadores

Experimentos

Codificación




Institucional
Temática (UNESCO)
Geográfica (NUTS)
Cálculo de indicadores

Visibilidad (sitas)






Visibilidad de los ficheros ricos
Visibilidad de artículos en depósitos
Visibilidad de revistas electrónicas
Impacto (WebIF)
Diversidad
Co-citación
121
Indicadores combinados

Factor de Impacto Web (WebIF)


Visibilidad (sitas)/ Tamaño páginas
Webometrics (Academic) Rank

Tamaño


Páginas (motores)
Ficheros (motores)
Ficheros ricos:
pdf, ppt, doc, ps


Visibilidad

Enlaces externos
recibidos (motores)
Artículos
Google Scholar
Ratio 1:1
WR = 2*S+1*R+1*Sc + 4*V
122
www.webometrics.info
123
Tamaño (número de páginas)
124
Co-citación
125
Ejemplo
126
Ejemplo (II)
127
Otros rankings
http://vcmike.blogspot.com/2006/01/ranking-colleges-using-google-and-oss.html
128
Otros rankings: G-factor
www.universitymetrics.com/g-factor
129
Related (I)
130
Related (II)
131
Repositorios

Una (green road) de las iniciativas “Open Access”


Tipología




Personales
Institucionales
Temáticos (verticales)
Ventajas


Depósitos de artículos científicos de acceso gratuito, inmediato,
permanente, a texto completo a través de la web
 Pero también: Pre-prints, libros, actas de congresos, ficheros
multimedia, material docente, divulgación, software, datos en
bruto, ..
Rapidez en la difusión, mayor visibilidad, amplia utilización y
mejores posibilidades de cita
Métrica de los repositorios


Cita
Uso
132
Recursos
Directory of Open Access Repositories
Registry of Open Access Repositories
Arxiv
eprintWeb
eprintweb.org/S/
Digital Bibliography and Library Project
RWTH Aachen
DBL Browser
Research Papers in Economics
IDEAS
CiteSeer
www.opendoar.org
archives.eprints.org
arxiv.org
dblp.uni-trier.de
sunsite.informatik.rwth-aachen.de/dblp/db
dbis.uni-trier.de/DBL-Browser
repec.org
ideas.repec.org
citeseer.ist.psu.edu
MIT
citeseer.csail.mit.edu
ETH Zurich
UN Singapore
sherry.ifi.unizh.ch
citeseer.comp.nus.edu.sg/cs
Cognitive Sciences Eprint Archive
Eprints for LIS
Citebase
cogprints.org
eprints.rclis.org
www.citebase.org
133
RePEc
134
OpenDOAR
135
E-LIS
136
Arxiv/eprintweb
137
DBLBrowser
138
Proyecto MESUR
mesur.lanl.gov/JCDL07poster_bollen.pdf
139
MODULO 2
Cibermetría Aplicada
Posicionamiento en motores
Cibermetría aplicada

No sólo hay que publicar en la Web, sino lograr
visibilidad




En el 80% de las sesiones Web se utilizan motores de
búsqueda


Lograr un gran número de visitas (audiencia real cercana a la
potencial)
Recibir enlaces externos
Estar presente en directorios y portales
El posicionamiento es clave para incrementar la visibilidad
La calidad influye en la obtención de una buena
posición, pero también ...



El volumen de información
La estructura hipertextual
La anotación de los contenidos
141
Posicionamiento

Medidas de presencia



Medidas de visibilidad



Indización en directorios
Páginas realmente indizadas por el motor/Páginas totales
Page Rank
Prominencia por términos
Medidas de uso y consumo

Popularidad
•
•

Absoluta: Número de visitas
Relativa: Ranking Alexa
Consumo
•
•
•
Número de ficheros volcados
Tiempo medio de visita
Términos de referencia más frecuentes
142
PageRank Google
Barra (Toolbar) de Google: Valores enteros entre 0 y 10
143
PageRank (Posiciones)
144
Visibilidad MSN Search
145
Problemas

El diseño es irrelevante e incluso puede ser
contraproducente



Internet invisible


Las bases de datos y muchas páginas dinámicas no son
indizadas por los motores de búsqueda
Link quality


Pocos contenidos indizables en la página principal
Animaciones Flash o programas Java que impiden la navegación
de los robots
Es necesario un exigente mantenimiento y actualización de los
enlaces externos o internos
Ficheros ricos

Los ficheros documentales son prácticos para la distribución de
información de valor añadido
•
Formatos pdf, ppt, doc, ps
146
Herramientas
Webmasters World
tools.webmastersworld.org
SEO Encyclopedia
Webmasters Tools
SEO Online
PageStrength
Data Centers Tool
SEO Tools
SEO Web Directory
SEO Company
SEO ToolSet
www.seopedia.info
tools.devshed.com
www.seoonline.info
www.seomoz.org/tools/page-strength.php
www.seocritique.com/datacentertool
www.seochat.com/seo-tools
www.seowebdirectory.com/SEO_Tools
www.seocompany.ca/tool/seo-tools.html
www.webconfs.com
147
148
149
Estimación de criterios en Google
CRITERIOS DE POSICIONAMIENTO (GOOGLE ¿?)
FILTRADO LINGÜÍSTICO (idioma del interfaz)
HIPERTEXTUALES (enlaces)
SEMANTICOS (términos)
Frecuencia Página Web
Número de enlaces
Texto del ancla
16%
externos
<TITLE>
PageRank
URL
Visible <Hn>
Peso relativo de las
50%
páginas que los
Texto
Posición
originan
<500 Kb
33%
<META>
<IMG ALT>
Densidad
Invisible
Enlaces
Frecuencia de
propios
<A>
enlaces rotos
Popularidad relativa (visitas interceptadas por el buscador)
Frecuencia de actualización o Actualidad
150
Comentarios

Estructura hipertextual





Frecuencia de aparición de los términos de búsqueda
Posición relativa de los mismos






Título y URL
Metadatos
Encabezamientos
Etiquetas ALT y anclajes externos
Periodicidad en la actualización


Madurez: Profundidad de las sedes
Visibilidad: PageRank
Vecindario: Enlaces internos y externos
Edad del documento (contenidos nuevos)
Popularidad: Visitas a la página
Aspectos locales (geográficos, lingüísticos)
151
Presencia de términos en la URL


Muy relevante
Preferiblemente en el dominio o subdominio


Recomendable hasta 30 caracteres
El orden es importante



http://mejor.bueno.xx/aceptable
Palabras completas, no truncadas
Términos independientes/frases (guión/guión bajo)


Universidad-Complutense= +Universidad +Complutense
Universidad_Complutense= “Universidad Complutense”
152
Agapea
153
Presencia de términos en el Título


Muy relevante
Contenidos de la etiqueta <TITLE>!!!






Palabras clave, no título
La posición es importante: cuidar las primeras palabras
Frase larga, sin palabras vacías (~70 caracteres)
No repetir términos, opción bilingüe
Identificación institucional, localización geográfica
También considerados los contenidos en las etiquetas <Hn>


El encabezamiento marca el título percibido <H1>
Derivar palabras genéricas: “Hola”, “Bienvenidos”, “Página de”
a niveles inferiores <H2> ó <H3>
154
Términos en Título
155
Metaetiquetas


Han perdido peso
Description





Keywords






Hasta 155 caracteres
Etiqueta repetible para versiones en otros idiomas
La posición es importante: cuidar las primeras palabras
No repetir palabras
Hasta 20 términos
Los términos DEBEN aparecer también el texto
Etiqueta repetible para versiones en otros idiomas
La posición es importante: cuidar las primeras palabras
No repetir términos
Descripción pre-catalográfica

Utilizar otras etiquetas: Modelo Dublin Core (15 repetibles)
156
Buscando términos
157
Generando etiquetas META
Meta Builder 2
vancouver-webpages.com/META/mk-metas.html
Meta Tags Generator www.meta-tags.us
MetaTags Generator
tools.webmastersworld.org/MetatagsGenerator.php
Meta Tag Generator
www.invision-graphics.com/meta-tag-generator.html
Meta Tag Generator
www.submitcorner.com/Tools/Meta
DC-Dot
www.ukoln.ac.uk/metadata/dcdot/
158
Palabras clave en el texto

Seleccionar correctamente



Densidad



Estudiar sinonimia, variantes, términos similares en otros
idiomas
Analizar consumo en motores
Total: Hasta 25%
Individual: Hasta 5%
Posición



Etiquetas de encabezamiento <Hn>
Primeros párrafos
Etiquetas modificadoras de fuente


Negrita <B><strong>; Itálica <I>; Font size
Promover la adyacencia de términos (en su caso)
159
Biology, no Biological Sciences
160
Adwords Keyword Tool
https://adwords.google.com/select/KeywordToolExternal
161
http://www.google.com/insights/search/#
162
Más sobre palabras clave

Texto alternativo ALT





Muy importante
Utilizado para semantizar imágenes, gráficos y banners
Tratamiento específico similar al título
Hasta 250 caracteres
Texto en anclaje de enlaces



Utilizar palabras clave
Muy importante en páginas que nos enlazan
Relevante también en los enlaces de navegación internos
163
Google-boombing
164
Google Trends
165
Google Labs
166
Enlaces a páginas externas

Densidad de enlaces


Media de enlaces/página (incl. Internos) ~ 20
Estructurar listados de recursos en directorios jerarquizados


Cada categoría, una o más páginas
Páginas objetivo

Enlazar a buenas páginas







Página principal (si es el caso)
Páginas con alto PR
Páginas actualizadas
Nacional>.edu>.org>.info>.com
Comprobar con frecuencia que los enlaces estén activos
Evitar enlaces a granjas de enlaces
Cuidar el texto de enlace (evitar “aquí”, “página”)
167
Características de las sedes

Dominio

Propio





Subdominio: Heredar PR de sede madre
No cambiar el dominio!!!
Sedes medianas o grandes


Preferiblemente grandes
Actualización

Frecuente



Evitar acrónimos, proporcionar contenido
Nacional, .org, .info, .name frente a .com
Incrementar número de páginas (mantener tasa nuevas/viejas)
Promover enlaces
Promover visitas

Mantener estadísticas
168
Características de las páginas

Tamaño

Pequeñas o medianas <100 k




Sedes medianas o grandes
Actualización


Frecuente, pero no tanto
Cambiar contenidos, no dirección


Pero 40-50 k puede ser mucho volumen de texto
Estructurar correctamente los grupos de páginas mediante
enlaces consecutivos (anterior-siguiente)
Reducir al máximo las restructuraciones
Versiones

En páginas diferentes


En otros idiomas
En otros formatos (pdf, doc, ps, ppt, ...)
169
Barreras a los robots

Enlaces ocultos, incompletos o no semantizados

Gráficos y Banners de entrada sin enlace en modo texto



Javascripts en menús de navegación





Con enlaces ocultos
Con enlaces relativos, incompletos (sin declaración de URL Base)
Frames (pero NO siempre!!)
Páginas huérfanas
Evitar re-direccionamientos y alias



Especialmente ficheros Flash
Importante también la presencia de texto ALT
Etiquetas de refresco
Granjas de sedes (sede.es; sede.com; sede.org)
Páginas dinámicas

Reducir longitud y complejidad de las URLS: Semantizarlas
170
Robot-friendly

Fichero robots.txt



Mapa del sitio (html y xml)
Enlaces de navegación internos


Los justos y necesarios
Alta en referentes




No abusar del no index
En los propios motores (no muy importante, solo acelera la
indización)
En directorios (En Yahoo incrementa la visibilidad)
En supersitios (truco: Wikipedia)
Combatir la invisibilidad


Páginas estáticas
Submenús de apoyo
171
Internet “visible”
172
Tácticas piratas (a evitar)



Textos invisibles
Enlaces en píxeles
Granjas de enlaces




Textos duplicados
Cloaking


Compra de enlaces
Compra de visitas
Páginas diferentes para el motor que para el usuario
Mirrors piratas
173
Herramientas: Densidad de palabras
Site Content Analyzer 3
www.sitecontentanalyzer.com
Good Keywords 3.0
www.goodkeywords.com
Keyword Density
www.keyworddensity.com
Keyw. Dens. & Prominence 2.5
www.ranks.nl/tools/spider.html
Keyword Density Analyzer
tool.motoricerca.info/keyword-density.phtml
KDAnalyzer Version 2.0
www.webjectives.com/keyword.htm
Google Adwords
adwords.google.com/select/KeywordSandbox
Keyword Investigator
www.keywordster.com/keyword-investigator.htm
GRKda 2.2
www.grsoftware.net/search_engines/software/grkda.html
174
Keyword Density & Prominence
175
Herramientas: Posición
Accurate Monitor 2.7
Advanced Web Ranking 6.5
AgentWebRanking Pro 2.6
IBP 10.4
Dynamic Web Ranking 8.0
Link Popularity Analysis 2.0
Link Popularity Check 3.0
Link Survey 1.6
Trellian SEO Toolkit 3.0
Web CEO 8.0
www.cleverstat.com
www.advancedwebranking.com
www.agentwebranking.com
www.axandra.com
www.dynamicwebrank.com
www.link-popularity-analysis.com
www.checkyourlinkpopularity.com
www.antssoft.com
www.trellian.com/seotoolkit
www.webceo.com
176
WebPosition
177
Advanced Web Ranking
178
Calidad: Duplicados, enlaces rotos
179
Evolución y persistencia


Volatilidad
Persistencia




Los cambios en las páginas
web suelen ser menores o
cosméticos
La frecuencia de cambio
varía según los dominios
La magnitud del cambio
depende más del tamaño
Las páginas grandes
cambian más y más
frecuentemente
research.microsoft.com/research/sv/sv-pubs/p97-fetterly/p97-fetterly.pdf
180
Más información: Blogs
OjoBuscador
Abel Gonzalez
Marketing.es
Posicionamiento en buscadores
Google Web Posizionamendua
Search Engine News
MSN´s Search Weblog
Yahoo Search Blog
Search Engine Marketing Weblog
Batelle’s Searchblog
SE Showdown Blog
Google Blog
Matt Cutts Blog
www.ojobuscador.com
www.abelgonzalez.com/blog
www.marketing.es
bibo.bitacoras.com
euskal-seo.blogspot.com
www.prweaver.com/blog
blogs.msdn.com/livesearch
www.ysearchblog.com
sem.weblogsinc.com
battellemedia.com
www.searchengineshowdown.com/blog
googleblog.blogspot.com
www.mattcutts.com/blog
181
ojobuscador
182
Más información: Empresas
LFChannel
ITNet
Altas Buscadores
Ferca Network
T20 Media
NTBuscadores
Azalpen
Serprimeros
SEOsolución
prs-marketing
Atraczion
Lucernario
24/7 Search
Tanta Tecnología y Comunicación
ConsulData
ZentoMedia
Websdirect
De los primeros
Davilac
www.lfchannel.com
www.grupoitnet.com
www.altas-buscadores.com
www.ferca.com
www.t2o.es
www.ntbuscadores.es
www.azalpen.com
www.serprimeros.com
www.seolucion.com
www.prs-marketing.com
www.atraczion.com
www.lucernario.com
www.247search.com
www.tantacom.com
www.consuldata.net
www.zentomedia.com
www.websdirect.net
www.delosprimeros.com
www.davilac.net
183
MODULO 3
Minería de datos Web
Análisis de ficheros de visitas
Webmetria (Web Usage Mining)

Definiciones


Data mining: Extracción de conocimiento de las bases de datos
Web Mining: Recolección y análisis de los patrones de visita de una
sede Web


Objetivos: Aspectos a explorar






No es buscar o recuperar información de dicha sede
Asociación
Clasificación y agrupación (clustering)
Patrones transversales
Patrones sequenciales
Similaridades
Análisis de las visitas a sedes Web


Ficheros log: Definición y estructura
Programas para análisis de logs

Prácticas con WebTrends Analysis Suite (www.netiq.com)
185
Taxonomía de la Minería Web
Minería Web
Minería de
contenidos Web
Minería basada
en agentes
 Motores de búsqueda
 Metabuscadores
 Agentes personales
Minería del uso del Web
Minería de
Bases de datos
 Identificación
 Descripción
 Herramientas de análisis
 Internet invisible
186
Ficheros log (bitácora)

Fichero que recopila automáticamente todos los datos
sobre las visitas que reciben las páginas de una sede Web






Dirección IP del visitante
URL visitadas
Hora de la visita
Tiempo dedicado a la visita
URL desde la que se accedió
Apache web log





Tipo de petición
Tipo de respuesta
Tamaño de la respuesta
(bytes)
Navegador usado
etc…
205.188.209.10 - - [29/Mar/2002:03:58:06 -0800] "GET /~sophal/whole5.gif HTTP/1.0"
200 9609 "http://www.csua.berkeley.edu/~sophal/whole.html" "Mozilla/4.0 (compatible;
MSIE 5.0; AOL 6.0; Windows 98; DigExt)"
216.35.116.26 - - [29/Mar/2002:03:59:40 -0800] "GET /~alexlam/resume.html HTTP/1.0"
200 2674 "-" "Mozilla/5.0 (Slurp/cat; slurp@inktomi.com;
http://www.inktomi.com/slurp.html)“
202.155.20.142 - - [29/Mar/2002:03:00:14 -0800] "GET /~tahir/indextop.html HTTP/1.1"
200 3510 "http://www.csua.berkeley.edu/~tahir/" "Mozilla/4.0 (compatible; MSIE 6.0;
Windows NT 5.1)“
187
Utilidades

Preguntas a responder









¿Como se ha utilizado la información?
¿Con que frecuencia?
¿Que es lo más y lo menos popular (visitado)?
¿Por donde entran los visitantes?. ¿Por donde
salen?
¿Donde se entretienen más?
¿Cuanto tiempo dedican?
¿Que rutas de visita son las más utilizadas?
¿Quienes son los visitantes? ¿De donde vienen?
¿Como han llegado?
188
Interceptores de visitas (counters & trackers)
Google Analytics
StatCounter
ActiveMeter
123Statmore
Counter Central
Digits Web Counter
Free Hit Counter
GoStats
MyWebStats
OneStat Free
OneStat
Opentracker
ShinyStat
TDstats
TheCounter
WebSTAT
What Counter
www.google.com/analytics
www.statcounter.com
www.activemeter.com
www.123stat.com
www.countercentral.com
www.digits.com
www.ritecounter.com
www.gostats.com
www.mywebstats.org
www.onestatfree.com
www.onestat.com
www.opentracker.net
www.shinystat.com
www.tdstats.com
www.thecounter.com
www.webstat.com
www.whatcounter.com
189
Google Analytics
190
StatCounter
191
Programas de estadísticas de visitas
10-Strike Log-Analyzer 1.5
123LogAnalyzer 3.2
Absolute Log Analyzer 2.3
AdvancedLogAnalyzer 1.6
Alterwind Log Analyzer 3.3
Analog 6.0
Analyse Spider 3.01
Deep Log Analyzer 3.2
eWebLogAnalyzer 2.3
FastStats Analyzer 4.1
Nihuo Web Log Analyzer 3.21
SawMill 7.2
SmarterStats 3.3
Surfstats 8.4
WebLogStorming 1.8
WebLogExpert 5.0
WebTrends Analytics 8
www.10-strike.com
www.123loganalyzer.com
www.bitstrike.com/analyzer
www.abacre.com/ala/index.htm
www.alterwind.com
www.analog.cx
www.analysespider.com
www.deep-software.com
www.esoftys.com
www.mach5.com/products/analyzer
www.nihuo.com
www.sawmill.net
www.smartertools.com
www.surfstats.com
www.datalandsoftware.com/weblog
www.weblogexpert.com
www.webtrends.com
192
10-Strike Log Analyzer
193
Absolute Log Analyzer
194
Alterwind Log Analyzer
195
SawMill
196
Prácticas


Experimentos con freeware

Funnel Web Analyzer 5.0
www.quest.com/funnel-web-analyzer

Webalizer 2.21
www.mrunix.net/webalizer
Prácticas con fichero log






Visitas totales y desagregadas
Páginas y directorios más populares
Ficheros volcados
Puntos de entrada y salida
Demografía de los visitantes
Referentes de entrada (origen, navegador y palabras de acceso)
197
Configurando Funnel Web
198
Resultados
199
Referrals
200
Informetría

Estudio de las distribuciones

Aplicación de las leyes bibliométricas: Lotka, Zipf
www.cindoc.csic.es/cybermetrics/articles/v4i1p4.html
www.cindoc.csic.es/cybermetrics/articles/v4i1c1.html

Generalización a “Power law”

Estructura





Media de enlaces externos por página (outlinks): 7-8
Distribución de enlaces por página (n) : 1/nk

Recibidos (k=2,1)

Emitidos (k=2,7)
Páginas web por sitio (k= 2,2)
PageRank (k=2,1)
Consumo


Visitantes a un sitio por día (k=2,07)
Enlaces visitados por página (k=1,5)
201
Lotka en Excel
202
Investigación en Cibermetría
203
Bibliografia/Webliografía
204
Bibliografia/Webliografía












Björneborn, L. & Ingwersen, P. (2001). Perspectives of webometrics. Scientometrics, 50(1): 65-82.
http://www.db.dk/lb/2001webometrics.pdf
van Raan, A. F. J. (2001). Bibliometrics and internet: Some observations and expectations.
Scientometrics, 50(1): 59-63
Bar-Ilan, J. (2001). Data collection methods on the Web for infometric purposes. A review and analysis.
Scientometrics, 50(1):7-32
Björneborn, L. (2004). Small-world link structures across an academic web space : a library and
information science approach. PhD dissertation. Royal School of Library and Information Science. xxxvi,
399 p. ISBN 87-7415-276-9.<http://www.db.dk/lb/phd/phd-thesis.pdf >
Björneborn, L. & Ingwersen, P. (2005). Towards a basic framework for webometrics. Journal of the
American Society for Information Science and Technology. Special Issue on Webometrics.
Thelwall, M.; Vaughan, L. & Björneborn, L. (2005). Webometrics. Annual Review of Information Science
and Technology, 39.
Ingwersen, P. & Björneborn, L. (2004). Methodological issues of webometric studies. In: Glänzel, W. et
al. (eds.). Quantitative Science and Technology Research. Klüwer Academic Publishers.
The Statistical Cybermetrics Research Group. Wolverhampton University <http://cybermetrics.wlv.ac.uk>
Alonso Berrocal, J.L.; Figuerola, C.G. & Zazo, A.F. (2004). Cibermetría:nuevas técnicas de estudio
aplicables al Web. Ediciones Trea, Gijón. 207 pags.
Faba Perez, C., Guerrero Bote, V. P. & Moya Anegón, F. (2004). Fundamentos y técnicas cibermétricas:
modelos cuantitativos de análisis. Junta de Extremadura, Mérida. Serie Sociedad de la Información, no.
18. 216 pags.
Thelwall, M. (2009). Introduction to Webometrics: Quantitative Web Research for the Social Sciences.
http://www.scribd.com/doc/14613059/Intro-to-Webometrics-2009
Bibliografía/Webliografía General del Curso www.cindoc.csic.es/cybermetrics/links03.html
205