Relaciones entre factores

Después de haber analizado los distintos factores, podemos ahora avanzar en el análisis y dilucidar cuáles son las correlaciones estadísticas entre las principales variables. Descartamos las variables porcentuales y analizamos las correlaciones entre las principales variables cuantitativas numéricas: extensión del texto, PageRank, número de enlaces externos, enlaces salientes, enlaces internos, edad del sitio web, y número de enlaces entrantes a todo el sitio web.

La tabla de correlaciones estadísticas queda como sigue:

Relaciones entre factores

** La correlación es significativa al nivel 0,01 (bilateral).
* La correlación es significante al nivel 0,05 (bilateral).

La máxima correlación posible entre dos variables es 1 -en ese caso se comportan como si fueran la misma variable.

Variable extensión del texto

El PageRank tiene correlaciones positivas con -por orden de importancia-:

Variable extensión del texto

Vemos que la variable extensión de texto aparece relacionada de forma importante con las siguientes variables, por orden de correlación:

  1. Con el número de enlaces internos (0,895 de correlación), algo que parece muy lógico, a más texto, más enlaces internos tendrá la página.
  2. Con el número de enlaces salientes (0,776 de correlación), algo también lógico por el mismo motivo, cuanto más extensión tiene una página, más enlaces salientes contendrá.
  3. Con el número de enlaces a todo el sitio web (0,413 de correlación). Esto ya es algo menos evidente. Esta correlación –sólida estadísticamente- entre la extensión de una página web concreta y el número de enlaces entrantes a todo el sitio web donde está alojada indica que las páginas de extensión de texto larga se alojan en sitios web de calidad –que reciben muchos enlaces entrantes.
  4. También existe una correlación entre la extensión del texto y el PageRank (0,321 de correlación), lo que, como en el caso anterior, puede interpretarse en el sentido de que las páginas web de textos largos están alojadas en páginas de calidad –PageRank elevado.
  5. Hay una correlación negativa entre la extensión del texto y la edad del sitio web (-0,162 de correlación). Podemos deducir que las páginas web que llegan a primera posición con un texto extenso no tiene necesidad de estar en sitios web de edad avanzada, o dicho de otra manera, que las páginas web alojadas en sitios web con muchos años pueden que llegar a primera posición sin necesidad de grandes extensiones de texto.
  6. También se verifica que a más texto más enlaces entrantes recibe una página, puesto que existe correlación (0,115). Hay que decir que esta correlación es débil, especialmente si consideramos el énfasis que le da Google a la importancia de los contenidos.

Variable PageRank

Variable PageRank

El análisis revela que el PageRank tiene correlaciones positivas con -por orden de importancia-:

• Con el número de enlaces salientes (0,433 de correlación). Esto es una gran sorpresa. Cuando definimos el concepto inicial de PageRank, vimos que estaba asociado al número -y calidad- de los enlaces entrantes. Sin embargo, Google nunca ha dicho que tenga en cuenta los enlaces salientes a la hora de calcular el PageRank, si bien es algo que ya habíamos deducido. Dada la fuerte relación estadística, más allá del azar, se trata de un hallazgo tan importante como novedoso.

• Con el número de enlaces a todo el sitio web (0,381 de correlación). Es lógico pensar que el PageRank de una página web concreta está relacionado con el número de enlaces entrantes al sitio web donde está alojada, -y por ende, indirectamente, con el PageRank de un sitio web. Los expertos saben que el PageRank de la página principal -home- de un sitio web “fluye” como si se tratara de un sistema de riego, hacia las demás páginas, por lo que los enlaces entrantes del sitio web refuerzan a las páginas web del mismo. Ya hemos visto que este mismo proceso de trasvase interno de PageRank explica cómo algunas páginas pueden lograr primeras posiciones sin recibir enlaces entrantes del exterior, ya que reciben PageRank desde su sitio web.

• Con el número de enlaces internos (0,330 de correlación). Es interesante ver que el PageRank de una página web guarda relación con el número de enlaces internos que tiene.

• Con la extensión del texto. Como ya hemos visto, la correlación con la extensión del texto es elevada (0,321)

• Con los enlaces entrantes (0,213 de correlación). Esta relación era esperada y por tanto no puede sorprender, ya que la cantidad y calidad de los enlaces entrantes es la base para calcular el PageRank. Si es curioso ver hasta qué punto la relación es más débil de lo esperado, y permite reforzar la sospecha de que en el actual cálculo del PageRank tienen peso otros factores como los descritos anteriormente. Por ejemplo, es sorprendente que la variable PageRank esté más conexa con el número de enlaces salientes -0,433- que con el número de enlaces entrantes -0,213-.

Variable número de enlaces entrantes

Variable número de enlaces entrantes

El número de enlaces entrantes presenta correlaciones con:

• Con el PageRank (0,213 de correlación), como ya hemos visto anteriormente y era de esperar, ya que la cantidad y calidad de los enlaces entrantes permiten calcular el PageRank

• Con el número de enlaces entrantes a todo el sitio web (-0,132). La segunda correlación más importante es negativa. Como ya hemos comentado antes, las páginas web que logran llegar a primeras posiciones tienen un gran número de enlaces que van a ellas, o bien, en caso de que tengan pocos enlaces entrantes, están alojadas en sitios web que reciben un gran número de enlaces entrantes y les transfieren la “fuerza” de esos enlaces –transferencia interna de PageRank.
Por tanto, estadísticamente, nos encontramos con que ambas variables tienen una correlación negativa, ya que las páginas web en primeras posiciones con pocos enlaces entrantes tienden a estar alojadas en sitios web con muchos enlaces entrantes.

• Con la extensión del texto (correlación de 0,15). A más texto, más enlaces entrantes tiene la página web, como ya hemos visto.

• Con el número de enlaces salientes (correlación de 0,113). Curiosamente, a más enlaces salientes, más enlaces entrantes tiene una página web.

• La edad del sitio web (correlación de 0,105). Algo lógico. A priori a más edad, más enlaces entrantes acumula una página. Aunque también es posible que exista una página nueva en un sitio web antiguo.

Variable número de enlaces salientes

Variable número de enlaces salientes

Esta variable presenta correlaciones positivas con:

• Con la extensión del texto (correlación de 0,776) como hemos visto anteriormente, algo lógico, a más texto, más enlaces salientes.

• Con los enlaces internos (0,751 de correlación) algo también lógico. A más texto, más enlaces internos a otras páginas del sitio web.

• Con el número de enlaces entrantes a todo el sitio web (correlación de 0,542). Existe, estadísticamente, una fuerte correlación positiva entre el número de enlaces salientes de una página web y el número de enlaces entrantes al sitio web donde se aloja esa página.

• PageRank (correlación de 0,433). Como ya hemos visto, algo que no era a priori evidente.

• Con la edad del sitio web (correlación negativa de -0,213)

• Con el número de enlaces entrantes (0,113 de correlación), como ya hemos visto.

Variable número de enlaces entrantes a todo el sitio web

Variable número de enlaces entrantes a todo el sitio web

Esta variable presenta correlaciones positivas con:

Número de enlaces salientes (correlación de 0,542). Interesante resultado, puesto que a priori son dos factores que no necesariamente deberían estar relacionados. Vemos que estadísticamente hay una fuerte correlación entre el número de enlaces que llegan al sitio web donde se aloja una página web y el número de enlaces que salen de esa página hacia otras. Hay que recordar que los números en uno y otro caso son muy distintos, puesto que como hemos visto con anterioridad, el número de enlaces salientes de una página web es, de media, 50, mientras que el número de enlaces entrantes a todo el sitio web es una cifra elevadísima.

Podemos deducir la influencia que la gran cantidad de páginas de la Wikipedia tiene en este resultado. En ellas se da esta relación, puesto que son páginas de textos extensos, con muchos enlaces salientes y al mismo tiempo están alojadas en la Wikipedia, un sitio web enorme que recibe casi cien millones de enlaces entrantes. Pero, ¿qué ocurriría si sacáramos de los resultados del estudio todas las páginas web de la Wikipedia? Lo estudiaremos más adelante.

Esta variable de número de enlaces entrantes a todo el sitio web aparece conexa con la variable extensión de texto (correlación de 0,413), lo cual parece indicar que las páginas con mucho texto están alojadas en sitios web que reciben muchos enlaces entrantes. Mostraría que, como Google no se cansa de repetir, “el contenido es rey” y la gente enlaza a sitios con páginas de mucho texto. Sin embargo, podemos intuir, como en el caso anterior, la influencia de la Wikipedia. También existe una correlación estadística fuerte entre el número de enlaces entrantes de todo el sitio web y el número de enlaces internos -que salen de esa página a otras partes del mismo sitio web- de una página web (correlación de 0,388). De nuevo, todo indica que la Wikipedia puede haber influido en esta relación.

Vienen ahora dos variables con correlación negativa. Por un lado, observamos que la edad del sitio web y el número de enlaces entrantes de todo el sitio web están relacionados negativamente (correlación negativa de -0,371). Explicamos este dato paradójico porque para llegar a la primera posición es necesario estar alojado en un sitio web con muchísimos enlaces entrantes, o bien con mucha antigüedad. En este sentido puede deducirse que uno de estos dos factores compensa la ausencia del otro. De manera que una página web está reforzada, ya sea porque su sitio web es muy antiguo o porque recibe muchos enlaces entrantes.

Lo mismo ocurre con el número de enlaces entrantes de una página web, que tiene una correlación negativa (-0,132) con el número total de enlaces entrantes que recibe el sitio web donde se aloja, como ya hemos visto. Es lógico pensar que ocurre lo mismo que en el caso anterior. Un factor compensa el otro. Las páginas web logran la primera posición al tener muchos enlaces entrantes, o bien al estar dentro de un sitio web que recibe muchos enlaces entrantes.

Variable número de enlaces internos

 Variable número de enlaces internos

De media, cada una de las 357 páginas web en primeras posiciones tiene 132 enlaces internos -a otras páginas web del mismo sitio web-, siendo 1659 el valor máximo. Vemos que esta variable tiene una elevadísima correlación (0,895) con la extensión del texto. Algo muy lógico. Cuanto más texto tiene una página web, más enlaces internos hacia otras páginas del mismo sitio web. Lo mismo ocurre con el número de enlaces salientes (correlación de 0,751), por la misma lógica. Se observa asimismo correlación (0,388) entre el número de enlaces internos de una página y el número de enlaces entrantes a todo el sitio web donde está alojada. Existe también una correlación con la variable PageRank (0,330). Y finalmente, una correlación negativa (de -0,137) con la edad del sitio web.

Variable – Edad del sitio web

Variable – Edad del sitio web

La edad del sitio web tiene una correlación positiva con tan sólo una de estas seis variables analizadas. Se trata del número de enlaces entrantes (correlación de 0,105) de una página.

Sin embargo, todos los demás criterios tienen correlación negativa, en mayor o menor medida. Esto tiene su lógica, pero debemos interpretarlo debidamente, puesto que en el estudio no hemos estudiado páginas web en general, sino aquellas páginas web que alcanzan primeras posiciones en resultados de búsqueda. De esta manera, sabemos que el número de enlaces entrantes a todo el sitio web y la edad son variables relacionadas positivamente. Cuando un sitio nace, tiene a la fuerza pocos enlaces entrantes, y lógicamente, es necesario tiempo para acumular muchos enlaces.

Sin embargo, debemos interpretar la fuerte correlación negativa (-0,371) que aparece en el estudio entre estas variables de la siguiente manera. Dado que todas las páginas analizadas son “ganadoras”, observamos que para llegar a primera posición es necesario que una página web esté alojada en un sitio web que recibe muchos enlaces entrantes o que, en su defecto, sea de mucha edad. De manera que uno de esos dos factores compensa la ausencia del otro.

Atrás / Adelante