¿Cuáles son las páginas ganadoras?

Analicemos las páginas web ganadoras de la investigación empírica, que logran la primera posición en los resultados de Google para 359 palabras clave diferentes.

1) En primer lugar, destaca la importancia de la Wikipedia. Entre la páginas web ganadoras, 155 -de 359- son páginas de la Wikipedia en español. Eso supone un 43% de todas las páginas web del estudio. Con frecuencia, las páginas web de la Wikipedia logran primeras posiciones cuando la palabra clave es un nombre común o propio -países, ciudades, famosos. Podemos deducir por qué a Google le gusta tanto la Wikipedia. El sitio web general cuenta con un elevadísismo número de páginas web indexadas en Google. Además recibe un estratosférico número de enlaces entrantes ytiene más de 7 años de edad. El diseño de las páginas web incluye la palabra clave de cada definición en la etiqueta título. Por todo esto, estar alojado en laWikipedia propulsa a sus páginas hacia las primeras posiciones en resultados de Google.

No obstante, en lo que concierne a este elevado número de páginas web de la Wikipedia el resultado del estudio empírico es sorprendente. Nos da qué pensar respecto al peso actual de los factores estructurales -de todo el sitio web- frente a los factores específicos de cada página web. Google parece inclinarse peligrosamente hacia los primeros. Más adelante veremos qué implicaciones puede tener todo esto.

2) Destaca también el sitio web www.wordreference.com, que aloja a 37 de las páginas web ganadoras. Se trata de las siguientes palabras clave:

¿Cuáles son las páginas ganadoras?

Como vemos, son palabras en las que, a priori, no hay nadie que tenga un interés comercial o político.

Word Reference es un sitio web enorme, con un elevadísimo número de páginas web indexadas en Google, un ingente número de enlaces entrantes y una edad superior a 10 años.

De nuevo, como en el caso anterior, podemos pensar que este elevado número de páginas web ganadoras que pertenecen a www.wordreference.com refleja la importancia que tienen los factores estructurales para Google.

3) En tercera posición entre las ganadoras por número de páginas web encontramos el sitio web http://www.thefreedictionary.com/ otro portal de diccionarios, de características muy semejantes a www.wordreference.com -Cuenta con antigüedad, numerosos enlaces entrantes y páginas web indexadas.

Las palabras clave para las que páginas web de the Free Dictionary aparecen en primera posición son:

¿Cuáles son las páginas ganadoras?

4) Si sumamos todas las páginas web “ganadoras” alojadas en estos tres sitios web, nos encontramos la siguiente tabla:

¿Cuáles son las páginas ganadoras?

Observamos que tres sitios web acaparan el 55,4% de las páginas web “ganadoras”. Sorprende una concentración tan elevada.

5) Es obligado tener en cuenta además, que estos tres sitios web, que acaparan más de la mitad de las páginas web ganadoras, son estadounidenses. La Wikipedia se gestiona a través de una fundación sin ánimo de lucro, pero tanto www.wordreference.com como www.thefreedictionary.com tienen ánimo de lucro.

Resulta problemático admitir que la primera página web en una búsqueda de palabras en español como “taciturno” o “trompicones” lleve a estos diccionarios de varios idiomas y no a un sitio español o de algún país hispano-hablante.

6) Hay otros dos sitios web que tienen dos páginas “ganadoras”.Uno de ellos es http://www.botanical-online.com un sitio web especializado en botánica. Dos de sus páginas ganan para las palabras clave de “arándano” y “ortiga”.

arándanos — http://www.botanical-online.com/medicinalsarandano.htm
ortiga — http://www.botanical-online.com/medicinalsurticadioicacastella.htm

7) Y por otro lado, las páginas ganadoras para las búsquedas “ofertas” y “vuelos” provienen en el momento del estudio del sitio web de la empresa de viajes http://www.atrapalo.com

ofertas — http://www.atrapalo.com/
vuelos — http://www.atrapalo.com/vuelos/

8) Respecto a las demás páginas ganadoras (156), nos encontramos con 84 páginas de empresas, marcas u otros formatos de interés comercial. Si sumamos las dos de atrapalo.com, son 86. Esto supone un 24% del total.

9) Además hay 15 páginas web de ayuntamientos, 15 de medios de comunicación, 6 páginas relacionadas con el Estado Central, 4 clubs de fútbol, 4 asociaciones, 4 colegios, 4 de diccionarios, 3 blogs, 3 universidades y 2 páginas de gobiernos autonómicos.

El total quedaría como sigue:

¿Cuáles son las páginas ganadoras?

Podemos concluir que:

1) La variable extensión de texto aparece relacionada positivamente con el número de enlaces internos (0,895 de correlación), a más texto, más enlaces internos tiene la página; con el número de enlaces salientes (0,776 de correlación); con el número de enlaces a todo el sitio web (0,413 de correlación); con el PageRank (0,321 de correlación) y con el número de enlaces entrantes (0,115).. Hay una correlación negativa entre la extensión del texto y la edad del sitio web (-0,162 de correlación) – las páginas web alojadas en sitios web con muchos años pueden que llegar a primera posición sin necesidad de grandes extensiones de texto.

2) La variable Pagerank se relaciona positivamente con el número de enlaces salientes (0,433 de correlación), con el número de enlaces entrantes a todo el sitio web (0,381 de correlación); con el número de enlaces internos (0,330 de correlación); con la extensión del texto (0,321); con los enlaces entrantes (0,213 de correlación).

3) La variable número de enlaces entrantes se relaciona positivamente con el PageRank (0,213 de correlación); con la extensión del texto (correlación de 0,15), con el número de enlaces salientes (correlación de 0,113), y con la edad del sitio web (correlación de 0,105). Se relaciona negativamente con el número de enlaces entrantes a todo el sitio web (-0,132).

4) La variable número de enlaces salientes se relaciona con la extensión del texto (correlación de 0,776); con los enlaces internos (0,751 de correlación); con el número de enlaces entrantes a todo el sitio web (correlación de 0,542); con el PageRank (correlación de 0,433); con el número de enlaces entrantes (0,113 de correlación), y negativamente con la edad del sitio web (correlación negativa de -0,213)

5) La variable número de enlaces entrantes a todo el sitio web se relaciona positivamente con el número de enlaces salientes (correlación de 0,542), con la extensión de texto (correlación de 0,413), con el número de enlaces internos (correlación de 0,388) y negativamente con la edad del sitio web (correlación negativa de -0,371) y con el número de enlaces entrantes (-0,132)

6) La variable número de enlaces internos se relaciona positivamente (0,895) con la extensión del texto, el número de enlaces salientes (correlación de 0,751), el número de enlaces internos (0,388) y PageRank (0,330) y negativamente (-0,137) con la edad del sitio web.

7) La variable edad del sitio web tiene una correlación positiva con el número de enlaces entrantes a la página web (correlación de 0,105) y negativa con las demás variables principales.

8) Ante el elevado número de correlaciones negativas, concluimos que las distintas variables se compensan entre sí, de manera que para lograr la primera posición en los resultados de una búsqueda es necesario tener varios de los criterios, pero no todos. Por ejemplo, hemos observado que en el estudio existe una fuerte correlación negativa (-0,371) entre el número de enlaces entrantes a todo el sitio web por un lado y tanto la edad de ese sitio web como el número de enlaces entrantes a la página web. Puede parecer un contrasentido, pero no lo es, puesto que todas las páginas analizadas son “ganadoras”. Por tanto, para llegar a primera posición es necesario que una página web esté alojada en un sitio web que recibe muchos enlaces entrantes o que, en su defecto, reciba esa página muchos enlaces entrantes o esté alojada en un sitio web de mucha edad. De manera que unos factores compensan la ausencia de otros.

9) Google otorga importancia a factores internos o externos vinculados a la página web ganadora, pero también a factores estructurales, vinculados al sitio web donde se aloja.

10) Existen distintos “tipos” de páginas web ganadoras. Aquellas que lo son por mérito propio – reciben, en tanto que páginas web, muchos enlaces entrantes, o contienen la palabra clave en el nombre de dominio-, y aquellas que lo son porque están alojadas en sitios web de mucho peso para Google. Por tanto, el marco conceptual del análisis debe trascender las páginas web individuales y englobar todo el sitio web, pese a que Google dice que su unidad de clasificación es la página web.

11) Puesto que un 55% de las páginas web en primeras posiciones estén alojadas en tan sólo tres sitios web, concluimos que los factores estructurales son en la actualidad igual de importantes -o más- para Google que los factores individuales de cada página web.

12) Puesto que esos tres sitios web son estadounidenses -a pesar de buscar palabras en español en google.es- concluímos que a priori, el algoritmo de Google tiene un sesgo a favor de páginas web alojadas en sitios web estadounidenses –debido a factores estructurales como su elevada antigüedad, el número de páginas indexadas y el número de enlaces entrantes a todo el sitio web.

Atrás / Adelante