Indexación: para ganar hay que inscribirse en la carrera

Antes de pasar a analizar cuáles son los factores cruciales a la hora de obtener buenos resultados en Google debemos explicar, siquiera de forma resumida, el tema de la indexación en Google. Para lograr ganar una carrera, primero debemos inscribirnos. Si una página web no está indexada en el índice de Google, es metafísicamente imposible que pueda lograr una buena posición en sus resultados de búsquedas. Por el contrario, no aparecerá en ningún resultado.

Como ya hemos explicado Google tiene una serie de robots automáticos. El más famoso de ellos es el llamado Googlebot. Se trata del robot principal de rastreo web de Google, también denominado “araña” –en inglés spider. Googlebot rastrea Internet constantemente, descubre páginas nuevas y contenidos actualizados de páginas viejas y añade todo ello al índice de Google.

Google usa una ingente cantidad de equipos informáticos para este proceso de “digestión” de miles de millones de páginas web. Googlebot utiliza un proceso de rastreo algorítmico: unas complejas fórmulas matemáticas determinan los sitios que tiene que rastrear, la frecuencia y el número de páginas web que tiene que buscar en cada sitio. Ese proceso comienza con una lista de URLs de páginas web generada a partir de procesos de rastreo anteriores y se amplía con los datos que ofrecen los webmasters. A medida que Googlebot visita cada uno de esos sitios web, detecta enlaces en sus páginas y los añade a la lista de páginas que debe rastrear. Los sitios nuevos, los cambios en los existentes y los enlaces obsoletos se detectan y se utilizan para actualizar el índice de Google. Esto significa que Google tiene en su “estómago”, en todo momento almacenada una copia del 99% de Internet –imaginemos la enorme cantidad de datos que eso supone- Esta copia puede consultarse durante un mes, incluso si la página web ya no está disponible, en la función “memoria caché” de los resultados de búsqueda. Ahí nos muestra Google la última copia que tiene de una página web, así como el momento en que Googlebot obtuvo los datos.

Indexación: para ganar hay que inscribirse en la carrera

La imagen muestra la memoria “caché” de la página web de la Wikipedia para la palabra Googlebot

Indexación: para ganar hay que inscribirse en la carrera

 Aquí se observa en detalle el contenido de la página web en la memoria “caché” de Google. Podemos leer que Googlebot pasó por ahí el pasado 3 de octbre a las 21:00:57 horas.

Googlebot calcula con qué frecuencia debe pasar por una página web concreta, en función de lo poco o mucho que esa página web se actualiza. Si la página web cambia cada poco tiempo, Googlebot tratará de visitar la página web a menudo, en esa misma frecuencia. Si por el contrario, la página web cambia aproximadamente una vez al mes, Googlebot la visitará cada 30 días. Los webmasters pueden solicitar a Google la modificación de esta frecuencia de rastreo, dentro de la herramienta de webmasters tools, en:

https://support.google.com/webmasters/answer/48620‎

Googlebot coordina los distintos equipos rastreadores, que normalmente provendrán de centros de datos cercanos a las páginas indexadas.

En el archivo robots.txt le indicamos a Googlebot las páginas que debe rastrear. También podemos usarlo para bloquear el acceso de los robots de rastreo a una parte o la totalidad de nuestro sitio web. Este archivo robots.txt se debe ubicar en el directorio principal del servidor – por ejemplo, www.misitioweb.com/robots.txt.

Googlebot encuentra sitios web nuevos siguiendo enlaces entre páginas web. En la página.

Problemas y dificultades de indexación

Googlebot no podrá acceder a contenidos que requieren un registro –log in- o un pago previo.

Por otra parte, los archivos de Flash, JAVA, Adobe Shockwave, audio y video son contenidos que Googlebot, por lo general, no podrá rastrear. En principio, Googlebot sólo puede leer texto y es ciego para todo lo demás. De ahí el uso de atributos ALT, que veremos posteriormente.

Lo mismo ocurre con JavaScript asíncrono y XML, más conocido como AJAX. Las aplicaciones AJAX son problemáticas a la hora del rastreo. Es preferible evitarlas siempre que sea posible.

¿Qué debemos hacer para conseguir que Google indexe nuestros contenidos?

Conseguir que Google permita que “nos registremos en la carrera” de sus resultados, es decir, que indexe nuestros contenidos, es relativamente fácil.

Bastará con comunicárselo directamente en:

http://www.google.com/intl/es/submit_content.html

O bien enlazar desde una página web indexada a la página web nueva que queremos indexar en Google. Al rastrear la página existente, Googlebot añadirá la página nueva.

Para lograr que indexe adecuadamente nuestros contenidos, deberemos tener presente lo anterior, y facilitar la tarea de Googlebot a la hora de procesar los textos más importantes.

Por otro lado, Googlebot no indexará una página web si la considera una copia de alguna página web ya existente.

Y una vez indexados, debemos evitar a toda costa que Google nos eche de su índice. Lo hará si detecta malas prácticas. Esa desindexación, mucho peor que una “excomunión” papal, nos arrojaría a la muerte civil en Internet.

Estar indexado nos permite correr en la maratón, aunque no garantiza que la ganemos.

Atrás / Adelante