Rastreo e indexación: todas las diferencias y sus conceptos básicos

¿Eres consciente del enorme volumen de información que te da Internet? Y esa cantidad de datos, es constantemente revisado por los bots de Google, con el objetivo de recopilarlo y poder clasificarlo bien. A estas acciones se las conoce como rastreo e indexación, y la idea, es que todo quede bien ordenado en los resultados de Google. En esta entrada de Digitalgrow, hablaremos de rastreo e indexación: todas las diferencias y sus conceptos básicos. 

Qué se define como rastreo

¿Verdad que Internet es como una gran biblioteca? Crece cada día más, conteniendo millones de archivos. Para hallarlos, los bots de Google se encomiendan la tarea de rastrear la mayor cantidad posible de URLs. 

Este software de Google, es conocido como “rastreador web”, y se encarga de descubrir todas las páginas web que sean de dominio público. El más famoso es el Googlebot. 

¿Cuándo comienza el proceso de rastreo? Hay una lista de direcciones web, que se han conseguido en rastros anteriores, y también se encuentran los archivos sitemaps, elaborados por los propietarios de cada página web. El rastreador, va hacia todos esos lugares, y allí va siguiendo los enlaces que haya a su paso. Y por lo tanto, llega a URLs que no conocía, o va descubriendo el nuevo contenido. 

Rastreo en Google

Aquí hay un aspecto que se denomina “crawl budget”, que significa presupuesto de rastreo. Es básicamente el tiempo que le lleva a Google rastrear tu sitio web y, dependiendo del mismo, podrá explorar más o menos páginas en cada rastreo que realiza. 

Todas las páginas web en donde llegan los motores de búsqueda para ser rastreadas se denominan páginas rastreables. Y las no rastreables, son aquellos en donde nunca llegan los bots de Google. 

Por qué es vital que Google rastree tu sitio web 

Una vez tienes el contenido listo en tu página, es vital que hagas las acciones necesarias para que el famoso Googlebot pase por tu sitio. 

Ten en cuenta un pequeño detalle: casi el 90% del tráfico web empieza a partir de la canalización que hace Google. Y por ello, es indispensable que el gigante sepa cuáles son todos tus movimientos. Si tienes una web nueva, probablemente Google todavía no la conoce, y por ello tienes que asegurarte de captar su atención para que se interese y vaya a rastrear tu página. 

Se trata del primer paso: avisarle a Google sobre la existencia de tu contenido. Ésta es la acción de rastreo. 

Y entonces, puedes pasar al siguiente eslabón, que es la indexación. Ocurre cuando Google, luego de haber descubierto tu web, la incluye en su índice y la clasifica. 

Cuáles son las diferencias entre rastreo e indexación

A pesar de ser dos acciones que prácticamente van de la mano, hay diferencias entre el rastreo e indexación. Son dos partes del mismo proceso en el cual Google recopila y almacena toda la información que encuentra en tu web. 

¿Por qué están relacionados? La rastreabilidad, es la capacidad que tiene un motor de búsqueda para llegar al contenido que está en un sitio web. Y por ello, si tu web tiene problemas de rastreabilidad, será muy difícil que las famosas arañas de Google lleguen a tu contenido fácilmente. Y en caso de que puedan arribar, pero encuentren a su paso páginas sin enlazado interno, o enlaces rotos, puede ser que sea bastante complicado rastrear tu web para los motores de búsqueda. 

Indexación en Google

En cuanto a la indexación, es la capacidad que tienen esos propios motores de búsqueda para añadir las páginas que han rastreado con anterioridad. A través de esta acción, las añaden a su índice de contenidos, y esta es la forma en que cada página puede ser clasificada utilizando técnicas de SEO. ¿El resultado? Que tus nuevas URL sean visibles para los usuarios que tienen una intención de búsqueda determinada.  

Qué debes decirle a Google sobre las URLs de tu web 

Puedes indicarle a Google, qué debe hacer con cada una de las URL que haya en tu página:  

  • Rastreables e indexables: las páginas a las que Google puede acceder, ver su contenido y, por lo tanto, ser indexadas en los motores de búsqueda. 
  • Rastreables y no indexables: a estas URL, Google también puede llegar, pero si le das esa indicación a los motores de búsqueda, no serán indexadas (es decir, mostradas en los resultados).
  • No rastreables e indexables: se trata de las URLs en donde no quieres que acceda Google, y esto está definido por el archivo llamado robots.txt. Pero en este caso, sí que podrán ser indexables por otros medios, como sitemaps o enlaces externos. Suele verse la leyenda “La URL ha sido indexada, aunque un archivo robot la ha bloqueado”.
  • No rastreables y no indexables: definidas como <noindex> son URLs que tienen bloqueado el acceso de los bots (no pueden ser rastreadas ni indexadas).
Abrir chat
¿Cómo podemos ayudarte?
Hola, 👋
¿En que podemos ayudarte?