Diferencias entre “noindex” y robots.txt

El mundo del posicionamiento SEO es un terreno en el que debes prestar atención a distintos aspectos. Para garantizar tu permanencia en lugares de privilegio dentro de las primeras posiciones en Google, no puedes dejar nada librado al azar. Por ello, en este artículo de Digitalgrow, te contaremos cuáles son las diferencias entre “noindex” y robots.txt. 

¿Te has preguntado alguna vez si debías utilizar robots.txt o bien “no index”? Es algo que puede ocurrirte si tienes un proyecto web. Lo importante a la hora de empezar a desentrañar este misterio, es saber lo que comenta Google al respecto. 

La instrucción “noindex”, para que se considere efectiva en una página web, no puede estar bloqueada mediante un archivo robots.txt. Porque en caso de estarlo, el rastreador no observará esa instrucción, y por lo tanto la página es probable que siga visualizándose en los resultados de búsqueda (si otras páginas cuentan con enlaces hacia la misma). 

Esto quiere decir que, según el propio Google, resulta erróneo tener ambas directivas, y que a través de robots.txt, su crawler no podría llegar al directorio en cuestión de tu sitio web. Pero puede haberte ocurrido que, aunque tengas directivas en robots.txt, algo acabe indexándose igual… 

¿Cuándo es el momento de usar robots.txt?

Este archivo se usa para definir reglas (ciertamente, “a groso modo”) dentro de tu sitio web, para que no se rastreen algunas páginas. Robots.txt decide qué apartados pueden y cuáles no ser rastreados en un primer momento. Y además, tienen la misión de evitar el tráfico de distintos bots (tales como el Majestic, ScreamingFrog o Ahref). También protegen contra otro tipo de Spam, pueden incluso definir el sitemap de tu página… ¡pero no tienen la capacidad de evitar que una página sea indexada! 

La conclusión, es que robots.txt puede definir reglas base dentro de tu sitio, como puede ser el caso de los apartados de: 

  • Administración (como wp-admin) 
  • Configuración (wp-includes)

¡No tiene sentido que los spiders de Google pasen por allí! 

Robots txt SEO

¿Qué ocurre con “noindex”?

Es una etiqueta que se define para que algún tipo de contenido no sea añadido al índice. 

Según Google, si cuentas con una página bloqueada por robots, la etiqueta “noindex” motivaría a que se salte el bloqueo y la indexaría de todas formas. Por dicha razón, lo recomendable es que le coloques “noindex” a las páginas que realmente no desees indexar (en lugar de hacerlo en robots.txt). 

Esto garantizará que Google no indexará esa página con la etiqueta “noindex”. 

Aquí te facilitamos algunos ejemplos de páginas a las que sería recomendable colocarle el “noindex”: 

  • Avisos legales (cookies, condiciones generales, características de los envíos, etc.)
  • Páginas en desarrollo
  • Páginas con el proceso de Finalizar compra
  • Carrito
  • Páginas que puedan llegar a generar contenido duplicado 

Si todo se define en robots.txt, ¿para qué usar el “noindex”?

Mejor analizarlo a través de un ejemplo práctico. 

En caso de que estés desarrollando un sitio para un cliente, y lo tengas en tu servidor, esa página sería algo así como: tupagina.com/dev (sitio en desarrollo) 

Evidentemente, la tendrías en “disallow” en robots.txt, con lo cual Google la ignoraría. Pero en caso de que tu cliente (sin intención) realiza un enlace desde su actual web a la página donde estás diseñando la nueva (es decir, tupagina.com/dev), por más de que tengas las directivas es robots.txt, si no cuentas con la etiqueta “noindex”, Google va a indexar igual esa página que, evidentemente, todavía está desarrollándose. 

Cabe destacar que, si en ese enlace se pone la etiqueta “nofollow”, no ocurriría nada, ya que Google no lo seguiría. 

En caso de que tengas en robots.txt/dev, y además el tag o etiqueta “noindex” en el “/dev”, Google procedería a ignorar la etiqueta e indexar la página, ya que al bloquearlo desde robots.txt, resulta realmente confuso. 

No index diferencias entre robots

Conclusiones con respecto a las dos instrucciones

Lo mejor es utilizar robots.txt y “noindex” de manera conjunta, pero dependiendo del tipo de contenidos. ¡Y nunca uses ambas directivas para la misma página! 

El robots.txt funciona como un filtro general, mientras que el “noindex” es realmente para condensar, y para que una página no pueda ser indexada de ninguna forma. 

Por un lado, está la acción de rastrear (que es lo que se evita mediante el uso de robots.txt), y por otro lado está el hecho de indexar (que es lo que persigue la etiqueta “noindex”). 

Con robots.txt, no se puede evitar que un sitio sea indexado. Y con “noindex”, se puede evitar que sea indexado, pero no rastreado. 

Haz valer las buenas prácticas

En caso de que estés desarrollando un sitio web para un cliente, lo ideal es que utilices un subdominio que tenga el nombre del cliente. Sería algo así como tunuevocliente.midominio.com 

Lo ideal es no dejar en raíz versiones antiguas del sitio web. 

De esa forma, evitarás que ese contenido sea indexado.

Abrir chat
¿Cómo podemos ayudarte?
Hola, 👋
¿En que podemos ayudarte?