¿Qué es un archivo robots.txt y cómo usarlo?

Conceptos básicos de la sintaxis de robots.txt
Robots.txt es un archivo de texto ubicado en el directorio raíz del sitio que específica para los rastreadores y arañas de los motores de búsqueda qué páginas y archivos de sitios web desea o no desea que visiten. Por lo general, los propietarios de sitios se esfuerzan por ser notados por los motores de búsqueda, pero hay casos en los que no es necesario: por ejemplo, si almacena datos confidenciales o si desea ahorrar ancho de banda al no indexar las páginas pesadas con imágenes.

Postura oficial de Google en el archivo Robot.txt:
Cuando un rastreador accede a un sitio, se solicita un archivo llamado '/robots.txt' en el primer lugar. Si se encuentra un archivo de este tipo, el rastreador lo comprueba para ver las instrucciones de indexación del sitio web.

NOTA: Solo puede haber un archivo robots.txt para el sitio web. Se debe colocar un archivo robots.txt para un dominio adicional en la raíz del documento correspondiente.

Postura oficial de Google en el archivo robots.txt
Un archivo robots.txt consta de líneas que contienen dos campos: una línea con un nombre de agente de usuario (rastreadores de motores de búsqueda) y una o varias líneas que comienzan con la directiva

   Disallow:
Robots.txt tiene para ser creado en el formato de texto UNIX.

Conceptos básicos de la sintaxis de robots.txt
Por lo general, un archivo robots.txt contiene algo como esto:
   User-agent: *
   Disallow: /cgi-bin/
   Disallow: /tmp/
   Disallow: /~ different/

En este ejemplo tres directorios: '/ cgi -bin / ',' / tmp / 'y' / ~ different / 'están excluidos de la indexación.

NOTA: Cada directorio está escrito en una línea separada. No puede escribir 'No permitir: / cgi-bin / / tmp /' en una línea, ni puede dividir una directiva No permitir o User-agent en varias líneas: use una nueva línea para separar las directivas entre sí.

"Estrella" (*) en el campo User-agent significa "cualquier rastreador web". En consecuencia, las directivas del tipo 'No permitir: * .gif' o 'Usuario-agente: Mozilla *' no son compatibles; preste atención a los errores lógicos, ya que son los más comunes. Otros errores comunes son errores tipográficos: directorios mal escritos, agentes de usuario, puntos faltantes después de agente de usuario y rechazar, etc. Cuando sus archivos robots.txt se vuelven cada vez más complicados, y es fácil que se introduzca un error, hay algunas validaciones.

Ejemplos de uso
Aquí hay algunos ejemplos útiles de uso de robots.txt:
Evitar la indexación de todo el sitio por parte de todos los rastreadores web:
  User-agent: *
   Disallow: /

Permitir que todos los rastreadores web indexen todo el sitio:
   User-agent: *
   Allow:

Evite que varios directorios se indexen:
   User-agent: *
   Disallow: /cgi-bin

Impedir la indexación del sitio mediante un rastreador web específico:
  User-agent: GoogleBot
   Disallow : /

Encuentre la lista con los nombres de todos los agentes de usuario.
Permita la indexación a un rastreador web específico y evite la indexación de otros:
   User-agent: Opera 9
   Allow:
   User-agent: *
   Disallow: /
Impedir todos los archivos de la indexación, excepto uno solo.

Esto es bastante difícil ya que la directiva 'Permitir' no existe. En su lugar, puede mover todos los archivos a un determinado subdirectorio e impedir su indexación, excepto un archivo que le permite ser indexado:
  User-agent: *
   Allow: / docs /

También puede usar un generador de archivos robots.txt en línea.

Robots.txt y SEO
Eliminación de la exclusión de imágenes
El archivo robots.txt predeterminado en algunas versiones de CMS está configurado para excluir su carpeta de imágenes. Este problema no ocurre en las versiones más recientes de CMS, pero las versiones anteriores deben verificarse.

Esta exclusión significa que sus imágenes no se indexarán ni se incluirán en la Búsqueda de imágenes de Google, que es algo que usted desearía, ya que aumenta sus clasificaciones SEO.

Si desea cambiar esto, abra su archivo robots.txt y elimine la línea que dice:
   Disallow: /imagenes/

Agregar referencia a su archivo sitemap.xml
Si tiene un archivo sitemap.xml (y debería tenerlo a medida que aumenta) su posicionamiento SEO), sería bueno incluir la siguiente línea en su archivo robots.txt: (esta línea debe actualizarse con su nombre de dominio y archivo de mapa del sitio).
sitemap: http: //www.dominio.com/sitemap.xml

Observaciones misceláneas
No bloquee CSS, Javascript y otros archivos de recursos de forma predeterminada. Esto evita que Googlebot represente correctamente la página y entienda que su sitio está optimizado para dispositivos móviles.

· También puede usar el archivo para evitar que se indexen páginas específicas, como páginas de inicio de sesión o 404, pero esto se hace mejor utilizando la etiqueta meta de robots.

· Agregar declaraciones no permitidas a un archivo robots.txt no elimina el contenido. Simplemente bloquea el acceso a las arañas. Si hay contenido que desea eliminar, es mejor usar un meta noindex.

· Como regla general, el archivo robots.txt nunca debe usarse para manejar contenido duplicado. Hay mejores formas como una etiqueta Rel = canonical que forma parte del encabezado HTML de una página web.

· Siempre tenga en cuenta que robots.txt no es sutil. A menudo hay otras herramientas a su disposición que pueden hacer un mejor trabajo, como las herramientas de manejo de parámetros dentro de Google y Bing Webmaster Tools, la etiqueta x-robots y la etiqueta meta robots.

Robots.txt para WordPress
WordPress crea un archivo robots.txt virtual una vez que publique su primera publicación con WordPress. Aunque si ya tiene un archivo robots.txt real creado en su servidor, WordPress no agregará uno virtual.

No existe un archivo robots.txt virtual en el servidor, y solo puede acceder a él a través del siguiente enlace: http://www.yoursite.com/robots.txt

De manera predeterminada, tendrá permitido el Mediabot de Google, un montón de Spambots no permitidos y algunas carpetas y archivos estándar de WordPress no permitidos.

Entonces, en caso de que aún no haya creado un archivo robots.txt real, cree uno con cualquier editor de texto y cárguelo en el directorio raíz de su servidor a través de FTP.

Bloqueo de los directorios principales de WordPress
Hay 3 directorios estándar en cada instalación de WordPress: wp-content, wp-admin, wp-includes que no necesitan ser indexados.

Sin embargo, no elija rechazar toda la carpeta wp-content, ya que contiene una subcarpeta de 'cargas' con los archivos multimedia de su sitio que no desea que se bloqueen. Es por eso que debe proceder de la siguiente manera:
Disallow: /wp-admin/
Disallow: /wp-includes/
Allow: /wp-content/plugins/
Allow: /wp-content/themes/

Bloquear en base a la estructura de su sitio
Cada El blog se puede estructurar de varias maneras:
a) Sobre la base de las categorías
b) Sobre la base de las etiquetas
c) Sobre la base de ambas: ninguna de las
d) Sobre la base de los archivos basados en la fecha

a)Si su sitio está estructurado por categorías, no necesita tener indexados los archivos de etiquetas. Encuentre su base de etiquetas en la página de opciones de Permalinks en el menú Configuración. Si el campo se deja en blanco, la base de etiquetas es simplemente 'etiqueta':
Disallow: /etiqueta/

b) Si su sitio está estructurado por etiquetas, debe bloquear los archivos de categorías. Busque la base de su categoría y use la siguiente directiva:
   Disallow: /categoría/

c) Si usa ambas categorías y etiquetas, no necesita usar ninguna directiva. En caso de que no utilices ninguno de ellos, deberás bloquearlos:
  Disallow: /tags/
   Disallow: /category/

d)Si su sitio está estructurado sobre la base de archivos basados en fechas, puede bloquearlos de las siguientes maneras:

Disallow:/2022/

NOTA: No puede usar Disallow: /20*/ tal directiva bloqueará cada publicación de blog o página que comience con el número '20'.

Problemas de contenido duplicado en WordPress
De forma predeterminada, WordPress tiene páginas duplicadas que no hacen ningún bien a sus clasificaciones SEO. Para repararlo, le recomendamos que no utilice robots.txt, sino que utilice una etiqueta más sutil: la etiqueta 'rel = canonical' que utiliza para colocar la única URL canónica correcta en la sección de su sitio. De esta manera, los rastreadores web solo rastrearán la versión canónica de una página.

¿Qué es un archivo robots.txt y cómo usarlo?

Nube de Etiquetas

Soporte

Más Popular

¿Qué es un archivo robots.txt y cómo usarlo?

Nube de Etiquetas

Soporte

Más Popular

Generar contraseña