SEO
¿Qué es Robots.txt?
Robots.txt es un archivo estándar que utilizan los sitios web para comunicarse con los rastreadores web y otros robots web para informarles sobre qué páginas web y áreas del sitio web no deben procesarse, escanearse ni indexarse en los resultados del motor de búsqueda.
¿Qué hace Robot.txt?
Un archivo robots.txt indica a los robots web, también conocidos como rastreadores, qué páginas o archivos el propietario del dominio no quiere que "rastreen". Los bots visitan su sitio web y luego indexan (guardan) sus páginas web y archivos antes de incluirlos en las páginas de resultados de los motores de búsqueda.
Si no desea que Google y otros motores de búsqueda incluyan determinadas páginas o archivos, debe bloquearlos mediante su archivo robots.txt.
Puedes verificar si tu sitio web tiene un archivo robots.txt agregando /robots.txt inmediatamente después de tu nombre de dominio en la barra de direcciones en la parte superior:
¿Cómo funciona Robot.txt?
Antes de que un motor de búsqueda rastree su sitio web, busca en su archivo robots.txt instrucciones sobre qué páginas puede rastrear e indexar en los resultados del motor de búsqueda.
Los archivos Robots.txt son útiles si desea que los motores de búsqueda no indexen:
1) Páginas duplicadas o rotas en su sitio web.
2) Páginas de resultados de búsqueda interna.
3) Ciertas áreas de su sitio web o un dominio completo.
4) Ciertos archivos en su sitio web, como imágenes y archivos PDF.
5) Páginas de inicio de sesión.
6) Preparación de sitios web para desarrolladores.
7) Tu XML mapa del sitio.
El uso de archivos robots.txt le permite eliminar páginas que no añaden valor, por lo que los motores de búsqueda se centran en rastrear las páginas más importantes. Los motores de búsqueda tienen un "presupuesto de rastreo" limitado y solo pueden rastrear una cierta cantidad de páginas por día, por lo que desea brindarles la mejor oportunidad de encontrar sus páginas rápidamente bloqueando todas las URL irrelevantes.
También puede implementar un retraso de rastreo, que le indica a los robots que esperen unos segundos antes de rastrear ciertas páginas, para no sobrecargar su servidor. Tenga en cuenta que el robot de Google no reconoce este comando, así que optimice su presupuesto de rastreo para obtener una solución más sólida y preparada para el futuro.
¿Cómo crear un archivo Robots.txt?
Si actualmente no tienes un archivo robots.txt, es recomendable crear uno lo antes posible. Para hacerlo, es necesario:
1) Cree un nuevo archivo de texto y asígnele el nombre “robots.txt”. Utilice un editor de texto como el programa Bloc de notas en PC con Windows o TextEdit para Mac y luego “Guardar como” un archivo delimitado por texto, asegurándose de que la extensión de el archivo se llama ".txt".
2) Cárguelo en el directorio raíz de su sitio web: suele ser una carpeta de nivel raíz llamada “htdocs” o “www” que hace que aparezca directamente después de su nombre de dominio.
3) Cree un archivo robots.txt para cada subdominio: solo si utiliza algún subdominio.
4) Prueba: verifique el archivo robots.txt ingresando sudominio.com/robots.txt en la barra de direcciones del navegador.
Leer más esta página.
[optin-monster slug=”em8z7q6hga9elmy1dbgb”]