Truco diario 112: robots.txt qué es y para qué sirve
El archivo robots.txt es un archivo de texto simple que se utiliza en un sitio web para comunicar instrucciones a los motores de búsqueda sobre cómo deben rastrear e indexar las páginas de ese sitio. Este archivo se encuentra en el directorio raíz de un sitio web (por ejemplo, www.ejemplo.com/robots.txt) y es uno de los primeros archivos que los rastreadores de motores de búsqueda como Googlebot consultan cuando acceden al sitio.
Propósitos principales de robots.txt
1- Controlar el acceso de los rastreadores: Permite especificar qué partes de un sitio web pueden o no ser rastreadas por los motores de búsqueda. Esto es útil para proteger contenido confidencial, páginas que no son relevantes para el público general o para evitar que se rastreen páginas duplicadas.
2- Optimizar el uso de recursos del servidor: Al limitar el acceso de los rastreadores a ciertas áreas, puedes reducir la carga en el servidor, evitando que rastreen páginas innecesarias.
3- Evitar que contenido irrelevante sea indexado: Esto ayuda a que el contenido más importante de tu sitio sea priorizado en los resultados de búsqueda.
Estructura básica del archivo robots.txt
Un archivo robots.txt está compuesto por reglas que indican qué agentes de usuario (es decir, los rastreadores) tienen restricciones y qué partes del sitio están permitidas o bloqueadas. Ejemplo:
plaintext
Copiar código
User-agent: * # Se aplica a todos los rastreadores
Disallow: /admin/ # Bloquea el acceso al directorio /admin/
Disallow: /private/ # Bloquea el acceso al directorio /private/
Allow: /public/ # Permite el acceso al directorio /public/
Principales directivas
- User-agent: Especifica a qué rastreador se aplican las reglas (por ejemplo, Googlebot, Bingbot o * para todos los rastreadores).
- Disallow: Indica las páginas o directorios que no deben ser rastreados.
- Allow: Permite el acceso a ciertas páginas o subdirectorios, incluso dentro de una sección bloqueada.
- Sitemap: Informa a los motores de búsqueda sobre la ubicación del archivo sitemap del sitio:
plaintext
Copiar código
Sitemap: https://www.ejemplo.com/sitemap.xml
Importante: Lo que robots.txt no hace
- No garantiza que las páginas bloqueadas no sean accesibles públicamente. El archivo simplemente proporciona recomendaciones a los rastreadores; cualquier usuario puede acceder a esas páginas si conoce la URL.
- No impide que las páginas bloqueadas aparezcan en los resultados de búsqueda si ya han sido indexadas por otros medios (por ejemplo, enlaces externos).
Ejemplo práctico
Si deseas bloquear una sección de un sitio web de prueba excepto una página específica, podrías usar:
plaintext
Copiar código
User-agent: *
Disallow: /pruebas/
Allow: /pruebas/acceso.html
Uso en estrategias SEO
#robotstxt #archivo #Googlebot #rastreadores #recursosservidor #servidor #contenidoirrelevante #estructurabasica #plaintext #codigo #useragent #disalow #allow #sitemap #seoeficiente
#SEO #Google #posicionamientoweb #marketingdigital #SEOTips #SEOparaprincipiantes #TrucoDiario #UnVideoCadaDia #RetoDiario
—
Más información sobre mí, perfiles en redes sociales y opción de contacto en https://linktr.ee/antoniogonzaleztrei
Hago un vídeo diario, que ven más de 6.000 personas al día.
Subo el truco diario a 10 lugares diferentes:
- https://www.youtube.com/@AntonioGonzalezTrei
- https://www.linkedin.com/in/antoniogonzalez/recent-activity/all/
- https://twitter.com/_antoniog
- https://www.facebook.com/antoniogonzalez0
- https://www.instagram.com/antoniogonzaleztrei/
- https://www.tiktok.com/@antoniogonzaleztrei
- https://es.pinterest.com/antoniogonzaleztrei/
Podcasts:
- https://podcasters.spotify.com/pod/show/antonio-gonzalez-trei
- https://www.ivoox.com/podcast-truco-diario-seo-antonio-gonzalez-trei-es_sq_f12474975_1.html
- https://podcasts.apple.com/us/podcast/truco-diario-de-seo-en-audio-de-antonio-gonz%C3%A1lez-trei-es/id1769484971