Rastreadores de IA, robots.txt y señales de contenido

No todos los rastreadores de IA son iguales. Quien quiera separar claramente la visibilidad, el entrenamiento y las consultas iniciadas por los usuarios necesita algo más que un bloqueo automático mediante el archivo robots.txt.

Este artículo se actualizó por última vez el 18 de junio de 2026.

información

Visibilidad de la IA ∙ IA Y B2B ∙ Consejero

Escrito por Saskia Teichmann

el 18 de junio de 2026

0 Comentarios

Envío de

Opinión del usuario

0 (0 vota)

Comentarios 0 (0 reseñas)

Humorvolles 1950er-Jahre-Werbeplakat zu AI-Crawlern, robots.txt und sauber getrennten Bot-Zwecken.

Fecha: junio de 2026. En cuanto los administradores de sitios web oyen hablar de los rastreadores de IA, suele ocurrir una de estas dos cosas: o bien lo bloquean todo de inmediato, porque „la IA no debe ir por ahí robándolo todo“, o bien lo dejan todo abierto, porque la visibilidad suena bien de alguna manera. Ambas respuestas son demasiado simplistas.

La mejor forma de hacerlo es menos dramática y mucho más útil: primero hay que entender qué hace cada bot. La búsqueda, el entrenamiento, la recuperación activada por el usuario, la comprobación de anuncios, la herramienta de pruebas y el rastreo de auditoría no son lo mismo. Quien lo meta todo en el mismo saco, o bien se priva innecesariamente de visibilidad, o bien deja sin controlar aspectos que, en realidad, deberían revisarse.

Índice

El resumen

El archivo robots.txt controla el rastreo, no la visibilidad automática. Una URL bloqueada puede aparecer de todos modos en los resultados de búsqueda si hay un enlace externo que apunte a ella.
El archivo robots.txt no es un escudo de protección de datos. Los contenidos privados deben estar protegidos mediante inicio de sesión, contraseña o sistemas no públicos, y no solo mediante una regla «Disallow».
Los rastreadores de IA tienen diferentes funciones. Los bots de búsqueda, los bots de entrenamiento y las consultas activadas por los usuarios deben evaluarse por separado.
Google-Extended no es un rastreador independiente visible. Se trata de un token de control en el archivo robots.txt y, según Google, afecta al entrenamiento y al «grounding» de Gemini, no al posicionamiento en la búsqueda de Google.
Quien bloquee los robots de búsqueda puede perder visibilidad en la IA. Quien permite el uso de bots de entrenamiento toma una decisión diferente. Precisamente esta distinción es importante.
Las señales de contenido siguen siendo fundamentales. Un contenido claro, una buena estructura, datos de esquema bien organizados, mapas del sitio, enlaces internos y versiones legibles por máquinas son más útiles que el «bot-bingo» hecho a toda prisa.

Mi recomendación: trata el archivo robots.txt como un aviso en la puerta, no como una caja fuerte. Para ganar visibilidad, necesitas accesibilidad y buenas señales. Para protegerte, necesitas un control de acceso real. Son dos aspectos distintos.

Qué hace realmente el archivo robots.txt

El archivo robots.txt se encuentra en el directorio raíz de tu página web, por ejemplo, en https://example.com/robots.txt. Los rastreadores fiables lo leen antes de acceder a las páginas. En él se indica qué áreas puede rastrear un agente de usuario concreto y cuáles no.

Google describe el archivo robots.txt de forma muy objetiva: este archivo indica a los rastreadores de los motores de búsqueda qué URL pueden visitar. Su objetivo principal es controlar el tráfico de los rastreadores para que los servidores no se vean sobrecargados innecesariamente. No está pensado para impedir que las páginas web aparezcan en Google.

Puede parecer una tontería, pero es la mitad del trabajo. El archivo robots.txt es una regla de rastreo. Responde a la pregunta: „¿Puede este bot acceder a esta URL?“. No responde automáticamente a: „¿Puede aparecer esta URL en los resultados de búsqueda?“. Y mucho menos responde a: „¿Es este contenido privado?“.“

Lo que no hace el archivo robots.txt

El error más frecuente es confundir No rastrear, No indexar, No mostrar y No utilizar. Son objetivos diferentes.

No rastrear: Un bot no debe acceder a una URL. Para eso está el archivo robots.txt.
No indexar: Si no quieres que una URL aparezca en los resultados de búsqueda, por lo general tienes que noindex o distancia real.
No ser de acceso público: Un contenido debe ser privado. Para ello, necesitas un nombre de usuario, protección con contraseña, verificación de derechos o un almacenamiento no público.
No se utilizan para entrenar: Sin embargo, algunos proveedores tienen sus propios tokens de agente de usuario, por ejemplo: GPTBot, ClaudeBot o Google-Extended.
No aparecer en AI Search: Sin embargo, en el caso de algunos proveedores, los bots de búsqueda son importantes, por ejemplo: OAI-SearchBot, Claude-SearchBot o PerplexityBot.

Algo especialmente engañoso: si bloqueas una página mediante el archivo robots.txt, según su propia documentación, Google puede encontrar la URL de todos modos si hay otras páginas que enlazan a ella. En ese caso, es posible que la URL aparezca en los resultados de búsqueda sin fragmento de texto. Por lo general, eso no es lo que quieren los administradores de sitios web.

Si hay algo que realmente no debe ser público, no basta con incluirlo en el archivo robots.txt. En ese caso, debe protegerse con un control de acceso. Y punto. El archivo robots.txt es una indicación para los rastreadores educados, no un sistema de seguridad.

Cuatro casos que hay que diferenciar claramente

Para AI Visibility, la distinción entre los distintos fines de los bots es ahora más importante que el nombre concreto de cada uno de ellos. En la práctica, hay cuatro casos:

Caso	De qué se trata	Decisión típica
Rastreador de búsqueda	Los contenidos se localizan y se vinculan para las interfaces de búsqueda o de respuesta.	Permitir en la mayoría de los casos los contenidos públicos e importantes.
Crawler de entrenamiento	Los contenidos pueden recopilarse para el entrenamiento o la mejora de modelos.	Decidir de forma consciente, a menudo más restrictivo que la búsqueda.
Recuperación activada por el usuario	Una persona le pide a un sistema de IA que recupere una URL o una fuente concreta.	No bloquear de forma instintiva, pero proteger las zonas sensibles.
Rastreadores de herramientas, auditorías o productos	Un servicio revisa, procesa, prueba o analiza páginas por encargo.	Solo se permitirá si la finalidad y la fuente son plausibles.

Es precisamente aquí donde en 2026 la cosa se pone más interesante que antes. Antes, el archivo robots.txt era, para muchos sitios web de WordPress, sobre todo un aspecto secundario del SEO. Hoy en día, ese mismo archivo puede influir en que los contenidos sean más fáciles de encontrar en ChatGPT Search, Claude Search, Perplexity o funciones similares a Gemini, en que se autorice su uso para el entrenamiento de modelos y en que los WAF bloqueen por error a bots de IA legítimos.

Googlebot, Google-Extended y Google-CloudVertexBot

En Google, esta distinción es especialmente importante, ya que muchos debates que se desarrollan aquí son sorprendentemente confusos.

Googlebot es el rastreador clásico de Google para Google Search. Reglas para Googlebot Según Google, esto afecta a la búsqueda de Google, incluidas las funciones de búsqueda, así como a otras plataformas como Discover, Google Imágenes, Google Vídeos y Google Noticias. Por lo tanto, quien bloquee Googlebot de forma generalizada no estará bloqueando „solo la IA“, sino también la visibilidad habitual en Google.

Google-Extended es otra cosa. Según Google, Google-Extended no tiene un agente de usuario HTTP propio. El rastreo se realiza con los agentes de usuario existentes de Google; Google-Extended Es un token de robots.txt destinado al control. Su objetivo es permitir a los editores controlar si los contenidos ya rastreados por Google pueden utilizarse para el entrenamiento de futuros modelos de Gemini y para el «grounding» en las aplicaciones de Gemini y Vertex AI. Además, Google señala expresamente que Google-Extended no influye en la inclusión en la Búsqueda de Google ni se utiliza como señal de posicionamiento en dicha búsqueda.

Google Cloud VertexBot Según la documentación de Google, esto se refiere a los rastreos que los administradores de sitios web inician para crear agentes de Vertex AI. Esto tampoco tiene ningún efecto en la Búsqueda de Google. Si una organización crea sus propios agentes con Vertex AI, este bot puede ser relevante. Para un blog normal de WordPress, por el momento no es el factor decisivo que determine su visibilidad en Google.

Conclusión práctica: Google no es un único «interruptor» de IA. Googlebot, Google-Extended y Google-CloudVertexBot tienen significados diferentes. Quien, por enfado, lo desactive todo de forma generalizada, estará tomando decisiones que afectan, además, a la búsqueda clásica, las imágenes, las noticias, el uso de Gemini y los flujos de trabajo de los agentes. No es algo que se deba hacer a la ligera.

OpenAI: OAI-SearchBot, GPTBot y usuarios de ChatGPT

OpenAI distingue con bastante claridad los distintos fines en la documentación de su propio rastreador.

OAI-SearchBot: para ChatGPT Search. Según OpenAI, quienes bloqueen este bot podrían dejar de aparecer en los resultados de búsqueda de ChatGPT, aunque los enlaces de navegación sigan estando disponibles.
GPTBot: para contenidos que puedan utilizarse para el entrenamiento de modelos generativos de base. Una instrucción «Disallow» para GPTBot indica que los contenidos no deben utilizarse para el entrenamiento.
Usuarios de ChatGPT: para determinadas acciones de los usuarios en ChatGPT y Custom GPTs. Estas consultas son iniciadas por los usuarios, no se trata de un rastreo web automático. Por ello, OpenAI señala que las reglas de robots.txt no siempre son aplicables en este caso.

Para los administradores de sitios web, esta distinción es bastante importante. Por ejemplo, puedes decir: «Quiero que se me pueda encontrar en ChatGPT Search, pero no quiero que mis contenidos se utilicen para el entrenamiento». En ese caso, un posible patrón sería: OAI-SearchBot permitir que, GPTBot bloquear. Que esto sea estratégicamente acertado depende de tu página web, de tus contenidos y de tu actitud ante el riesgo. Pero, al menos, es una decisión precisa.

Lo que debes evitar: bloquear todos los agentes de usuario de OpenAI de un plumazo y luego preguntarte por qué tu experiencia pública no aparece en ChatGPT Search. No se puede decir al mismo tiempo „por favor, encuéntrame“ y „por favor, nunca me busques“ y esperar que eso te proporcione una visibilidad fiable.

Claude, Perplexity y otros rastreadores de IA

Anthropic también describe varios bots para Claude: ClaudeBot para el entrenamiento o la mejora de modelos, Claude-SearchBot por la calidad de la búsqueda y Usuario de Claude para consultas iniciadas por los usuarios. Según Anthropic, bloquear a Claude-SearchBot puede reducir la visibilidad y la precisión de los resultados de búsqueda de Claude. Por el contrario, bloquear a ClaudeBot indica que los contenidos futuros no deben incluirse en los conjuntos de datos de entrenamiento.

Perplexity separa PerplexityBot para Search y Usuarios de Perplexity para las acciones de los usuarios. Además, Perplexity señala que las reglas del WAF no solo deberían comprobar de forma mecánica las cadenas de agente de usuario, sino que, idealmente, también deberían tener en cuenta los rangos de IP oficiales. Se trata de un detalle, pero es importante: cualquiera puede falsificar las cadenas de agente de usuario. Para un control serio de los bots, no basta con nombres bonitos en el registro.

Y además hay muchas otras consultas: herramientas de SEO, servicios de monitorización, bots de vista previa, bots sociales, escáneres de seguridad, scrapers fraudulentos, rastreadores internos y comprobaciones de alojamiento. No todos los bots que llevan „IA“ en el nombre son estratégicamente importantes. No todos los bots desconocidos son inofensivos. Por lo tanto, la tarea no consiste en memorizar una lista gigantesca, sino en definir claramente los propios objetivos.

Señales de contenido en lugar de bloqueo por reflejo

La visibilidad de la IA no se limita a quién puede realizar el rastreo. También se trata de lo que un sistema encuentra cuando realiza el rastreo. Una página web puede estar técnicamente abierta y, aun así, resultar difícil de entender. En ese caso, es como una tienda con la puerta abierta, pero sin letrero, sin etiquetas de precios y sin luz. Muy accesible, pero de muy poca utilidad.

Google señala en su propia guía sobre la búsqueda generativa con IA que el trabajo básico de SEO sigue siendo importante: contenidos útiles, únicos y bien organizados, que no se limiten a reciclar lo que ya se encuentra en todas partes. Ahí es precisamente donde está la clave. Los sistemas de IA no solo necesitan acceso, sino también señales útiles.

Estructura clara de la página: Títulos sugerentes, subtítulos significativos, párrafos claros.
Entidades limpias: ¿Quién es la persona, la organización, la marca, el servicio o el producto?
Citas destacadas: Respuestas concretas, definiciones claras, datos, ejemplos y límites.
Actualidad: Datos visibles de publicación y modificación, contenidos actualizados, sin guías «zombis» de 2018.
Datos del esquema: No como una «magia» de posicionamiento, sino como un vínculo legible por máquinas entre el contenido, el autor o la autora, la organización y el producto.
Mapas del sitio: para que los contenidos importantes sigan siendo fáciles de encontrar y no se pierdan en el laberinto del archivo.
Enlaces internos: Los clústeres, los pilares, las preguntas frecuentes, las páginas de productos y las guías deben complementarse entre sí.
Versiones legibles por máquina: llms.txt, Markdown u otras versiones simplificadas pueden aportar contexto. Sin embargo, no sustituyen a una política de acceso.

Esto también sirve de enlace con el artículo anterior sobre Esquema, entidades y contenidos citables. Si un robot de búsqueda puede rastrear una página, pero solo encuentra señales contradictorias, no se gana gran cosa. Si puede rastrearla y encuentra señales claras, el acceso se convierte, al menos, en una oportunidad aprovechable.

Lista de comprobación de WordPress

En el caso de las páginas web de WordPress, yo procedería de la siguiente manera, desde un punto de vista práctico:

Aclarar los objetivos públicos: ¿Qué contenidos deberían poder encontrarse en Google, ChatGPT Search, Claude, Perplexity y otros sistemas de respuesta?
Proteger realmente los contenidos privados: Los datos de los clientes, la documentación interna, los entornos de prueba y las descargas no autorizadas deben estar protegidos mediante un nombre de usuario o una contraseña, y no solo en el archivo robots.txt.
Decidir por separado sobre el entrenamiento: ¿Quieres permitir, bloquear o aplicar un tratamiento diferenciado a los rastreadores de entrenamiento?
No bloquees por error a los robots de búsqueda: Si el objetivo es la búsqueda con IA, comprueba si los bots de búsqueda como OAI-SearchBot, Claude-SearchBot o PerplexityBot están disponibles.
No dañes a Googlebot: No bloquees a Googlebot de forma generalizada si te interesa mantener una visibilidad normal en Google.
No bloquear sin necesidad el CSS, el JavaScript y las imágenes: Si una página resulta difícil de entender sin recursos, también dificultas su clasificación automática.
noindex utilizar de forma específica: Es mejor aplicar correctamente la etiqueta «noindex» a los archivos de etiquetas, las páginas de búsqueda con poco contenido, las páginas internas de agradecimiento y los contenidos duplicados, en lugar de ocultarlos a medias mediante el archivo robots.txt.
Comprobar los mapas del sitio: ¿Se han incluido correctamente las entradas, páginas, productos, categorías y archivos multimedia importantes? ¿Se han excluido las secciones que no son importantes?
Comprobar el esquema: ¿Existen varios plugins de SEO, de tiendas online o de IA que generen grafos JSON-LD que entren en conflicto entre sí?
Supervisar los registros: ¿Qué bots llegan realmente? ¿Cuáles quedan bloqueados por el cortafuegos, la caché, los complementos de seguridad o las normas del alojamiento web?
Cómo clasificar llms.txt y Markdown: Úsalas como capa de contexto y orientación, no como gestión de derechos.
Documentar los cambios: Las reglas del archivo robots.txt pueden influir en la visibilidad. Por eso deben incluirse en un registro de cambios, y no ser fruto de un capricho espontáneo de un viernes por la noche.

Un ejemplo útil de archivo robots.txt

Esto no es un modelo universal que se pueda copiar tal cual, sino un ejemplo para reflexionar. Para muchos sitios web públicos de asesoramiento, servicios o productos, una estructura diferenciada puede resultar más adecuada que „todo abierto“ o „todo cerrado“.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

Sitemap: https://example.com/sitemap_index.xml

Lo que ilustra este ejemplo: los robots de rastreo clásicos y los de búsqueda pueden encontrar contenidos públicos. Los tokens de entrenamiento se tratan de forma más restrictiva. Que esto sea adecuado para tu sitio web depende de lo que publiques. Una fotógrafa, una editorial especializada en derecho, un proveedor de SaaS, una tienda de WooCommerce y un taller artesanal local no tienen automáticamente la misma política de bots.

Además, es importante tener en cuenta que algunos proveedores distinguen entre el rastreo automático y las consultas iniciadas por el usuario. Precisamente por eso, el archivo robots.txt no es la única capa de control. También hay que tener en cuenta las reglas del WAF, la verificación de IP, la protección de inicio de sesión, las cuestiones relacionadas con el consentimiento y la protección de datos, los registros del servidor y la estrategia de contenido.

Mi opinión sobre citelayer®

Según mi Auditoría de visibilidad con IA de citelayer®Desde este punto de vista, el archivo robots.txt es solo una parte del diagnóstico. No solo quiero saber si, en teoría, un bot tiene permiso. Quiero saber qué ocurre en la práctica: ¿llegan los bots relevantes? ¿Se ven bloqueados por las reglas del cortafuegos? ¿Ven los contenidos correctos? ¿Coinciden el mapa del sitio, el esquema, las URL canónicas, los enlaces internos, el archivo llms.txt y el contenido visible?

Precisamente en WordPress, a menudo no veo un único problema grave, sino muchas pequeñas contradicciones: el plugin de SEO dice A, el plugin de la tienda dice B, el plugin de seguridad bloquea C, la caché ofrece D, y en el archivo robots.txt sigue habiendo una entrada antigua de una migración ya olvidada hace tiempo. No es nada espectacular. Pero, por desgracia, es precisamente este tipo de desorden el que hace que la clasificación automática fracase.

citelayer® para WordPress Cubre precisamente esta brecha entre los plugins clásicos de SEO y AI Visibility: capas de contexto legibles por máquinas, llms.txt, contexto de Schema, señales de bots y una base más sólida para las auditorías. Pero también en este caso se aplica lo siguiente: un plugin puede aportar estructura. La decisión estratégica sobre qué contenidos deben ser visibles, citables, protegidos o excluidos del entrenamiento sigue siendo una cuestión editorial y empresarial.

Preguntas frecuentes

¿Debería bloquear todos los rastreadores de IA?

No de forma generalizada. Si quieres que tu contenido sea visible en AI Search, no debes bloquear los rastreadores de búsqueda de forma automática. Los rastreadores de entrenamiento se pueden evaluar por separado. Independientemente de ello, los contenidos privados deben estar sujetos a un control de acceso real.

¿Es el archivo robots.txt legalmente vinculante?

El archivo robots.txt es un estándar técnico o una convención sobre el comportamiento de los rastreadores, no es una caja fuerte ni un asesoramiento jurídico. Los rastreadores fiables respetan las normas. Otros pueden ignorarlas. Si las cuestiones legales son importantes, necesitarás además un análisis jurídico y medidas de protección técnicas reales.

¿Cuál es la diferencia entre GPTBot y OAI-SearchBot?

OpenAI describe GPTBot como un rastreador de contenidos que pueden utilizarse para el entrenamiento de modelos generativos básicos. OAI-SearchBot, por su parte, está pensado para ChatGPT Search. Así pues, en teoría, puedes permitir la búsqueda y bloquear el entrenamiento.

¿Influye Google Extended en mi posicionamiento en Google?

Según Google, no. Según la documentación de Google, Google Extended no influye ni en la inclusión en la Búsqueda de Google ni en el posicionamiento en la Búsqueda de Google. Lo que sí controla es si los contenidos rastreados por Google pueden utilizarse para determinados usos de Gemini y Vertex AI.

¿El archivo llms.txt sustituye a mi robots.txt?

No. El archivo robots.txt controla las reglas de rastreo. El archivo llms.txt es una capa de orientación para sistemas de IA y agentes: páginas importantes, contexto, resúmenes y puntos de acceso legibles por máquina. Uno dice más bien „¿adónde puedes ir?“, y el otro más bien „esto es lo importante aquí“.

¿Por qué debería revisar los registros de los bots?

Porque el archivo robots.txt solo refleja tu intención. Los registros muestran lo que ocurre realmente: qué bots acceden al sitio, qué URL visitan, qué códigos de estado reciben, qué reglas del cortafuegos se aplican y qué contenidos importantes nunca llegan a consultarse.

Fuentes y verificación

Google Search Central: Introducción al archivo robots.txt y las limitaciones del archivo robots.txt.
Infraestructura de rastreo de Google: Los rastreadores habituales de Google, en particular Googlebot, Google-CloudVertexBot y Google-Extended.
Google Search Central: Optimización para las funciones de IA generativa en la Búsqueda de Google.
OpenAI: Resumen de los rastreadores de OpenAI con OAI-SearchBot, GPTBot y los usuarios de ChatGPT.
Centro de ayuda de Anthropic: ¿Anthropic recopila datos de la web? con ClaudeBot, Claude-SearchBot y Claude-User.
Documentación de Perplexity: Rastreadores de Perplexity con PerplexityBot y Perplexity-User.
Experiencia práctica propia con citelayer® en auditorías y plugins: patrones recurrentes en auditorías de WordPress, análisis de registros de bots, compatibilidad con Schema y llms.txt, y pruebas de visibilidad de IA. Estas observaciones se utilizan en el artículo como referencia práctica, no como fuente primaria externa.

Saskia Teichmann

Saskia Teichmann es estratega de IA certificada (MMAI®) y desarrolladora web de pila completa. Ayuda a las pymes y a la industria a integrar la IA, el RGPD, el Reglamento de la UE sobre IA y las tecnologías web modernas en una estrategia digital preparada para el futuro y conforme a la legislación.

En pocas palabras:
Como traductora de la realidad técnica, trabaja en la interfaz de la IA, el desarrollo web y la realidad operativa. Desarrolla flujos de trabajo basados en IA para empresas y agencias, con el objetivo de garantizar que la tecnología no solo impresiona en las demostraciones, sino que también funciona en la vida cotidiana.

Enviar una solicitud de proyecto ∙ Servir café