{"id":3795,"date":"2026-06-18T17:17:34","date_gmt":"2026-06-18T15:17:34","guid":{"rendered":"https:\/\/isla-stud.io\/?p=3795"},"modified":"2026-06-18T17:19:54","modified_gmt":"2026-06-18T15:19:54","slug":"senales-de-contenido-de-los-robots-de-rastreo-de-ai-en-el-archivo-txt","status":"publish","type":"post","link":"https:\/\/isla-stud.io\/es\/ai-visibility\/ai-crawler-robots-txt-content-signale\/","title":{"rendered":"Rastreadores de IA, robots.txt y se\u00f1ales de contenido"},"content":{"rendered":"<p class=\"wp-block-paragraph\"><strong>Fecha: junio de 2026.<\/strong> En cuanto los administradores de sitios web oyen hablar de los rastreadores de IA, suele ocurrir una de estas dos cosas: o bien lo bloquean todo de inmediato, porque \u201ela IA no debe ir por ah\u00ed rob\u00e1ndolo todo\u201c, o bien lo dejan todo abierto, porque la visibilidad suena bien de alguna manera. Ambas respuestas son demasiado simplistas.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">La mejor forma de hacerlo es menos dram\u00e1tica y mucho m\u00e1s \u00fatil: primero hay que entender qu\u00e9 hace cada bot. La b\u00fasqueda, el entrenamiento, la recuperaci\u00f3n activada por el usuario, la comprobaci\u00f3n de anuncios, la herramienta de pruebas y el rastreo de auditor\u00eda no son lo mismo. Quien lo meta todo en el mismo saco, o bien se priva innecesariamente de visibilidad, o bien deja sin controlar aspectos que, en realidad, deber\u00edan revisarse.<\/p>\n\n\n\n<div class=\"wp-block-rank-math-toc-block\" id=\"rank-math-toc\"><h2>\u00cdndice<\/h2><nav><ul><li><a href=\"#kurzfassung\">El resumen<\/a><\/li><li><a href=\"#robots-txt\">Qu\u00e9 hace realmente el archivo robots.txt<\/a><\/li><li><a href=\"#nicht-macht\">Lo que no hace el archivo robots.txt<\/a><\/li><li><a href=\"#vier-faelle\">Cuatro casos que hay que diferenciar claramente<\/a><\/li><li><a href=\"#google\">Googlebot, Google-Extended y Google-CloudVertexBot<\/a><\/li><li><a href=\"#openai\">OpenAI: OAI-SearchBot, GPTBot y usuarios de ChatGPT<\/a><\/li><li><a href=\"#claude-perplexity\">Claude, Perplexity y otros rastreadores de IA<\/a><\/li><li><a href=\"#content-signale\">Se\u00f1ales de contenido en lugar de bloqueo por reflejo<\/a><\/li><li><a href=\"#wordpress-checkliste\">Lista de comprobaci\u00f3n de WordPress<\/a><\/li><li><a href=\"#beispiel\">Un ejemplo \u00fatil de archivo robots.txt<\/a><\/li><li><a href=\"#citelayer\">Mi opini\u00f3n sobre citelayer\u00ae<\/a><\/li><li><a href=\"#faq\">Preguntas frecuentes<\/a><\/li><li><a href=\"#quellen\">Fuentes y verificaci\u00f3n<\/a><\/li><\/ul><\/nav><\/div>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"kurzfassung\">El resumen<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>El archivo robots.txt controla el rastreo, no la visibilidad autom\u00e1tica.<\/strong> Una URL bloqueada puede aparecer de todos modos en los resultados de b\u00fasqueda si hay un enlace externo que apunte a ella.<\/li>\n<li><strong>El archivo robots.txt no es un escudo de protecci\u00f3n de datos.<\/strong> Los contenidos privados deben estar protegidos mediante inicio de sesi\u00f3n, contrase\u00f1a o sistemas no p\u00fablicos, y no solo mediante una regla \u00abDisallow\u00bb.<\/li>\n<li><strong>Los rastreadores de IA tienen diferentes funciones.<\/strong> Los bots de b\u00fasqueda, los bots de entrenamiento y las consultas activadas por los usuarios deben evaluarse por separado.<\/li>\n<li><strong>Google-Extended no es un rastreador independiente visible.<\/strong> Se trata de un token de control en el archivo robots.txt y, seg\u00fan Google, afecta al entrenamiento y al \u00abgrounding\u00bb de Gemini, no al posicionamiento en la b\u00fasqueda de Google.<\/li>\n<li><strong>Quien bloquee los robots de b\u00fasqueda puede perder visibilidad en la IA.<\/strong> Quien permite el uso de bots de entrenamiento toma una decisi\u00f3n diferente. Precisamente esta distinci\u00f3n es importante.<\/li>\n<li><strong>Las se\u00f1ales de contenido siguen siendo fundamentales.<\/strong> Un contenido claro, una buena estructura, datos de esquema bien organizados, mapas del sitio, enlaces internos y versiones legibles por m\u00e1quinas son m\u00e1s \u00fatiles que el \u00abbot-bingo\u00bb hecho a toda prisa.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Mi recomendaci\u00f3n: trata el archivo robots.txt como un aviso en la puerta, no como una caja fuerte. Para ganar visibilidad, necesitas accesibilidad y buenas se\u00f1ales. Para protegerte, necesitas un control de acceso real. Son dos aspectos distintos.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"robots-txt\">Qu\u00e9 hace realmente el archivo robots.txt<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">El archivo <code>robots.txt<\/code> se encuentra en el directorio ra\u00edz de tu p\u00e1gina web, por ejemplo, en <code>https:\/\/example.com\/robots.txt<\/code>. Los rastreadores fiables lo leen antes de acceder a las p\u00e1ginas. En \u00e9l se indica qu\u00e9 \u00e1reas puede rastrear un agente de usuario concreto y cu\u00e1les no.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Google describe el archivo robots.txt de forma muy objetiva: este archivo indica a los rastreadores de los motores de b\u00fasqueda qu\u00e9 URL pueden visitar. Su objetivo principal es controlar el tr\u00e1fico de los rastreadores para que los servidores no se vean sobrecargados innecesariamente. No est\u00e1 pensado para impedir que las p\u00e1ginas web aparezcan en Google.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Puede parecer una tonter\u00eda, pero es la mitad del trabajo. El archivo robots.txt es una regla de rastreo. Responde a la pregunta: \u201e\u00bfPuede este bot acceder a esta URL?\u201c. No responde autom\u00e1ticamente a: \u201e\u00bfPuede aparecer esta URL en los resultados de b\u00fasqueda?\u201c. Y mucho menos responde a: \u201e\u00bfEs este contenido privado?\u201c.\u201c<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"nicht-macht\">Lo que no hace el archivo robots.txt<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">El error m\u00e1s frecuente es confundir <em>No rastrear<\/em>, <em>No indexar<\/em>, <em>No mostrar<\/em> y <em>No utilizar<\/em>. Son objetivos diferentes.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>No rastrear:<\/strong> Un bot no debe acceder a una URL. Para eso est\u00e1 el archivo robots.txt.<\/li>\n<li><strong>No indexar:<\/strong> Si no quieres que una URL aparezca en los resultados de b\u00fasqueda, por lo general tienes que <code>noindex<\/code> o distancia real.<\/li>\n<li><strong>No ser de acceso p\u00fablico:<\/strong> Un contenido debe ser privado. Para ello, necesitas un nombre de usuario, protecci\u00f3n con contrase\u00f1a, verificaci\u00f3n de derechos o un almacenamiento no p\u00fablico.<\/li>\n<li><strong>No se utilizan para entrenar:<\/strong> Sin embargo, algunos proveedores tienen sus propios tokens de agente de usuario, por ejemplo: <code>GPTBot<\/code>, <code>ClaudeBot<\/code> o <code>Google-Extended<\/code>.<\/li>\n<li><strong>No aparecer en AI Search:<\/strong> Sin embargo, en el caso de algunos proveedores, los bots de b\u00fasqueda son importantes, por ejemplo: <code>OAI-SearchBot<\/code>, <code>Claude-SearchBot<\/code> o <code>PerplexityBot<\/code>.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Algo especialmente enga\u00f1oso: si bloqueas una p\u00e1gina mediante el archivo robots.txt, seg\u00fan su propia documentaci\u00f3n, Google puede encontrar la URL de todos modos si hay otras p\u00e1ginas que enlazan a ella. En ese caso, es posible que la URL aparezca en los resultados de b\u00fasqueda sin fragmento de texto. Por lo general, eso no es lo que quieren los administradores de sitios web.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Si hay algo que realmente no debe ser p\u00fablico, no basta con incluirlo en el archivo robots.txt. En ese caso, debe protegerse con un control de acceso. Y punto. El archivo robots.txt es una indicaci\u00f3n para los rastreadores educados, no un sistema de seguridad.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"vier-faelle\">Cuatro casos que hay que diferenciar claramente<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Para AI Visibility, la distinci\u00f3n entre los distintos fines de los bots es ahora m\u00e1s importante que el nombre concreto de cada uno de ellos. En la pr\u00e1ctica, hay cuatro casos:<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table><thead><tr><th>Caso<\/th><th>De qu\u00e9 se trata<\/th><th>Decisi\u00f3n t\u00edpica<\/th><\/tr><\/thead><tbody><tr><td>Rastreador de b\u00fasqueda<\/td><td>Los contenidos se localizan y se vinculan para las interfaces de b\u00fasqueda o de respuesta.<\/td><td>Permitir en la mayor\u00eda de los casos los contenidos p\u00fablicos e importantes.<\/td><\/tr><tr><td>Crawler de entrenamiento<\/td><td>Los contenidos pueden recopilarse para el entrenamiento o la mejora de modelos.<\/td><td>Decidir de forma consciente, a menudo m\u00e1s restrictivo que la b\u00fasqueda.<\/td><\/tr><tr><td>Recuperaci\u00f3n activada por el usuario<\/td><td>Una persona le pide a un sistema de IA que recupere una URL o una fuente concreta.<\/td><td>No bloquear de forma instintiva, pero proteger las zonas sensibles.<\/td><\/tr><tr><td>Rastreadores de herramientas, auditor\u00edas o productos<\/td><td>Un servicio revisa, procesa, prueba o analiza p\u00e1ginas por encargo.<\/td><td>Solo se permitir\u00e1 si la finalidad y la fuente son plausibles.<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Es precisamente aqu\u00ed donde en 2026 la cosa se pone m\u00e1s interesante que antes. Antes, el archivo robots.txt era, para muchos sitios web de WordPress, sobre todo un aspecto secundario del SEO. Hoy en d\u00eda, ese mismo archivo puede influir en que los contenidos sean m\u00e1s f\u00e1ciles de encontrar en ChatGPT Search, Claude Search, Perplexity o funciones similares a Gemini, en que se autorice su uso para el entrenamiento de modelos y en que los WAF bloqueen por error a bots de IA leg\u00edtimos.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"google\">Googlebot, Google-Extended y Google-CloudVertexBot<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">En Google, esta distinci\u00f3n es especialmente importante, ya que muchos debates que se desarrollan aqu\u00ed son sorprendentemente confusos.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Googlebot<\/strong> es el rastreador cl\u00e1sico de Google para Google Search. Reglas para <code>Googlebot<\/code> Seg\u00fan Google, esto afecta a la b\u00fasqueda de Google, incluidas las funciones de b\u00fasqueda, as\u00ed como a otras plataformas como Discover, Google Im\u00e1genes, Google V\u00eddeos y Google Noticias. Por lo tanto, quien bloquee Googlebot de forma generalizada no estar\u00e1 bloqueando \u201esolo la IA\u201c, sino tambi\u00e9n la visibilidad habitual en Google.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Google-Extended<\/strong> es otra cosa. Seg\u00fan Google, Google-Extended no tiene un agente de usuario HTTP propio. El rastreo se realiza con los agentes de usuario existentes de Google; <code>Google-Extended<\/code> Es un token de robots.txt destinado al control. Su objetivo es permitir a los editores controlar si los contenidos ya rastreados por Google pueden utilizarse para el entrenamiento de futuros modelos de Gemini y para el \u00abgrounding\u00bb en las aplicaciones de Gemini y Vertex AI. Adem\u00e1s, Google se\u00f1ala expresamente que Google-Extended no influye en la inclusi\u00f3n en la B\u00fasqueda de Google ni se utiliza como se\u00f1al de posicionamiento en dicha b\u00fasqueda.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Google Cloud VertexBot<\/strong> Seg\u00fan la documentaci\u00f3n de Google, esto se refiere a los rastreos que los administradores de sitios web inician para crear agentes de Vertex AI. Esto tampoco tiene ning\u00fan efecto en la B\u00fasqueda de Google. Si una organizaci\u00f3n crea sus propios agentes con Vertex AI, este bot puede ser relevante. Para un blog normal de WordPress, por el momento no es el factor decisivo que determine su visibilidad en Google.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Conclusi\u00f3n pr\u00e1ctica: Google no es un \u00fanico \u00abinterruptor\u00bb de IA. Googlebot, Google-Extended y Google-CloudVertexBot tienen significados diferentes. Quien, por enfado, lo desactive todo de forma generalizada, estar\u00e1 tomando decisiones que afectan, adem\u00e1s, a la b\u00fasqueda cl\u00e1sica, las im\u00e1genes, las noticias, el uso de Gemini y los flujos de trabajo de los agentes. No es algo que se deba hacer a la ligera.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"openai\">OpenAI: OAI-SearchBot, GPTBot y usuarios de ChatGPT<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">OpenAI distingue con bastante claridad los distintos fines en la documentaci\u00f3n de su propio rastreador.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong><code>OAI-SearchBot<\/code>:<\/strong> para ChatGPT Search. Seg\u00fan OpenAI, quienes bloqueen este bot podr\u00edan dejar de aparecer en los resultados de b\u00fasqueda de ChatGPT, aunque los enlaces de navegaci\u00f3n sigan estando disponibles.<\/li>\n<li><strong><code>GPTBot<\/code>:<\/strong> para contenidos que puedan utilizarse para el entrenamiento de modelos generativos de base. Una instrucci\u00f3n \u00abDisallow\u00bb para GPTBot indica que los contenidos no deben utilizarse para el entrenamiento.<\/li>\n<li><strong><code>Usuarios de ChatGPT<\/code>:<\/strong> para determinadas acciones de los usuarios en ChatGPT y Custom GPTs. Estas consultas son iniciadas por los usuarios, no se trata de un rastreo web autom\u00e1tico. Por ello, OpenAI se\u00f1ala que las reglas de robots.txt no siempre son aplicables en este caso.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Para los administradores de sitios web, esta distinci\u00f3n es bastante importante. Por ejemplo, puedes decir: \u00abQuiero que se me pueda encontrar en ChatGPT Search, pero no quiero que mis contenidos se utilicen para el entrenamiento\u00bb. En ese caso, un posible patr\u00f3n ser\u00eda: <code>OAI-SearchBot<\/code> permitir que, <code>GPTBot<\/code> bloquear. Que esto sea estrat\u00e9gicamente acertado depende de tu p\u00e1gina web, de tus contenidos y de tu actitud ante el riesgo. Pero, al menos, es una decisi\u00f3n precisa.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Lo que debes evitar: bloquear todos los agentes de usuario de OpenAI de un plumazo y luego preguntarte por qu\u00e9 tu experiencia p\u00fablica no aparece en ChatGPT Search. No se puede decir al mismo tiempo \u201epor favor, encu\u00e9ntrame\u201c y \u201epor favor, nunca me busques\u201c y esperar que eso te proporcione una visibilidad fiable.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"claude-perplexity\">Claude, Perplexity y otros rastreadores de IA<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Anthropic tambi\u00e9n describe varios bots para Claude: <code>ClaudeBot<\/code> para el entrenamiento o la mejora de modelos, <code>Claude-SearchBot<\/code> por la calidad de la b\u00fasqueda y <code>Usuario de Claude<\/code> para consultas iniciadas por los usuarios. Seg\u00fan Anthropic, bloquear a Claude-SearchBot puede reducir la visibilidad y la precisi\u00f3n de los resultados de b\u00fasqueda de Claude. Por el contrario, bloquear a ClaudeBot indica que los contenidos futuros no deben incluirse en los conjuntos de datos de entrenamiento.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Perplexity separa <code>PerplexityBot<\/code> para Search y <code>Usuarios de Perplexity<\/code> para las acciones de los usuarios. Adem\u00e1s, Perplexity se\u00f1ala que las reglas del WAF no solo deber\u00edan comprobar de forma mec\u00e1nica las cadenas de agente de usuario, sino que, idealmente, tambi\u00e9n deber\u00edan tener en cuenta los rangos de IP oficiales. Se trata de un detalle, pero es importante: cualquiera puede falsificar las cadenas de agente de usuario. Para un control serio de los bots, no basta con nombres bonitos en el registro.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Y adem\u00e1s hay muchas otras consultas: herramientas de SEO, servicios de monitorizaci\u00f3n, bots de vista previa, bots sociales, esc\u00e1neres de seguridad, scrapers fraudulentos, rastreadores internos y comprobaciones de alojamiento. No todos los bots que llevan \u201eIA\u201c en el nombre son estrat\u00e9gicamente importantes. No todos los bots desconocidos son inofensivos. Por lo tanto, la tarea no consiste en memorizar una lista gigantesca, sino en definir claramente los propios objetivos.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"content-signale\">Se\u00f1ales de contenido en lugar de bloqueo por reflejo<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">La visibilidad de la IA no se limita a qui\u00e9n puede realizar el rastreo. Tambi\u00e9n se trata de lo que un sistema encuentra cuando realiza el rastreo. Una p\u00e1gina web puede estar t\u00e9cnicamente abierta y, aun as\u00ed, resultar dif\u00edcil de entender. En ese caso, es como una tienda con la puerta abierta, pero sin letrero, sin etiquetas de precios y sin luz. Muy accesible, pero de muy poca utilidad.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Google se\u00f1ala en su propia gu\u00eda sobre la b\u00fasqueda generativa con IA que el trabajo b\u00e1sico de SEO sigue siendo importante: contenidos \u00fatiles, \u00fanicos y bien organizados, que no se limiten a reciclar lo que ya se encuentra en todas partes. Ah\u00ed es precisamente donde est\u00e1 la clave. Los sistemas de IA no solo necesitan acceso, sino tambi\u00e9n se\u00f1ales \u00fatiles.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Estructura clara de la p\u00e1gina:<\/strong> T\u00edtulos sugerentes, subt\u00edtulos significativos, p\u00e1rrafos claros.<\/li>\n<li><strong>Entidades limpias:<\/strong> \u00bfQui\u00e9n es la persona, la organizaci\u00f3n, la marca, el servicio o el producto?<\/li>\n<li><strong>Citas destacadas:<\/strong> Respuestas concretas, definiciones claras, datos, ejemplos y l\u00edmites.<\/li>\n<li><strong>Actualidad:<\/strong> Datos visibles de publicaci\u00f3n y modificaci\u00f3n, contenidos actualizados, sin gu\u00edas \u00abzombis\u00bb de 2018.<\/li>\n<li><strong>Datos del esquema:<\/strong> No como una \u00abmagia\u00bb de posicionamiento, sino como un v\u00ednculo legible por m\u00e1quinas entre el contenido, el autor o la autora, la organizaci\u00f3n y el producto.<\/li>\n<li><strong>Mapas del sitio:<\/strong> para que los contenidos importantes sigan siendo f\u00e1ciles de encontrar y no se pierdan en el laberinto del archivo.<\/li>\n<li><strong>Enlaces internos:<\/strong> Los cl\u00fasteres, los pilares, las preguntas frecuentes, las p\u00e1ginas de productos y las gu\u00edas deben complementarse entre s\u00ed.<\/li>\n<li><strong>Versiones legibles por m\u00e1quina:<\/strong> <a href=\"https:\/\/isla-stud.io\/es\/asesor\/llms-txt-wordpress\/\">llms.txt<\/a>, Markdown u otras versiones simplificadas pueden aportar contexto. Sin embargo, no sustituyen a una pol\u00edtica de acceso.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Esto tambi\u00e9n sirve de enlace con el art\u00edculo anterior sobre <a href=\"https:\/\/isla-stud.io\/es\/asesor\/esquema-entidades-contenidos-citables\/\">Esquema, entidades y contenidos citables<\/a>. Si un robot de b\u00fasqueda puede rastrear una p\u00e1gina, pero solo encuentra se\u00f1ales contradictorias, no se gana gran cosa. Si puede rastrearla y encuentra se\u00f1ales claras, el acceso se convierte, al menos, en una oportunidad aprovechable.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"wordpress-checkliste\">Lista de comprobaci\u00f3n de WordPress<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">En el caso de las p\u00e1ginas web de WordPress, yo proceder\u00eda de la siguiente manera, desde un punto de vista pr\u00e1ctico:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Aclarar los objetivos p\u00fablicos:<\/strong> \u00bfQu\u00e9 contenidos deber\u00edan poder encontrarse en Google, ChatGPT Search, Claude, Perplexity y otros sistemas de respuesta?<\/li>\n<li><strong>Proteger realmente los contenidos privados:<\/strong> Los datos de los clientes, la documentaci\u00f3n interna, los entornos de prueba y las descargas no autorizadas deben estar protegidos mediante un nombre de usuario o una contrase\u00f1a, y no solo en el archivo robots.txt.<\/li>\n<li><strong>Decidir por separado sobre el entrenamiento:<\/strong> \u00bfQuieres permitir, bloquear o aplicar un tratamiento diferenciado a los rastreadores de entrenamiento?<\/li>\n<li><strong>No bloquees por error a los robots de b\u00fasqueda:<\/strong> Si el objetivo es la b\u00fasqueda con IA, comprueba si los bots de b\u00fasqueda como <code>OAI-SearchBot<\/code>, <code>Claude-SearchBot<\/code> o <code>PerplexityBot<\/code> est\u00e1n disponibles.<\/li>\n<li><strong>No da\u00f1es a Googlebot:<\/strong> No bloquees a Googlebot de forma generalizada si te interesa mantener una visibilidad normal en Google.<\/li>\n<li><strong>No bloquear sin necesidad el CSS, el JavaScript y las im\u00e1genes:<\/strong> Si una p\u00e1gina resulta dif\u00edcil de entender sin recursos, tambi\u00e9n dificultas su clasificaci\u00f3n autom\u00e1tica.<\/li>\n<li><strong><code>noindex<\/code> utilizar de forma espec\u00edfica:<\/strong> Es mejor aplicar correctamente la etiqueta \u00abnoindex\u00bb a los archivos de etiquetas, las p\u00e1ginas de b\u00fasqueda con poco contenido, las p\u00e1ginas internas de agradecimiento y los contenidos duplicados, en lugar de ocultarlos a medias mediante el archivo robots.txt.<\/li>\n<li><strong>Comprobar los mapas del sitio:<\/strong> \u00bfSe han incluido correctamente las entradas, p\u00e1ginas, productos, categor\u00edas y archivos multimedia importantes? \u00bfSe han excluido las secciones que no son importantes?<\/li>\n<li><strong>Comprobar el esquema:<\/strong> \u00bfExisten varios plugins de SEO, de tiendas online o de IA que generen grafos JSON-LD que entren en conflicto entre s\u00ed?<\/li>\n<li><strong>Supervisar los registros:<\/strong> \u00bfQu\u00e9 bots llegan realmente? \u00bfCu\u00e1les quedan bloqueados por el cortafuegos, la cach\u00e9, los complementos de seguridad o las normas del alojamiento web?<\/li>\n<li><strong>C\u00f3mo clasificar llms.txt y Markdown:<\/strong> \u00dasalas como capa de contexto y orientaci\u00f3n, no como gesti\u00f3n de derechos.<\/li>\n<li><strong>Documentar los cambios:<\/strong> Las reglas del archivo robots.txt pueden influir en la visibilidad. Por eso deben incluirse en un registro de cambios, y no ser fruto de un capricho espont\u00e1neo de un viernes por la noche.<\/li>\n<\/ol>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"beispiel\">Un ejemplo \u00fatil de archivo robots.txt<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Esto no es un modelo universal que se pueda copiar tal cual, sino un ejemplo para reflexionar. Para muchos sitios web p\u00fablicos de asesoramiento, servicios o productos, una estructura diferenciada puede resultar m\u00e1s adecuada que \u201etodo abierto\u201c o \u201etodo cerrado\u201c.<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code>User-agent: *\nDisallow: \/wp-admin\/\nAllow: \/wp-admin\/admin-ajax.php\n\nUser-agent: GPTBot\nDisallow: \/\n\nUser-agent: ClaudeBot\nDisallow: \/\n\nUser-agent: Google-Extended\nDisallow: \/\n\nUser-agent: OAI-SearchBot\nAllow: \/\n\nUser-agent: Claude-SearchBot\nAllow: \/\n\nUser-agent: PerplexityBot\nAllow: \/\n\nSitemap: https:\/\/example.com\/sitemap_index.xml<\/code><\/pre>\n\n\n\n<p class=\"wp-block-paragraph\">Lo que ilustra este ejemplo: los robots de rastreo cl\u00e1sicos y los de b\u00fasqueda pueden encontrar contenidos p\u00fablicos. Los tokens de entrenamiento se tratan de forma m\u00e1s restrictiva. Que esto sea adecuado para tu sitio web depende de lo que publiques. Una fot\u00f3grafa, una editorial especializada en derecho, un proveedor de SaaS, una tienda de WooCommerce y un taller artesanal local no tienen autom\u00e1ticamente la misma pol\u00edtica de bots.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Adem\u00e1s, es importante tener en cuenta que algunos proveedores distinguen entre el rastreo autom\u00e1tico y las consultas iniciadas por el usuario. Precisamente por eso, el archivo robots.txt no es la \u00fanica capa de control. Tambi\u00e9n hay que tener en cuenta las reglas del WAF, la verificaci\u00f3n de IP, la protecci\u00f3n de inicio de sesi\u00f3n, las cuestiones relacionadas con el consentimiento y la protecci\u00f3n de datos, los registros del servidor y la estrategia de contenido.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"citelayer\">Mi opini\u00f3n sobre citelayer\u00ae<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Seg\u00fan mi <a href=\"https:\/\/citelayer-ai.com\/services\/ai-visibility-audit\/\" target=\"_blank\" rel=\"noopener\">Auditor\u00eda de visibilidad con IA de citelayer\u00ae<\/a>Desde este punto de vista, el archivo robots.txt es solo una parte del diagn\u00f3stico. No solo quiero saber si, en teor\u00eda, un bot tiene permiso. Quiero saber qu\u00e9 ocurre en la pr\u00e1ctica: \u00bfllegan los bots relevantes? \u00bfSe ven bloqueados por las reglas del cortafuegos? \u00bfVen los contenidos correctos? \u00bfCoinciden el mapa del sitio, el esquema, las URL can\u00f3nicas, los enlaces internos, el archivo llms.txt y el contenido visible?<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Precisamente en WordPress, a menudo no veo un \u00fanico problema grave, sino muchas peque\u00f1as contradicciones: el plugin de SEO dice A, el plugin de la tienda dice B, el plugin de seguridad bloquea C, la cach\u00e9 ofrece D, y en el archivo robots.txt sigue habiendo una entrada antigua de una migraci\u00f3n ya olvidada hace tiempo. No es nada espectacular. Pero, por desgracia, es precisamente este tipo de desorden el que hace que la clasificaci\u00f3n autom\u00e1tica fracase.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/citelayer.ai\/\" target=\"_blank\" rel=\"noopener\">citelayer\u00ae para WordPress<\/a> Cubre precisamente esta brecha entre los plugins cl\u00e1sicos de SEO y AI Visibility: capas de contexto legibles por m\u00e1quinas, llms.txt, contexto de Schema, se\u00f1ales de bots y una base m\u00e1s s\u00f3lida para las auditor\u00edas. Pero tambi\u00e9n en este caso se aplica lo siguiente: un plugin puede aportar estructura. La decisi\u00f3n estrat\u00e9gica sobre qu\u00e9 contenidos deben ser visibles, citables, protegidos o excluidos del entrenamiento sigue siendo una cuesti\u00f3n editorial y empresarial.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"faq\">Preguntas frecuentes<\/h2>\n\n\n\n<h3 class=\"wp-block-heading\">\u00bfDeber\u00eda bloquear todos los rastreadores de IA?<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">No de forma generalizada. Si quieres que tu contenido sea visible en AI Search, no debes bloquear los rastreadores de b\u00fasqueda de forma autom\u00e1tica. Los rastreadores de entrenamiento se pueden evaluar por separado. Independientemente de ello, los contenidos privados deben estar sujetos a un control de acceso real.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">\u00bfEs el archivo robots.txt legalmente vinculante?<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">El archivo robots.txt es un est\u00e1ndar t\u00e9cnico o una convenci\u00f3n sobre el comportamiento de los rastreadores, no es una caja fuerte ni un asesoramiento jur\u00eddico. Los rastreadores fiables respetan las normas. Otros pueden ignorarlas. Si las cuestiones legales son importantes, necesitar\u00e1s adem\u00e1s un an\u00e1lisis jur\u00eddico y medidas de protecci\u00f3n t\u00e9cnicas reales.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">\u00bfCu\u00e1l es la diferencia entre GPTBot y OAI-SearchBot?<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">OpenAI describe GPTBot como un rastreador de contenidos que pueden utilizarse para el entrenamiento de modelos generativos b\u00e1sicos. OAI-SearchBot, por su parte, est\u00e1 pensado para ChatGPT Search. As\u00ed pues, en teor\u00eda, puedes permitir la b\u00fasqueda y bloquear el entrenamiento.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">\u00bfInfluye Google Extended en mi posicionamiento en Google?<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Seg\u00fan Google, no. Seg\u00fan la documentaci\u00f3n de Google, Google Extended no influye ni en la inclusi\u00f3n en la B\u00fasqueda de Google ni en el posicionamiento en la B\u00fasqueda de Google. Lo que s\u00ed controla es si los contenidos rastreados por Google pueden utilizarse para determinados usos de Gemini y Vertex AI.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">\u00bfEl archivo llms.txt sustituye a mi robots.txt?<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">No. El archivo robots.txt controla las reglas de rastreo. El archivo llms.txt es una capa de orientaci\u00f3n para sistemas de IA y agentes: p\u00e1ginas importantes, contexto, res\u00famenes y puntos de acceso legibles por m\u00e1quina. Uno dice m\u00e1s bien \u201e\u00bfad\u00f3nde puedes ir?\u201c, y el otro m\u00e1s bien \u201eesto es lo importante aqu\u00ed\u201c.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">\u00bfPor qu\u00e9 deber\u00eda revisar los registros de los bots?<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Porque el archivo robots.txt solo refleja tu intenci\u00f3n. Los registros muestran lo que ocurre realmente: qu\u00e9 bots acceden al sitio, qu\u00e9 URL visitan, qu\u00e9 c\u00f3digos de estado reciben, qu\u00e9 reglas del cortafuegos se aplican y qu\u00e9 contenidos importantes nunca llegan a consultarse.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"quellen\">Fuentes y verificaci\u00f3n<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Google Search Central: <a href=\"https:\/\/developers.google.com\/search\/docs\/crawling-indexing\/robots\/intro\" target=\"_blank\" rel=\"noopener\">Introducci\u00f3n al archivo robots.txt<\/a> y las limitaciones del archivo robots.txt.<\/li>\n<li>Infraestructura de rastreo de Google: <a href=\"https:\/\/developers.google.com\/crawling\/docs\/crawlers-fetchers\/google-common-crawlers\" target=\"_blank\" rel=\"noopener\">Los rastreadores habituales de Google<\/a>, en particular Googlebot, Google-CloudVertexBot y Google-Extended.<\/li>\n<li>Google Search Central: <a href=\"https:\/\/developers.google.com\/search\/docs\/fundamentals\/ai-optimization-guide\" target=\"_blank\" rel=\"noopener\">Optimizaci\u00f3n para las funciones de IA generativa en la B\u00fasqueda de Google<\/a>.<\/li>\n<li>OpenAI: <a href=\"https:\/\/developers.openai.com\/api\/docs\/bots\" target=\"_blank\" rel=\"noopener\">Resumen de los rastreadores de OpenAI<\/a> con OAI-SearchBot, GPTBot y los usuarios de ChatGPT.<\/li>\n<li>Centro de ayuda de Anthropic: <a href=\"https:\/\/support.claude.com\/en\/articles\/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler\" target=\"_blank\" rel=\"noopener\">\u00bfAnthropic recopila datos de la web?<\/a> con ClaudeBot, Claude-SearchBot y Claude-User.<\/li>\n<li>Documentaci\u00f3n de Perplexity: <a href=\"https:\/\/docs.perplexity.ai\/docs\/resources\/perplexity-crawlers\" target=\"_blank\" rel=\"noopener\">Rastreadores de Perplexity<\/a> con PerplexityBot y Perplexity-User.<\/li>\n<li>Experiencia pr\u00e1ctica propia con citelayer\u00ae en auditor\u00edas y plugins: patrones recurrentes en auditor\u00edas de WordPress, an\u00e1lisis de registros de bots, compatibilidad con Schema y llms.txt, y pruebas de visibilidad de IA. Estas observaciones se utilizan en el art\u00edculo como referencia pr\u00e1ctica, no como fuente primaria externa.<\/li>\n<\/ul>","protected":false},"excerpt":{"rendered":"<p>No todos los rastreadores de IA son iguales. Quien quiera separar claramente la visibilidad, el entrenamiento y las consultas iniciadas por los usuarios necesita algo m\u00e1s que un bloqueo autom\u00e1tico mediante el archivo robots.txt.<\/p>","protected":false},"author":1,"featured_media":3796,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","footnotes":""},"categories":[764,754,13],"tags":[],"dipi_cpt_category":[],"class_list":["post-3795","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-visibility","category-ki-b2b","category-ratgeber"],"acf":[],"_links":{"self":[{"href":"https:\/\/isla-stud.io\/es\/wp-json\/wp\/v2\/posts\/3795","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/isla-stud.io\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/isla-stud.io\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/isla-stud.io\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/isla-stud.io\/es\/wp-json\/wp\/v2\/comments?post=3795"}],"version-history":[{"count":2,"href":"https:\/\/isla-stud.io\/es\/wp-json\/wp\/v2\/posts\/3795\/revisions"}],"predecessor-version":[{"id":3803,"href":"https:\/\/isla-stud.io\/es\/wp-json\/wp\/v2\/posts\/3795\/revisions\/3803"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/isla-stud.io\/es\/wp-json\/wp\/v2\/media\/3796"}],"wp:attachment":[{"href":"https:\/\/isla-stud.io\/es\/wp-json\/wp\/v2\/media?parent=3795"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/isla-stud.io\/es\/wp-json\/wp\/v2\/categories?post=3795"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/isla-stud.io\/es\/wp-json\/wp\/v2\/tags?post=3795"},{"taxonomy":"dipi_cpt_category","embeddable":true,"href":"https:\/\/isla-stud.io\/es\/wp-json\/wp\/v2\/dipi_cpt_category?post=3795"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}