
llms.txt es un archivo de texto plano que colocas en la raíz de tu web para guiar a los modelos de lenguaje (LLMs) cuando rastrean o consultan tu contenido. Si alguna vez te has preguntado por qué tu web no aparece en las respuestas de herramientas como Perplexity o ChatGPT Browse, parte del problema puede estar aquí. No es un factor de ranking en Google (todavía), pero sí es una señal de que el ecosistema de búsqueda está cambiando y que esperar no es la estrategia más inteligente.
Un LLM (Large Language Model, o modelo de lenguaje de gran tamaño) no lee tu web como un humano. Cuando accede a ella, ve código HTML, scripts, menús de navegación, banners de cookies y un montón de ruido que dificulta extraer lo que realmente importa: tu contenido.
llms.txt es una propuesta de estándar que nació en 2024 para resolver eso. La idea es simple: tú le ofreces al modelo un índice limpio y estructurado de tu web en Markdown, con los enlaces a las páginas relevantes y una descripción breve de cada una. El modelo lo lee en segundos, sin parsear HTML, y entiende de qué va tu sitio.
Piénsalo como el sumario de un libro: puedes leer el libro entero página a página, o puedes leer el sumario y saber exactamente dónde está cada capítulo.
No, y confundirlos es el error más habitual. robots.txt le dice a los rastreadores qué pueden y qué no pueden indexar. El sitemap.xml lista todas las URLs para que los motores de búsqueda las encuentren. llms.txt no bloquea ni lista: explica. Su función es orientar, no controlar.
Los tres pueden coexistir sin conflicto. De hecho, lo recomendable es tenerlos todos activos y actualizados. robots.txt para gestionar el rastreo, sitemap para la indexación y llms.txt para que la IA entienda el contexto de tu contenido.
La búsqueda está fragmentándose. Una parte creciente de las consultas ya no terminan en un clic a tu web, sino en una respuesta generada directamente por un modelo de IA. Si ese modelo no sabe que existes o no entiende bien qué haces, no te va a citar.
Lo que vemos en clientes que producen contenido especializado es que los LLMs tienden a citar las fuentes que estructuran su información de forma más clara y accesible. llms.txt es una palanca para eso.
El archivo no garantiza que te citen, pero reduce la fricción. Un modelo que tiene acceso a un resumen bien escrito de tu web y a tus páginas más relevantes va a poder usarte como fuente mucho mejor que uno que tiene que interpretar tu HTML desde cero.
Blogs de nicho, medios especializados, tiendas con catálogos técnicos y cualquier web con contenido de valor que quiera aparecer en respuestas de IA. Si tu web es básicamente una landing de servicios con poco contenido, el impacto es menor. Pero si tienes artículos, guías o documentación que merezca ser citada, llms.txt puede ayudar.
También es especialmente útil si tienes contenido que no quieres que los LLMs usen (por ejemplo, datos de clientes, contenido de pago o páginas en desarrollo). El archivo permite indicar qué es público y qué no, con más granularidad que robots.txt.
El formato es Markdown, lo que lo hace legible tanto para humanos como para máquinas. La estructura básica tiene tres partes:
Un ejemplo ilustrativo (no real) podría ser el de una agencia de marketing local: en su llms.txt listan sus guías de SEO, sus casos de estudio y su glosario, y excluyen expresamente las páginas de presupuesto y el área de clientes. El modelo sabe exactamente con qué puede trabajar.
Además del llms.txt estándar, la propuesta original contempla un segundo archivo llamado llms-full.txt.
Este incluye el contenido completo de las páginas más importantes, no solo los enlaces. Es más pesado, pero le da al modelo todo lo necesario para responder sin tener que hacer peticiones adicionales a tu web.
No todas las webs necesitan implementarlo, pero si tu contenido es técnico o muy específico (documentación, tutoriales largos, guías paso a paso), puede ser la diferencia entre que te citen o que el modelo interpole con otras fuentes menos precisas.
No necesitas ser developer para hacer esto. Estos son los pasos concretos:
## Docs o ## Contenido destacado y lista cada URL con este formato: - [Título de la página](URL): descripción breve de una línea.## Opcional si quieres señalar contenido que no debe usarse como fuente (páginas de login, contenido de pago, borradores).llms.txt en codificación UTF-8 y súbelo a la raíz de tu dominio: tudominio.com/llms.txt.Hay herramientas que generan el archivo automáticamente a partir de tu sitemap, lo que ahorra tiempo si tienes webs grandes. En la mayoría de auditorías que hacemos, el proceso completo para una web mediana no supera los 20 minutos.
La mayoría de los errores que vemos no son técnicos, son de criterio:
Si llevas un tiempo preguntándote cómo posicionar tu web ante la nueva ola de búsqueda generativa, en Seopedia auditamos tu presencia actual y te decimos qué ajustes técnicos y de contenido tienen más impacto en tu caso concreto.
De momento, Google no lo usa como señal de ranking en su buscador tradicional. Su impacto está en cómo los modelos de IA (Perplexity, ChatGPT, Gemini en modo búsqueda) leen e interpretan tu web. Si tu estrategia de contenido apunta también a la búsqueda generativa, sí tiene sentido implementarlo.
Sí. El archivo es texto plano en formato Markdown, sin código. Necesitas un editor de texto, saber cuáles son tus páginas más relevantes y acceso FTP o al gestor de archivos de tu hosting para subirlo a la raíz del dominio. No requiere tocar ningún archivo del servidor ni modificar el código de la web.
No. llms.txt es un archivo pasivo: si tiene errores de formato, los modelos simplemente lo ignoran o lo interpretan de forma parcial. No afecta al rastreo de Google, no bloquea nada y no modifica ninguna configuración de tu servidor. Lo peor que puede pasar es que no sirva de nada.
El tamaño del sitio no es el factor determinante. Lo que importa es si tienes contenido de calidad que los modelos de IA podrían usar como fuente. Una web pequeña con guías bien escritas y un llms.txt claro puede salir mejor parada que una web grande sin estructura legible para los LLMs.
No hay un plazo definido porque depende de con qué frecuencia cada modelo rastree tu web. En la mayoría de casos, el archivo empieza a ser procesado en días o semanas, no meses. Los resultados visibles (aparecer citado en respuestas de IA) dependen también de la calidad y relevancia de tu contenido, no solo del archivo.
No, y no deberías elegir entre uno y otro. Cada archivo tiene una función distinta: robots.txt controla el acceso de rastreadores, el sitemap facilita la indexación en buscadores y llms.txt orienta a los modelos de IA. Los tres son complementarios y pueden coexistir sin conflicto en la raíz de tu dominio.
Marta Higueras
