Grandes Modelos de Lenguaje (LLM): cómo funcionan y por qué dominan la IA
Explicación clara de qué son los LLM, cómo se entrenan, por qué escalan con los parámetros y qué limitaciones tienen. Desde la tokenización hasta ChatGPT.
Respuesta rápida
Un Gran Modelo de Lenguaje (LLM) es una red neuronal de tipo Transformer entrenada con billones de palabras para predecir la siguiente palabra de una secuencia. Esa tarea aparentemente trivial —autocompletar—, llevada a escala masiva, produce máquinas capaces de escribir ensayos, depurar código, traducir idiomas o mantener conversaciones. No entienden el lenguaje como tú y yo; han aprendido patrones estadísticos tan complejos que parecen entenderlo.
La idea más simple del mundo
Imagina que estás escribiendo un mensaje en tu móvil y el teclado sugiere la siguiente palabra. Eso es un modelo de lenguaje en su forma más básica. Ahora imagina que esa sugerencia no la da un simple diccionario de frecuencias, sino una red neuronal con cientos de miles de millones de parámetros, entrenada con todo Wikipedia, millones de libros, código fuente de GitHub y conversaciones de foros.
El resultado es un LLM (Large Language Model). Su superpoder no es la creatividad; es la predicción estadística a escala inimaginable.
Cuando le pides a ChatGPT que explique la relatividad, lo que ocurre internamente es esto: el modelo convierte tu pregunta en números, pasa esos números por decenas de capas de atención, y en cada paso calcula qué palabra es la más probable como siguiente. Repite ese proceso cientos de veces y obtienes un párrafo coherente. No hay comprensión real, hay cálculo de probabilidades condicionadas.
Analogía útil: Un LLM es como un pianista que ha memorizado tantas partituras que puede improvisar una sonata convincente. No siente la música, pero conoce tan bien los patrones que el resultado suena como si la compusiera un humano.
Cómo se fabrica un LLM
El proceso tiene tres fases principales. Entenderlas te ayudará a saber por qué algunos modelos son chatbots y otros simples autocompletadores.
1. Preentrenamiento: el modelo aprende el mundo
Se parte de un corpus enorme de texto: libros, artículos, páginas web, código. Todo se limpia, se filtra y se divide en tokens —unidades pequeñas que pueden ser palabras completas, fragmentos de palabra o incluso caracteres.
La tarea de entrenamiento es autosupervisada: no necesitas etiquetas humanas. Simplemente le muestras al modelo una secuencia, ocultas el último token, y le pides que lo adivine. Si acierta, refuerzas los pesos. Si falla, los ajustas mediante retropropagación.
La función de pérdida es la entropía cruzada, que en lenguaje humano significa: "cuánto se ha equivocado la distribución de probabilidades predicha respecto a la realidad".
Donde es 1 para el token correcto y 0 para el resto, y es la probabilidad que el modelo asignó a cada token posible. Minimizar esta pérdida equivale a hacer que el modelo asigne probabilidad máxima a la palabra verdadera.
Este proceso se repite durante semanas o meses en clusters de miles de GPUs. El resultado es un modelo fundacional: sabe gramática, hechos, estilos de escritura y razonamiento básico, pero no está optimizado para seguir instrucciones ni para ser un chatbot.
2. Ajuste supervisado (SFT): de autocompletar a obedecer
El modelo fundacional es un autocompletar gigante. Si le dices "Escribe un poema sobre Python", podría continuar con "es un lenguaje de programación creado por Guido van Rossum..." en lugar de escribir el poema.
Para corregirlo, se crea un dataset de pares instrucción → respuesta deseada escrito por humanos. El modelo se entrena un poco más sobre estos ejemplos. A esto se le llama Supervised Fine-Tuning (SFT). Es como enseñarle modales: ya sabe hablar, ahora aprende a responder lo que se le pide.
3. RLHF: aprender de las preferencias humanas
Incluso después del SFT, el modelo puede generar respuestas técnicamente correctas pero poco útiles: demasiado largas, ambiguas o potencialmente dañinas. Aquí entra el Aprendizaje por Refuerzo con Feedback Humano (RLHF).
El proceso funciona así:
- El modelo genera varias respuestas para la misma pregunta.
- Anotadores humanos las ordenan de mejor a peor.
- Se entrena una red de recompensa que aprende a predecir qué respuesta preferiría un humano.
- El modelo original se ajusta para maximizar la puntuación de esa red de recompensa.
El resultado es un modelo alineado: útil, honesto y (en teoría) inofensivo. ChatGPT, Claude y Gemini pasaron por este pipeline completo.
Por qué el tamaño importa (y hasta qué punto)
Los LLM se miden en parámetros: los números ajustables de la red. Más parámetros significan más capacidad para memorizar patrones, pero también más coste de entrenamiento e inferencia.
| Modelo | Parámetros | Año | Dato clave |
|---|---|---|---|
| GPT-1 | 117 millones | 2018 | Primera prueba de concepto: preentrenar generativamente funciona. |
| BERT | 340 millones | 2018 | Demostró que el contexto bidireccional mejora la comprensión. |
| GPT-2 | 1.5 mil millones | 2019 | Generaba párrafos coherentes; OpenAI lo publicó con cautela. |
| GPT-3 | 175 mil millones | 2020 | Punto de inflexión: few-shot learning sin fine-tuning. |
| GPT-4 | ~1.8 billones (est.) | 2023 | Mejora drástica en razonamiento; se rumorea arquitectura Mixture of Experts. |
| Llama 3 | 70-405 mil millones | 2024 | Open source que compite con los privados; entrenado en 15 billones de tokens. |
Existe una ley de escala observada empíricamente: si duplicas los parámetros y duplicas los datos de entrenamiento, la pérdida del modelo disminuye de forma predecible. Eso explica la carrera por modelos cada vez más grandes. Pero hay un límite práctico: entrenar un modelo de un billón de parámetros cuesta decenas de millones de dólares en computación.
Hablar con un LLM: prompt engineering
No necesitas ser ingeniero para usar un LLM, pero sí para sacarle el máximo partido. El prompt engineering es el arte de formular instrucciones para que el modelo produzca mejores resultados.
Algunas técnicas que puedes probar hoy mismo:
| Técnica | Qué hace | Ejemplo |
|---|---|---|
| Zero-shot | Pides directamente, sin ejemplos | "Resume este texto en tres frases." |
| Few-shot | Das 2-3 ejemplos antes de la tarea real | "Texto A → Resumen A. Texto B → Resumen B. Ahora tu turno." |
| Chain-of-Thought | Pides que razone paso a paso | "Piensa paso a paso antes de responder." |
| Rol | Le asignas un personaje | "Actúa como un profesor de física paciente." |
| Formato estructurado | Pides JSON, tablas o listas | "Devuélveme la respuesta en JSON con campos 'tema' y 'explicación'." |
La temperatura es otro control clave. Es un hiperparámetro de la inferencia (no del entrenamiento) que controla la aleatoriedad:
- Temperatura = 0: el modelo siempre elige el token más probable. Útil para tareas deterministas como extraer datos.
- Temperatura = 1: distribución natural. Balance entre coherencia y creatividad.
- Temperatura > 1: más aleatoriedad. El modelo se arriesga con palabras improbables. Útil para brainstorming o escritura creativa.
Matemáticamente, la temperatura escala los logits antes del softmax:
Cuanto mayor es , más uniforme se vuelve la distribución y más impredecible el resultado.
Lo que los LLM no pueden hacer
Es fácil caer en la antropomorfización. Pero hay límites duros que todo estudiante de programación debe conocer:
Alucinaciones. El modelo no tiene acceso a internet ni a una base de datos de hechos verificados. Genera lo que es estadísticamente plausible. Si en sus datos de entrenamiento aparece mucho una mentira, la reproducirá con total confianza. Nunca cites un LLM sin verificar la fuente.
Ventana de contexto finita. Aunque los modelos modernos aceptan cientos de miles de tokens, siguen teniendo un límite. Si le pasas un libro entero, olvidará el principio al llegar al final. Técnicas como RAG (Generación Aumentada por Recuperación) mitigan esto buscando en una base de conocimiento externa solo los fragmentos relevantes.
Sin memoria entre conversaciones. Cada vez que hablas con ChatGPT, la aplicación le envía todo el historial de la conversación como contexto. El modelo en sí no recuerda nada de tu chat anterior. Si la ventana de contexto se llena, los mensajes antiguos se descartan.
Razonamiento frágil. Los LLM funcionan bien en problemas que han visto miles de veces, pero fallan en matemáticas complejas o lógica formal si requieren muchos pasos de razonamiento exacto. Modelos como o1 o DeepSeek-R1 intentan resolver esto generando largas "cadenas de pensamiento" antes de la respuesta final.
El horizonte: ¿más allá de los Transformers?
Los Transformers dominan, pero no son la única apuesta. Dos arquitecturas prometedoras compiten:
Mamba y los State Space Models (SSM). En lugar de la atención cuadrática (cada token mira a todos los demás), Mamba mantiene un estado comprimido que se actualiza selectivamente. Esto permite secuencias arbitrariamente largas con coste lineal, en lugar de cuadrático. Es ideal para genómica, audio largo o análisis de logs masivos.
Modelos de difusión para texto. Inspirados en Stable Diffusion, estos modelos parten de ruido aleatorio y lo refinan paso a paso hasta obtener texto coherente. Algunos investigadores creen que esta aproximación podría superar a los autoregresivos en ciertas tareas de calidad.
Ninguna ha derrocado a los Transformers todavía, pero la investigación avanza rápido.
Preguntas frecuentes
¿Cuántos tokens equivalen a una página A4?
Aproximadamente 500 palabras → unos 700 tokens con tokenizadores tipo BPE. Una novela de 300 páginas son unos 200.000 tokens. La ventana de contexto de GPT-4o (128k tokens) cabe el libro entero.
¿Por qué algunos LLM son gratuitos y otros cuestan dinero?
El entrenamiento es caro, pero la inferencia (generar respuestas) también consume GPUs. Los modelos gratuitos suelen ser versiones más pequeñas o están financiados por otras vías. Los modelos de pago ofrecen mejor calidad, velocidad o contexto más largo.
¿Puedo entrenar mi propio LLM?
Desde cero, no a menos que tengas millones de dólares y un cluster de GPUs. Pero puedes hacer fine-tuning de modelos open source (Llama, Mistral, Qwen) con un solo GPU en tu portátil usando técnicas como LoRA o QLoRA, que entrenan solo una fracción de los parámetros.
¿Qué es un token técnicamente?
Es un índice entero que representa una unidad de texto en el vocabulario del modelo. Palabras comunes como "casa" pueden ser un solo token. Palabras raras como "hipopotomonstrosesquipedaliofobia" se dividen en varios tokens: "hipo", "poto", "monstr", "oses", "quip", "edal", "iofobia". El tokenizador decide esta partición durante el preentrenamiento.
¿Los LLM van a reemplazar a los programadores?
No. Van a reemplazar a los programadores que no sepan usar LLM. La herramienta acelera la escritura de código boilerplate, la documentación y la depuración, pero sigue siendo responsabilidad humana diseñar arquitecturas, tomar decisiones de negocio y revisar que el código sea correcto y seguro.
Relacionado: Si quieres entender la arquitectura matemática que hace posible todo esto, lee primero Transformadores: qué son, cómo funcionan y por qué lo cambiaron todo.
Artículos relacionados
Transformadores: qué son, cómo funcionan y por qué lo cambiaron todo
La arquitectura que hace posible todo: atención, codificadores, decodificadores y multi-head attention.
Relacionado¿Qué es realmente la IA? Mitos, realidades y una breve historia
Las diferencias claras entre IA, machine learning, deep learning y data science.
Sobre el autor
Apasionado por la tecnología y la innovación, con más de 20 años de experiencia en desarrollo de software y consultoría tecnológica. Su trayectoria profesional comenzó en 2001 como programador, evolucionando desde entonces combinando su amor por el código con una sólida visión de negocio.
Ha trabajado tanto en España como en el extranjero, en sectores diversos como telecomunicaciones, banca, seguros y marketing digital. Esta experiencia multidisciplinar le permite entender los retos técnicos desde una perspectiva de negocio real.
Hoy aporta su experiencia asesorando en la modernización de procesos y la implementación de herramientas tecnológicas que optimizan la gestión y las relaciones con clientes. Se especializa en ayudar a equipos a integrar inteligencia artificial de forma práctica y responsable.
Cree firmemente en el aprendizaje continuo y que el verdadero progreso solo se logra creciendo juntos.