Cinco técnicas de LLM basadas en cómo funciona nuestro cerebro

Índice

Introducción
1. Pararse a pensar a mitad de la tarea (no solo al principio)
2. Pensar rápido y pensar despacio
3. Memoria a corto y a largo plazo, guiada por la sorpresa
4. Dormir para consolidar (y olvidar lo que estorba)
5. Aprender de lo fácil a lo difícil (y retirar los ruedines a tiempo)
En resumen
Referencias

Introducción

Hay una receta para mejorar un modelo de lenguaje que es de sobra conocida y se sabe que funciona: más datos, más parámetros, más cómputo. Pero al margen de esa vía, constantemente surgen estudios que demuestran que copiar ciertas ideas de cómo funciona nuestro cerebro también puede mejorar el desempeño de los LLM.

No se trata de imitar la biología al pie de la letra, ya que una red neuronal artificial no es una neurona, sino de tomar prestados principios de la psicología cognitiva y la neurociencia que llevan décadas estudiados: que pensamos en dos velocidades, que dormir consolida lo aprendido, que olvidar es tan importante como recordar o que aprendemos mejor de lo fácil a lo difícil.

A continuación, resumimos de forma sencilla y sin entrar en excesivos detalles, cinco técnicas relativamente recientes que aplican estas intuiciones y mejoran de forma medible el rendimiento de los LLM. Para cada una, se incluye el enlace al paper original en el apartado de referencias para acceder al detalle completo.

Una advertencia honesta antes de empezar: las analogías con el cerebro son sobre todo una fuente de inspiración para diseñar la técnica, no una demostración de que el modelo “funcione como una persona”. Lo interesante es que esas analogías pueden aportar resultados reales.

1. Pararse a pensar a mitad de la tarea (no solo al principio)

Cómo lo hace el cerebro: un programador experto no planifica todo el código en su cabeza y luego lo teclea de un tirón. Va escribiendo y, cuando llega a una parte espinosa, como un caso límite o un algoritmo delicado, se detiene, piensa y sigue. El esfuerzo mental se reparte donde hace falta. Esto es, en esencia, control metacognitivo: decidir sobre la marcha cuánto razonar y en qué momento.

La técnica: los modelos de razonamiento actuales hacen casi lo contrario: concentran todo su “pensamiento” en un bloque al principio y luego generan la respuesta. El trabajo Think-Anywhere [1] propone que el modelo pueda abrir un bloque de razonamiento en cualquier posición mientras escribe el código, no solo al inicio. Para conseguirlo combinan dos fases: primero un cold-start con ejemplos que enseñan ese patrón, y después aprendizaje por refuerzo con recompensa verificable (ejecutan el código y comprueban si pasa los tests) para que el propio modelo descubra dónde conviene detenerse a pensar.

Por qué importa: el análisis del paper muestra que el modelo aprende a invocar el razonamiento justamente en las posiciones de mayor incertidumbre (alta entropía), que es donde un humano también dudaría. ¿Y cómo se detecta esa incertidumbre? En cada paso, el modelo no elige directamente una palabra, sino que reparte una probabilidad entre todas las continuaciones posibles. Si esa probabilidad se concentra en una opción clara, hay poca incertidumbre. Si se reparte entre muchas alternativas casi igual de plausibles, la incertidumbre (eso es la “entropía”) es alta. Esa dispersión es la señal que delata los puntos donde conviene detenerse a pensar. En cuatro benchmarks de generación de código (LeetCode, LiveCodeBench, HumanEval y MBPP) alcanza una media del 70,3 %, unos 9 puntos por encima del modelo base, superando tanto al razonamiento al principio (CoT) como a otras variantes intercaladas. El detalle elegante es que no malgasta cómputo en el código trivial y lo reserva para lo difícil.

2. Pensar rápido y pensar despacio

Cómo lo hace el cerebro: es el famoso Sistema 1 y Sistema 2 de Daniel Kahneman. Un modo de pensamiento rápido, intuitivo y automático, y otro lento, deliberado y costoso. Usamos la intuición para lo cotidiano y reservamos el razonamiento pausado para los problemas que de verdad lo requieren. Y, crucialmente, también verificamos: contrastamos nuestra primera respuesta antes de darla por buena.

La técnica: el trabajo Thinker: Learning to Think Fast and Slow [2] reorganiza la tarea de pregunta-respuesta en cuatro etapas explícitas inspiradas en la teoría de los dos procesos: pensamiento rápido (responder con un presupuesto estricto de tokens), verificación (el modelo evalúa su propia respuesta), pensamiento lento (la refina con más deliberación) y resumen (destila el resultado en pasos precisos). La intuición y la deliberación se entrenan como sistemas distintos pero complementarios.

Por qué importa: separar ambos modos mejora la precisión (por ejemplo, de 45,9 % a 51,0 % en un modelo de la familia DeepSeek-R1 de 1.500 millones de parámetros) y, además, el modo rápido por sí solo resuelve buena parte de los casos usando menos de 1.000 tokens, lo que ahorra cómputo en las preguntas sencillas. Conviene matizar que los experimentos se hicieron con modelos pequeños, así que es una prueba de concepto sólida más que un resultado a gran escala, pero la dirección es clara: no todo merece el mismo esfuerzo.

3. Memoria a corto y a largo plazo, guiada por la sorpresa

Cómo lo hace el cerebro: no recordamos todo por igual. Tenemos una memoria de trabajo limitada y de alta fidelidad para lo inmediato, y una memoria a largo plazo que guarda lo importante de forma más comprimida. Y hay un sesgo conocido: lo que nos sorprende, es decir, lo que rompe nuestras expectativas, se fija mucho mejor. La sorpresa (en términos técnicos, el error de predicción) es una señal de que algo merece almacenarse.

La técnica: Titans: Learning to Memorize at Test Time [3], de Google, introduce un módulo de memoria neuronal a largo plazo que aprende a memorizar mientras el modelo funciona (en tiempo de inferencia), ajustando sus propios pesos. Decide qué guardar con una métrica de “sorpresa” basada en gradientes, de modo que cuanto más inesperado es un token más se memoriza, combinada con un mecanismo de olvido adaptativo para no saturarse. En esta arquitectura, la atención clásica del Transformer hace de memoria a corto plazo (precisa pero de capacidad limitada) y el nuevo módulo hace de memoria a largo plazo (más persistente y comprimida).

Por qué importa: esta división del trabajo permite a Titans escalar a contextos de más de 2 millones de tokens y superar a los Transformers y a los modelos recurrentes lineales modernos en modelado de lenguaje, razonamiento de sentido común y, sobre todo, en tareas de “aguja en un pajar” donde hay que recuperar un dato concreto de un texto enorme. Es uno de los intentos más comentados de los últimos meses de dotar a los modelos de una memoria que se parezca más a la nuestra.

4. Dormir para consolidar (y olvidar lo que estorba)

Cómo lo hace el cerebro: el sueño no es tiempo perdido para la memoria, sino cuando el cerebro hace mantenimiento. Durante el sueño se reactivan y reorganizan los recuerdos del día (replay), se reduce el ruido sináptico acumulado (synaptic downscaling) y se descarta de forma selectiva lo irrelevante. Olvidar de manera dirigida es parte del trabajo, no un fallo.

La técnica: los LLM sufren un problema llamado interferencia proactiva. Cuando información antigua y ya desactualizada se queda en el contexto, entorpece la recuperación del dato vigente, y la precisión cae a medida que se acumulan asociaciones obsoletas. SleepGate [4], titulado Learning to Forget, se inspira directamente en la consolidación durante el sueño para resolverlo. Añade un “ciclo de sueño” que actúa sobre la caché de claves-valores (la memoria interna del modelo durante la generación) con tres piezas: un detector que identifica cuándo una entrada nueva sustituye a una vieja, una compuerta de olvido que elimina o comprime lo obsoleto, y un módulo de consolidación que fusiona lo que sobrevive en resúmenes compactos. Estos “microciclos de sueño” se disparan periódicamente durante la inferencia.

Por qué importa: en sus experimentos, SleepGate mantiene la precisión de recuperación muy alta (entre el 97 % y el 99 %) en escenarios donde varias alternativas de gestión de memoria se hunden por debajo del 18 %, y reduce teóricamente el horizonte de interferencia de orden lineal a logarítmico. Ahora bien, hay que ser justos con el alcance: es un trabajo de prueba de concepto realizado con un modelo diminuto (cuatro capas, unos 793.000 parámetros) y un benchmark controlado. La idea es muy prometedora, pero todavía está por validar a la escala de los modelos de producción.

5. Aprender de lo fácil a lo difícil (y retirar los ruedines a tiempo)

Cómo lo hace el cerebro: nadie aprende cálculo antes que a sumar. La educación humana se organiza como un currículo: primero los fundamentos, después la complejidad, andamiando el conocimiento por etapas. Y hay un matiz importante que cualquier docente conoce: llega un momento en que hay que retirar los ejercicios fáciles para que el alumno no se acomode.

La técnica: Curriculum Reinforcement Learning from Easy to Hard [5], conocido como E2H Reasoner, aplica esto al entrenamiento por refuerzo de las capacidades de razonamiento. En lugar de lanzar al modelo directamente contra problemas difíciles, algo que el refuerzo por sí solo no resuelve bien, descompone la dificultad en etapas y las presenta de forma progresiva. El hallazgo más interesante, y muy humano, es que las tareas fáciles son valiosas al principio pero conviene irlas eliminando con el tiempo: si no, el modelo se sobreajusta a lo sencillo y deja de progresar.

Por qué importa: los autores aportan tanto resultados empíricos (mejoras consistentes en problemas difíciles y en tareas fuera de la distribución de entrenamiento, como Blocksworld, Countdown y MATH) como garantías teóricas: aprender por etapas requiere menos muestras que atacar el problema difícil de golpe. Es una de esas ideas que suena de sentido común precisamente porque viene del sentido común sobre cómo aprendemos las personas. Eso sí, la literatura también advierte que el aprendizaje por currículo no es una bala de plata universal: depende de cómo se mida la dificultad y de cómo se programe el ritmo.

En resumen

Las cinco técnicas comparten la idea de tomar prestados mecanismos cognitivos que a los humanos nos hacen eficientes: pensar solo cuando hace falta y donde hace falta (Think-Anywhere), alternar intuición y deliberación (Thinker), distinguir memoria a corto y largo plazo guiada por la sorpresa (Titans), consolidar y olvidar de forma activa como en el sueño (SleepGate) y aprender por etapas crecientes de dificultad (E2H).

Conviene no perder de vista el objetivo: no se trata de hacer que los LLM se parezcan lo máximo posible a nuestro cerebro, sino de mejorar su desempeño. Y un mejor desempeño no siempre pasa por copiar la biología. Lo que muestran estos trabajos es que, cuando una idea del cerebro humano resulta útil, tomarla prestada puede ser una de las palancas más eficientes para la siguiente generación de modelos.

En Kaptor Security somos expertos en evaluar la seguridad de aplicaciones y arquitecturas que hacen uso de modelos de lenguaje. Si estás interesado en conocer los riesgos que estas tecnologías introducen en tu organización, no dudes en contactarnos.

Referencias

Think-Anywhere in Code Generation. Jiang et al. (2026). arXiv:2603.29957. Disponible en: https://arxiv.org/abs/2603.29957
Thinker: Learning to Think Fast and Slow. (2025). arXiv:2505.21097. Disponible en: https://arxiv.org/abs/2505.21097
Titans: Learning to Memorize at Test Time. Behrouz, Zhong y Mirrokni (Google, 2025). arXiv:2501.00663. Disponible en: https://arxiv.org/abs/2501.00663
Learning to Forget: Sleep-Inspired Memory Consolidation for Resolving Proactive Interference in Large Language Models (SleepGate). Xie (2026). arXiv:2603.14517. Disponible en: https://arxiv.org/abs/2603.14517
Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning (E2H Reasoner). Parashar et al. (2025). arXiv:2506.06632. Disponible en: https://arxiv.org/abs/2506.06632