Gen-IA-lidad #3: Una introducción a la IA generativa para el 2025
Las IAs generativas se suelen explicar más desde la aplicación rápida, pero necesitamos preguntarnos y preguntar a sus productores cómo hacen lo que hacen, y si hacen todo lo que dicen que hacen
Escrito por Elisabet Roselló. Este artículo pertenece a Gen-IA-lidad, un proyecto de investigación independiente, sin conflicto de intereses, auto-financiado.
Resituándonos con la IA Generativa
A estas alturas del tiempo, hablar de IA generativa suena más de lo mismo, algo muy comentado, tratado hasta el exceso. Pero la mayoría de contenidos que tratan sobre IA generativa para un público amplio lo hacen más desde el cómo se aplica, que desde el qué. O desde las problemáticas sociales y ambientales que generan, asumiendo que el qué es explícito y bien conocido.
La definición usual es que las IAs generativas son esas cuya respuesta no se orienta a una predicción de datos, supuestamente, a la vieja usanza, sino que se orientan en generar nuevos contenidos, como texto, imágenes, sonido o video.
Pero cuando profundizamos, vamos entendiendo que el concepto “generativa” no habla tanto de un tipo de tecnología concreta, sino que es una etiqueta, posiblemente más orientada al posicionamiento en diferentes mercados (marketing) que busca resaltar que produce un resultado que, como resto de mortales, podemos identificarlo como algún tipo de contenido útil.
La IA generativa no es una tecnología per se, sino un concepto paraguas que cubre varias “soluciones” técnicas o formas de aplicar diferentes tipos de ramas tecnológicas, todas basadas, por ahora, en la gran corriente dominante del *campo* de la Inteligencia Artificial, que es el Deep Learning o Aprendizaje Profundo (y, por consiguiente, las tecnologías basadas en redes neuronales artificiales, que son virtuales).
Sus tecnologías son las que cuyo resultado puede tomar forma de texto, imagen o sonido, luego vídeo, código de programación, y largo etcétera.
Modelos de IA que pudieran producir o “generar” textos, imágenes o audio más o menos asequibles para necesidades más restringidas y situadas existen desde hace muchos más años, antes de que saliera ChatGPT.
Por ejemplo, los GANs se han aplicado desde hace años para generar texto aunque fuera más tosco, para unas aplicaciones económicas muy concretas y limitadas.
O sin ir tan lejos: ¿qué es lo que llevan haciendo desde hace años las apps y servicios de traducción de textos, como Google Translator?
Esos traductores, aunque más rudimentarios en comparación a los actuales LLM, se basan en modelos de Deep Learning y sus bases de entrenamiento. Le introduces un texto corto o largo y te lo traduce.
Digamos que genera(ba) un nuevo texto a partir de otro texto en un idioma distinto, en base a unas bases de datos y unos modelos que “deciden” si opta por unas expresiones u otras en el idioma que se le pide, en base al contexto del texto original. Al inicio lo hacía peor, con el paso del tiempo lo apuraba mejor.
¿Por qué hemos vivido un cambio dramático a partir de finales de los 2021 y 2022?
Porque salieron productos ya comercializables como Dall-E, Midjourney y luego ChatGPT, Claude, etcétera.
Productos, que funcionaban a partir de modelos con esas siglas tan técnicas (como GPT 3.5, fijémonos que no era ni GPT-1, ni el 2, ni siquiera el 3), y que, al fin, mostraban una aplicación para diferentes mercados viable y más amplia.
A este cambio dramático se le suma el hype que amplificó y aceleró su reconocimiento y percepción de que algo nuevo estaba ocurriendo.
El hype es, sobre todo, una dinámica que amplifica en poco tiempo las expectativas en torno a un fenómeno cultura, producto comercial o un tipo de tecnología. Es una dinámica primero social y cultural, que puede tener impactos en diferentes ángulos económicos. Es la hipérbole o exageración de las posibles aplicaciones, impactos y oportunidades que puede abrir algo nuevo o desconocido.
O, si habláramos de productos mediáticos como pelis, es la magnificación de expectativas y el entusiasmo expuesto y manifestado de manera social, incluyendo vía redes sociales.
Contrariamente a la creencia, no todas las tecnologías que adquieren una elevada atención, entusiasmo y celebración se desarrollan hasta una perfecta adopción y madurez (C. Pérez (2002) Technological Revolutions and final capital; F. W. Geels, B. Turnheim (2023) The Great Reconfiguration; los informes anuales que arroja la consultora tecnológica Gartner).
Por otro lado, el hype no ocurre ni ha ocurrido con todas las tecnologías que se instalan en nuestras vidas y sociedades, o no del mismo modo ni en las mismas proporciones.
Esto es un hecho importante de tener en mente cuando se especula sobre los futuribles de una tecnología.
En el mundo tech-digital, el hype es una dinámica buscada y celebrada porque genera un conjunto de dinámicas y bucles de comunicación que pueden acabar trabajando por sí mismas, de manera que la efectividad de los trabajos de marketing y ventas son mucho más amplios. El hype tecnológico también retroalimenta las expectativas financieras de modos algo complicados.
El hype requiere ser trabajado desde una posición comunicativa más cultural y menos comercial de manera explícita. De esto trataré en el artículo 5 un poco más, para el caso de las IAs.
Nosotras y nosotros, como usuariado menos conectado con el profundo mundo hipertécnico de la computación, percibimos esta introducción de las “IAs generativas” como un cambio dramático.
Pero este fenómeno tecnológico confirma lo que se sabe en Historia de la tecnología desde las últimas décadas; es decir, lo que sabe la disciplina sobre otras revoluciones: que tras lo que parecen revoluciones tecnológicas disruptivas, que suceden como un salto dramático en poco tiempo, hay decenas y cientos de pequeños y medianos desarrollos previos. Tanto económicos y tecnológicos, como también sociales y culturales.
Algunos desarrollos pueden ser saltos cualitativos, como cuando en 2017 investigadores de Google sugirieron una nueva forma de desarrollar o “diseñar” las redes neuronales, con el artículo “All you need is attention”. Otros son saltos incrementales, recombinaciones, encaje y desencaje (y “muerte de innovaciones”).
Pero cuando somos ajenos a ese mundo y solo interactuamos con unas pocas aplicaciones, desde nuestra experiencia cotidiana, perspectiva y desconocimiento parecen saltos cualitativos. Lo mismo que cuando nos enseñan en Historia las revoluciones, ya sean tecnológicas o sociales: se nos presentan como cortes casi de borrón y cuenta nueva, cosas que suceden a partir de un día o un año concreto, desde un prisma sintético y esquemático.
No pretendo desmerecer las innovaciones, que recordemos que las llamadas revoluciones se basan también en transformaciones sociales, que a veces preceden o van antes que las tecnológicas, versus el mito que dice lo contrario (primero la tecnología, luego el cambio social).
Precisamente quiero remarcar la naturaleza de la acumulación de conocimientos, energía humana y recursos, su recombinación y la redirección de propósitos sobre las que se basan todos los cambios tecnológicos -y este es un tema que iré revisando en próximos artículos, pues no es sencillo. Y que necesitamos desmitificar los discursos que se basan en vender que la Historia se basa en transformaciones tecnológicas acontecidas de la noche a la mañana.
¿Qué son estos modelos de IA generativa?
Las IAs que generan texto y tienen capacidad de generar algo parecido al razonamiento (inferencia) se basan en una tecnología llamada Grandes Modelos de Lenguaje o Large Language Models (LLM).
Nuestra experiencia como usuarias/os, sin embargo, es que tenemos una especie de asistente virtual con el que entablamos una conversación. Y que parece hablar como una persona.
Que comparativamente a esos viejos chatbots de la década pasada, o de los 2000s (como Cleverbot), no hay color: realmente parecen razonar, salvo unas pequeñas excepciones que llamamos “alucinaciones” (ver casi al final de este artículo). Aciertan en muchas ocasiones con lo que *esperamos* recibir, y suenan, por lo general, coherentes.
Nuestra experiencia nunca es con el modelo directamente (excepto si trabajas y eres expertx en estas materias, obviamente).
Los productores de los grandes productos como Claude, Perplexity, ChatGPT, además del modelo, han desarrollado una interfaz, o una plataforma, o incluso los han introducido en nuestro servicio de mensajería preferido directamente en forma de chatbot, o en nuestros programas habituales en forma de asistente (copilots), para que podamos interactuar con esos sistemas complejos ejecutados en servidores lejanos.
Una de las piedras angulares de toda la movida actual son los llamados LLMs o Grandes Modelos de Lenguaje. Estos beben de toda una corriente de investigación, el Natural Language Processing (NLP), además de otros avances técnicos (como el Transformer).
Las IA que generan imagen se fundamentan en las tecnologías concretas de reconocimiento visual y de imagen, y tienen diferencias con los LLM en cómo hacen lo que hacen, en su arquitectura o estructura virtual.
Son tecnologías diferenciadas, aunque también sea cierto que comparten algunos aspectos comunes (se basan en Deep Learning y redes neuronales, etcétera).
Y así sucede con el sonido, que se basan en otros desarrollos especializados en los datos que codifican el sonido digital.
Como decía, todas estas “IAs generativas” tienen en común, en lo puramente tecnológico, que se fundamentan en principios del Deep Learning o Aprendizaje Profundo. No más.
Aunque es el año 2022 el que se consideraría el de la eclosión de toda esta oleada de avances aparentes (primero DALL-E 2, luego el lanzamiento de ChatGPT, el producto derivado del modelo GPT-3.5), deberíamos retroceder a la década anterior para entender cómo se ha llegado hasta aquí.
La década de los 2010s es la del Machine Learning y el Deep Learning más comerciales, aplicados en negocios y retos de todo tipo, incluyendo cosas como el reconocimiento facial para las apps de redes sociales.
Algunos expertos considerarían el punto de inflexión hacia la IA generativa un artículo académico o paper que salió en 2017 firmado por varios investigadores asociados a Google: Attention is all you need.
No fue un cambio tampoco tan abrupto dentro del campo, ya que la atención fue un enfoque disciplinario que se llevaba años desarrollando de un tiempo hacia atrás.
Es a partir de las propuestas técnicas que sugirieron en ese paper que se desarrolló una nueva técnica conocida como los Transformers, que es un tipo de arquitectura o estructura que permitiría a un modelo de “Deep Learning”, de procesamiento de textos o lenguaje natural, no solo realizar análisis, sino recomponer textos plausibles, verosímiles y luego en teoría útiles, para el ser humano.
Es decir, crear textos ‘nuevos’, desde una perspectiva humana y social.
Así, salió en 2018 el primer modelo GPT por OpenAI (fundado en 2015 por Sam Altman, Elon Musk, Ilya Sutskever y más), y también se lanzó otro ahora más olvidado, el BERT, por Google.
GPT son las siglas de Generative Pre-trained Transformer, justamente.
Entre 2018 y 2022 se desarrollaron más modelos y se afinaron sus capacidades, hasta la salida de los modelos comerciales que más nos suenan.
Los LLM o Grandes Modelos de Lenguaje son una piedra angular que, al combinarse con otras tecnologías de visión o de sonido hizo posible esas otras IAs generativas.

Si quieres ver cómo es la estructura de un gran modelo de lenguaje, Brendan Bycroft se ha currado este simulador y visualizador de arquitectura de modelos, donde comparan 2 mega-grandes aunque antiguos (GPT-3 y GPT-2), y los modelos pequeños para procesarlos en local (ya hablaremos más tarde de qué es esto de modelos locales). No difieren en forma y concepto de los grandes modelos fundacionales actuales, los que utilizamos habitualmente. https://bbycroft.net/llm
Si quieres aprender más y te va la marcha con un lenguaje más técnico, es super interesante esta pieza del curso de introducción de Huggingface (en inglés) que incluye videos cortitos en tono bastante pedagógico. https://huggingface.co/learn/llm-course/chapter1/6
¿Qué son los LLMs, la piedra angular de la ola actual?
Los grandes modelos de lenguaje hacen más cosas que generar texto para una persona usuaria.
Digamos que también hacen algo así como de interfaz o puente o mediación entre humano-máquina para poder generar los otros tipos de contenidos: imagen, sonido, etcétera.
Digamos que hacen mucho más que permitir que le pidamos con palabras qué buscamos o queremos, por otro lado, pues debido a su capacidad de elaborar código pueden ejecutar acciones (que tiene que ver con la llamada IA agéntica, en el próximo artículo, lo puedes abrir y leer ya clicando aquí).
Los LLM son, como indica su nombre, modelos de grandísima envergadura especializados en texto de lenguaje natural (y en bastantes ocasiones, también lenguajes de programación).
El concepto de lenguaje natural en teoría solo significa el tipo de lenguaje que utilizaríamos en el día a día como humanos, como personas a pie de calle. Como oposición a los lenguajes técnicos, aunque sean también de origen humano, u oposición a los lenguajes de programación o artificiales (paradigma basado en binarismo natural-artificial). Aunque por defecto, todos los primeros LLM comenzaron a desarrollarse en inglés, con su estructura y sus condiciones gramaticales.
En el aspecto técnico, los LLM son posibles porque se “inventaron” a partir de un extenso trabajo de varios campos dentro de la IA, como el NLP que mencionaba antes o el Aprendizaje Automático y el Deep Learning.
Aunque es impreciso decir que son “calculadoras de palabras”, los LLM son sistemas computacionales que procesan a velocidades espasmódicas grandes cantidades de textos, incluyendo los prompts, las peticiones e interacciones que les hacemos, y son capaces de generar nuevo texto absolutamente verosímil con nuestras demandas.
Para entender mejor cómo funcionan, vamos a trazar un poco algunos fundamentos. Porque nos puede ayudar a entender por qué alucinan o a veces erran. Aquí comienza la parte más difícil, aunque intentaré hacerlo lo más sencillo y breve posible para tener una idea básica.
Para ello utilizaré la arquitectura del transformer, que es como si pudiéramos ver un poco su esqueleto esquemático.
Aunque si lo prefieres, este artículo interactivo en Financial Times (y libre y gratuito, aunque en inglés) explica mucho mejor para públicos ni técnicos ni especializados cómo funciona, mucho más visual, muy recomendable: https://ig.ft.com/generative-ai/
Tokens y el entrenamiento
En los tiempos que corren, quizás hemos oído el concepto de token en varios lados. Hace unos años, por ejemplo, los escuchamos cuando el tema tecnológico eran los NFTs (Non Fungible Tokens). Pero para nuestro caso, no tienen que ver mucho con estos tokens de los LLM.
Porque token, traducible como símbolo o señal (un poco fetichizada o materializada), es un concepto genérico en computación, aunque con significados muy estrictos y específicos según el ámbito en el que se muevan.
Para comenzar, nos servirá que son “objetos” o código empaquetado como una unidad indivisible, para intentar explicarlo en sencillo.
Convertir el lenguaje humano en algo analizable por una máquina es un melón complicadísimo, con sus funciones varias como la sintaxis (cómo y por qué ordenamos las palabras en las frases y tiene un sentido) o la semántica[1] (el significado simbólico profundo no solo de las palabras sueltas, sino también de los conjuntos, de las frases hechas y mucho más).
Un método que se lleva utilizando desde que se procesa texto hace décadas es desgranar y fragmentar el texto en bloques o cachitos y codificarlos en lenguaje computacional.
Esos cachitos recodificados, grosso modo, serían los tokens. Una sola palabra nuestra pueden ser varios tokens en computación o en NLP.
Si quieres ver cómo se convierte en tokens una frase, prueba a utilizar una calculadora de tokens como este que ofrece OpenAI, donde además permite ver las diferencias que aplican diferentes modelos GPT, es muy simple: https://platform.openai.com/tokenizer
El entrenamiento de los LLM consiste en procesar muchos textos. Muchísimos. El paradigma actual dice que cuántos más, mejor, y más inteligente se espera que devengan los modelos. Aunque comienza, este último año, a ser una idea cuestionada.
De manera super resumida primero un protomodelo procesaría cada texto en tokens (primero lo trocearía y codificaría en maquínico), y luego, procede a analizar la relación de cada token con los tokens de alrededor: cuántas veces se repite la aparición de otros tokens alrededor de uno, o cada cuanto se repiten bloques enteros de tokens, para extraer patrones. Y también examina los que no aparecen juntos para así hacer más fácil el trabajo posterior.
Todo esto lo convierte en una lista de nodos y conexiones (¡ei, neuronas!), y calcula o estima la probabilidad con la que aparecen esas relaciones, dando lugar a índices llamados pesos o subparámetros. Representan en matemáticas la fuerza o intensidad de conexión.

Estos pesos (weights) ayudan a caracterizar al gran modelo de IA, a dar forma a esa arquitectura. Los modelos se medio hacen a sí mismos durante el entrenamiento (lo que se llama entrenamiento no supervisado en jerga técnica), gracias a otros tantos avances en IA en años y décadas pasadas.
Pongamos un ejemplo: la frase “volaría negrura anchura caja mal” no tiene ningún sentido. Así que la probabilidad de que se encuentre una frase así en un texto de internet es bajísima.
En cambio, la frase “cuidado que la caja se te puede caer” tiene un orden “natural” o normativo para el español. No podría ser “caja la cuidado te caer puede se”. Y tiene un significado coherente (una caja entre otras cosas puede caerse, y alguien nos puede pedir que tengamos precaución).
También es probable que se encuentre esa frase en varios textos de todo internet, así como otras frases similares, como “cuidado que la manzana se te puede caer” o “cuidado que la caja se te puede abrir”.
Por tanto, la norma y la forma de operar de nuestros idiomas hace que sea más probable que unas palabras se unan de unas maneras determinadas en vez de con otras combinaciones, digamos, aleatorias.
Con esto y otros mecanismos y algoritmia, y una base dura de matemáticas basada en espacios de probabilidad y estocástica, se puede traducir textos “naturales” en algo analizable por la máquina.
Si en algún momento vamos a explorar qué son los llamados modelos abiertos, o cuestiones éticas y legales como la transparencia, uno de los aspectos que deberían compartir para ser Open o abiertos son los parámetros o pesos. Pero son configuraciones tan únicas y singulares, que se supone que caracterizan sus capacidades y no se comparten. Son susceptibles de ser considerados Propiedad Intelectual.
Una aclaración sobre el concepto Algoritmo
Aquí llegan los palabros. Más todavía que token.
Si a grandes pinceladas estaba hablando de cómo funcionaría una parte más específica del análisis de textos (y también de la generación de textos, en el fondo), ahora necesitamos hacer una mirada más “sistémica” en cómo funcionan estos modelos.
Este tipo de tecnología, como otras tantas de Machine y Deep Learning, se fundamentan en el análisis de grandes bases de datos de tipos parecidos (si es texto, todo texto; si es imagen, todo imagen, aunque con los modelos multimodales haya cambiado un poco). Todo, para convertirlo en análisis, y luego en algoritmos.
Los algoritmos solemos asociarlos a entidades abstractas que gobiernan las redes sociales y los bancos, pero en realidad son bien antiguos.
La propia palabra tiene un origen muy peculiar: es el sobrenombre de un matemático árabe del siglo VIII, Mohamed ben Musa, “al-Khwarizmi”, pronunciado como “aljuorismi” (que quería decir algo así como “que es de la región de Khwarizmi”).
La obra de este matemático fue traducido al latín en toda Europa a través de diferentes puntos de entrada, especialmente desde el Al-Andalus de la península ibérica. Cuando se latinizó su sobrenombre a “Algorithmus”, tenía mucha similiaridad con “Arithmus” (relacionada con la aritmética griega).
Un algoritmo es un conjunto y serie de instrucciones, reglas y pasos.
Los trucos heurísticos en matemáticas, como por ejemplo como nos enseñaban en el colegio a realizar divisiones en papel, son algoritmos.
Los algoritmos nos permiten abreviar y sistematizar procesos abstractos que, por otro lado, nos podrían llevar horas o días llegar al mismo final o un resultado similar.
En computación, las secuencias e instrucciones de procesamiento y acciones internas de la máquina, son, grosso modo, algoritmos. Son vitales en computación desde sus inicios.
A medida que la computación ha avanzado, estos algoritmos han podido diseñarse de una manera mucho más sofisticada y refinada, hasta adquirir formas complejas y encadenadas.
Así, los algoritmos en redes sociales son en realidad funciones y acciones que realizan diferentes aplicativos vinculados con las plataformas, en ocasiones basados en tecnologías de Machine Learning y Deep Learning, IA aplicada para cosas como reconocimiento de caras, análisis de sentimiento...
Los algoritmos son pensados y diseñados en un origen por humanos, más concretamente sus desarrolladores y diseñadores, orientados a objetivos y políticas específicas, e incluso atendiendo a expectativas de negocio.
La novedad es que existen máquinas que, en base a unos algoritmos iniciales sofisticados, pueden modular el peso de partes de otros algoritmos o set de normas y “crearse” sus propios algoritmos, y así devenir adaptativos.
Algo más que máquinas de probabilidad
Quizás hayas oído hablar del concepto “entrenamiento” más de una vez. Cuando los programadores de una startup o compañía diseñan un primer borrador del modelo con su arquitectura (digo borrador, para entendernos, pero no es el concepto técnico), lo someten a ese proceso: que comience a procesar muchas cantidades de textos de todo tipo.
De esta manera, analiza esas frecuencias de combinación de tokens y palabras de las que hablaba antes, y su posibilidad de reaparecer.
Y, en función del modelo, de sus fórmulas y algoritmos, su estructura, sus funciones y sofisticación, los modelos pueden hacer algunas cosas más que solamente producir un análisis o un contenido.
A esto se le llama, entre otras cosas, aprendizaje, aunque el “aprendizaje” en IA es distinto según el tipo de tecnología, y no tan similar al complejo aprendizaje animal.
A veces puede ser supervisado por programadores u otro tipo de operarios, a veces puede ser (poco) no-supervisado. En teoría, los LLM pertenecen a este último tipo de enfoque.
Por tanto, el modelo primero genera un megamapa de relaciones y probabilidades codificados tras horas y horas de tragar texto, y recursos computacionales usados a tope, y kilowatios gastados.
Pero no necesariamente lo hace bien a la primera. Así que hay múltiples revisiones y procesos, y se lo somete a pruebas de varios tipos. Todo esto sucede, en teoría, antes de considerarlo un Producto Mínimo Viable para ser usado por el resto de los mortales.
Entrenar a estos modelos cada vez más grandes en cuanto a volumen de datos (textos entre otras cosas) y parámetros (cantidad de relaciones y conexiones entre conjuntos de tokens etc) tiene un coste altísimo, en dinero, en energía, en agua para la refrigeración, y en otros recursos.
Así que crear realmente de cero estos modelos que se llaman fundacionales, por el coste y el acceso a personas hiperespecializadas, está al alcance de muy pocos.
Asunto distinto será cuando estas tecnologías ya estén más maduras y se pase a nuevas generaciones de modelos, a la síntesis o compresión de estos, etcétera, dando lugar a nuevos modelos derivados más ligeros (pudiendo ser menos costoso).
La generación de texto hecho por estos modelos LLM sería algo así como crear textos novedosos, probables de ser aceptados como verosímiles a nuestros ojos, cuyas capacidades se han ajustado durante generaciones de esta tecnología y sus precedentes.
Además, parece ser que parte de sus dinámicas y funcionamientos intrínsecos aportan capacidades extra, haciendo que estos Grandes Modelos de Lenguaje o LLMs obtengan la capacidad de analizar, inferir (“razonar”).
Parte de la arquitectura o “diseño” de estos modelos, de toda su estructura, recae en otros sofisticados conceptos de la computación y las matemáticas que se podrían clasificar como estocástica (a veces se lo relaciona con la aleatoriedad, pero no exactamente), y con estructuras lógicas que permiten a estos modelos generar inferencias no solo sobre los tokens, sino sobre conjuntos de conjuntos, por decirlo de algún modo, de lo que ya ha analizado.
Inferencia y lógica, y el post-entrenamiento, la salsa secreta
Una cosa son las capacidades técnicas que nos ofrecen las tecnologías desde el punto de vista de nuestras tareas del día a día, y la otra son las capacidades que tienen como tecnologías.
En el primer caso, las describimos con etiquetas vinculadas con nuestras profesiones y entorno social, como por ejemplo “capacidad analítica”, “don de gentes”, “creatividad” o “capacidad organizativa”.
También solemos solapar el concepto “capacidad” con el de tareas, al pensar en las aplicaciones de las IA, por ejemplo: preparar ofertas de RRHH, gestionar cuentas y clientes, preparar resúmenes de informes…
Pero en el segundo caso, las capacidades técnicas, son las que explican qué hacen las tecnologías realmente y cómo pueden llegar a cumplir unas tareas mejor que otras. Antes de hablar de “razonamiento” (que es una antropomorfización) tenemos que hablar de cómo hacen lo que hacen.
Por lo visto, diferentes capacidades técnicas emergen o derivan de algún modo del propio desarrollo y legado tecnológico de los LLM, y también de la magnitud y escala de los modelos más grandes y colosales.
Por ejemplo pueden:
Analizar texto desde una perspectiva formal que tiene que ver con la sintaxis, las reglas de una lengua, sus patrones (siendo todavía malo en interpretar significado profundo, mucho más de lo que se clama, no hay que confundir contexto textual con contexto complejo de diferentes realidades).
Un análisis de sentimiento todavía limitado, aunque mejor que otras tecnologías precedentes gracias a una modelización y clasificación más óptima de los modelos en sí mismos y su potencia.
En la actualidad, muchos modelos en los que se basan los productos más habituales (Claude, ChatGPT, etcétera) son re-entrenados de nuevo, lo que se conoce como post-entrenamiento.
En esta fase, se somete a los modelos a diferentes técnicas de más entrenamiento (pero muy diferentes) para que adquieran capacidades específicas. Esas capacidades se orientan ya para aplicaciones en diferentes campos económicos, aka afinarlos para que respondan como asistentes.
También hoy en día se los afina para que obtengan:
La capacidad de reproducir “cadenas de pensamiento” o “Chain of thoughts” (hace unos años era una técnica de prompt, que externalizaban en los usuarios) y otras técnicas como zero-shot chain of-thought
Revisar textos (p.e. online) para reevaluar probabilidad de acierto aka “Fact-checking”
Traducir textos.
Una de las capacidades innatas que derivan de su propio funcionamiento es la inferencia. Esta está vinculada con el razonamiento, pero es la base del proceder de los algoritmos digitales y las neuronas artificiales.
La inferencia está presente en los 3 tipos clásicos de razonamiento: deductivo, inductivo y abductivo. Aunque los LLM en su núcleo operan sobre todo a partir de la deducción: a partir de una regla general (p.e. las reglas con las que deben actuar y están auto-programados) deriva o infiere una respuesta o acción.
Esto lo ampliaré en el siguienteartículo en el que trato un poco más los Modelos Grandes de Razonamiento (LRMs).
Si te interesa el tema del post-entrenamiento, posiblemente el secreto de la salsa, S. Rajdev (2025) explica los métodos de post-entrenamiento más habituales aquí: A deep dive into LLM Post-training techniques
Caliente, caliente: el toque creativo
Hay otro concepto importante, que es la estocástica. La estocástica es un campo matemático que tiene una relación con lo que entendemos como aleatoriedad, aunque como todo en matemáticas, es un poco más abstracto y complicado.
Pero digamos que aunque estos sistemas de Aprendizaje Profundo o Deep Learning tienen un fuerte componente probabilístico basado en el análisis de textos / lenguaje (en el caso de las imágenes puede ser bastante diferente), para darle un toque más espontáneo o percibidos como creativos a los resultados se añade otro concepto, que es la temperatura.
En jerga técnica se considera la temperatura de un modelo un “hiperparámetro”. Este gran parámetro da instrucciones al gran modelo sobre cuán estricto o flexible debe actuar para proporcionar el output, el resultado,o lo que tiene que generar para nosotros el usuariado.
La temperatura, indicada en una posición (unos números) concreta orientará al modelo si tiene que ofrecer los resultados o textos más probables y típicos. A esto último es lo que nosotros y nosotras lo leamos como “creativo”.
El resultado de jugar con la temperatura es similar y está relacionado con cuando utilizamos la interfaz de Midjourney o Dall-e, donde se puede pedir mediante prompt o con botones u otra interfaz interactiva si queremos que tenga más aleatoriedad (randomness o chaos) o menos aleatoriedad, dando resultados que nos pueden ser más interesantes.
Así, una temperatura fría se considera que actúa más como máquina estadística, y una temperatura cálida es que actuaría más aleatorio.
Aquí está bastante bien explicado, aunque es bastante más técnico: https://ngebodh.github.io/projects/Short_dive_posts/LLM_temp/LLM_temp.html
¿Alucinan las IAs generativas o qué les pasa realmente?
En toda la historia de las IAs se utilizan muchos conceptos vinculados con tributos y características humanas e incluso animales como “aprendizaje” o alucinación. Esto nos lleva a unos debates intensos que aparecen desde las ciencias cognitivas y su meta-madre, la Filosofía de la Mente, pero que por extensión y por coherencia se va de este artículo.
Cuando hablamos de alucinaciones de la IA generativa, nos referimos a cuando ese modelo nos responde a nuestros prompts con algo que o no tiene mucho que ver con lo que esperábamos, o tiene aspectos, a nuestros ojos, incoherentes, erróneos o falsos.
Existen muchos tipos o categorías de alucinaciones, pues, como decía, es un concepto que se está aplicando a la fricción entre las expectativas y su operativa. Es decir, cuando lo que esperamos no coincide con lo que resulta, un poco como en los memes “lo que pediste vs. lo que te llegó”.
El uso de estos modelos de IA se está volviendo habitual en nuestras sociedades, y de alguna manera esperamos a que, a medida que pase el tiempo, mejoren rápidamente y tengan “menos alucinaciones”, es decir, que acierten a la primera. O que incluso superen nuestras expectativas.
Debemos tener en cuenta que las llamadas alucinaciones de las IAs no son un defecto, en un sentido técnico, sino que es la operativa normal.
Las llamadas alucinaciones que vemos hoy en día lo son a nuestros ojos porque en algo tan simple como frases y contenidos textuales u orales incluimos cosas que nos son super obvias pero no lo son: contexto cultural, económico, político y demás.
El problema es que estos sistemas no pueden entender ni procesar qué es la verdad en un sentido humano. Las verdades están hiladas en una contextualidad mucho más extensa y compleja de lo que pensamos.
Porque para que algo lo consideremos verdadero necesitamos que esté correspondido con la realidad, o que haya un consenso social super extendido sobre ello, que se haya construido un sentido común y colectivo.
Esta cuestión es un melón muy difícil y complejo de manejar y de transformar en sistemas computacionales. No es un asunto de transformar estas situaciones en mero texto narrativo que describa la situación, y pum, la máquina adquiere el lenguaje de la realidad y se vuelve inteligente.
Aquí entra otro debate que tiene relación con un cambio de paradigmas en la lingüística hace medio siglo pero que cuesta desprenderse, el llamado giro lingüístico.
En computación, que un texto sea verdadero es que simplemente todo el proceso del sistema de IA ha funcionado como se esperaba, que no haya básicamente petado en un pantallazo azul, o peor, negro. O sea, que sea verdadero o true dentro del código no significa que lo sea con la realidad.
Por otro lado, OpenAI mismo publicaba un estudio, hace pocos días (5 de septiembre de 2025), liderado por ellos mismos.
Los estudios liderados por las propias empresas que se lucran con las licencias requiere leerlos con prudencia y alerta, debido a su conflicto de intereses. Más en el contexto post-GPT-5 (cierto chasco y desinfle de expectativas con el último modelo lanzado el pasado agosto). Se viene un ajuste de narrativas y cambio de conceptos.
El problema de que alucinen (como si solo hubiera una fuente o una única causa de este), de acuerdo con OpenAI, reconocen, deriva la forma de entrenar y evaluar post-entreno sus modelos de lenguaje.
“We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline.” OpenAI, septiembre de 2025
En resumen, una de las causas principales que subrayan tiene que ver con sus procesos sociales internos de evaluación: han afinado durante todo este tiempo los modelos en función del tipo de respuestas que daba, especialmente cuando el propio modelo no contenía datos sobre el tema.
Se había corregido al modelo contra respuestas tipo “No lo sé” (I don’t know) y se le premiaba si al menos daba una respuesta más verosímil o que sonara a tener algún tipo de respuesta.
Esto no es una práctica exclusiva de OpenAI, es como han funcionado los procesos de entrenamiento de modelos incluso “no-supervisados” (ver p.e. el libro de Melanie Mitchell “Inteligencia Artificial. Guía para seres pensantes”, 2023). Son procesos de recalibración y revisión entre fases de entrenamiento.
Otro aspecto del contexto es importante: para las empresas tecnológicas, la experiencia del usuario es importante en las primeras fases de lanzamiento de un producto tecnológico. En algún momento se consideró importante generar una sensación de confianza y de fluidez sin disrupciones.
Se daba más peso, como más virtuosa, a toda respuesta que pareciera que estaba “intentándolo”, bajo la idea que en algún momento podría dar “estadísticamente” con la respuesta verdadera. Lo que nos haría pensar en la expresión “matar moscas a cañonazos” solo que con un perímetro algo afinado.
“As another example, suppose a language model is asked for someone’s birthday but doesn’t know. If it guesses “September 10,” it has a 1-in-365 chance of being right. Saying “I don’t know” guarantees zero points. Over thousands of test questions, the guessing model ends up looking better on scoreboards than a careful model that admits uncertainty.” De la nota de prensa de OpenAI, 5 septiembre de 2025
Esto habla también de la filosofía y valores que atribuyen a cosas como el aprendizaje humano, o a conceptos como la veracidad, y de las prioridades que caracterizan los estándares de la industria y la inversión.
Por ello, y sabiendo que nos es importante para algunas tareas y trabajos que la información sea veraz (incluso si es con algo relacionado con una empresa), se están desarrollando otras soluciones y tecnologías, al menos como tentativa, como la IA agéntica y los sistemas compuestos de IA (RAGs…), para intentar paliar un poco este problema.
EDITADO Y AÑADIDO EL 15/09:
¿Por qué siguen variando tanto las respuestas entre consulta y consulta?
En ocasiones podríamos haber probado de repetir una misma consulta y ver cómo cambia el resultado.
¿No se supone que son máquinas de precisión?
Como hemos visto, por su constitución y capas de complejidad, sus fundamentos y otros factores, lo que definimos “precisión” en un sentido de aplicaciones generales no tiene el mismo significado para un mundo técnico cuyo paradigma fundamental es el probabilismo. La verdad solo se alcanza acercándose probabilísticamente a ella.
En un artículo reciente (10 de septiembre) publicado por una nueva start-up, Thinking Machines Lab, fundada por extrabajadores de otras grandes firmas de la IA del momento (OpenAI, Mistral y resto de ecosistema de San Francisco), plantean que la incapacidad de los LLM para reproducir la misma respuesta con un mismo prompt se debe a una cuestión económica y de límites de procesamiento.
En resumidas cuentas, aunque nuestra experiencia, como explicaba, es la de conversar con “una IA”, en realidad nuestros prompts son procesados con los de otros cientos de usuarios. Es por pura economía.
Debido a que es absolutamente impredecible saber o estimar la cantidad de usuarios y prompts que se introducen cada segundo o fracción de tiempo, la cantidad de información que deben procesar es muy variable (indeterminable).
Aunque en teoría separan las respuestas y no mezclan lo de unos con lo de otros, a efectos físicos de computación (porque la IA sigue siendo computación), se procesan en los mismos centros de datos y supercomputación aprovechando al máximo cada unidad de procesamiento (GPUs).
A la vez, tienen unas instrucciones de cómo procesar esos prompts (el nuestro y el de otros usuarios), que deriva en realizar unos cálculos en formas de matrices (y otros métodos matemáticos, que están explicados con mayor concreción en el texto que enlazo abajo).
Como no pueden predecir a cada segundo cuantos usuarios estarán haciendo peticiones, esas matrices tendrán un tamaño más pequeño o más grande.
En definitiva, esa forma de procesar a nivel hardware las peticiones de los usuarios a tiempo real, junto a la forma de ejecutar todo el modelo en sí, genera mucha variación y puede influenciar las respuestas que nos proporciona, y añade un extra de “no-determinismo” a una tecnología que, en el papel, debería ser determinista, o más precisa.
Esto es interesante como poco para conocer con algo más de detalle algo que no es 100% tecnológico: son las políticas o decisiones económicas que también se toman y toman forma de unas instrucciones y líneas de código en vez de otras.
Cosa que tiene más de máquina industrial que de cerebro humano, de nuevo. Y podría abrirnos la imaginación a que estas tecnologías pueden tener otro tipo de aplicaciones más allá de los clichés futuristas que responden a la AGI.
He, Horace; Thinking Machine Lab (10 septiembre de 2025). Defeating Nondeterminism in LLM inference -por si quieres leer el original, tiene un tono divulgativo pero para personas con conocimientos técnicos en computación
Y por ahora esto es todo.
IA Agéntica y RAGs
Modelos de razonamiento
¡¡Espero que os sea útil e interesante!!
Si quieres saber cuándo se publicarán los próximo artículso, puedes suscribirte. Y puedes pasearte por nuestro blog en Substack para ver si ya están disponibles los siguientes artículos. ¡Muchas gracias!
[1] *Disclaimer: en computación sintaxis y semántica quiere decir algo bastante diferente a lo que quiere decir en ciencias sociales y lingüística, siendo semántica computacional algo más parecido a nuestra sintaxis, sobre el orden de las palabras.








