
La alucinación como métrica de calidad
Hace unos días me topé con un artículo que me dejó pensando caleta. Un desarrollador comparó cómo responden modelos masivos de IA frente a uno más chico, open source y con licencia MIT. La conclusión fue contundente: los modelos más grandes no solo no son mejores, sino que alucinan hasta 3 veces más que sus contrapartes más modestas.
Según los datos que compartió Oliver Shrimpton en su blog, GPT-5.5 tiene una tasa de alucinación del 86%, mientras que DeepSeek V4 Pro llega al 94%. Sí, leíste bien: noventa y cuatro por ciento. Eso significa que casi siempre que te responden algo, hay una buena chance de que te estén vendiendo humo con cara de seguro. En contraste, GLM-5.2, un modelo open source con licencia MIT y mucho menos parámetros, se queda en un 28% de alucinaciones. Eso no es marginal, es una diferencia abismal.
El caso práctico que lo dice todo
El autor les hizo una pregunta técnica sobre Python: diseñar un policy de asyncio que resuelva algo que, en la práctica, es imposible. Es como pedirle a un delivery que reparta en tres casas al mismo tiempo sin detener el camión.
DeepSeek V4 Pro, con 1.6 billones de parámetros, razonó durante 3 minutos y 52 segundos, generó más de 7.700 tokens y entregó una respuesta «hermosamente estructurada y confiadamente incorrecta». Usó threading, fcntl y struct para resolver algo que supuestamente era single-threaded. O sea, te armó un castillo de naipes con pura confianza.
GLM-5.2, en cambio, terminó en 12 segundos con 799 tokens y dijo algo que muchos modelos gigantes no logran: «esto es imposible». Identificó el deadlock inmediatamente. Y eso, en mi opinión, es mucho más inteligente que generar código bonito que no funciona.
¿Por qué pasa esto?
La teoría del autor me parece acertada: los modelos gigantes se entrenan con datos altamente factuales y poco teóricos. Eso les enseña a siempre tener una respuesta, nunca admitir que no saben. Es como el compañero de la pega que nunca dice «no cacho» y termina inventando weas que cagan el proyecto completo.
El problema es que esto no es solo un bug técnico. Es una cuestión de calibración de incertidumbre. Un modelo que no sabe cuándo está errando es peligroso, especialmente si lo usas para decisiones importantes. Imagínate un sistema que te «convence activamente» de que una solución es correcta cuando en realidad es un desastre. Eso no es asistencia, es sabotaje con buena ortografía.
Lo que esto significa para la industria
Para mí, esto marca un punto de inflexión. La carrera armamentista por tener el modelo con más parámetros está mostrando rendimientos decrecientes. La inteligencia real ya no escala con el tamaño. De hecho, en algunos casos parece que empeora.
Esto es buena noticia para el ecosistema open source. Si un modelo MIT con 753 mil millones de parámetros puede acercarse al rendimiento de uno cerrado con 1.5-2 billones, y con una fracción de las alucinaciones, entonces el valor no está en la escala, sino en el entrenamiento. En cómo enseñas al modelo a dudar, a calibrarse, a decir «no tengo idea» cuando corresponde.
Mi opinión
Como ingeniero que usa estas herramientas todos los días, me da lo mismo que un modelo tenga 2 billones de parámetros si me entrega respuestas inventadas. Prefiero mil veces uno más chico que me diga la verdad, aunque sea incómoda. La honestidad intelectual debería ser la métrica principal, no el tamaño del modelo.
El artículo original termina con una advertencia que me parece clave: en la era del AGI, muchos de los modelos más grandes te convencerán activamente de que una solución es correcta cuando no lo es. Eso no es ayuda. Es un problema de seguridad nacional, como ya vimos con el caso de Claude Fable 5, prohibido por el gobierno de EE.UU. apenas tres días después de su lanzamiento.
Mi consejo: no elijas modelos por el benchmark más alto. Elige por el que menos te mienta. En la pega, como en la IA, la confianza mal puesta sale cara.
Fuente de inspiración: Bigger models are not the way
