Un modelo de 3 mil millones de parámetros le está ganando a los gigantes: la locura de VibeThinker

La pelea desigual que nadie vio venir

Hace un par de años, si querías que una IA te resolviera problemas complejos de matemáticas o te ayudara con código de alto nivel, tenías que ir a buscar a los grandes: Claude Opus, Gemini Pro, DeepSeek V3. Modelos enormes, caros de correr, y que en muchos casos ni siquiera podías bajar a tu propia máquina. La lógica era simple: más parámetros, más capacidad de razonar.

Pero ahora llegó VibeThinker-3B y le dio una paliza a esa idea.

¿Qué es esta wea?

VibeThinker es un modelo denso de 3 mil millones de parámetros — o sea, chiquitito comparado con los monstruos de 400B o más que andan dando vueltas — que logró puntuaciones brutales en benchmarks de razonamiento verificable. Sacó 94.3 en AIME26 (matemáticas avanzadas), 80.2 en LiveCodeBench (generación de código) y una tasa de aceptación del 96.1% en competencias de LeetCode que ni siquiera había visto antes. Eso lo pone al nivel de sistemas como DeepSeek V3.2, GLM-5 y Gemini 3 Pro.

Y lo más loco: lo hizo con un pipeline de entrenamiento de tres etapas que incluye fine-tuning supervisado con currículum, reinforcement learning multi-dominio y auto-destilación offline. Nada de trucos sucios. Puro trabajo técnico bien hecho.

¿Por qué me importa?

Porque esto cambia la conversación sobre qué necesitamos para correr IA de calidad. No siempre es necesario tener un cluster de GPUs de última generación para obtener resultados decentes. Un modelo de 3B parámetros puede correr en hardware mucho más accesible, lo que abre la puerta a que desarrolladores independientes, startups con poco presupuesto o incluso personas curiosas en sus casas puedan experimentar con razonamiento de nivel frontera.

La hipótesis central del paper es interesante: el razonamiento verificable se puede comprimir en núcleos compactos, mientras que el conocimiento de dominio abierto necesita cobertura amplia de parámetros. En otras palabras, para pensar bien no necesitas saberlo todo. Necesitas saber pensar.

Mi opinión

Me parece bacán que la investigación vaya por este lado. Hace rato que el hype de la IA se había transformado en una carrera por ver quién tiene el modelo más grande, y eso beneficia solo a las corporaciones con plata infinita. Ver que un equipo logra resultados de primer nivel con 3B parámetros es una señal de que la innovación real no siempre necesita más hardware, sino mejores ideas.

Obvio que no es la solución mágica para todo. Un modelo chico no va a reemplar a Claude para tareas que requieren contexto enorme o conocimiento enciclopédico. Pero para razonamiento matemático, programación competitiva y tareas donde lo importante es pensar paso a paso, VibeThinker demuestra que el tamaño no lo es todo.

Espero que esto incentive a más equipos a explorar la eficiencia en lugar de solo escalar. La IA no debería ser un privilegio de quienes pueden pagar clusters enteros.

¿Cachai? A veces, menos es más.

Fuente de inspiración: VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Un modelo de 3 mil millones de parámetros le está ganando a los gigantes: la locura de VibeThinker

La pelea desigual que nadie vio venir

¿Qué es esta wea?

¿Por qué me importa?

Mi opinión

Comentarios

Deja una respuesta Cancelar la respuesta