
Hace un par de años intentar correr un modelo de IA en tu propia máquina era una tortura. Instalabas Ollama, bajabas un modelo de 7B, le tirabas una pregunta simple y esperabas cinco minutos para que te respondiera cualquier estupidez. Era más lento que la micro en hora punta. Pero la cosa cambió.
La semana pasada leà un post de Vicki Boykis que confirma lo que yo mismo venÃa sospechando: correr modelos locales ahora es bueno, de verdad. No es que hayamos llegado al nivel de GPT-5, pero la brecha se cerró tanto que ya no sentÃs esa necesidad compulsiva de pagarle veinte dólares al mes a OpenAI por cada tarea que haces en la pega.
¿Qué cambió?
Lo primero es el hardware. Un MacBook Pro M2 con 64 GB de RAM ya no suena a un setup de NASA; es la máquina que usan muchos devs en sus changas diarias. Con eso podÃs correr modelos como Gemma 4, Qwen 3 o el reciente GPT-OSS de OpenAI sin que el ventilador suene como turbina de avión.
Lo segundo es la calidad. Antes los modelos locales erraban en cosas básicas: type hints en Python, refactorizaciones simples, tests unitarios medianamente decentes. Hoy, según la experiencia de Boykis, un modelo como gemma-4-26b logra hacer agentic coding —eso de que la IA escriba código, lo ejecute y corrija sola— a un 75% de la velocidad y precisión de los modelos de API. Setenta y cinco por ciento. Eso es una locura si pensamos en que hace seis meses era imposible.
Mi experiencia propia
Yo no tengo un Mac con 64 GB, la verdad. Tengo un desktop con una RTX 3060 y 32 GB de RAM que armé durante la pandemia para jugar y terminar proyectos de la U. Con eso corro Llama 3.1 y Qwen 2.5 Coder a través de llama.cpp y para tareas simples —revisar logs, escribir tests, documentar funciones— la verdad es que no extraño pagar por APIs.
Claro, si necesito hacer análisis complejo o procesar un documento de cien páginas, ahà sà caigo en Claude o GPT. Pero para el 80% de la pega diaria, un modelo local resuelve.
El lado oscuro
No todo es color de rosa. Los modelos locales siguen siendo pesados. El K-V cache se te come la RAM como si no hubiera un mañana. Y configurar el entorno sigue siendo un dolor de cabeza si no tienes experiencia con Docker, GPUs y variables de entorno.
Además, hay que ser cuidadoso con la seguridad. Boykis recomienda correr todo dentro de contenedores Docker con permisos limitados. Yo le sumo: no le des acceso a tu repo privado ni a tu ~/.ssh a ningún agente de IA, local o no. La IA no discrimina entre tu código y tus claves SSH.
¿Y el futuro?
Pienso que esto es solo el principio. Si los modelos open source siguen mejorando a este ritmo, en un año más el argumento de ‘pagar por API porque los locales son malos’ va a sonar a excusa de vendedor de SaaS. Ya estamos viendo como GLM-5.2 y otros modelos open weights le están pisando los talones a los cerrados.
Mi consejo: si tienes una máquina decente en tu casa, prueba. Instala Ollama, baja un modelo de 12B y empieza a usarlo para tareas simples. No vas a volver atrás. Y si no tienes el hardware, al menos estate atento, porque esta wea está avanzando más rápido de lo que parece.
Fuente de inspiración: Running local models is good now
