Cómo armar una máquina para correr LLMs potentes en tu casa (y por qué deberías pensarlo)

El sueño de no depender de OpenAI ni Anthropic

Hace un tiempo que andaba con la idea en la cabeza: ¿y si pudiera correr modelos de IA de última generación sin tener que mandarle mis datos a ninguna empresa gringa? No es paranoia, es soberanía computacional. Y resulta que un tipo llamado jamesob armó una guía brutal que demuestra que esto no es ciencia ficción.

Lo básico: ¿cuánto necesitas?

La guía parte con dos escenarios. Si tienes alrededor de 2 mil dólares, puedes montar un sistema con dos RTX 3090 (48 GB de VRAM en total) y correr modelos como Qwen3.6-27B, que en las pruebas se comporta bastante bien. Eso te alcanza para la pega diaria, cambiar código, resumir textos, lo típico.

Ahora, si eres de los que le sobra plata o haces changa con IA, la versión heavy son 40 mil dólares: cuatro RTX Pro 6000 con 384 GB de VRAM. Con eso ya puedes correr modelos cuantizados del GLM-5.2, que según Jamesob se acerca al nivel de Claude Opus. La wea es seria.

Los trucos que nadie te cuenta

Aquí es donde se pone bacán. El tipo no se quedó solo con comprar las tarjetas. Metió switches PCIe Gen4 de c-payne para que las GPUs se hablen directamente entre ellas, sin pasar por el CPU. Eso reduce la latencia en el entrenamiento e inferencia.

Y la cantidad de tuning que hay que hacerle al BIOS es impresionante. Desactivar ASPM, forzar Gen4 en vez de dejarlo en Auto, habilitar Re-Size BAR, desactivar SR-IOV, apagar el IOMMU… No es plug and play, cachai. Es más cercano a armar un auto de carrera que a comprar una laptop gamer.

Incluso tuvo que hacer un script que desactiva el ACS (Access Control Services) de los puertos PCIe en cada boot, porque si no, el tráfico P2P entre GPUs rebota por el CPU y el switch queda al pedo.

Mi opinión

Personalmente, creo que esto es el futuro para los que trabajamos en tech y no queremos que cada prompt que escribimos termine en algún datacenter en California. Los modelos locales han mejorado tanto que la brecha con los servicios en la nube se está cerrando. Y con proyectos como vLLM y SGLang, la infraestructura open source para correr estos modelos ya está madura.

No digo que sea para todo el mundo. Pero si eres ingeniero, tienes un poco de plata y te preocupa la privacidad, armar un rig local de IA es una de las inversiones más inteligentes que puedes hacer hoy. Además, aprendes un montón de PCIe, kernel tuning y hardware real. Eso en la pega no lo enseñan ni con cursos de mil dólares.

¿Te tinca? El repo de jamesob tiene toda la lista de materiales, configuraciones del BIOS y scripts. Yo ya estoy viendo precios de RTX 3090 en eBay.

Fuente de inspiración: Jamesob’s guide to running SOTA LLMs locally

Cómo armar una máquina para correr LLMs potentes en tu casa (y por qué deberías pensarlo)

El sueño de no depender de OpenAI ni Anthropic

Lo básico: ¿cuánto necesitas?

Los trucos que nadie te cuenta

Mi opinión

Comentarios

Deja una respuesta Cancelar la respuesta