← Blog

Probando local LLMs

2026-06-08llmlocal-aigpu

Corriendo Gemma 4 y Qwen 3.5 Coder en local sobre una NVIDIA RTX 3060 de 12 GB — qué entra en esa VRAM y qué rinde de verdad.

Por qué local

Mandar cada prompt a una API en la nube está bien hasta que empiezas a contar latencia, privacidad y factura. Quería ver hasta dónde llega hoy un modelo corriendo enteramente en local, sin red, sin tokens de pago, sin que mi código salga de casa.

El detalle divertido: no lo probé en una bestia de laboratorio, sino en el ordenador de mi hijo, que monta una NVIDIA RTX 3060 de 12 GB de VRAM. Una gráfica de gama media, de las que hay en miles de casas. Justo por eso es el banco de pruebas honesto: si funciona aquí, funciona en cualquier sitio.

El cuello de botella es la VRAM

Con LLMs locales la pregunta no es "¿cuántos FPS?", es "¿entra en la VRAM?". Si el modelo no cabe entero en los 12 GB, se desborda a RAM del sistema y la velocidad se desploma.

La regla práctica con cuantización en 4 bits (Q4):

Con 12 GB el punto dulce está en modelos de hasta ~9B en Q4/Q5, que es exactamente donde juegan los dos que probé.

El setup

Nada exótico: Ollama por encima de llama.cpp, drivers NVIDIA al día y CUDA. Descargar y arrancar un modelo es literalmente:

ollama run gemma:latest

Ollama detecta la GPU, descarga el peso cuantizado y deja el modelo escuchando. Sin malabares.

Gemma 4 — el generalista

Gemma 4 (la familia abierta de Google) es mi opción para todo lo que no sea código: redactar, resumir, explicar conceptos, responder en español sin sonar a traducción automática.

Donde flojea, como todo modelo pequeño, es en cadenas de razonamiento largas y en datos muy específicos. Para eso no es la herramienta.

Qwen 3.5 Coder — el especialista

Aquí estaba mi verdadero interés. Qwen 3.5 Coder (Alibaba) está afinado para programación, y se nota.

Como copiloto local para preguntas de "¿cómo hago X en este lenguaje?" o "revísame esta función", cumple. No sustituye a los modelos grandes en problemas de arquitectura complejos, pero para el 80% del trabajo diario de código, lo hace en tu máquina y gratis.

Lo que aprendí

¿La conclusión? No hace falta un datacenter para tener un asistente decente en casa. Hace falta una gráfica de gama media y un rato de curiosidad — y, en mi caso, pedirle prestado el PC a mi hijo.