IA local en Mac: lo que cabe en 16 GB sin mentirte

Un mapa práctico de qué flujos de IA local son reales y cuáles solo lo parecen, en un Mac con 16 GB de memoria unificada.

Publicado el 18 de abril de 2026 · 3 min de lectura

IA
IA local
macOS
Ollama
MLX

Un MacBook de 16 GB no es una workstation. Es un teléfono con delirios de grandeza. Y aun así, una parte significativa de la “IA local” es genuinamente útil en él — si dejas de fingir que vas a correr modelos frontier sin conexión.

Este es el mapa que tengo a mano. Nada es teórico; todo es lo que de verdad uso en mi propia máquina.

Lo que 16 GB te dan en realidad

De esos 16 GB, macOS, Chrome y Slack se zampan alegremente 6–8 GB antes de que abras una terminal. Así que tu “presupuesto de modelo” útil ronda los 8 GB de memoria. A partir de ahí, la máquina empieza a hacer swap, y Apple Silicon hace swap silenciosamente hasta que deja de hacerlo.

Ese presupuesto se traduce en:

Hasta ~7 B de parámetros con cuantización de 4 bits (Q4_K_M GGUF, MLX 4-bit). Cómodo. Ágil.
8 B a 4 bits si cierras todo lo demás. Posible. Algo tenso.
13 B a 4 bits solo si cierras de verdad todo. No es el daily driver.
Cualquier cosa ≥ 30 B: API. Siempre. Deja de engañarte.

Dos stacks que conviene conocer

Ollama es el primero que recomiendo instalar. Es brew install ollama, después ollama run llama3.1:8b. Elige la cuantización por ti, gestiona el almacenamiento de modelos, expone una API en localhost y nunca te pide pensar en CUDA. El coste: es algo más lento que el óptimo por plataforma, porque abstrae el sustrato. Para el 90 % de los casos “quiero un modelo local que me redacte esto”, está bien.

MLX es el framework de machine-learning de Apple. Es más rápido en Apple Silicon que cualquier otra cosa, porque habla Metal nativamente y usa la memoria unificada como debería usarse. El coste: más setup, menos modelos, más aristas. Merece la pena cuando el modelo es tu cuello de botella (cargas reales de inferencia, fine-tuning de modelos pequeños en local) — sobra cuando el cuello eres tú.

Por defecto, Ollama; tira de MLX cuando la métrica sea el vatímetro.

Tres flujos que sí funcionan en 16 GB

Redactar y reescribir. Un modelo local 7B es excelente para “haz que este párrafo suene menos corporativo” o “resume estas 800 líneas de changelog en release notes”. La calidad es suficiente; la latencia es humana; nada sale de la máquina.
Recuperación local sobre tu propio código/notas. Un modelo 7B + un embedder pequeño (nomic-embed-text o bge-small) corriendo en local es suficiente para “dado mi carpeta de notas, ¿qué escribí sobre X?”. Combínalo con un mini CLI propio; no te molestes con una vector DB, SQLite + similitud coseno basta a esta escala.
Routing por privacidad. Usa un modelo local como primer modelo. Si el usuario pide “reescribe este párrafo”, lo resuelve el local. Si pide “diseña esta base de datos”, se enruta a Claude. El local es un router y una frontera de privacidad, no un sustituto.

Tres flujos que silenciosamente no funcionan

“Agente local que hace mi trabajo”. Un 7B no es Claude. El bucle de agente se desmorona porque el tool-use del modelo es mediocre y la ventana de contexto pequeña. No persigas esto. Usa un modelo hospedado con ventana larga.
Resúmenes de documentos muy largos. Un 8B local con 32k de contexto técnicamente corre, pero la calidad cae rápido pasados los 8k tokens. Para PDFs de 200 páginas, hospedado.
Generación de imagen/vídeo (más allá de SDXL básico). Posible, pero el ratio resultado-por-vatio es tan peor que un endpoint hospedado que deja de ser hobby y se convierte en estufa.

La lectura honesta: 16 GB son suficientes para que la IA local sea una capa tranquila, privada y rápida de tu día — y un mal sustituto de un modelo frontier. Úsala para lo que hace bien (drafts, routing, recuperación), paga por el resto y deja de leer benchmarks de modelos de 70B que no puedes correr.

¿Te ha resultado útil?