Antes de instalar qualquer coisa, você precisa de uma forma de pensar. Esta lição instala o framework de Ahmad Osman: hardware de IA local é capacidade × banda × stack de software, e você nunca escolhe um motor de inferência primeiro. Internalize isto e cada decisão das próximas lições deixa de ser um chute e passa a ser uma dedução.
3
fatores que definem tudo: capacidade, banda, stack
4º
o motor de inferência vem por ÚLTIMO
128 GB
a sua capacidade fixa (M5 Max)
~460–614
GB/s — a sua banda fixa
01 · A fórmula dos três fatores
Todo o resto do curso pende de uma única frase. Hardware de IA local é o produto de três coisas, e cada uma responde a uma pergunta diferente. Não é uma metáfora: é a equação que diz quanto da ficha técnica você consegue de fato sacar.
Hardware de IA local = capacidade × banda × stack de software. A capacidade diz o que cabe. A banda diz com que força a caixa consegue respirar. O stack de software diz quanto da ficha técnica você consegue de fato sacar.— Ahmad Osman, "Memory Bandwidth for Local AI Hardware (2026)"
É um produto, não uma soma: se qualquer fator for zero, a saída é zero. Banda enorme com pouca capacidade não roda o modelo; capacidade enorme com stack ruim desperdiça o silício.
Por que "×" e não "+": um fator fraco não é compensado pelos outros — ele multiplica para baixo. 512 GB de capacidade com um stack que só saca 30% da banda entrega menos que 128 GB bem servidos. Esta é a lente que separa quem compra ficha técnica de quem compra resultado.
02 · A virada de pergunta
O framework não é só descritivo — ele muda a pergunta que você faz na hora de comprar ou configurar. Sair de "qual é o melhor hardware?" para "qual gargalo eu estou comprando?" é a diferença entre escolher por hype e escolher por engenharia.
Quando você internaliza isto, para de perguntar "Qual hardware é melhor?". Você começa a perguntar "Qual gargalo eu estou comprando?".— Ahmad Osman, "Memory Bandwidth for Local AI Hardware (2026)"
03 · Qual gargalo você está comprando?
Toda máquina de IA local é dominada por um dos três fatores. Não existe a máquina sem gargalo — existe a máquina cujo gargalo combina com o seu workload. Saber ler o sintoma é saber qual peça apertar.
A sua leitura, founder
No M5 Max, capacidade (128 GB) e banda (~460–614 GB/s) são fixas — você não troca o hardware. Sobra um fator sob seu controle: o stack. É por isso que o resto do curso é, na prática, uma caça ao stack que saca o máximo da banda que você já tem. O gargalo que você "comprou" foi banda-média; a sua alavanca é não desperdiçá-la.
04 · O M5 Max como ponto fixo
Cada classe de hardware ocupa um lugar diferente no plano capacidade × banda. Plotar os candidatos deixa óbvio o que a Apple oferece: capacidade alta, banda média. Uma GPU dedicada inverte: banda altíssima, capacidade pequena. Não há vencedor absoluto — há posições, e a sua já está escolhida.
Valores aproximados, para posicionar — não benchmarks exatos. O recado é a forma do mapa: a Apple troca banda de ponta por capacidade generosa numa só caixa portátil. A RTX 5090 faz o oposto. O Mac Studio 512 GB empurra a capacidade ao extremo.
Hardware
Capacidade
Banda (aprox.)
Perfil dominante
M5 Max ★
128 GB unificada
~460–614 GB/s
Capacidade alta · banda média — modelo grande num laptop
RTX 5090
32 GB GDDR7
~1,8 TB/s
Banda altíssima · capacidade pequena — rápido, mas cabe pouco
Mac Studio
512 GB unificada
banda média-alta
Capacidade extrema — roda quase tudo, não é portátil
DGX Spark
~128 GB
banda baixa-média
Capacidade ok · banda fraca — gargalo de banda cedo
05 · A ordem de decisão: o motor vem por último
O erro mais comum de quem começa é abrir o fórum e perguntar "uso Ollama, llama.cpp ou MLX?". Errado — não por ser uma má ferramenta, mas por ser a última pergunta. Primeiro você fixa a estratégia de hardware, o formato do workload e o modelo de serviço. O motor é consequência.
Você não escolhe um motor de inferência primeiro. Você escolhe uma estratégia de hardware, um formato de workload e um modelo de serviço. O motor vem depois.— Ahmad Osman, "Inference Engines (2026)"
Tradução para você: o hardware já está fixo (M5 Max). O formato do workload são dois: um cérebro de coding/agente e visão ocasional. O modelo de serviço você ainda vai escolher (e é aí que mora a próxima distinção). Só depois disso o motor — MLX, llama.cpp, etc. — aparece, e quase se escolhe sozinho.
06 · "Roda" não é "serve"
A última peça do modelo mental é a mais cara de aprender na prática. Fazer um modelo responder uma vez no terminal é trivial. Fazê-lo servir — aguentar concorrência, latência previsível e custo sob carga — é projeto de sistema. Confundir os dois é a origem de metade das frustrações com IA local.
roda = demo; serve = projeto de sistema.— Ahmad Osman, "Inference Engines (2026)"
A demo cabe numa linha de terminal. O sistema exige fila, batching, gestão de KV cache e um teto de RAM respeitado. Este curso te leva do "roda" ao "serve" — é por isso que a config final (Lição 08) fala em portas, picos de RAM e folga, não só em "qual modelo baixar".
O contrato deste curso
Para você, o hardware é dado: M5 Max, 128 GB, ~460–614 GB/s. Os workloads são dois: um cérebro de coding/agente e visão ocasional. Tudo o que vem a seguir — memória, banda, quantização, MoE, motor, a config final — é derivado desses fatos com o framework desta lição. Você não vai decorar receitas; vai deduzir a sua.
1. Segundo o framework de Ahmad Osman, qual é a pergunta certa ao avaliar hardware de IA local?
Correto: c. "Qual o melhor?" não tem resposta — depende do workload. A virada é trocá-la por "qual gargalo estou comprando?", que é decidível. O motor (opção d) vem por último, não primeiro.
2. Na ordem de decisão correta, quando entra a escolha do motor de inferência (MLX, llama.cpp, etc.)?
Correto: b. "Você não escolhe um motor de inferência primeiro." A sequência é hardware → workload → modelo de serviço → motor. E lembre: "roda = demo; serve = projeto de sistema" — servir sob carga é o que justifica toda essa ordem.