Curso / Lição 01  ·  English →
Lição 01 · O fundamento

O modelo mental

Antes de instalar qualquer coisa, você precisa de uma forma de pensar. Esta lição instala o framework de Ahmad Osman: hardware de IA local é capacidade × banda × stack de software, e você nunca escolhe um motor de inferência primeiro. Internalize isto e cada decisão das próximas lições deixa de ser um chute e passa a ser uma dedução.

3
fatores que definem tudo: capacidade, banda, stack
o motor de inferência vem por ÚLTIMO
128 GB
a sua capacidade fixa (M5 Max)
~460–614
GB/s — a sua banda fixa

01 · A fórmula dos três fatores

Todo o resto do curso pende de uma única frase. Hardware de IA local é o produto de três coisas, e cada uma responde a uma pergunta diferente. Não é uma metáfora: é a equação que diz quanto da ficha técnica você consegue de fato sacar.

Hardware de IA local = capacidade × banda × stack de software. A capacidade diz o que cabe. A banda diz com que força a caixa consegue respirar. O stack de software diz quanto da ficha técnica você consegue de fato sacar.— Ahmad Osman, "Memory Bandwidth for Local AI Hardware (2026)"
Hardware de IA local = capacidade × banda × stack CAPACIDADE "o que cabe" VRAM / RAM unificada define o tamanho do modelo + contexto que carrega BANDA "com que força respira" GB/s de memória define os tokens/s na geração STACK "quanto você saca" motor + quantização + drivers + kernels converte spec em real × × = o que você de fato saca a performance real, não a da caixa do produto

É um produto, não uma soma: se qualquer fator for zero, a saída é zero. Banda enorme com pouca capacidade não roda o modelo; capacidade enorme com stack ruim desperdiça o silício.

Por que "×" e não "+": um fator fraco não é compensado pelos outros — ele multiplica para baixo. 512 GB de capacidade com um stack que só saca 30% da banda entrega menos que 128 GB bem servidos. Esta é a lente que separa quem compra ficha técnica de quem compra resultado.

02 · A virada de pergunta

O framework não é só descritivo — ele muda a pergunta que você faz na hora de comprar ou configurar. Sair de "qual é o melhor hardware?" para "qual gargalo eu estou comprando?" é a diferença entre escolher por hype e escolher por engenharia.

Quando você internaliza isto, para de perguntar "Qual hardware é melhor?". Você começa a perguntar "Qual gargalo eu estou comprando?".— Ahmad Osman, "Memory Bandwidth for Local AI Hardware (2026)"
PERGUNTA INGÊNUA "Qual hardware é o melhor?" sem resposta — depende do workload leva ao hype e ao arrependimento internalizar a fórmula PERGUNTA DE ENGENHARIA "Qual gargalo estou comprando?" tem resposta — escolhe o trade-off leva a uma decisão defensável

03 · Qual gargalo você está comprando?

Toda máquina de IA local é dominada por um dos três fatores. Não existe a máquina sem gargalo — existe a máquina cujo gargalo combina com o seu workload. Saber ler o sintoma é saber qual peça apertar.

Todo setup é dominado por UM gargalo — descubra qual LIMITADO POR CAPACIDADE Sintoma: o modelo nem carrega, ou cai p/ swap em disco (lento) OOM ao subir o contexto Correção: + RAM/VRAM, ou quantização mais agressiva modelo menor / MoE "não cabe" LIMITADO POR BANDA Sintoma: cabe e roda, mas a geração é lenta (poucos t/s) GPU ociosa esperando RAM Correção: + banda (HBM/GDDR rápida) modelo menor = menos bytes MoE (lê só os ativos) "não respira" LIMITADO POR STACK Sintoma: hardware potente, mas só saca uma fração da banda motor/driver mal otimizado Correção: motor certo (MLX, llama.cpp) kernels nativos / Metal quantização suportada "não saca"
A sua leitura, founder

No M5 Max, capacidade (128 GB) e banda (~460–614 GB/s) são fixas — você não troca o hardware. Sobra um fator sob seu controle: o stack. É por isso que o resto do curso é, na prática, uma caça ao stack que saca o máximo da banda que você já tem. O gargalo que você "comprou" foi banda-média; a sua alavanca é não desperdiçá-la.

04 · O M5 Max como ponto fixo

Cada classe de hardware ocupa um lugar diferente no plano capacidade × banda. Plotar os candidatos deixa óbvio o que a Apple oferece: capacidade alta, banda média. Uma GPU dedicada inverte: banda altíssima, capacidade pequena. Não há vencedor absoluto — há posições, e a sua já está escolhida.

capacidade ↑ banda → ~32 GB ~128 GB ~512 GB ~270 GB/s ~500 GB/s ~820 GB/s ~1,8 TB/s DGX Spark ~128 GB · banda baixa Mac Studio 512 GB · banda média-alta RTX 5090 32 GB · banda altíssima ★ M5 Max 128 GB o SEU ponto fixo ~460–614 GB/s ↖ capacidade alta (roda modelos grandes) banda alta ↘ (gera rápido, pouco cabe) zona Apple: capacidade alta · banda média

Valores aproximados, para posicionar — não benchmarks exatos. O recado é a forma do mapa: a Apple troca banda de ponta por capacidade generosa numa só caixa portátil. A RTX 5090 faz o oposto. O Mac Studio 512 GB empurra a capacidade ao extremo.

HardwareCapacidadeBanda (aprox.)Perfil dominante
M5 Max128 GB unificada~460–614 GB/sCapacidade alta · banda média — modelo grande num laptop
RTX 509032 GB GDDR7~1,8 TB/sBanda altíssima · capacidade pequena — rápido, mas cabe pouco
Mac Studio512 GB unificadabanda média-altaCapacidade extrema — roda quase tudo, não é portátil
DGX Spark~128 GBbanda baixa-médiaCapacidade ok · banda fraca — gargalo de banda cedo

05 · A ordem de decisão: o motor vem por último

O erro mais comum de quem começa é abrir o fórum e perguntar "uso Ollama, llama.cpp ou MLX?". Errado — não por ser uma má ferramenta, mas por ser a última pergunta. Primeiro você fixa a estratégia de hardware, o formato do workload e o modelo de serviço. O motor é consequência.

Você não escolhe um motor de inferência primeiro. Você escolhe uma estratégia de hardware, um formato de workload e um modelo de serviço. O motor vem depois.— Ahmad Osman, "Inference Engines (2026)"
A ordem correta — o motor é o ÚLTIMO passo, não o primeiro 1 Estratégia de hardware capacidade × banda 2 Formato do workload coding? visão? lote? 3 Modelo de serviço 1 req? concorrência? 4 Motor de inferência decorre dos 3 acima ↑ o motor vem por ÚLTIMO começar aqui → o que você roda decide tudo a jusante
Tradução para você: o hardware já está fixo (M5 Max). O formato do workload são dois: um cérebro de coding/agente e visão ocasional. O modelo de serviço você ainda vai escolher (e é aí que mora a próxima distinção). Só depois disso o motor — MLX, llama.cpp, etc. — aparece, e quase se escolhe sozinho.

06 · "Roda" não é "serve"

A última peça do modelo mental é a mais cara de aprender na prática. Fazer um modelo responder uma vez no terminal é trivial. Fazê-lo servir — aguentar concorrência, latência previsível e custo sob carga — é projeto de sistema. Confundir os dois é a origem de metade das frustrações com IA local.

roda = demo; serve = projeto de sistema.— Ahmad Osman, "Inference Engines (2026)"
"RODA" = demo prova que carrega e responde 1 request modelo ✓ OK • sem concorrência • latência não importa • custo irrelevante basta o "it runs" "SERVE" = sistema aguenta produção sob carga req req req fila + batch KV cache · scheduler • concorrência: N reqs juntas • latência: previsível sob carga • custo: $/token, energia, throughput

A demo cabe numa linha de terminal. O sistema exige fila, batching, gestão de KV cache e um teto de RAM respeitado. Este curso te leva do "roda" ao "serve" — é por isso que a config final (Lição 08) fala em portas, picos de RAM e folga, não só em "qual modelo baixar".

O contrato deste curso

Para você, o hardware é dado: M5 Max, 128 GB, ~460–614 GB/s. Os workloads são dois: um cérebro de coding/agente e visão ocasional. Tudo o que vem a seguir — memória, banda, quantização, MoE, motor, a config final — é derivado desses fatos com o framework desta lição. Você não vai decorar receitas; vai deduzir a sua.

1. Segundo o framework de Ahmad Osman, qual é a pergunta certa ao avaliar hardware de IA local?
Correto: c. "Qual o melhor?" não tem resposta — depende do workload. A virada é trocá-la por "qual gargalo estou comprando?", que é decidível. O motor (opção d) vem por último, não primeiro.
2. Na ordem de decisão correta, quando entra a escolha do motor de inferência (MLX, llama.cpp, etc.)?
Correto: b. "Você não escolhe um motor de inferência primeiro." A sequência é hardware → workload → modelo de serviço → motor. E lembre: "roda = demo; serve = projeto de sistema" — servir sob carga é o que justifica toda essa ordem.