Lição 01 · O fundamento

O modelo mental

Antes de instalar qualquer coisa, você precisa de uma forma de pensar. Esta lição instala o framework de Ahmad Osman: hardware de IA local é capacidade × banda × stack de software, e você nunca escolhe um motor de inferência primeiro. Internalize isto e cada decisão das próximas lições deixa de ser um chute e passa a ser uma dedução.

fatores que definem tudo: capacidade, banda, stack

4º

o motor de inferência vem por ÚLTIMO

128 GB

a sua capacidade fixa (M5 Max)

~460–614

GB/s — a sua banda fixa

01 · A fórmula dos três fatores

Todo o resto do curso pende de uma única frase. Hardware de IA local é o produto de três coisas, e cada uma responde a uma pergunta diferente. Não é uma metáfora: é a equação que diz quanto da ficha técnica você consegue de fato sacar.

Hardware de IA local = capacidade × banda × stack de software. A capacidade diz o que cabe. A banda diz com que força a caixa consegue respirar. O stack de software diz quanto da ficha técnica você consegue de fato sacar.— Ahmad Osman, "Memory Bandwidth for Local AI Hardware (2026)"

É um produto, não uma soma: se qualquer fator for zero, a saída é zero. Banda enorme com pouca capacidade não roda o modelo; capacidade enorme com stack ruim desperdiça o silício.

Por que "×" e não "+": um fator fraco não é compensado pelos outros — ele multiplica para baixo. 512 GB de capacidade com um stack que só saca 30% da banda entrega menos que 128 GB bem servidos. Esta é a lente que separa quem compra ficha técnica de quem compra resultado.

02 · A virada de pergunta

O framework não é só descritivo — ele muda a pergunta que você faz na hora de comprar ou configurar. Sair de "qual é o melhor hardware?" para "qual gargalo eu estou comprando?" é a diferença entre escolher por hype e escolher por engenharia.

Quando você internaliza isto, para de perguntar "Qual hardware é melhor?". Você começa a perguntar "Qual gargalo eu estou comprando?".— Ahmad Osman, "Memory Bandwidth for Local AI Hardware (2026)"

03 · Qual gargalo você está comprando?

Toda máquina de IA local é dominada por um dos três fatores. Não existe a máquina sem gargalo — existe a máquina cujo gargalo combina com o seu workload. Saber ler o sintoma é saber qual peça apertar.

A sua leitura, founder

No M5 Max, capacidade (128 GB) e banda (~460–614 GB/s) são fixas — você não troca o hardware. Sobra um fator sob seu controle: o stack. É por isso que o resto do curso é, na prática, uma caça ao stack que saca o máximo da banda que você já tem. O gargalo que você "comprou" foi banda-média; a sua alavanca é não desperdiçá-la.

04 · O M5 Max como ponto fixo

Cada classe de hardware ocupa um lugar diferente no plano capacidade × banda. Plotar os candidatos deixa óbvio o que a Apple oferece: capacidade alta, banda média. Uma GPU dedicada inverte: banda altíssima, capacidade pequena. Não há vencedor absoluto — há posições, e a sua já está escolhida.

Valores aproximados, para posicionar — não benchmarks exatos. O recado é a forma do mapa: a Apple troca banda de ponta por capacidade generosa numa só caixa portátil. A RTX 5090 faz o oposto. O Mac Studio 512 GB empurra a capacidade ao extremo.

Hardware	Capacidade	Banda (aprox.)	Perfil dominante
M5 Max ★	128 GB unificada	~460–614 GB/s	Capacidade alta · banda média — modelo grande num laptop
RTX 5090	32 GB GDDR7	~1,8 TB/s	Banda altíssima · capacidade pequena — rápido, mas cabe pouco
Mac Studio	512 GB unificada	banda média-alta	Capacidade extrema — roda quase tudo, não é portátil
DGX Spark	~128 GB	banda baixa-média	Capacidade ok · banda fraca — gargalo de banda cedo

05 · A ordem de decisão: o motor vem por último

O erro mais comum de quem começa é abrir o fórum e perguntar "uso Ollama, llama.cpp ou MLX?". Errado — não por ser uma má ferramenta, mas por ser a última pergunta. Primeiro você fixa a estratégia de hardware, o formato do workload e o modelo de serviço. O motor é consequência.

Você não escolhe um motor de inferência primeiro. Você escolhe uma estratégia de hardware, um formato de workload e um modelo de serviço. O motor vem depois.— Ahmad Osman, "Inference Engines (2026)"

Tradução para você: o hardware já está fixo (M5 Max). O formato do workload são dois: um cérebro de coding/agente e visão ocasional. O modelo de serviço você ainda vai escolher (e é aí que mora a próxima distinção). Só depois disso o motor — MLX, llama.cpp, etc. — aparece, e quase se escolhe sozinho.

06 · "Roda" não é "serve"

A última peça do modelo mental é a mais cara de aprender na prática. Fazer um modelo responder uma vez no terminal é trivial. Fazê-lo servir — aguentar concorrência, latência previsível e custo sob carga — é projeto de sistema. Confundir os dois é a origem de metade das frustrações com IA local.

roda = demo; serve = projeto de sistema.— Ahmad Osman, "Inference Engines (2026)"

A demo cabe numa linha de terminal. O sistema exige fila, batching, gestão de KV cache e um teto de RAM respeitado. Este curso te leva do "roda" ao "serve" — é por isso que a config final (Lição 08) fala em portas, picos de RAM e folga, não só em "qual modelo baixar".

O contrato deste curso

Para você, o hardware é dado: M5 Max, 128 GB, ~460–614 GB/s. Os workloads são dois: um cérebro de coding/agente e visão ocasional. Tudo o que vem a seguir — memória, banda, quantização, MoE, motor, a config final — é derivado desses fatos com o framework desta lição. Você não vai decorar receitas; vai deduzir a sua.

1. Segundo o framework de Ahmad Osman, qual é a pergunta certa ao avaliar hardware de IA local?

Correto: c. "Qual o melhor?" não tem resposta — depende do workload. A virada é trocá-la por "qual gargalo estou comprando?", que é decidível. O motor (opção d) vem por último, não primeiro.

2. Na ordem de decisão correta, quando entra a escolha do motor de inferência (MLX, llama.cpp, etc.)?

Correto: b. "Você não escolhe um motor de inferência primeiro." A sequência é hardware → workload → modelo de serviço → motor. E lembre: "roda = demo; serve = projeto de sistema" — servir sob carga é o que justifica toda essa ordem.

← Hub Lição 02 →