Curso · Local AI  ·  English →
Alembic · visual-teach · PT-BR

Local AI, do jeito certo

Onze lições que constroem um sistema real no seu MacBook Pro M5 Max 128 GB: do playbook do @TheAhmadOsman a um cérebro quasi-frontier (DeepSeek-V4-Flash via DS4) + visão local (Qwen3-VL), offline e $0/token. Cada número foi medido na sua máquina ou citado da fonte; cada lição traz diagramas, fluxos e exemplos reais.

25–34
tok/s · cérebro DeepSeek q2 (DS4)
122
tok/s · visão Qwen3-VL (MLX)
11
lições · PT-BR + EN
$0
por token · 100% offline
A pilha que você vai montar — dois tiers, um Mac TIER 1 · Inteligência + Velocidade DeepSeek-V4-Flash q2 · DS4 (Metal) 81 GB · 25–34 tok/s · 1M ctx 127.0.0.1:8000 · OpenAI + Anthropic TIER 2 · Visão (sob demanda) Qwen3-VL-30B-A3B · MLX-VLM ~20 GB · 110–122 tok/s · texto+imagem 127.0.0.1:8081 · OpenAI capacity × bandwidth × software stack — derivado lição a lição
Como ler. As lições 01–04 são os fundamentos (modelo mental, memória, banda, quantização); 05–07 são as ferramentas (engines, KV cache, DS4); 08 junta tudo na config do seu Mac; 09–11 põem para rodar (mãos-à-obra, visão, capstone). Cada lição é um arquivo HTML self-contained — sem rede, sem build — com vários diagramas, exemplos reais e quizzes. Toggle claro/escuro no botão ◐ Tema.

As onze lições

LIÇÃO 01 · FUNDAMENTO

O modelo mental

capacity × bandwidth × software stack. Por que você escolhe o gargalo, e o engine vem por último.

capacity · bandwidth · stack
LIÇÃO 02 · FUNDAMENTO

Matemática de memória

VRAM ≈ params × bits/8. A escada de quantização e o que cabe em 128 GB.

VRAM · quant ladder · 128 GB
LIÇÃO 03 · FUNDAMENTO

Banda = velocidade

Decode segue a banda, prefill segue o compute. Onde o M5 Max cai e por que é utilizável.

bandwidth · decode · prefill
LIÇÃO 04 · FUNDAMENTO

Quantização & qualidade

Onde o Q2 degrada — e a receita assimétrica do antirez que preserva tool-use.

Q2 · assimétrico · tool-use
LIÇÃO 05 · FERRAMENTAS

Engines de inferência

O guia de decisão, "DO NOT USE Ollama", e por que kernels são o trabalho real.

MLX · kernels · vLLM/SGLang
LIÇÃO 06 · FERRAMENTAS

O KV cache

A memória de trabalho do modelo — e a atenção comprimida do DeepSeek-V4 que viabiliza 1M de contexto.

KV · CSA · 1M ctx
LIÇÃO 07 · FERRAMENTAS

DS4 / DwarfStar

O engine C do antirez para o DeepSeek-V4: Metal, 2/8-bit, SSD streaming — compilado no seu Mac.

DS4 · Metal · SSD streaming
LIÇÃO 08 · A CONFIG

A config do seu M5 Max

O orçamento de memória à escala, os 3 modos de deploy e o pool de 2 Macs via TB5.

orçamento · 3 modos · 2 Macs
LIÇÃO 09 · RODANDO

Mãos à obra

Build, download, servir e plugar no Claude Code/Codex — com saídas reais medidas nesta sessão.

build · serve · plug
LIÇÃO 10 · RODANDO

Visão, com cuidado

As cautelas multimodais do Ahmad e o benchmark de 4 VLMs nas suas imagens reais.

VLM · benchmark · on-demand
LIÇÃO 11 · CAPSTONE

O setup da década

A pilha completa montada, homelab-como-nuvem, e a ponte ds4-legal → Previdência Factory.

capstone · ds4-legal · década