Curso / Lição 11  ·  English →
Lição 11 · Capstone

O setup da década

As dez lições anteriores foram peças soltas: capacidade, banda, MoE, KV cache, quantização, motores, a config do seu Mac, mãos à obra, visão. Esta as solda numa única máquina e responde à pergunta que move tudo — por que montar isto? A resposta não é "rodar um modelo". É possuir a infraestrutura: inferência quase-frontier, offline, a $0 por token, na privacidade total que documentos sérios exigem. Não é um brinquedo de dev. É a fundação de um produto.

2 tiers
cérebro (DS4 :8000) + visão (MLX :8081)
$0 / token
custo marginal de inferência
100% offline
nenhum dado sai da máquina
11 lições
de capacidade a capstone
Eu não estou otimizando para o próximo lançamento. Estou otimizando para a próxima década.— Ahmad Osman

01 · O stack montado, inteiro

Tudo o que você derivou converge aqui. Um M5 Max de 128 GB hospeda dois endpoints locais: o Tier 1 é o cérebro — DeepSeek-V4-Flash q2 servido pelo DS4 na porta :8000, 81 GB residentes, 25–34 tok/s, qualidade quase-frontier. O Tier 2 é a visão — Qwen3-VL via MLX na porta :8081, ~20 GB, 110–122 tok/s. Os clientes (Claude Code, Codex) falam OpenAI/Anthropic com 127.0.0.1 e não sabem que o backend é local. O diagrama abaixo é o mapa-mãe deste curso.

100% OFFLINE $0 / TOKEN MacBook Pro M5 Max 128 GB memória unificada · 460–614 GB/s · GPU+CPU+ANE no mesmo silício TIER 1 · O cérebro DS4 — DeepSeek-V4-Flash q2 81 GB residente · 25–34 tok/s qualidade quase-frontier 127.0.0.1:8000 API OpenAI + Anthropic TIER 2 · A visão MLX — Qwen3-VL ~20 GB · 110–122 tok/s sob demanda (swap) 127.0.0.1:8081 API OpenAI-compatível Seus clientes Claude Code Codex base_url → localhost Um cabo de tomada. Nenhum cabo de rede obrigatório. Os pesos vivem no SSD, a inferência na GPU, os dados nunca saem.

Dois tiers, duas portas, um silício. Os clientes acham que falam com uma nuvem — mas a "nuvem" está na sua mesa, offline e a custo marginal zero.

Não, eu não dupliquei meu homelab para a nuvem. Meu homelab virou a nuvem que eu uso.— Ahmad Osman

02 · Nuvem alugada vs. homelab-como-nuvem

A escolha de fundo não é técnica, é de propriedade. Um serviço online cobra por token, e cada requisição manda seus dados para fora — para o datacenter de outra pessoa, sob a política de retenção de outra pessoa. O homelab inverte tudo: o custo marginal cai a zero, funciona sem rede, e o dado nunca atravessa a porta. O diagrama contrasta os dois caminhos lado a lado.

Serviço online (alugado) você paga por token · o dado viaja sua máquina prompt + dados dados saem ↗ datacenter de outra pessoa resposta ⏱ taxímetro: $ a cada 1k tokens ✗ requer rede sempre on ✗ retenção/política de terceiros ✗ custo cresce com o uso Homelab-como-nuvem (próprio) $0 marginal · offline · privado M5 Max é o cliente E o servidor :8000 :8081 ↺ o dado nunca atravessa a porta ✓ funciona sem rede ✓ privacidade total (nada sai) ✓ custo fixo do hardware, $0 por uso
A inversão que define a década

A frase do Ahmad não é poética, é arquitetural: "meu homelab virou a nuvem que eu uso". Em vez de alugar inferência e pagar por token enquanto seus dados viajam, você possui a inferência. O hardware é um custo fixo pago uma vez; cada token depois disso é grátis, offline e privado. É a diferença entre alugar e ser dono.

03 · O modelo por domínio: ds4-legal

O cérebro não precisa ser um só. A observação do antirez aponta o futuro imediato deste stack: em vez de um modelo genérico, você carrega o especialista que a pergunta pede. Um ds4-legal afinado em corpus jurídico dá inferência jurídica de nível frontier — offline, a $0 por token, com a privacidade total que documentos previdenciários exigem. Isso não é abstração: aponta direto para a Previdência Factory do fundador. O diagrama mostra o caminho de corpus a produto.

Faz muito sentido ter modelos ds4-coding, ds4-legal, ds4-medical. Você carrega o que precisa dependendo da pergunta.— antirez, news/165
Carregue o especialista que a pergunta pede — o cérebro genérico vira ds4-legal família DS4 (carregável) ds4-coding ★ ds4-legal ds4-medical corpus de domínio leis · pareceres · jurisprudência documentos previdenciários afina → inferência local DS4 :8000 · M5 Max offline · $0/token privacidade total Previdência Factory fábrica de documentos legais gera peças jurídicas por escritório dado do cliente nunca sai o stack VIRA produto Por que local importa para o jurídico: documento sensível + exigência de sigilo = inferência tem de ser offline e privada. O homelab entrega exatamente isso.
A ponte do portfólio: por que isto não é brinquedo

Junte as duas pontas. Um ds4-legal local = inferência jurídica de nível frontier, offline, a $0 por token, com a privacidade total que documentos previdenciários exigem. Isso fala direto com a Previdência Factory do fundador — a fábrica de documentos legais personalizada por escritório. Este stack não é um experimento de dev: é a fundação de um produto. A mesma máquina que você montou nas Lições 08–10 é a que serve um cliente real sem mandar um único byte para fora.

04 · A visão de década: modelos passam, a disciplina fica

Por que "a década" e não "o lançamento"? Porque o que você comprou neste curso não é um modelo específico — é uma disciplina de leitura do hardware. O DeepSeek-V4-Flash é oportunista: hoje é a melhor peça que cabe no orçamento, amanhã será outra. O que persiste é o stack, o método e o raciocínio de capacidade. A linha do tempo abaixo mostra modelos trocando enquanto a fundação não se move.

A próxima década — os modelos passam (troca oportunista), a disciplina permanece PERSISTE · a fundação capacidade × banda × stack · math de memória · escolha de motor · KV/quantização · M5 Max 128 GB 2026 2028 2030 2032 2034 DeepSeek-V4 hoje · cabe e voa próximo MoE troca quando melhor ds4-legal v2 domínio afina o que vier mesmo orçamento ↑ MODELOS · descartáveis você só re-baixa os pesos novos Otimizar para a década = investir na fundação que sobrevive a cada troca de modelo
O ativo durável não é o peso, é o raciocínio. Quando o próximo MoE sair, você não recomeça: já sabe ler capacidade×banda, fazer a math de memória, escolher o motor e encaixar no orçamento de 128 GB. Trocar de modelo vira re-baixar pesos. É por isso que se otimiza para a década, não para o lançamento.

05 · Recapitulação: as 6 coisas que você agora sabe fazer

Onze lições, um arco. Da capacidade bruta (Lição 01) ao capstone (Lição 11), você saiu de "modelos locais são mágica" para um conjunto de habilidades operacionais e provadas. O mapa abaixo é o seu certificado funcional — cada nó é algo que você consegue fazer agora e não conseguia antes.

O arco 01 → 11 · seis capacidades que você agora possui VOCÊ operador local 1 ler capacidade × banda cabe? roda rápido? (L01–02) 2 fazer a math de memória pesos + KV + folga (L03,08) 3 escolher o motor MLX / DS4 por workload (L06) 4 raciocinar KV / quantização o que cortar sem perder (L04–05) 5 servir um frontier local build + serve DS4 :8000 (L07,09) 6 avaliar visão de verdade amostras reais, sem demo (L10) 01 ──────────────────────────── arco do curso ──────────────────────────── 11
CapacidadeLiçõesO que você consegue fazer agora
Ler capacidade × banda01–02Olhar um modelo e dizer se ele cabe na RAM e se vai gerar rápido — os dois eixos, não só o tamanho.
Math de memória03, 08Somar pesos + KV cache + sistema + folga e provar que o orçamento de 128 GB fecha.
Escolher o motor06Decidir MLX vs. DS4 por workload, sabendo o que cada um troca.
KV & quantização04–05Raciocinar sobre o que cortar (quantização, cache) sem matar a qualidade.
Servir frontier local07, 09Buildar e servir o DeepSeek em :8000 falando OpenAI/Anthropic.
Avaliar visão10Medir VLMs nas suas imagens reais e escolher pelo dado, não pela demo.
1. Qual é a tese central que faz este stack ser "o setup da década" em vez de "o setup do mês"?
Correto: b. "Eu não estou otimizando para o próximo lançamento, estou otimizando para a próxima década" (Ahmad). Os modelos passam — DS4 é a melhor peça que cabe hoje; amanhã troca. O que persiste é o raciocínio e o stack. Por isso trocar de modelo vira só re-baixar pesos.
2. Por que um ds4-legal rodando localmente é a ponte direta para a Previdência Factory do fundador?
Correto: c. "Faz sentido ter ds4-coding, ds4-legal, ds4-medical; você carrega o que precisa" (antirez, news/165). Junte com o homelab-como-nuvem: inferência jurídica frontier, offline, $0/token, privada. É a fundação de um produto real — não um brinquedo de dev.