As dez lições anteriores foram peças soltas: capacidade, banda, MoE, KV cache, quantização, motores, a config do seu Mac, mãos à obra, visão. Esta as solda numa única máquina e responde à pergunta que move tudo — por que montar isto? A resposta não é "rodar um modelo". É possuir a infraestrutura: inferência quase-frontier, offline, a $0 por token, na privacidade total que documentos sérios exigem. Não é um brinquedo de dev. É a fundação de um produto.
2 tiers
cérebro (DS4 :8000) + visão (MLX :8081)
$0 / token
custo marginal de inferência
100% offline
nenhum dado sai da máquina
11 lições
de capacidade a capstone
Eu não estou otimizando para o próximo lançamento. Estou otimizando para a próxima década.— Ahmad Osman
01 · O stack montado, inteiro
Tudo o que você derivou converge aqui. Um M5 Max de 128 GB hospeda dois endpoints locais: o Tier 1 é o cérebro — DeepSeek-V4-Flash q2 servido pelo DS4 na porta :8000, 81 GB residentes, 25–34 tok/s, qualidade quase-frontier. O Tier 2 é a visão — Qwen3-VL via MLX na porta :8081, ~20 GB, 110–122 tok/s. Os clientes (Claude Code, Codex) falam OpenAI/Anthropic com 127.0.0.1 e não sabem que o backend é local. O diagrama abaixo é o mapa-mãe deste curso.
Dois tiers, duas portas, um silício. Os clientes acham que falam com uma nuvem — mas a "nuvem" está na sua mesa, offline e a custo marginal zero.
Não, eu não dupliquei meu homelab para a nuvem. Meu homelab virou a nuvem que eu uso.— Ahmad Osman
02 · Nuvem alugada vs. homelab-como-nuvem
A escolha de fundo não é técnica, é de propriedade. Um serviço online cobra por token, e cada requisição manda seus dados para fora — para o datacenter de outra pessoa, sob a política de retenção de outra pessoa. O homelab inverte tudo: o custo marginal cai a zero, funciona sem rede, e o dado nunca atravessa a porta. O diagrama contrasta os dois caminhos lado a lado.
A inversão que define a década
A frase do Ahmad não é poética, é arquitetural: "meu homelab virou a nuvem que eu uso". Em vez de alugar inferência e pagar por token enquanto seus dados viajam, você possui a inferência. O hardware é um custo fixo pago uma vez; cada token depois disso é grátis, offline e privado. É a diferença entre alugar e ser dono.
03 · O modelo por domínio: ds4-legal
O cérebro não precisa ser um só. A observação do antirez aponta o futuro imediato deste stack: em vez de um modelo genérico, você carrega o especialista que a pergunta pede. Um ds4-legal afinado em corpus jurídico dá inferência jurídica de nível frontier — offline, a $0 por token, com a privacidade total que documentos previdenciários exigem. Isso não é abstração: aponta direto para a Previdência Factory do fundador. O diagrama mostra o caminho de corpus a produto.
Faz muito sentido ter modelos ds4-coding, ds4-legal, ds4-medical. Você carrega o que precisa dependendo da pergunta.— antirez, news/165
A ponte do portfólio: por que isto não é brinquedo
Junte as duas pontas. Um ds4-legal local = inferência jurídica de nível frontier, offline, a $0 por token, com a privacidade total que documentos previdenciários exigem. Isso fala direto com a Previdência Factory do fundador — a fábrica de documentos legais personalizada por escritório. Este stack não é um experimento de dev: é a fundação de um produto. A mesma máquina que você montou nas Lições 08–10 é a que serve um cliente real sem mandar um único byte para fora.
04 · A visão de década: modelos passam, a disciplina fica
Por que "a década" e não "o lançamento"? Porque o que você comprou neste curso não é um modelo específico — é uma disciplina de leitura do hardware. O DeepSeek-V4-Flash é oportunista: hoje é a melhor peça que cabe no orçamento, amanhã será outra. O que persiste é o stack, o método e o raciocínio de capacidade. A linha do tempo abaixo mostra modelos trocando enquanto a fundação não se move.
O ativo durável não é o peso, é o raciocínio. Quando o próximo MoE sair, você não recomeça: já sabe ler capacidade×banda, fazer a math de memória, escolher o motor e encaixar no orçamento de 128 GB. Trocar de modelo vira re-baixar pesos. É por isso que se otimiza para a década, não para o lançamento.
05 · Recapitulação: as 6 coisas que você agora sabe fazer
Onze lições, um arco. Da capacidade bruta (Lição 01) ao capstone (Lição 11), você saiu de "modelos locais são mágica" para um conjunto de habilidades operacionais e provadas. O mapa abaixo é o seu certificado funcional — cada nó é algo que você consegue fazer agora e não conseguia antes.
Capacidade
Lições
O que você consegue fazer agora
Ler capacidade × banda
01–02
Olhar um modelo e dizer se ele cabe na RAM e se vai gerar rápido — os dois eixos, não só o tamanho.
Math de memória
03, 08
Somar pesos + KV cache + sistema + folga e provar que o orçamento de 128 GB fecha.
Escolher o motor
06
Decidir MLX vs. DS4 por workload, sabendo o que cada um troca.
KV & quantização
04–05
Raciocinar sobre o que cortar (quantização, cache) sem matar a qualidade.
Servir frontier local
07, 09
Buildar e servir o DeepSeek em :8000 falando OpenAI/Anthropic.
Avaliar visão
10
Medir VLMs nas suas imagens reais e escolher pelo dado, não pela demo.
1. Qual é a tese central que faz este stack ser "o setup da década" em vez de "o setup do mês"?
Correto: b. "Eu não estou otimizando para o próximo lançamento, estou otimizando para a próxima década" (Ahmad). Os modelos passam — DS4 é a melhor peça que cabe hoje; amanhã troca. O que persiste é o raciocínio e o stack. Por isso trocar de modelo vira só re-baixar pesos.
2. Por que um ds4-legal rodando localmente é a ponte direta para a Previdência Factory do fundador?
Correto: c. "Faz sentido ter ds4-coding, ds4-legal, ds4-medical; você carrega o que precisa" (antirez, news/165). Junte com o homelab-como-nuvem: inferência jurídica frontier, offline, $0/token, privada. É a fundação de um produto real — não um brinquedo de dev.