Curso / Lição 02  ·  English →
Lição 02 · Capacidade

Matemática de memória

Toda a pergunta "esse modelo cabe na minha máquina?" se reduz a uma multiplicação que cabe na cabeça. Esta lição instala a fórmula de VRAM de Ahmad Osman, a escada de quantização que sai dela, e o reflexo de calcular antes de baixar 81 GB. No fim, você olha para "284B" e sabe — em segundos — que só ~2 bits cabem nos seus 128 GB.

P × bits/8
a fórmula inteira, em GB
568 GB
DeepSeek-V4-Flash 284B em FP16
81 GB
o mesmo modelo no GGUF q2 (em disco)
10–20%
folga obrigatória sobre a RAM

01 · A fórmula que cabe na cabeça

Não existe mistério no tamanho de um modelo. Cada parâmetro é um número, e quantos bytes ele ocupa depende apenas de quantos bits você usa para guardá-lo. Some todos os parâmetros e tem a memória dos pesos. Ahmad reduz isso a uma linha:

VRAM (em GB) ≈ Parâmetros (bilhões) × (bits efetivos ÷ 8).— Ahmad Osman, "GPU Memory Math (2026)"

O ÷ 8 converte bits em bytes; "bilhões de parâmetros" casa com "gigabytes" sem fatores extras. FP16 usa 16 bits → 16/8 = 2 bytes por parâmetro, então um modelo de N bilhões pesa 2N GB. É só isso. O diagrama trata a fórmula como uma esteira: parâmetros entram, a precisão multiplica, GB saem.

A fórmula como esteira — entra contagem, sai memória Parâmetros contados em bilhões (B) P × Precisão bits efetivos ÷ 8 = bytes por parâmetro = Memória gigabytes de pesos GB bytes/param: FP16 = 2,0 Q4_K ≈ 0,56 Q2_K ≈ 0,33 Exemplo trabalhado — DeepSeek-V4-Flash em FP16 284 bilhões de params × 16 ÷ 8 = 2,0 bytes/param (FP16) = ≈ 568 GB só os pesos Troque 2,0 por ~0,25 (≈ 2 bits) e o mesmo modelo vira ~71→81 GB.

A precisão é o único botão que muda o resultado. O número de parâmetros é fixo; baixar de FP16 para ~2 bits é o que tira 568 GB e devolve algo que cabe.

Por que ~71 e não exatamente 81? A fórmula dá o piso teórico (284 × 0,25 ≈ 71 GB para 2 bits puros). O GGUF real usa esquemas mistos por camada (k-quants) e metadados, então o q2 de verdade do DeepSeek-V4-Flash sai a 81 GB em disco. A fórmula é a estimativa de bolso; o arquivo é a verdade.

02 · A escada de quantização

Quantizar é guardar cada parâmetro com menos bits. Cada degrau abaixo de FP16 corta memória — e morde um pouco de qualidade. Esta é a escada em GB por bilhão de parâmetros; multiplique pelo tamanho do seu modelo para ter a estimativa. Repare que os k-quants (Q6_K…Q2_K) não são números redondos: incluem o overhead real do formato.

PrecisãoBits efetivosGB por 1B paramsCusto
FP16162,00referência (qualidade máxima)
FP8 / INT881,00perda quase imperceptível
Q6_K~6,6≈ 0,82diferença mínima vs FP16
Q5_K~5,5≈ 0,69muito boa
Q4_K~4,5≈ 0,56o "ponto-doce" usual
Q3_K~3,4≈ 0,43degradação perceptível
Q2_K~2,6≈ 0,33último recurso p/ caber

Agora a escada aplicada ao caso real desta máquina: o DeepSeek-V4-Flash de 284B. O gráfico abaixo é à escala dentro da janela de 0–128 GB; tudo que estoura é cortado na borda com uma seta e o valor verdadeiro. A linha vertical marca os 128 GB de memória unificada.

DeepSeek-V4-Flash 284B — pesos por precisão (escala 0–128 GB, 4,4 px/GB) 128 GB (RAM) 32 64 96 FP16 568 GB · 4,4× a RAM FP8 284 GB · 2,2× a RAM Q4_K 159 GB · estoura por 31 Q2 (fórmula) ≈ 94 GB ✓ cabe Q2 GGUF (real) 81 GB em disco ✓ cabe c/ folga Só o degrau de ~2 bits entra nos 128 GB. Todo o resto exige mais máquina.

As três barras vermelhas/laranja saem da janela: FP16, FP8 e até Q4 não cabem em 128 GB para um modelo de 284B. Só ~2 bits ficam à esquerda da linha — e o GGUF q2 real (81 GB) é ainda mais magro que a estimativa da fórmula (94 GB).

GGUF não é mágica… "cabe em 6 GB" não é verdade universal. É uma verdade específica do runtime.— Ahmad Osman, "LLMs 101 (2026)"

03 · O que cabe em 128 GB

Junte a fórmula com a sua RAM e nasce um mapa de decisão. As linhas são tamanhos de modelo; as colunas, precisões. Cada célula responde "esses pesos cabem nos 128 GB?" (deixando ~20% de folga, ou seja, alvo prático ≈ 102 GB). Verde cabe, vermelho não.

Cabe nos 128 GB? (✓ dentro da folga · ◑ aperta · ✗ estoura) FP16 (2,0) Q8 (1,0) Q4 (0,56) Q2 (0,33) modelo ↓ 7B ✓ 14 GBsobra muito ✓ 7 GB ✓ 4 GB ✓ 2 GB 30B ✓ 60 GB ✓ 30 GB ✓ 17 GB ✓ 10 GB 70B ✗ 140 GB ✓ 70 GB ✓ 39 GB ✓ 23 GB 284B(DS4-Flash) ✗ 568 GB ✗ 284 GB ✗ 159 GB ✓ 81 GBúnico que cabe 671B ✗ 1342 GB ✗ 671 GB ✗ 376 GB ◑ 221 GBprecisa de mais RAM

Leia na diagonal: quanto maior o modelo, mais à direita (mais agressiva a quantização) você precisa ir só para entrar na janela. Para 284B, a única coluna verde é Q2 — e mesmo assim por causa do GGUF real de 81 GB, abaixo da estimativa de 94.

A leitura prática

A grade não diz "rode sempre em Q2". Diz o que é fisicamente possível. A célula verde mais à esquerda de cada linha é a sua melhor opção de qualidade que ainda cabe — e a Lição 03 (banda de memória) vai explicar por que, mesmo cabendo, o tamanho ainda decide a velocidade.

04 · A regra da folga

"Cabe" não é o mesmo que "roda bem". O sistema operacional, os apps, o KV cache do contexto e a fragmentação de memória precisam de espaço. Encher a RAM até a borda é o caminho mais curto para um crash por out-of-memory no meio de uma geração.

Deixe 10 a 20 por cento de folga. Rodar a 99% da VRAM é implorar por out-of-memory e falhas de fragmentação.— Ahmad Osman, "GPU Memory Math (2026)"
Medidor de folga — 128 GB de memória unificada (6,25 px/GB) macOS ~18 pesos do cérebro linha segura 80% · 102 GB zona de perigo OOM + fragmentação 0 32 64 96 128 GB DeepSeek q2 · 81 GB dentro da zona segura ✓ ~21 GB p/ KV + sistema 99% = crash

Os 81 GB do cérebro pousam à esquerda da linha de 80%, deixando ~21 GB para o KV cache do contexto e o sistema. Encostar nos 128 (a região sombreada) é onde a fragmentação derruba a sessão.

05 · Precisão > tamanho: o trade-off que importa

O reflexo errado é "maior é sempre melhor". Não é. Esmagar um modelo grande em pouquíssimos bits pode destruir mais qualidade do que ganhar com a contagem de parâmetros. Um modelo menor em precisão decente frequentemente vence um maior espremido demais.

Um modelo menor em precisão mais alta pode bater um modelo maior esmagado em poucos bits — um 7B em Q6 pode vencer um 13B em Q2 em raciocínio.— Ahmad Osman, "GPU Memory Math (2026)"
Memória parecida, qualidade diferente — quem vence em raciocínio? 7B em Q6_K menor modelo · precisão alta (~6,6 bits) 7B params memória ≈ 5,7 GB raciocínio pesos quase intactos ★ vence em raciocínio menos params, porém preservados 13B em Q2_K modelo maior · esmagado (~2,6 bits) 13B params memória ≈ 4,3 GB raciocínio pesos degradados perde apesar de +6B params 2 bits jogam fora a vantagem vs eixo de memória (mesma escala) → 5,7 GB 4,3 GB ∆ < 1,5 GB — empate de memória

Os dois ocupam ~5 GB — empate de memória. Mas o 13B perdeu tanta precisão por parâmetro que o 7B bem preservado raciocina melhor. Tamanho compra capacidade só se os bits sobreviverem.

Aplicado ao DS4: é por isso que a escolha de q2 do DeepSeek-V4-Flash não é óbvia "porque é grande". 284B em q2 funciona porque o modelo é um MoE robusto e o q2-imatrix preserva o que importa — mas a mesma lógica diz que, se um modelo menor em Q4/Q6 resolve a sua tarefa, ele pode ganhar. Calcule os dois lados.

06 · A regra de segurança dos arquivos

Quantização vem com pegadinha de procedência. Formatos como GGUF e safetensors guardam apenas tensores — dados. O formato antigo .bin baseado em pickle do PyTorch pode embutir código que executa ao carregar. Baixar pesos é baixar dados; não deveria rodar nada.

Evite arquivos .bin aleatórios de fontes não confiáveis (pickle = execução de código). Prefira GGUF/safetensors.— Ahmad Osman, "GPU Memory Math (2026)"
Checklist de download

1) Prefira GGUF (runtimes tipo llama.cpp/MLX) ou safetensors — ambos são só tensores, sem execução. 2) Trate .bin/.pt/.pth de fonte desconhecida como suspeitos. 3) Confira o publicador e o hash quando houver. A fórmula te diz se cabe; a procedência te diz se é seguro carregar.

1. Aplicando a fórmula, quanto pesam os pesos de um modelo de 284B em FP16 — e por que só ~2 bits cabem em 128 GB?
Correto: c. FP16 = 2 bytes/param → 568 GB. A escada cai pela metade a cada salto grande (FP8 284, Q4 159), e apenas ~2 bits (94 GB estimado / 81 GB real em disco) entra nos 128 GB. Os ~71 GB da fórmula valem para 2 bits puros teóricos; o GGUF real é 81.
2. Você precisa de raciocínio e tem espaço para ~5 GB de pesos. O que a regra de Ahmad recomenda?
Correto: b. Memória parecida, qualidade diferente: 2 bits descartam informação demais por parâmetro. E nunca encoste em 99% da RAM — deixe 10–20% de folga para o KV cache e a fragmentação.