A lição 02 mostrou que cada bit a menos por peso encolhe o modelo na memória. Mas encolher tem um preço: em algum ponto a inteligência começa a desmoronar — e ela não desmorona por igual. Esta lição mostra a escada de qualidade bit a bit, o que quebra primeiro quando você aperta demais, e a receita assimétrica que deixa um modelo enorme caber em 2 bits sem perder a capacidade de usar ferramentas.
Q4
o ponto-doce do consumidor (qualidade × tamanho)
Q8
quase sem perda (near-lossless)
2 bits
só os experts roteados do MoE (a maioria do modelo)
Q8
o que fica intocado: shared experts, projeções, roteamento
01 · A escada de qualidade
Quantizar é trocar precisão numérica por espaço. No topo, FP16/BF16 é a linha de base — a qualidade plena com que o modelo foi treinado. Cada degrau abaixo corta bits e, com eles, um pouco de fidelidade. O segredo é que a perda não é linear: os primeiros degraus quase não custam nada; os últimos custam a inteligência inteira. O diagrama abaixo desenha a curva real e marca o penhasco.
De FP16 a Q4 a curva quase não cai — a qualidade é "barata" de manter. Abaixo de Q4 ela despenca: cada bit a menos custa cada vez mais inteligência. É por isso que Q3/Q2 são último recurso, não escolha padrão.
Um modelo menor numa precisão maior pode vencer um modelo maior esmagado em poucos bits demais.— Ahmad Osman, "LLMs 101 (2026)"
02 · A escada nomeada, degrau a degrau
Cada nível tem um caráter próprio. Esta é a leitura prática — combinada com o custo em GB por bilhão de parâmetros que derivamos na lição 02.
Nível
Caráter
~GB / 1B
Quando escolher
FP16 / BF16
linha de base · qualidade plena
~2,0
Referência / treino. Raramente para inferência local.
Q8 / INT8
quase sem perda
~1,0
Quando cabe e você quer o teto de qualidade local.
Q6 / Q5
excelente · forte meio-termo
~0,7
Equilíbrio quando Q8 não cabe mas você não quer arriscar.
Q4 ★
ponto-doce do consumidor
~0,5
Default geral. Melhor qualidade × tamanho na prática.
Q3 / Q2
último recurso
~0,3
Só para encaixar um modelo maior que de outra forma não caberia.
A regra-mãe: a escolha entre "modelo maior em poucos bits" e "modelo menor em mais bits" não é óbvia — e o default vence a intuição. Em geral, mais bits num modelo menor ganha de poucos bits num modelo grande. A exceção (seção 05) exige uma receita especial.
03 · O que quebra primeiro
Quando você aperta a quantização, a degradação não aparece em tudo de uma vez. Ela ataca por ordem — as capacidades mais frágeis caem antes. Saber essa ordem é o sinal de alarme: se o seu modelo começa a errar contas e a desobedecer ao esquema JSON, você apertou bits demais.
A ordem é o seu painel de diagnóstico. Conversa fluida e prosa genérica resistem muito — por isso "parece bom" engana. A falha real aparece em math, raciocínio, código, schema e tool-use, exatamente o que um agente precisa.
Q3/Q2: matemática, código, saída estruturada e uso de ferramentas degradam PRIMEIRO.— Ahmad Osman, "LLMs 101 (2026)"
04 · O KV cache é uma quantização à parte
Atenção a uma armadilha: quantizar os pesos e quantizar o KV cache são dois botões diferentes. O KV cache (lição 03) tem a sua própria escada — e ela é muito mais curta. Mexer aqui sem saber é onde o contexto longo "apodrece" silenciosamente.
Não confunda os botões: você pode rodar pesos em Q4 e KV cache em FP16 — são independentes. Para o KV, FP16 é o padrão seguro e FP8/INT8 é o piso prático. Abaixo de 8 bits é pesquisa pesada (KIVI, KVQuant), não um toggle para ligar sem teste.
05 · A receita assimétrica — a resolução
Até aqui a conclusão parece desanimadora: Q2 quebra tool-use, logo modelos grandes em 2 bits estão fora. Mas há uma saída elegante, e ela é o coração desta lição. Em vez de esmagar tudo a 2 bits, você esmaga só a parte que aguenta — e deixa intactas as partes sensíveis. O diagrama abaixo é à escala: a área de cada bloco é proporcional à fatia do modelo.
O truque: os experts roteados são a maioria dos bytes, então comprimi-los rende quase toda a economia de memória. As partes que orquestram (shared, projeções, roteamento) são pequenas — mantê-las em Q8 custa pouco espaço e salva a inteligência.
Ingênuo vs. assimétrico, lado a lado
A diferença entre um Q2 que falha e um Q2 que funciona é onde os 2 bits caem. À esquerda, o jeito ingênuo (tudo a 2 bits) — exatamente o cenário em que o Ahmad está certo. À direita, o jeito assimétrico — onde a receita do antirez vence.
Os dois ocupam quase o mesmo espaço — porque os experts roteados (a maioria dos bytes) estão a 2 bits nos dois. A diferença é cirúrgica: o assimétrico paga uns poucos GB a mais para deixar as partes que decidem em Q8, e é isso que salva o tool-use.
antirez · "não são piada" — a receita do DeepSeek-V4-Flash
Os quants de 2 bits não são piada: eles se comportam bem, funcionam sob agentes de coding, chamam ferramentas de forma confiável. Só os experts roteados do MoE são quantizados — up/gate em IQ2_XXS, down em Q2_K — eles são a MAIORIA do espaço do modelo; shared experts, projeções e roteamento ficam INTOCADOS (Q8) para garantir a qualidade.— antirez, README do DeepSeek-V4-Flash (DS4)
E há um segundo ingrediente: o próprio modelo. O DeepSeek-V4-Flash "resiste muito bem à quantização de 2 bits". Receita assimétrica + modelo Q2-resistente = o raro caso em que 2 bits servem para produção.
06 · A síntese — quem está certo?
Os dois. Não é contradição, é contexto. O Ahmad fala do caso geral; o antirez, de um caso construído de propósito para escapar dele.
A leitura unificada: a heurística do Ahmad ("desconfie de poucos bits") continua sendo o seu default — vale para quase todo modelo e todo quant ingênuo. O caso do antirez é a exceção engenheirada: quantização assimétrica aplicada a um modelo que resiste a 2 bits. Quando os dois se combinam, 2 bits viram produção. Fora disso, suba a precisão.
o plano B concreto
Se na prática o q2 decepcionar em matemática ou código difícil, o degrau seguinte é o q2-q4-imatrix (98 GB) — as últimas camadas sobem para q4 e recuperam o gume nos casos duros. É a aplicação direta da escada: subiu um degrau de precisão onde dói. (O custo de memória dessa escolha é o tema da lição 08.)
1. Conforme você aperta a quantização, qual capacidade tende a degradar PRIMEIRO?
Correto: b. Prosa fluida resiste muito (por isso "parece bom" engana); a falha real aparece primeiro em math, raciocínio, código, schema e tool-use. Velocidade e footprint são governados pelo tamanho/banda, não pela degradação de qualidade.
2. Por que a receita assimétrica do antirez deixa um Q2 chamar ferramentas de forma confiável?
Correto: c. Comprimir os experts (imensos e redundantes) rende quase toda a economia; manter as partes pequenas que orquestram em Q8 custa pouco espaço e salva a inteligência. Some a isso um modelo que "resiste muito bem a 2 bits" e o resultado funciona sob agentes de coding. O KV cache é um botão separado (seção 04).