Lição 04 · Qualidade

Quantização & qualidade

A lição 02 mostrou que cada bit a menos por peso encolhe o modelo na memória. Mas encolher tem um preço: em algum ponto a inteligência começa a desmoronar — e ela não desmorona por igual. Esta lição mostra a escada de qualidade bit a bit, o que quebra primeiro quando você aperta demais, e a receita assimétrica que deixa um modelo enorme caber em 2 bits sem perder a capacidade de usar ferramentas.

o ponto-doce do consumidor (qualidade × tamanho)

quase sem perda (near-lossless)

2 bits

só os experts roteados do MoE (a maioria do modelo)

o que fica intocado: shared experts, projeções, roteamento

01 · A escada de qualidade

Quantizar é trocar precisão numérica por espaço. No topo, FP16/BF16 é a linha de base — a qualidade plena com que o modelo foi treinado. Cada degrau abaixo corta bits e, com eles, um pouco de fidelidade. O segredo é que a perda não é linear: os primeiros degraus quase não custam nada; os últimos custam a inteligência inteira. O diagrama abaixo desenha a curva real e marca o penhasco.

De FP16 a Q4 a curva quase não cai — a qualidade é "barata" de manter. Abaixo de Q4 ela despenca: cada bit a menos custa cada vez mais inteligência. É por isso que Q3/Q2 são último recurso, não escolha padrão.

Um modelo menor numa precisão maior pode vencer um modelo maior esmagado em poucos bits demais.— Ahmad Osman, "LLMs 101 (2026)"

02 · A escada nomeada, degrau a degrau

Cada nível tem um caráter próprio. Esta é a leitura prática — combinada com o custo em GB por bilhão de parâmetros que derivamos na lição 02.

Nível	Caráter	~GB / 1B	Quando escolher
FP16 / BF16	linha de base · qualidade plena	~2,0	Referência / treino. Raramente para inferência local.
Q8 / INT8	quase sem perda	~1,0	Quando cabe e você quer o teto de qualidade local.
Q6 / Q5	excelente · forte meio-termo	~0,7	Equilíbrio quando Q8 não cabe mas você não quer arriscar.
Q4 ★	ponto-doce do consumidor	~0,5	Default geral. Melhor qualidade × tamanho na prática.
Q3 / Q2	último recurso	~0,3	Só para encaixar um modelo maior que de outra forma não caberia.

A regra-mãe: a escolha entre "modelo maior em poucos bits" e "modelo menor em mais bits" não é óbvia — e o default vence a intuição. Em geral, mais bits num modelo menor ganha de poucos bits num modelo grande. A exceção (seção 05) exige uma receita especial.

03 · O que quebra primeiro

Quando você aperta a quantização, a degradação não aparece em tudo de uma vez. Ela ataca por ordem — as capacidades mais frágeis caem antes. Saber essa ordem é o sinal de alarme: se o seu modelo começa a errar contas e a desobedecer ao esquema JSON, você apertou bits demais.

A ordem é o seu painel de diagnóstico. Conversa fluida e prosa genérica resistem muito — por isso "parece bom" engana. A falha real aparece em math, raciocínio, código, schema e tool-use, exatamente o que um agente precisa.

Q3/Q2: matemática, código, saída estruturada e uso de ferramentas degradam PRIMEIRO.— Ahmad Osman, "LLMs 101 (2026)"

04 · O KV cache é uma quantização à parte

Atenção a uma armadilha: quantizar os pesos e quantizar o KV cache são dois botões diferentes. O KV cache (lição 03) tem a sua própria escada — e ela é muito mais curta. Mexer aqui sem saber é onde o contexto longo "apodrece" silenciosamente.

Não confunda os botões: você pode rodar pesos em Q4 e KV cache em FP16 — são independentes. Para o KV, FP16 é o padrão seguro e FP8/INT8 é o piso prático. Abaixo de 8 bits é pesquisa pesada (KIVI, KVQuant), não um toggle para ligar sem teste.

05 · A receita assimétrica — a resolução

Até aqui a conclusão parece desanimadora: Q2 quebra tool-use, logo modelos grandes em 2 bits estão fora. Mas há uma saída elegante, e ela é o coração desta lição. Em vez de esmagar tudo a 2 bits, você esmaga só a parte que aguenta — e deixa intactas as partes sensíveis. O diagrama abaixo é à escala: a área de cada bloco é proporcional à fatia do modelo.

O truque: os experts roteados são a maioria dos bytes, então comprimi-los rende quase toda a economia de memória. As partes que orquestram (shared, projeções, roteamento) são pequenas — mantê-las em Q8 custa pouco espaço e salva a inteligência.

Ingênuo vs. assimétrico, lado a lado

A diferença entre um Q2 que falha e um Q2 que funciona é onde os 2 bits caem. À esquerda, o jeito ingênuo (tudo a 2 bits) — exatamente o cenário em que o Ahmad está certo. À direita, o jeito assimétrico — onde a receita do antirez vence.

Os dois ocupam quase o mesmo espaço — porque os experts roteados (a maioria dos bytes) estão a 2 bits nos dois. A diferença é cirúrgica: o assimétrico paga uns poucos GB a mais para deixar as partes que decidem em Q8, e é isso que salva o tool-use.

antirez · "não são piada" — a receita do DeepSeek-V4-Flash

Os quants de 2 bits não são piada: eles se comportam bem, funcionam sob agentes de coding, chamam ferramentas de forma confiável. Só os experts roteados do MoE são quantizados — up/gate em IQ2_XXS, down em Q2_K — eles são a MAIORIA do espaço do modelo; shared experts, projeções e roteamento ficam INTOCADOS (Q8) para garantir a qualidade.— antirez, README do DeepSeek-V4-Flash (DS4)

E há um segundo ingrediente: o próprio modelo. O DeepSeek-V4-Flash "resiste muito bem à quantização de 2 bits". Receita assimétrica + modelo Q2-resistente = o raro caso em que 2 bits servem para produção.

06 · A síntese — quem está certo?

Os dois. Não é contradição, é contexto. O Ahmad fala do caso geral; o antirez, de um caso construído de propósito para escapar dele.

A leitura unificada: a heurística do Ahmad ("desconfie de poucos bits") continua sendo o seu default — vale para quase todo modelo e todo quant ingênuo. O caso do antirez é a exceção engenheirada: quantização assimétrica aplicada a um modelo que resiste a 2 bits. Quando os dois se combinam, 2 bits viram produção. Fora disso, suba a precisão.

o plano B concreto

Se na prática o q2 decepcionar em matemática ou código difícil, o degrau seguinte é o q2-q4-imatrix (98 GB) — as últimas camadas sobem para q4 e recuperam o gume nos casos duros. É a aplicação direta da escada: subiu um degrau de precisão onde dói. (O custo de memória dessa escolha é o tema da lição 08.)

1. Conforme você aperta a quantização, qual capacidade tende a degradar PRIMEIRO?

Correto: b. Prosa fluida resiste muito (por isso "parece bom" engana); a falha real aparece primeiro em math, raciocínio, código, schema e tool-use. Velocidade e footprint são governados pelo tamanho/banda, não pela degradação de qualidade.

2. Por que a receita assimétrica do antirez deixa um Q2 chamar ferramentas de forma confiável?

Correto: c. Comprimir os experts (imensos e redundantes) rende quase toda a economia; manter as partes pequenas que orquestram em Q8 custa pouco espaço e salva a inteligência. Some a isso um modelo que "resiste muito bem a 2 bits" e o resultado funciona sob agentes de coding. O KV cache é um botão separado (seção 04).

← Lição 03 Lição 05 →