Alembic · visual-teach · referência viva

Galeria de blocos & demos

Todo bloco que o curso sabe construir, ao vivo e interativo, em um só lugar. É a prova de que o vocabulário visual está mapeado e funcionando — fluxogramas, comparativos, calculadoras, flashcards, previsão, exemplo resolvido, revisão cumulativa, contadores, gráficos e animação — todos no design canônico Warm-Neutral, claro e escuro. Use como referência ao montar uma lição.

Objetivos — o que esta galeria prova

Que cada tipo de diagrama/fluxograma/SVG tem um padrão pronto, animado e seguro nos dois temas.
Que a interatividade (sliders, abas, flashcards, previsão, quiz) já está fiada no course.js compartilhado.
Que a pedagogia (objetivos, exemplo-antes-da-abstração, recuperação, revisão espaçada, feedback específico) é estrutural, não enfeite.
Que tudo é self-contained: abre do file://, sem build, sem rede.

Mapeia: lesson-generator (objectives) + a barra de progresso no topo que marca ◇→◆ conforme você rola.

Fluxograma

Mapeia demo: 13 · flowchart-diagram · 16 · implementation-plan. Caixas + losango de decisão + setas; caminho tracejado animado (.flow) e traço que se desenha no reveal (.draw).

Qual quantização escolher para a SUA RAM? (decisão)

Leia de cima → baixo: a RAM livre decide a quantização. O caminho verde lembra: sempre reserve folga para o KV cache e o sistema.

Diagrama comparativo

Mapeia demo: 14/15 · research-explainer. Dois lados, mesma escala, a diferença salta aos olhos (memória unificada × GPU discreta).

Memória unificada (Apple Silicon) × VRAM discreta (PC)

Mesma escala: no Apple Silicon os 128 GB são um pool único (CPU+GPU sem cópia); no PC, o modelo precisa caber nos 24 GB da GPU ou sofre cópia pelo PCIe.

Calculadora de VRAM

Mapeia demo: 20 · prompt-tuner / 06 · component-variants — um controle muda uma variável e o SVG + o número recalculam ao vivo.

Parâmetros 70 B Precisão 4-bit

VRAM ≈ parâmetros × bits ÷ 8 — contra o orçamento de 128 GB

Arraste os controles: a barra fica âmbar perto do teto e vermelha quando estoura os 128 GB. É a conta da Lição 02, ao vivo.

Medidor de tok/s

Mapeia demo: 07 · prototype-animation — um ponteiro analógico que recalcula a velocidade de decode pela banda de memória.

Banda de memória 546 GB/s Tamanho do modelo 40 GB

tok/s de decode ≈ banda ÷ tamanho do modelo (teto teórico)

O decode é limitado por banda: cada token relê todos os pesos. Modelo menor ou banda maior → o ponteiro sobe. É a Lição 03, ao vivo.

Abas Simples / Técnico

Mapeia demo: 04 · code-understanding + a pedagogia "explique simples, depois preciso". O mesmo conceito em duas profundidades.

Quantizar é guardar cada peso com menos casas. Em vez de 16 bits por número, você usa 4 — o arquivo encolhe 4×, e o modelo quase não perde qualidade se você fizer com cuidado.

Q4_K_M usa blocos com escala/min em FP16 e índices de 4 bits, com camadas sensíveis (attention, primeiras/últimas) preservadas em precisão maior — a "receita assimétrica". Erro de quantização ∝ passo do bloco; perplexidade sobe pouco até ~4 bits e desaba abaixo de ~3.

Flashcards

Mapeia demo: 06 · component-variants + a recuperação ativa do learn. Clique (ou Enter/Espaço) para virar; tente lembrar antes.

Fórmula

Como estimar a RAM dos pesos?

clique pra virar ↻

Resposta

VRAM (GB) ≈ params (B) × bits ÷ 8. Ex.: 70 × 4 ÷ 8 = 35 GB.

Gargalo

Decode segue o quê?

clique pra virar ↻

Resposta

A banda de memória — cada token relê todos os pesos. Prefill segue o compute.

Ponto-doce

Qual quant equilibra tudo?

clique pra virar ↻

Resposta

Q4_K_M: ~4× menor que FP16 com perda de qualidade quase imperceptível.

Folga

Por que não encher os 128 GB?

clique pra virar ↻

Resposta

O KV cache cresce com o contexto e o SO precisa de RAM. Reserve ~10–20%.

Previsão

Mapeia: a previsão-antes-da-revelação do learn. Comprometa um palpite e a resposta aparece.

Preveja antes de revelar

Um modelo de 70 B em Q4_K_M ocupa ~35 GB de pesos. Quanto de KV cache ele pede a 32k tokens de contexto — mais perto de 2 GB, 8 GB ou 20 GB?

Da ordem de ~8 GB (varia com camadas/cabeças e a quantização do próprio cache). Por isso 35 GB de pesos não significam 35 GB de RAM: some o KV cache e o SO. É a Lição 06.

Exemplo resolvido

Mapeia demo: 16 · implementation-plan + o worked-example→try-it do learn. Passos numerados, depois você repete.

Cabe um 70 B em Q4 no meu M5 Max 128 GB?

Pesos: 70 × 4 ÷ 8 = 35 GB.

KV cache a 32k ctx: ~8 GB.

Sistema + apps: reserve ~16 GB.

Total ≈ 35 + 8 + 16 = 59 GB < 128 GB → cabe com folga, dá até para subir o contexto.

Agora você: refaça para um 120 B em Q4 (passo 1 = 60 GB). Ainda cabe? E em Q8?

Quiz com feedback

Mapeia demo: 15 · concept-explainer. Opções do mesmo tamanho (sem pista pela forma) e feedback específico: por que a certa é certa e por que cada errada falha.

O que limita a velocidade de decode (gerar 1 token por vez) num LLM local?

Banda. No decode, gerar cada token exige reler todos os pesos da memória → a banda (GB/s) é o teto. CPU erra: o trabalho roda na GPU/ANE e é memory-bound, não compute-bound. SSD erra: ele importa no carregamento inicial, não a cada token (salvo streaming do disco). É a Lição 03.

Revisão cumulativa

Mapeia: a revisão espaçada do lesson-generator. Um placar corre por todas as perguntas do bloco.

Recupere de memória

VRAM dos pesos de um 70 B em Q8?

~70 GB. Q8 = 8 bits/peso → 70 × 8 ÷ 8 = 70 GB. 35 GB seria Q4; 17 GB seria ~Q2. Lição 02.

Por que evitar encher os 128 GB só com pesos?

KV cache + SO. O cache cresce com o contexto e o sistema precisa de espaço. Metal e banda são afirmações inventadas. Lição 06.

Contadores

Mapeia demo: 11 · status-report. Números que sobem (count-up) ao entrarem na tela.

0 GB

memória unificada

0 GB/s

banda de memória

0 tok/s

cérebro DeepSeek q2

por token (offline)

Gráfico de barras

Mapeia demo: 11 · status-report / 15. Barras que crescem no reveal (.gbar, origem à esquerda).

VRAM dos pesos de um 70 B por quantização (GB)

FP16 estoura os 128 GB; Q8 mal cabe; Q4 cabe com folga — a razão de quase todo mundo rodar Q4. Lição 04.

SVG animado

Mapeia demo: 07/08 · prototype-animation/interaction · 10 · svg-illustrations. Quatro animações: fluxo (.flow), pulso (.lit), flutuar (.float) e desenhar (.draw).

O loop de inferência — tokens fluindo pela pilha

As setas tracejadas correm (fluxo), o passo de decode pulsa (é o gargalo), a saída flutua e a última linha se desenha ao aparecer.

Cartões de fonte

Mapeia demo: 14 · feature-explainer. Fontes primárias como links reais clicáveis — nunca escondidas em JS.

antirez — DS4 / DeepSeek-V4

antirez.com/news/165

antirez/ds4 — engine em C

github.com/antirez/ds4

Thariq — HTML effectiveness

thariqs.github.io

Blocos de prosa

Mapeia demo: 12 · incident-report / 17 · pr-writeup. Os blocos que carregam a explicação: callout, spotlight, recall, citação e tabela comparativa.

Callout. O destaque calmo para uma ideia de apoio — borda oliva, fundo suave. Use para "lembre-se que…".

Spotlight

O destaque forte — borda âmbar — para a ideia central da seção. Aqui mora a frase que o leitor precisa levar embora.

"Decode is memory-bound: every token rereads the whole model."— síntese do playbook do @TheAhmadOsman

Recall: a banda de memória é o teto do decode — guarde isso, volta em quase toda lição.

Quantização	Bits/peso	70 B (GB)	Qualidade
FP16	16	140	referência
Q8	8	70	quase idêntica
Q4_K_M	~4.5	~35	ponto-doce
Q2_K	~2.6	~18	degrada (salvo receita assimétrica)

Esta galeria é a referência viva do vocabulário visual-teach. Toda lição do curso é montada com estes blocos — e toda nova lição deve usá-los, nunca reinventar.

← Voltar ao curso Começar pela Lição 01 →