GLM 4.7 Flash (Zhipu AI)

31B MoE (3B Active) Asus GX1 Ascent (Q4) MIT License Q1 2026

Najlepszy model klasy "local-friendly" 2026 roku. Uruchomiony lokalnie na sprzęcie Asus GX1 Ascent w kwantyzacji Q4. Model, który nie tylko generuje tekst — ale myśli, zanim odpowie.

Architektura MoE z Multi-Head Latent Attention

GLM-4.7-Flash to model typu MoE (Mixture-of-Experts) o łącznej liczbie 31,2 miliarda parametrów, z czego zaledwie 3 miliardy są aktywne podczas inferencji. Kluczową innowacją jest zastosowanie Multi-Head Latent Attention (MLA) — tej samej technologii uwagowej, którą stosuje DeepSeek. MLA kompresuje cache KV do ułamka standardowego rozmiaru, dzięki czemu pełne 128K kontekstu mieści się na pojedynczym GPU z 32 GB VRAM.

Preserved Thinking — rozumowanie między turami

W odróżnieniu od modeli, które wykonują Chain-of-Thought jednorazowo na początku, GLM-4.7 Flash stosuje Interleaved Thinking — przeplatane rozumowanie na każdym etapie odpowiedzi. Dodatkowo tryb Preserved Thinking zachowuje kontekst rozumowania między kolejnymi turami konwersacji. To krytyczne w zadaniach agentowych: model nie „zapomina" logiki z poprzedniego kroku, nawet po 20 turach dialogu.

Specjalistyczny Test Prawniczy

Model został poddany rygorystycznemu testowi, analizując 70-stronicową Ustawę o rynku kryptoaktywów z dn. 7 listopada 2025 r. (168 artykułów).

WYNIK TESTU: GLM-4.7 Flash bezbłędnie zinterpretował zawiłości prawne, cytował konkretne artykuły i nie uległ halucynacjom, pokonując w benchmarkach SWE-bench Verified modele takie jak Qwen3-30B czy GPT-OSS-20B.

Coding i zadania agentowe

GLM-4.7 Flash osiąga 59.2% na SWE-bench Verified — wynik, który deklasuje konkurencję w klasie modeli poniżej 30B aktywnych parametrów. Na τ²-Bench (wieloturowe zadania agentowe w retail i telekomunikacji) uzyskuje 79.5%, a na BrowseComp (autonomiczna nawigacja webowa) — 42.8%. To model stworzony do pracy jako lokalny agent kodujący: pisze kod, debuguje, iteruje i używa narzędzi.

Wdrożenie na DGX Spark / ASUS GX10

Dzięki architekturze MoE i MLA, model jest wyjątkowo lekki w inferencji. W kwantyzacji Q4 zajmuje ~18 GB pamięci — na naszych stacjach ze 128 GB zunifikowanego RAM-u działa z ogromnym zapasem. Kompatybilny z vLLM (z patchem MLA), SGLang, LM Studio i llama.cpp. API zgodne z formatem OpenAI — drop-in replacement dla GPT-4o-mini.

Licencja MIT — bez ograniczeń

GLM-4.7 Flash jest wydany na licencji MIT — najswobodniejszej licencji open-source. Pełna dowolność komercyjna, możliwość modyfikacji, fine-tuningu i redystrybucji. Zhipu AI udostępnia też darmowy tier API (1 concurrent request) i płatny FlashX (3 concurrent).

Porównanie wydajności GLM 4.7 Flash z Qwen3 i GPT-OSS — Benchmark: GLM-4.7-Flash (59.2% SWE-bench) deklasuje konkurencję w klasie <30B. Kliknij aby powiększyć.

Wyniki benchmarków

AIME 25 91.6

τ²-Bench 79.5

GPQA Diamond 75.2

SWE-bench Verified 59.2

BrowseComp 42.8

HLE (tools) 14.4

Specyfikacja Techniczna

Architektura: MoE (3B Active)
Parametry łączne: 31.2B
Attention: MLA (Multi-Head Latent)
Context Window: 128K tokenów
Max Output: 128K tokenów
Thinking: Preserved / Interleaved
Platforma Testowa: Asus GX1 Ascent
Kwantyzacja: Q4_K_M (~18 GB)
Frameworki: vLLM, SGLang, llama.cpp
Licencja: MIT (pełna swoboda)

Idealny do:

Analizy aktów prawnych, regulaminów, umów
Lokalnych agentów kodujących (IDE, Cline, Roo Code)
Wieloturowych chatbotów z zachowaniem kontekstu rozumowania
Drop-in replacement dla GPT-4o-mini (API zgodne z OpenAI)

Wdróż ten model w swojej firmie