Start / Modele / Qwen 3.6
18.05.2026

Qwen 3.6

Dwa warianty od Alibaba, jedna rodzina. 27B Dense — flagowy coding, który pokonuje modele 15× większe. 35B-A3B MoE — 3-5× szybsza inferencja przy niewiele niższej jakości. Oba z 256K kontekstem, multimodalnością i licencją Apache 2.0.

27B Dense

Wszystkie parametry aktywne

Flagowy model kodujący Alibaba. Wszystkie 27 miliardów parametrów pracuje przy każdym tokenie — żadnego routingu, żadnych śpiących ekspertów. Wynik? 77.2% na SWE-bench Verified, 59.3 na Terminal-Bench (na równi z Claude 4.5 Opus) i pokonanie poprzedniego flagowca Qwen3.5-397B-A17B na każdym benchmarku kodowania. Model 27B, który bije model 397B — to nie literówka.

Parametry27B (all active)
RAM (Q4)~17 GB
PrędkośćBazowa
Najlepsza doCoding / Agenci

35B-A3B MoE

Tylko 3B aktywnych / token

Wariant Mixture-of-Experts: 35 miliardów parametrów łącznie, ale tylko 3 miliardy aktywne przy każdym tokenie. Efekt? 3-5× szybsza inferencja niż 27B Dense na tym samym sprzęcie. Społeczność raportuje ~120 tok/s na RTX 4090, ~101 tok/s na RTX 3090 w Q4. Idealny do RAG, długich kontekstów i szybkich interakcji.

Parametry35B total / 3B active
RAM (Q4)~21 GB
Prędkość3-5× szybszy
Najlepszy doRAG / Szybkość

Porównanie benchmarków — 27B Dense vs 35B-A3B MoE

Benchmark
27B Dense
35B-A3B MoE
SWE-bench Verified
77.2%
73.4%
SWE-bench Pro
53.5%
49.5%
Terminal-Bench 2.0
59.3
51.5
SkillsBench (agent)
48.2
28.7
SWE-bench Multilingual
71.3%
69.3%
GPQA Diamond
87.8
84.3
AIME 2026
94.1
91.7
Prędkość inferencji
bazowa
3-5× szybszy
VRAM (Q4_K_M)
~17 GB
~21 GB
Źródło: qwen.ai/blog, HuggingFace model cards. Thinking mode, oficjalne wyniki Qwen Team.
Qwen 3.6 - benchmarki coding: Terminal-Bench, SWE-bench, SkillsBench, GPQA, MMMU
Qwen 3.6 — 12 benchmarków, Dense vs MoE. Kliknij aby powiększyć.

Wspólne cechy obu wariantów

AttentionGated DeltaNet + Global
Kontekst256K (ext. 1M)
ModalnośćTekst + Obraz + Wideo
ThinkingPreserved / Turn-level
Tool UseNatywny (MCP, function)
FrameworkiOllama, vLLM, SGLang
LicencjaApache 2.0

27B pokonuje 397B

To najbardziej zaskakujący wynik w otwartych modelach 2026 roku. Qwen3.6-27B Dense — model z zaledwie 27 miliardami parametrów — pokonuje na każdym benchmarku kodowania poprzedniego flagowca Qwen3.5-397B-A17B, który ma 397 miliardów parametrów łącznie (17B aktywnych). SWE-bench Verified: 77.2 vs 76.2. Terminal-Bench: 59.3 vs 52.5. SkillsBench: 48.2 vs 30.0. Model 15× mniejszy, a wyniki lepsze. Architektura dense (bez routingu MoE) oznacza też prostsze wdrożenie i bardziej przewidywalne zachowanie.

35B-A3B — prędkość jest cechą

Wariant MoE aktywuje tylko 3B z 35B parametrów — ale to wystarcza, by generować tokeny 3-5× szybciej niż model dense na identycznym sprzęcie. Na RTX 4090 w Q4 to ~120 tok/s — tekst pojawia się natychmiast. Idealny do interaktywnych asystentów, gdzie użytkownik czeka na odpowiedź. Jakość jest niższa niż 27B na najtrudniejszych zadaniach kodowania, ale na codziennych zadaniach — RAG, refactoring, generowanie kodu, konwersacja — różnica jest minimalna.

Gated DeltaNet — hybrydowa uwaga

Oba warianty stosują hybrydową architekturę uwagową: 3 warstwy Gated DeltaNet (liniowa uwaga) na każdą 1 warstwę klasycznego global attention. DeltaNet nie doświadcza spadku wydajności powyżej 64K tokenów — dlatego oba modele natywnie obsługują 256K kontekst (z rozszerzeniem do 1M) bez trików z RoPE scaling. Tryb Preserved Thinking zachowuje łańcuch rozumowania między turami konwersacji.

Wdrożenie na DGX Spark / ASUS GX10

Na naszych stacjach ze 128 GB zunifikowanej pamięci oba warianty mieszczą się z ogromnym zapasem. 27B Dense zajmuje ~17 GB w Q4, 35B-A3B ~21 GB. Możliwe jest uruchomienie obu wariantów jednocześnie i przełączanie się między nimi zależnie od zadania — 27B do trudnych problemów kodowania, 35B-A3B do szybkich interakcji z użytkownikami. API zgodne z OpenAI — drop-in replacement.

Który wariant wybrać?

Wybierz 27B Dense gdy:

  • • Priorytetem jest jakość kodu
  • • Budujesz agenta kodującego
  • • Rozwiązujesz złożone problemy logiczne
  • • Potrzebujesz multilingualnego kodowania

Wybierz 35B-A3B gdy:

  • • Priorytetem jest szybkość odpowiedzi
  • • Obsługujesz wielu użytkowników
  • • Pracujesz z RAG i długimi kontekstami
  • • Chcesz niższe koszty obliczeniowe

Oba warianty Qwen 3.6 dostępne do wdrożenia

Pomożemy dobrać wariant do Twoich potrzeb, skonfigurować środowisko i zintegrować z istniejącą infrastrukturą. Oba modele działają na DGX Spark i ASUS GX10.

Skontaktuj się z nami