Start / Modele / Llama 4 Scout

Llama 4 Scout

META AI MoE · 16 Experts Q4 2025 109B total / 17B aktywnych
Parametry
109B
Aktywne / token
17B
Kontekst
10M
Eksperci MoE
16
Modalność
Tekst + Obraz

Pierwszy multimodalny model open-weight od Meta z architekturą Mixture-of-Experts. Scout został zaprojektowany jako kompaktowy, ale potężny agent — mieści się na pojedynczym GPU H100 przy kwantyzacji Int4.

Architektura MoE

Llama 4 Scout wykorzystuje architekturę Mixture-of-Experts z 16 ekspertami. Z 109 miliardów parametrów łącznych, w każdym kroku inferencji aktywnych jest tylko 17 miliardów — to sprawia, że model jest wyjątkowo wydajny obliczeniowo przy zachowaniu inteligencji znacznie większych modeli. Wytrenowany na ~40 bilionach tokenów danych multimodalnych.

10 milionów tokenów kontekstu

Najdłuższe okno kontekstowe wśród wszystkich dostępnych modeli open-weight. Scout przetrenowany jest z kontekstem 256K, a dzięki zaawansowanej generalizacji długości obsługuje do 10 milionów tokenów. To otwiera zupełnie nowe możliwości: podsumowania wielodokumentowe, analiza całych baz kodu, przetwarzanie obszernej historii aktywności użytkownika.

Natywna multimodalność

W odróżnieniu od poprzednich wersji Llama, Scout przetwarza tekst i obrazy natywnie (early fusion) — nie jest to dobudowany moduł wizyjny, lecz integralna część architektury modelu. Rozumie wykresy, dokumenty, tabele, faktury i screenshoty interfejsów. Osiąga 94.4% na DocVQA i 90.0% na ChartQA.

Wdrożenie na DGX Spark / ASUS GX10

Dzięki kwantyzacji Int4 (GGUF), model mieści się w 128 GB zunifikowanej pamięci naszych stacji roboczych. Aktywacja zaledwie 17B parametrów na token oznacza szybką inferencję nawet przy długich kontekstach. Function calling i tool-use działają out-of-the-box z kompatybilnymi frameworkami (vLLM, Ollama, llama.cpp).

Agenci i Function Calling

Scout został wytrenowany specjalnie pod kątem agentów autonomicznych. Posiada wbudowany mechanizm Chain-of-Thought, potrafi samodzielnie zdecydować, kiedy użyć kalkulatora, przeszukać bazę danych, czy wywołać zewnętrzne API. To nie jest „chatbot z pluginami" — to model, który rozumie jak planować i wykonywać wieloetapowe zadania.

Llama 4 Scout - benchmarki wydajności: MMLU Pro 80.5, DocVQA 94.4, ChartQA 90.0, GPQA Diamond 69.8
Benchmarki Llama 4 Scout. Kliknij aby powiększyć. Źródło: llama.com

Kluczowe benchmarki

DocVQA
94.4
ChartQA
90.0
Multilingual MMLU
84.6
MMLU Pro
80.5
MathVista
73.7
MMMU
73.4
GPQA Diamond
69.8
LiveCodeBench
43.4

0-shot, temp=0, bez majority voting. Źródło: meta-llama

Idealny do:

  • Inteligentnych asystentów BOK z function calling
  • Analizy dużych zbiorów dokumentów i faktur (RAG z 10M kontekstem)
  • Autonomicznych agentów z obsługą narzędzi (SQL, API, kalkulatory)
  • Analizy wizualnej — wykresy, screenshoty, dokumenty skanowane
  • Wielojęzycznych wdrożeń (84.6% na Multilingual MMLU)
Wdróż ten model w swojej firmie

Scout vs. konkurencja

vs. Gemini 2.0 Flash-Lite

Scout przewyższa Flash-Lite w rozumieniu dokumentów (DocVQA 94.4 vs 89.2) i w długim kontekście (10M vs 1M). Flash-Lite ma przewagę w czystej szybkości inferencji jako model zamknięty.

vs. Mistral 3.1

Scout wygrywa na wszystkich benchmarkach multimodalnych i oferuje 78× dłuższy kontekst (10M vs 128K). Mistral zachowuje przewagę w szybkości na czystych zadaniach tekstowych.

vs. Llama 3.3 70B

Scout przewyższa Llama 3.3 w matematyce (MATH 90% vs 77.8%) i multimodalności (brak w 3.3). Llama 3.3 wciąż lekko lepsza w SWE-bench (+4 pkt) jako model dense.