Llama 4 Scout

META AI MoE · 16 Experts Q4 2025 109B total / 17B aktywnych

Parametry

109B

Aktywne / token

17B

Kontekst

10M

Eksperci MoE

Modalność

Tekst + Obraz

Pierwszy multimodalny model open-weight od Meta z architekturą Mixture-of-Experts. Scout został zaprojektowany jako kompaktowy, ale potężny agent — mieści się na pojedynczym GPU H100 przy kwantyzacji Int4.

Architektura MoE

Llama 4 Scout wykorzystuje architekturę Mixture-of-Experts z 16 ekspertami. Z 109 miliardów parametrów łącznych, w każdym kroku inferencji aktywnych jest tylko 17 miliardów — to sprawia, że model jest wyjątkowo wydajny obliczeniowo przy zachowaniu inteligencji znacznie większych modeli. Wytrenowany na ~40 bilionach tokenów danych multimodalnych.

10 milionów tokenów kontekstu

Najdłuższe okno kontekstowe wśród wszystkich dostępnych modeli open-weight. Scout przetrenowany jest z kontekstem 256K, a dzięki zaawansowanej generalizacji długości obsługuje do 10 milionów tokenów. To otwiera zupełnie nowe możliwości: podsumowania wielodokumentowe, analiza całych baz kodu, przetwarzanie obszernej historii aktywności użytkownika.

Natywna multimodalność

W odróżnieniu od poprzednich wersji Llama, Scout przetwarza tekst i obrazy natywnie (early fusion) — nie jest to dobudowany moduł wizyjny, lecz integralna część architektury modelu. Rozumie wykresy, dokumenty, tabele, faktury i screenshoty interfejsów. Osiąga 94.4% na DocVQA i 90.0% na ChartQA.

Wdrożenie na DGX Spark / ASUS GX10

Dzięki kwantyzacji Int4 (GGUF), model mieści się w 128 GB zunifikowanej pamięci naszych stacji roboczych. Aktywacja zaledwie 17B parametrów na token oznacza szybką inferencję nawet przy długich kontekstach. Function calling i tool-use działają out-of-the-box z kompatybilnymi frameworkami (vLLM, Ollama, llama.cpp).

Agenci i Function Calling

Scout został wytrenowany specjalnie pod kątem agentów autonomicznych. Posiada wbudowany mechanizm Chain-of-Thought, potrafi samodzielnie zdecydować, kiedy użyć kalkulatora, przeszukać bazę danych, czy wywołać zewnętrzne API. To nie jest „chatbot z pluginami" — to model, który rozumie jak planować i wykonywać wieloetapowe zadania.

Kluczowe benchmarki

DocVQA

94.4

ChartQA

90.0

Multilingual MMLU

84.6

MMLU Pro

80.5

MathVista

73.7

MMMU

73.4

GPQA Diamond

69.8

LiveCodeBench

43.4

0-shot, temp=0, bez majority voting. Źródło: meta-llama

Idealny do:

Inteligentnych asystentów BOK z function calling
Analizy dużych zbiorów dokumentów i faktur (RAG z 10M kontekstem)
Autonomicznych agentów z obsługą narzędzi (SQL, API, kalkulatory)
Analizy wizualnej — wykresy, screenshoty, dokumenty skanowane
Wielojęzycznych wdrożeń (84.6% na Multilingual MMLU)

Wdróż ten model w swojej firmie

Scout vs. konkurencja

vs. Gemini 2.0 Flash-Lite

Scout przewyższa Flash-Lite w rozumieniu dokumentów (DocVQA 94.4 vs 89.2) i w długim kontekście (10M vs 1M). Flash-Lite ma przewagę w czystej szybkości inferencji jako model zamknięty.

vs. Mistral 3.1

Scout wygrywa na wszystkich benchmarkach multimodalnych i oferuje 78× dłuższy kontekst (10M vs 128K). Mistral zachowuje przewagę w szybkości na czystych zadaniach tekstowych.

vs. Llama 3.3 70B

Scout przewyższa Llama 3.3 w matematyce (MATH 90% vs 77.8%) i multimodalności (brak w 3.3). Llama 3.3 wciąż lekko lepsza w SWE-bench (+4 pkt) jako model dense.