GPT-OSS 120B

OPENAI MoE · Reasoning Apache 2.0 Sierpień 2025 117B total / 5.1B aktywnych

Parametry

117B

Aktywne / token

5.1B

Kontekst

128K

Reasoning

CoT

Licencja

Apache 2.0

Pierwszy otwarty model OpenAI od czasu GPT-2 w 2019 roku. GPT-OSS 120B to model reasoning klasy o4-mini — z pełnym chain-of-thought, obsługą narzędzi i konfigurowalnym poziomem rozumowania. Licencja Apache 2.0 bez żadnych ograniczeń komercyjnych.

Architektura Mixture-of-Experts

GPT-OSS 120B to model transformerowy z architekturą MoE, który aktywuje zaledwie 5,1 miliarda parametrów na token z łącznych 117 miliardów. Wykorzystuje naprzemienne warstwy dense i locally banded sparse attention (wzorowane na GPT-3) oraz grouped multi-query attention dla wydajności pamięci. Pozycjonowanie za pomocą Rotary Positional Embedding (RoPE) wspiera kontekst do 128K tokenów.

Model reasoning z chain-of-thought

To nie jest zwykły model generatywny — GPT-OSS 120B myśli krok po kroku przed udzieleniem odpowiedzi. Posiada konfigurowalny poziom rozumowania (low / medium / high), co pozwala balansować między szybkością a dokładnością w zależności od zadania. Na najwyższym poziomie dorównuje zamkniętemu o4-mini OpenAI.

Narzędzia i function calling

Post-training obejmował specjalistyczny etap reinforcement learning ukierunkowany na obsługę narzędzi i zadania agentowe. Model potrafi wywoływać funkcje, używać code interpretera, przeszukiwać źródła danych i generować spójne trajektorie działań przez dziesiątki kroków. Wyniki na TAU-bench (retail) potwierdzają praktyczną użyteczność w scenariuszach obsługi klienta.

Wdrożenie na DGX Spark / ASUS GX10

Dzięki natywnej kwantyzacji MXFP4, pełny model mieści się na pojedynczym GPU 80 GB. Na naszych stacjach DGX Spark i ASUS GX10 ze 128 GB zunifikowanej pamięci model działa komfortowo z zapasem na długie konteksty. Kompatybilny z vLLM, llama.cpp (reference Triton implementation) i frameworkami OpenAI-compatible.

Apache 2.0 — pełna wolność

W odróżnieniu od modeli Meta (Llama License z ograniczeniem 700M MAU), GPT-OSS jest wydany na licencji Apache 2.0 bez jakichkolwiek ograniczeń — pełna swoboda użytku komercyjnego, modyfikacji, dystrybucji i fine-tuningu. To czyni go idealnym fundamentem do budowania dostosowanych rozwiązań dla klientów.

GPT-OSS 120B vs o3, o4-mini, o3-mini - Humanity's Last Exam benchmark — Humanity's Last Exam — GPT-OSS 120B vs modele zamknięte OpenAI. Kliknij aby powiększyć.

GPT-OSS 120B benchmarki: AIME 2024, AIME 2025, GPQA Diamond, HLE, MMLU — Porównanie na pięciu benchmarkach. GPT-OSS 120B vs o3, o3-mini, o4-mini. Kliknij aby powiększyć.

Kluczowe benchmarki

AIME 2025 (tools)

97.9

AIME 2024 (tools)

96.6

MMLU

90.0

GPQA Diamond

80.9

HLE (tools)

19.0

TAU-bench Retail

67.8

Reasoning: high. Źródło: openai.com, fireworks.ai

Idealny do:

Zaawansowanego rozumowania i analizy danych (STEM, prawo, finanse)
Automatyzacji z tool-use — function calling, code interpreter, SQL
Agentów autonomicznych z wieloetapowym planowaniem
Fine-tuningu pod specyficzne domeny (Apache 2.0, pełna swoboda)
Zastępstwa zamkniętych modeli OpenAI — bez opłat per-token, pełna prywatność

Wdróż ten model w swojej firmie

GPT-OSS 120B vs. konkurencja

vs. o4-mini (OpenAI zamknięty)

GPT-OSS osiąga near-parity z o4-mini na benchmarkach reasoning (AIME, GPQA). Kluczowa różnica: GPT-OSS działa lokalnie, bez opłat per-token i bez przesyłania danych do chmury. Pełna kontrola nad prywatnością.

vs. DeepSeek R1

GPT-OSS przewyższa DeepSeek R1 na AIME 2025 (97.9% vs ~92%) i MMLU (90% vs 85%). DeepSeek R1 jest modelem dense 671B, więc wymaga znacznie więcej zasobów. GPT-OSS mieści się na jednym GPU.

vs. Llama 4 Scout

GPT-OSS wygrywa w reasoning (MMLU 90 vs 80.5, GPQA 80.9 vs 69.8). Scout ma przewagę w multimodalności (tekst+obraz) i 78× dłuższym kontekście (10M vs 128K). Różne nisze — reasoning vs. agent multimodalny.

Szczegóły techniczne

Architektura

TypTransformer MoE

Parametry łączne116.8B

Parametry aktywne5.1B / token

AttentionGrouped Multi-Query

Positional encodingRoPE

Tokenizero200k_harmony

Wdrożenie

Min. GPU (MXFP4)1× 80GB (H100)

KwantyzacjaMXFP4 / GGUF

Kontekst128K tokenów

Reasoning levelslow / medium / high

LicencjaApache 2.0

FrameworkvLLM, llama.cpp, Triton