Llama 4 Scout na DGX Spark - Instalacja Lokalna

Wielu użytkowników DGX Spark próbuje korzystać z domyślnych narzędzi Nvidii, takich jak Spark Sync czy niestandardowe mapowanie portów na 12000. Moim zdaniem, do domowego lub małego firmowego użytku, to przerost formy nad treścią. Często instalujemy w ten sposób dodatkowe agenty, które zużywają zasoby i komplikują proste rzeczy.

Zrobimy to inaczej – prościej. Zbudujemy stabilne środowisko oparte na standardach: Ollama jako silnik, Open WebUI jako interfejs oraz bezpieczny tunel SSH do zdalnego dostępu. Dzięki temu unikniemy „magicznych" skryptów, które działają do pierwszej aktualizacji systemu, i zachowamy pełną kontrolę nad tym, co dzieje się na maszynie.

Wymagania: Zakładam, że masz już działającego DGX Spark (Asus GX10) z fabrycznym Ubuntu i dostępem do terminala, a Twój laptop znajduje się w tej samej sieci Wi-Fi/LAN. Docker powinien być już zainstalowany fabrycznie.

Co będziemy budować

Twój laptop

Przeglądarka

localhost:12000

Szyfrowany tunel

SSH Tunnel

port 12000 → 8080

DGX Spark / GX10

Open WebUI

:8080 → Ollama → GPU

① Silnik (Ollama) i Model

Zacznijmy od fundamentów. Ollama to obecnie standard w uruchamianiu modeli językowych na Linuxie. Jest lekka i świetnie zarządza zasobami GPU. Zaloguj się na swój serwer DGX i wpisz w terminalu poniższą komendę, aby ją zainstalować:

user@dgx-spark:~

$curl -fsSL https://ollama.com/install.sh | sh

>>> Downloading Ollama... >>> Installing ollama to /usr/local/bin... >>> Adding current user to ollama group...

Gdy instalacja dobiegnie końca, możemy pobrać sam model. Wybieramy Llama 4 Scout – to zbalansowana wersja, idealna pod specyfikację GX10. Ostrzegam, że plik waży kilkadziesiąt gigabajtów, więc zależnie od Twojego łącza, może to chwilę potrwać. To dobry moment na kawę.

user@dgx-spark:~

$ollama pull llama4:scout

pulling manifest... downloading template... downloading layers [=========================>] 100% success

Warto od razu sprawdzić, czy model działa. Szybki test w terminalu:

user@dgx-spark:~

$ollama run llama4:scout "Powiedz cześć po polsku"

Cześć! Jak mogę Ci dzisiaj pomóc? 😊

Jeśli widzisz odpowiedź — silnik działa, model jest załadowany, GPU liczy. Możemy przejść do interfejsu.

② Interfejs (Open WebUI)

Mamy silnik, teraz potrzebujemy kierownicy. Open WebUI to nakładka, która wygląda i działa niemal identycznie jak ChatGPT, ale wszystkie dane zostają u Ciebie. Uruchomimy ją w jednym kontenerze Dockera. Poniższa komenda robi wszystko za nas: pobiera obraz, łączy go z Ollamą (dzięki fladze --add-host) i wystawia interfejs na porcie 8080.

user@dgx-spark:~

$docker run -d \

-p 8080:8080 \

--add-host=host.docker.internal:host-gateway \

-v open-webui:/app/backend/data \

--name open-webui \

--restart always \

ghcr.io/open-webui/open-webui:main

1a2b3c4d5e6f... (container ID)

W tym momencie, jeśli otworzysz przeglądarkę na samym urządzeniu DGX i wejdziesz na http://localhost:8080, powinieneś zobaczyć ekran logowania. Załóż tam konto (jest ono w pełni lokalne, nie wysyła nigdzie maili) i wybierz model „llama4:scout" z listy na górze.

Dlaczego --add-host, a nie --network host?

Flaga --add-host=host.docker.internal:host-gateway pozwala kontenerowi Open WebUI komunikować się z Ollamą działającą na hoście — bez otwierania całej sieci kontenera na świat. To bezpieczniejsze niż --network host, bo kontener ma dostęp tylko do tego, co mu jawnie przydzielisz. Ollama domyślnie nasłuchuje na localhost:11434, i Open WebUI wie, żeby szukać jej właśnie tam.

③ Dostęp z kanapy (SSH Tunneling)

Tu dochodzimy do najważniejszej części. Jak korzystać z tego modelu na laptopie, siedząc wygodnie w salonie? Zamiast otwierać porty „na świat" i ryzykować bezpieczeństwem, użyjemy techniki zwanej SSH Tunneling. Wyobraź to sobie jako bezpieczną rurę, która łączy port w Twoim laptopie bezpośrednio z portem serwera, szyfrując wszystko po drodze.

Najpierw sprawdź IP swojego serwera DGX (komenda ip a), szukaj czegoś w stylu 192.168.1.XX. W naszym przykładzie założymy, że jest to 192.168.1.25. Następnie na swoim laptopie (w terminalu lub PowerShell) wpisz:

laptop-uzytkownika: PS

# -L = Local port forwarding # 12000 = port na Twoim laptopie # localhost:8080 = Open WebUI na serwerze

PS C:\Users\User>ssh -L 12000:localhost:8080 user@192.168.1.25

user@192.168.1.25's password:

Po wpisaniu hasła i zalogowaniu, zostaw to okno otwarte w tle. Teraz wystarczy, że na laptopie wejdziesz w przeglądarce pod adres:

http://localhost:12000

Gotowe! Korzystasz z mocy obliczeniowej DGX Spark, ale interfejs masz u siebie. Co więcej, to rozwiązanie świetnie się skaluje. Jeśli Twój zespół chce pracować na tym samym serwerze, każdy może zestawić własny tunel SSH na swoim koncie użytkownika. Open WebUI obsłuży historię czatów dla każdej osoby oddzielnie. To najbezpieczniejsza i najbardziej „produkcyjna" metoda pracy z lokalnym AI.

④ Co dalej?

Masz działający system: Ollama + Open WebUI + SSH. Od tego momentu możesz:

Dodawać kolejne modele — ollama pull glm4.7-flash, ollama pull qwen3.6. Przełączasz między nimi w Open WebUI jednym kliknięciem.

Włączyć RAG — Open WebUI ma wbudowany system RAG. Wrzucasz PDF-y, a model odpowiada na ich podstawie. Idealny do analizy dokumentów.

Dodać użytkowników — w Open WebUI tworzysz konta dla zespołu. Każdy ma swoją historię czatów, swoje ustawienia.

Zainstalować ComfyUI — generowanie obrazów na tym samym sprzęcie. Przewodnik tutaj →

Troubleshooting

⚠ Open WebUI nie widzi modelu — sprawdź czy Ollama działa: systemctl status ollama. Jeśli nie, uruchom: systemctl start ollama.

⚠ SSH tunnel się rozłącza — dodaj flagi -o ServerAliveInterval=60 -o ServerAliveCountMax=3 do komendy SSH. Utrzymuje połączenie aktywne.

⚠ Wolna odpowiedź modelu — sprawdź nvidia-smi czy GPU jest wykorzystywane. Jeśli model działa na CPU zamiast GPU, przeinstaluj Ollamę z najnowszej wersji.

Llama 4 Scout na DGX Spark.
Instalacja „po ludzku".

Co będziemy budować

① Silnik (Ollama) i Model

② Interfejs (Open WebUI)

Dlaczego --add-host, a nie --network host?

③ Dostęp z kanapy (SSH Tunneling)

④ Co dalej?

Troubleshooting

W tym wpisie

Stack

Wymagania

Ściągawka