Ich hatte zu Testzwecken auf meinem PC zum ersten Test ein LM Studio am laufen mit einer 16 GB Grafikkarte und 48 GB RAM. Darauf liefen meine ersten Schritte mit selbstgehosteten Sprachmodellen. Ich war fasziniert und wollte mehr erfahren, insbesondere, wie diese Technologie skaliert werden kann.
Zuerst lief bei mir OpenClaw mit unterschiedlichen Modellen, was eben in den PC „hineingepasst“ hat. OpenClaw war stark in der Verwendung von Werkzeugen, mir persönlich aber zu vergesslich. Also bin ich zu Hermes Agent gewechselt. Und dort wollte ich auch ein größeres Modell testen.
Nach ein paar Nächten habe ich dann alles ans Laufen gebracht. Es gab mehrere Bugs und Probleme: Qwen3-VL-MoE Pydantic-Bug (NGC vLLM 0.19), NVIDIA Container Runtime Bug, Mistral Tokenizer-Validator zu strikt, Worker-Reconnect nach Head-Restart, Qwen2.5-VL-72B Tool-Calling zu zurückhaltend, NCCL-Multinode-Hänger…
Weiterlesen

