Ich hatte da noch so einen Klassiker im Regal stehen: einen HP MicroServer Gen8. Eigentlich zu schade zum Verstauben – denn genau solche Maschinen sind perfekt für ein Projekt, das ich schon länger im Kopf hatte: eine lokale KI-Box, die man wie einen kleinen internen Dienst benutzt. Kein Cloud-Zwang, keine Bastel-VM, sondern: Server an, Web-UI auf, loschatten.
Also habe ich dem Gen8 ein Upgrade verpasst (mehr CPU, mehr RAM) und ihm als „KI-Motor“ eine NVIDIA Tesla P4 spendiert – inklusive 3D-gedrucktem Lüfter-Adapter und zwei 40mm Noctua-Lüftern zur Kühlung. Als Betriebssystem läuft bei mir Windows 10. Die KI selbst kommt über Ollama in Docker und als Oberfläche nutze ich Open WebUI.
Das Ziel war nicht „Benchmark-Jagd“, sondern Alltagstauglichkeit:
Der HP MicroServer Gen8 ist genau diese Kategorie „klein, robust, homelab-erprobt“. Mit CPU- und RAM-Upgrade wird aus „alter Fileserver“ plötzlich wieder eine Maschine, die Spaß macht – und vor allem eine, die man guten Gewissens im Dauerbetrieb laufen lassen kann.
Und weil „KI-Server“ nicht nur CPU/GPU ist, sondern auch ganz banal Storage, habe ich den Gen8 bei mir ziemlich konsequent auf „schnell & sauber“ umgebaut:
Die spannendste Komponente ist aber klar die GPU:
Der MicroServer ist nicht dafür gebaut, eine passiv gekühlte Datacenter-Karte „mal eben“ sauber anzuströmen. Also habe ich einen Luftkanal / Fan-Duct gedruckt, der zwei 40mm Noctua so positioniert, dass sie gezielt durch den Kühlkörper der P4 drücken.
Das Ergebnis ist genau diese Art von „DIY-Engineering“, die ich liebe: nicht hübsch um jeden Preis, aber funktional – und vor allem: stabil im Dauerbetrieb.
Ein Detail, das viele bei „Tesla“ nicht auf dem Schirm haben: Die P4 stammt aus der Pascal-Generation und nutzt einen GPU-Chip aus derselben Familie, die man auch von Consumer-Karten wie der GeForce GTX 1080 kennt. Heißt in der Praxis: Das Ding kann nicht nur KI-Inference, sondern hat auch genug Grafik-Power, um als Remote-Gaming-Engine zu taugen.
In meinem Setup bedeutet das: Ich kann Spiele auf dem Server rendern und sie per Streaming auf ein Tablet schieben – und zwar in 1200×800 und (je nach Spiel) mit vollen Details. Das Tablet ist dabei im Grunde nur Display + Controller, der Gen8 macht die Arbeit im Hintergrund. Für „mal eben auf dem Sofa“ ist das überraschend nah an „Konsole an“ – nur eben aus dem Homelab.
Ich habe mich bewusst für Windows 10 als Host entschieden (weil die Kiste bei mir dafür schon vorbereitet war) und darauf Docker genutzt. Damit bleibt das Ganze wartbar und man kann Komponenten sauber trennen: Modelle, UI, Volumes, Updates – alles in klaren Containern.
1) Windows 10 + Treiber-Grundlage
System sauber, Updates drauf, GPU-Treiber installiert – das ist die Basis, bevor Docker ins Spiel kommt.
2) Docker installieren
Docker drauf, Autostart an – damit der Server nach einem Reboot wieder „wie von selbst“ läuft.
3) Ollama Container
Ollama stellt die Modelle bereit und läuft typischerweise auf Port 11434.
Wichtig ist ein Volume für die Model-Daten, damit nicht bei jeder Neuinstallation alles weg ist.
4) Open WebUI Container
Open WebUI ist das Frontend: Browser auf, anmelden, chatten. Das macht aus „LLM im Terminal“ ein Tool, das man wirklich nutzt.
5) Open WebUI mit Ollama verbinden
In Open WebUI setzt man die Verbindung zum Ollama-Endpunkt – und ab da ist es „wie eine lokale ChatGPT-Instanz“,
nur eben im eigenen Netz.