Retro-KI-Server

HP MicroServer Gen8 + Tesla P4 – Windows 10, Docker, Ollama & Open WebUI

MicroServer KI – Foto 1
MicroServer KI – Foto 2
MicroServer KI – Foto 3
Projekt Dauer 3-6 Stunden
Zielgruppe Homelab, Maker, Admins, Tech-Enthusiasten
Kombinierbar mit RAG, Dokumenten-Chat, LAN-Clients, VPN, Remote-Gaming
Software Ollama  |  Open WebUI

Mein Retro-KI-Server: HP MicroServer Gen8 mit Tesla P4 – Windows 10, Docker, Ollama & Open WebUI

Ich hatte da noch so einen Klassiker im Regal stehen: einen HP MicroServer Gen8. Eigentlich zu schade zum Verstauben – denn genau solche Maschinen sind perfekt für ein Projekt, das ich schon länger im Kopf hatte: eine lokale KI-Box, die man wie einen kleinen internen Dienst benutzt. Kein Cloud-Zwang, keine Bastel-VM, sondern: Server an, Web-UI auf, loschatten.

Also habe ich dem Gen8 ein Upgrade verpasst (mehr CPU, mehr RAM) und ihm als „KI-Motor“ eine NVIDIA Tesla P4 spendiert – inklusive 3D-gedrucktem Lüfter-Adapter und zwei 40mm Noctua-Lüftern zur Kühlung. Als Betriebssystem läuft bei mir Windows 10. Die KI selbst kommt über Ollama in Docker und als Oberfläche nutze ich Open WebUI.

Die Idee: lokale KI wie ein interner Webdienst

Das Ziel war nicht „Benchmark-Jagd“, sondern Alltagstauglichkeit:

  • Ein alter Server wird zur dauerlaufenden KI-Instanz
  • Die KI ist per Browser erreichbar (Notebook, Tablet, Handy im LAN)
  • Modelle laufen über Ollama
  • Die Oberfläche kommt von Open WebUI (Chat-UI, simpel, angenehm zu benutzen)

Hardware: Oldschool-Server, neue Rolle

Der HP MicroServer Gen8 ist genau diese Kategorie „klein, robust, homelab-erprobt“. Mit CPU- und RAM-Upgrade wird aus „alter Fileserver“ plötzlich wieder eine Maschine, die Spaß macht – und vor allem eine, die man guten Gewissens im Dauerbetrieb laufen lassen kann.

Und weil „KI-Server“ nicht nur CPU/GPU ist, sondern auch ganz banal Storage, habe ich den Gen8 bei mir ziemlich konsequent auf „schnell & sauber“ umgebaut:

  • SSD im ODD-Slot: Im Optical-Drive-Slot steckt bei mir ein Adapter für eine SSD – darauf läuft das Betriebssystem (Windows 10). Das hält die internen Bays frei und fühlt sich im Alltag einfach „aufgeräumt“ an.
  • 4× 1TB SSD intern: In den vier internen Slots stecken bei mir vier 1TB SSDs, damit ich für Modelle, Downloads, Daten und Workflows richtig schnellen Speicher habe (und nicht ständig über I/O nachdenken muss).

Die spannendste Komponente ist aber klar die GPU:

  • NVIDIA Tesla P4 als Inference-Beschleuniger
  • Kompakte Karte – aber: passive Kühlung ab Werk
  • Und genau deshalb war der Luftstrom im Gehäuse das zentrale Thema

Warum der 3D-gedruckte Lüfter-Adapter?

Der MicroServer ist nicht dafür gebaut, eine passiv gekühlte Datacenter-Karte „mal eben“ sauber anzuströmen. Also habe ich einen Luftkanal / Fan-Duct gedruckt, der zwei 40mm Noctua so positioniert, dass sie gezielt durch den Kühlkörper der P4 drücken.

Das Ergebnis ist genau diese Art von „DIY-Engineering“, die ich liebe: nicht hübsch um jeden Preis, aber funktional – und vor allem: stabil im Dauerbetrieb.

Bonus: Tesla P4 = „GTX-1080-Klasse“ – und damit auch Remote-Gaming möglich

Ein Detail, das viele bei „Tesla“ nicht auf dem Schirm haben: Die P4 stammt aus der Pascal-Generation und nutzt einen GPU-Chip aus derselben Familie, die man auch von Consumer-Karten wie der GeForce GTX 1080 kennt. Heißt in der Praxis: Das Ding kann nicht nur KI-Inference, sondern hat auch genug Grafik-Power, um als Remote-Gaming-Engine zu taugen.

In meinem Setup bedeutet das: Ich kann Spiele auf dem Server rendern und sie per Streaming auf ein Tablet schieben – und zwar in 1200×800 und (je nach Spiel) mit vollen Details. Das Tablet ist dabei im Grunde nur Display + Controller, der Gen8 macht die Arbeit im Hintergrund. Für „mal eben auf dem Sofa“ ist das überraschend nah an „Konsole an“ – nur eben aus dem Homelab.

Software-Stack: Windows 10 + Docker-Realität statt „perfektes Linux-Setup“

Ich habe mich bewusst für Windows 10 als Host entschieden (weil die Kiste bei mir dafür schon vorbereitet war) und darauf Docker genutzt. Damit bleibt das Ganze wartbar und man kann Komponenten sauber trennen: Modelle, UI, Volumes, Updates – alles in klaren Containern.

  • Ollama als Model-Runner (in Docker betrieben)
  • Open WebUI als Oberfläche (ebenfalls in Docker)

Setup in der Praxis: „einmal sauber aufsetzen, dann vergessen“

1) Windows 10 + Treiber-Grundlage
System sauber, Updates drauf, GPU-Treiber installiert – das ist die Basis, bevor Docker ins Spiel kommt.

2) Docker installieren
Docker drauf, Autostart an – damit der Server nach einem Reboot wieder „wie von selbst“ läuft.

3) Ollama Container
Ollama stellt die Modelle bereit und läuft typischerweise auf Port 11434. Wichtig ist ein Volume für die Model-Daten, damit nicht bei jeder Neuinstallation alles weg ist.

4) Open WebUI Container
Open WebUI ist das Frontend: Browser auf, anmelden, chatten. Das macht aus „LLM im Terminal“ ein Tool, das man wirklich nutzt.

5) Open WebUI mit Ollama verbinden
In Open WebUI setzt man die Verbindung zum Ollama-Endpunkt – und ab da ist es „wie eine lokale ChatGPT-Instanz“, nur eben im eigenen Netz.

Warum mich genau dieses Setup so abholt

  • Alte Hardware bekommt eine neue, sinnvolle Aufgabe. Der Gen8 wird nicht „noch ein Server“, sondern eine KI-Kiste, die wirklich genutzt wird.
  • GPU + Luftführung sind der Gamechanger. Die Tesla P4 ist stark – aber erst mit dem Fan-Duct fühlt es sich nach einem sauberen Dauerbetrieb-Setup an.
  • Der Storage macht’s „snappy“. OS auf der ODD-SSD und 4× 1TB SSD intern sorgt dafür, dass Models und Daten nicht wie „Server von gestern“ wirken.
  • Open WebUI macht’s alltagstauglich. Ohne UI ist lokale KI nett – mit UI wird sie ein echter Dienst im LAN.
  • Und als Bonus: Remote-Gaming. Dass ich Games in 1200×800 aufs Tablet streamen kann, war ein unerwartet cooler Nebeneffekt.