BrainBug - 2026
Da ich für mein Home Assistant und die verbundenen Voice Assistenten gerne eine lokale Ki nutzen wollte, ist dieses Projekt entstanden.
Als Basis Computer dient mir ein NVIDIA Jetson Nano (Super) mit 8GB dediziertem Speicher.
Natürlich ist meine Version nicht bloß die nackte Platine, welche von einer TF-Speicherkarte gebootet wird. Ich habe mir die Mühe gemacht den NANO mit einer 1TB NVMe auszurüsten und diese bootfähig zu machen.
Der Aufbau einer Ki mit nur 8GB ist gelinde gesagt eine sportliche Herausforderung!
Daher kann ich auch nur empfehlen die ersten Gehversuche mit einer TF-Speicherkarte mit einer Größe ab 64GB zu beginnen! Da die Speicherkarte einfacher wieder herzustellen ist als eine NVMe.
Bei mir hat es 8 Versuche gebraucht, bis ich eine Brauchbare Lösung hatte.
Ich habe zunächst verschiedene LLM-Modelle ausprobiert, bin aber immer wieder an der Sprachbarriere gescheitert. Gerne hätte ich einfach eine “unzensierte“ Version verwendet, da diese nicht erst jede Anfrage durch ihre Sicherheitsfilter überprüfen muss. Die Leute verstehen scheinbar nicht wirklich wieviel Zeit für diesen Mist verlorengeht und wie groß der extra Rechenaufwand für eine Nanni-Funktion ist! Aber leider gibt es eben nicht viele Modelle die sich gut für die Home Assistant Integration eignen, unzensiert sind und Deutsch sprechen…
Daher ist der momentane Stand bei meinem Gerät ein Ollama3.2:3b in einem Docker Container.
Die Open WebUi habe ich zu Gunsten von AnythingLLM wieder abgeschaltet, da ich mir so den extra Container und Speicher sparen kann.
Derzeit versuche ich noch einen Weg zu finden wie ich die STT über einen Whisper Container auf dem Nano realisieren kann, um die TTS-Verarbeitung durch die Nabu Casa Cloud zu entkoppeln…
Natürlich werde ich diesen Beitrag später noch mit weiteren Bildern und auch einer Anleitung zum nachbauen erweitern, ich bitte nur um etwas Gedult, da ich noch immer alles teste…
Hier ist schon mal meine aktuelle Startkonfiguration, für alle die nicht warten wollen:
#!/bin/bash
echo „— Starte KI-System Vorbereitung (Ollama Edition) —„
# 1. Desktop stoppen und RAM leeren (Essentiell für Orin Nano 8GB)
systemctl stop gdm || systemctl stop gdm3
sync && echo 3 | tee /proc/sys/vm/drop_caches
echo „RAM wurde optimiert.“
# 2. Alte Container aufräumen
echo „Bereinige alte Container…“
docker rm -f ollama-jetson open-webui 2>/dev/null
echo „— Starte Ollama Server (Optimiert für Home Assistant) —„
# 3. Ollama mit NUM_PARALLEL=2 für Stabilität bei vielen Automatisierungen
docker run -d \
–name ollama-jetson \
–runtime nvidia \
–network host \
-v ollama_data:/root/.ollama \
# Nur eine Instanz vorhalten, nicht mehr 2 !!
-e OLLAMA_NUM_PARALLEL=1 \
-e OLLAMA_KEEP_ALIVE=-1 \
-e OLLAMA_HOST=0.0.0.0:11434 \
-e OLLAMA_ORIGINS=“*“ \
ollama/ollama:latest
echo „Warte 15 Sekunden auf Initialisierung…“
sleep 15
# 4. Das Modell vorladen (Damit BrainBug sofort bereit ist)
echo „Lade Modell Llama 3.2 in den VRAM…“
# Hier ist das -d entfernen und der Text geändert
docker exec ollama-jetson ollama run llama3.2:3b „Antworte nur mit einem Punkt.“
# 5. WebUI Sektion (DEAKTIVIERT – Zeilen mit # am Anfang werden ignoriert)
# echo „— Starte Open WebUI —“
# docker run -d –name open-webui –network=host \
# -e OLLAMA_BASE_URL=http://127.0.0.1:11434 \
# –add-host=host.docker.internal:host-gateway \
# ghcr.io/open-webui/open-webui:main
echo „— FERTIG —„
echo „Ollama läuft mit NUM_PARALLEL=2. WebUI bleibt entladen.“
echo „Nutze ‚docker logs -f ollama-jetson‘ um den Status zu sehen.“
