Stream-Automatisierung mit lokalen LLMs: OBS, Stream Deck und Websocket

Inhalt

Warum dieses Thema jetzt wichtig ist

Automatisierung spart während Live-Streams Zeit und reduziert Fehlerquellen. Lokale LLMs ermöglichen Entscheidungen ohne Cloud-Latenz und ohne Datenschutzrisiken, während OBS Websocket und Stream Deck die Ausführung in der Produktion übernehmen. Der Artikel zeigt ein praktikables Setup, konkrete Einstellungen und Troubleshooting-Tipps für stabile Abläufe.

Ziel und Umfang

Dieser Leitfaden behandelt

die Architektur für lokale KI-gesteuerte Automatisierung
konkrete Tool-Empfehlungen und Konfigurationen
Beispiel-Workflows für Szenenwechsel, Live-Untertitel und Clip-Markierung

Geeignet für fortgeschrittene Streamer, Technik-Streamer und kleinere Production-Teams, die bereits Erfahrung mit OBS und Stream Deck haben

Übersicht: Architektur und Komponenten

Ein typisches Setup besteht aus

lokales LLM oder lokal laufendes NLU-Modul zur Intent-Erkennung und Metadaten-Generierung
lokale Speech-to-Text (STT) für Live-Untertitel und Trigger-Erkennung
OBS Studio mit Websocket-Plugin zur Fernsteuerung von Szenen und Quellen
Stream Deck oder Bitfocus Companion als physische oder virtuelle Steueroberfläche
Optional: ein kleiner Node.js- oder Python-Microservice zur Orchestrierung

Ablauf (vereinfachte Darstellung)

Audio-Stream wird an lokale STT-Engine gesendet
STT liefert Text an LLM/NLU für Intent-Erkennung und Schlagworterkennung
LLM sendet per HTTP/WebSocket Steuerbefehle an OBS Websocket oder an Companion
OBS führt Aktionen aus: Szenewechsel, Text-Update, Clip-Marker
Stream Deck zeigt Statusinfos und erlaubt manuelle Übersteuerung

Tools im Vergleich

Komponente	Optionen	Vor-/Nachteile
Lokale LLMs	Ollama, Llama.cpp, Mistral-Weights lokal	Pro: Datenschutz, geringe Latenz; Kontra: Hardwarebedarf, evtl. Komplexe Einrichtung
STT	Whisper lokal, VOSK, Coqui	Pro: Offline-Fähigkeit; Kontra: Genauigkeit variiert mit Modell und Audiosignal
Steuerung	OBS Websocket, Bitfocus Companion, Stream Deck	Pro: Flexibel, vielseitig; Kontra: zusätzliche Layer bedeuten mehr Fehlermodi

Schritt-für-Schritt: Minimales, robustes Setup

Voraussetzungen

aktuelles OBS Studio installiert
OBS Websocket Plugin (Version 5.x oder neuer empfohlen)
Stream Deck oder Companion auf Steuerrechner installiert
lokaler Rechner mit ausreichend CPU und idealerweise GPU für LLM/STT
Node.js oder Python als Orchestrator

1) OBS Websocket konfigurieren

Websocket aktivieren und statischen Port setzen, z. B. 4455
Authentifizierung per Passwort aktivieren
In OBS eine Text-Quelle für Live-Untertitel anlegen mit Namen „live_subtitles“
Szenen und Quellen sinnvoll benennen, z. B. „Game“, „Facecam“, „BRB“

2) STT lokal betreiben

Whisper oder VOSK installieren und als Service laufen lassen
Audiosignal aus OBS per Audio-Monitoring oder virtuellem Kabel an STT leiten
Konfigurieren, dass STT transkribierte Sätze via WebSocket oder HTTP-Post an Orchestrator sendet

3) Lokales LLM/NLU einbinden

LLM als Service starten (Ollama, Llama.cpp oder vergleichbar)
Für Intent-Mapping ein kleines Prompt-Template verwenden, z. B.:

{
  "prompt": "Erkenne Kommando aus Transkript: <TRANSKRIPT>\nOutput: {intent: \"scene_change\"|\"clip_mark\"|\"subtitle\", params: {...}}"
}

LLM antwortet maschinenlesbar (JSON) an Orchestrator

4) Orchestrator -> OBS Websocket (Beispiel)

Orchestrator verbindet per WebSocket zu obs://localhost:4455
Beispiel JSON für Szenenwechsel

{
  "request-type": "SetCurrentProgramScene",
  "scene-name": "BRB"
}

Für Text-Update (Untertitel) den Text der Quelle aktualisieren

{
  "request-type": "SetTextGDIPlusProperties",
  "source": "live_subtitles",
  "text": "Aktueller Untertiteltext"
}

5) Stream Deck / Companion integrieren

Entweder direkten Websocket-Aufruf vom Stream Deck-Plugin an Orchestrator senden oder Companion nutzen, um HTTP-Befehle an Orchestrator zu relaisieren
Buttons als Status-Indicators konfigurieren, z. B. „Auto-Subtitle On/Off“, „Clip Mark“

Konkrete Beispiele und Settings

Empfohlene OBS-Einstellungen für stabile Automation

OBS-Ausgabe: Encoder NVENC (bei NVIDIA GPU) für geringe CPU-Last
Keyframe-Intervall: 2 Sekunden für Plattform-Kompatibilität
Aufnahmeformat: mkv als Container, um Aufzeichnungsfehler abzufangen

Ressourcen-Hinweis für LLM/STT

Kleine LLMs und quantisierte Modelle laufen auf modernen CPUs, bieten aber reduzierte Genauigkeit
Für flüssige Reaktionszeiten empfiehlt sich eine GPU mit mindestens 6–8 GB VRAM für mittelgroße Modelle

Checkliste: Minimal-Setup vor dem Live-Start

OBS Backup-Profil erstellen
Websocket-Connection testen mit obs-websocket-remote
STT auf lokalem Audiokanal prüfen
LLM-Prompt testen mit Beispieltranskripten
Stream Deck Buttons für Notfall-Fallback definieren
Clip-Marker-Button testen

Troubleshooting: Häufige Probleme und Lösungen

Keine Verbindung zu OBS Websocket
Port und Passwort prüfen
Firewall-Regeln auf dem Steuerrechner kontrollieren
STT liefert zu viele Fehler
Mikrofon- und Desktop-Audiopegel justieren
Hintergrundgeräusche mit Noise Gate reduzieren
LLM reagiert langsam
Modell runterskalieren oder quantisierte Version verwenden
Orchestrator asynchron und non-blocking implementieren

Kauf- und Tool-Empfehlungen (kurz)

Elgato Stream Deck
- Vorteile: native Profile, viele Plugins
- Nachteile: Preis, geschlossene Software
Bitfocus Companion
- Vorteile: kostenfrei, sehr flexibel für viele Geräte
- Nachteile: initiale Lernkurve
Ollama (lokale LLM-Runner)
- Vorteile: einfache Verwaltung lokaler Modelle
- Nachteile: evtl. Lizenzkosten für bestimmte Modelle

Sicherheit und Datenschutz

Lokale Verarbeitung reduziert Risiken gegenüber Cloud-Diensten
Sensible Daten nicht unverschlüsselt auf Netzlaufwerke schreiben
Zugang zu OBS Websocket auf vertrauenswürdige Hosts beschränken

Fazit

Ein lokal aufgebautes Automatisierungs-Setup mit STT, LLM und OBS Websocket reduziert Latenzen und schützt Daten. Der Aufwand für Einrichtung und Ressourcen ist höher als bei Cloud-Diensten, bietet dafür mehr Kontrolle und Privatsphäre. Für Produktionsteams liefert das System spürbare Entlastung bei Routineaufgaben und erlaubt fokussierte manuelle Eingriffe über Stream Deck

FAQs

Welche Hardware wird für ein lokales LLM-Setup minimal empfohlen

Für einfache NLU-Aufgaben reicht ein moderner Quad-Core-CPU mit 16 GB RAM; für flüssige Inferenz von mittelgroßen Modellen empfiehlt sich eine GPU mit mindestens 6–8 GB VRAM

Lässt sich das System auch ohne Stream Deck betreiben

Ja, Bitfocus Companion oder eine Web-Oberfläche können Stream Deck-Funktionen ersetzen und Buttons für Browser oder mobile Geräte bereitstellen

Wie zuverlässig sind lokale STT-Modelle im Live-Einsatz

Die Zuverlässigkeit hängt stark von Audioqualität und Modell ab; mit gutem Mikrofon, Noise Gate und akustischer Behandlung sind brauchbare Ergebnisse erreichbar

Wie verhindert das System falsche automatische Szenenwechsel

Falsche Trigger reduzieren durch Schwellenwerte, Bestätigungs-Prompts oder eine kurze Hysterese vor Ausführung; kritische Aktionen per Default manuell bestätigen lassen

Kann das Setup Clips automatisch markieren und speichern

Ja, OBS bietet Marking-Funktionen via Websocket; Orchestrator kann auf Keywords reagieren und einen Clip-Marker setzen oder Recording segmente automatisch exportieren