Stream-Schreibtisch mit Monitor samt OBS-Interface, PC-Tower, Mikrofon und Stream-Deck in dunkler, cineastischer Beleuchtung.

Stream-Automatisierung mit lokalen LLMs: OBS, Stream Deck und Websocket

KI Technik

Warum dieses Thema jetzt wichtig ist

Automatisierung spart während Live-Streams Zeit und reduziert Fehlerquellen. Lokale LLMs ermöglichen Entscheidungen ohne Cloud-Latenz und ohne Datenschutzrisiken, während OBS Websocket und Stream Deck die Ausführung in der Produktion übernehmen. Der Artikel zeigt ein praktikables Setup, konkrete Einstellungen und Troubleshooting-Tipps für stabile Abläufe.

Ziel und Umfang

Dieser Leitfaden behandelt

  • die Architektur für lokale KI-gesteuerte Automatisierung
  • konkrete Tool-Empfehlungen und Konfigurationen
  • Beispiel-Workflows für Szenenwechsel, Live-Untertitel und Clip-Markierung

Geeignet für fortgeschrittene Streamer, Technik-Streamer und kleinere Production-Teams, die bereits Erfahrung mit OBS und Stream Deck haben

Übersicht: Architektur und Komponenten

Ein typisches Setup besteht aus

  • lokales LLM oder lokal laufendes NLU-Modul zur Intent-Erkennung und Metadaten-Generierung
  • lokale Speech-to-Text (STT) für Live-Untertitel und Trigger-Erkennung
  • OBS Studio mit Websocket-Plugin zur Fernsteuerung von Szenen und Quellen
  • Stream Deck oder Bitfocus Companion als physische oder virtuelle Steueroberfläche
  • Optional: ein kleiner Node.js- oder Python-Microservice zur Orchestrierung

Ablauf (vereinfachte Darstellung)

  1. Audio-Stream wird an lokale STT-Engine gesendet
  2. STT liefert Text an LLM/NLU für Intent-Erkennung und Schlagworterkennung
  3. LLM sendet per HTTP/WebSocket Steuerbefehle an OBS Websocket oder an Companion
  4. OBS führt Aktionen aus: Szenewechsel, Text-Update, Clip-Marker
  5. Stream Deck zeigt Statusinfos und erlaubt manuelle Übersteuerung

Tools im Vergleich

Komponente Optionen Vor-/Nachteile
Lokale LLMs Ollama, Llama.cpp, Mistral-Weights lokal Pro: Datenschutz, geringe Latenz; Kontra: Hardwarebedarf, evtl. Komplexe Einrichtung
STT Whisper lokal, VOSK, Coqui Pro: Offline-Fähigkeit; Kontra: Genauigkeit variiert mit Modell und Audiosignal
Steuerung OBS Websocket, Bitfocus Companion, Stream Deck Pro: Flexibel, vielseitig; Kontra: zusätzliche Layer bedeuten mehr Fehlermodi

Schritt-für-Schritt: Minimales, robustes Setup

Voraussetzungen

  • aktuelles OBS Studio installiert
  • OBS Websocket Plugin (Version 5.x oder neuer empfohlen)
  • Stream Deck oder Companion auf Steuerrechner installiert
  • lokaler Rechner mit ausreichend CPU und idealerweise GPU für LLM/STT
  • Node.js oder Python als Orchestrator

1) OBS Websocket konfigurieren

  • Websocket aktivieren und statischen Port setzen, z. B. 4455
  • Authentifizierung per Passwort aktivieren
  • In OBS eine Text-Quelle für Live-Untertitel anlegen mit Namen „live_subtitles“
  • Szenen und Quellen sinnvoll benennen, z. B. „Game“, „Facecam“, „BRB“

2) STT lokal betreiben

  • Whisper oder VOSK installieren und als Service laufen lassen
  • Audiosignal aus OBS per Audio-Monitoring oder virtuellem Kabel an STT leiten
  • Konfigurieren, dass STT transkribierte Sätze via WebSocket oder HTTP-Post an Orchestrator sendet

3) Lokales LLM/NLU einbinden

  • LLM als Service starten (Ollama, Llama.cpp oder vergleichbar)
  • Für Intent-Mapping ein kleines Prompt-Template verwenden, z. B.:
{
  "prompt": "Erkenne Kommando aus Transkript: <TRANSKRIPT>\nOutput: {intent: \"scene_change\"|\"clip_mark\"|\"subtitle\", params: {...}}"
}
  • LLM antwortet maschinenlesbar (JSON) an Orchestrator

4) Orchestrator -> OBS Websocket (Beispiel)

  • Orchestrator verbindet per WebSocket zu obs://localhost:4455
  • Beispiel JSON für Szenenwechsel
{
  "request-type": "SetCurrentProgramScene",
  "scene-name": "BRB"
}
  • Für Text-Update (Untertitel) den Text der Quelle aktualisieren
{
  "request-type": "SetTextGDIPlusProperties",
  "source": "live_subtitles",
  "text": "Aktueller Untertiteltext"
}

5) Stream Deck / Companion integrieren

  • Entweder direkten Websocket-Aufruf vom Stream Deck-Plugin an Orchestrator senden oder Companion nutzen, um HTTP-Befehle an Orchestrator zu relaisieren
  • Buttons als Status-Indicators konfigurieren, z. B. „Auto-Subtitle On/Off“, „Clip Mark“

Konkrete Beispiele und Settings

Empfohlene OBS-Einstellungen für stabile Automation

  • OBS-Ausgabe: Encoder NVENC (bei NVIDIA GPU) für geringe CPU-Last
  • Keyframe-Intervall: 2 Sekunden für Plattform-Kompatibilität
  • Aufnahmeformat: mkv als Container, um Aufzeichnungsfehler abzufangen

Ressourcen-Hinweis für LLM/STT

  • Kleine LLMs und quantisierte Modelle laufen auf modernen CPUs, bieten aber reduzierte Genauigkeit
  • Für flüssige Reaktionszeiten empfiehlt sich eine GPU mit mindestens 6–8 GB VRAM für mittelgroße Modelle

Checkliste: Minimal-Setup vor dem Live-Start

  • OBS Backup-Profil erstellen
  • Websocket-Connection testen mit obs-websocket-remote
  • STT auf lokalem Audiokanal prüfen
  • LLM-Prompt testen mit Beispieltranskripten
  • Stream Deck Buttons für Notfall-Fallback definieren
  • Clip-Marker-Button testen

Troubleshooting: Häufige Probleme und Lösungen

  • Keine Verbindung zu OBS Websocket
  • Port und Passwort prüfen
  • Firewall-Regeln auf dem Steuerrechner kontrollieren
  • STT liefert zu viele Fehler
  • Mikrofon- und Desktop-Audiopegel justieren
  • Hintergrundgeräusche mit Noise Gate reduzieren
  • LLM reagiert langsam
  • Modell runterskalieren oder quantisierte Version verwenden
  • Orchestrator asynchron und non-blocking implementieren

Kauf- und Tool-Empfehlungen (kurz)

  • Elgato Stream Deck
    • Vorteile: native Profile, viele Plugins
    • Nachteile: Preis, geschlossene Software
  • Bitfocus Companion
    • Vorteile: kostenfrei, sehr flexibel für viele Geräte
    • Nachteile: initiale Lernkurve
  • Ollama (lokale LLM-Runner)
    • Vorteile: einfache Verwaltung lokaler Modelle
    • Nachteile: evtl. Lizenzkosten für bestimmte Modelle

Sicherheit und Datenschutz

  • Lokale Verarbeitung reduziert Risiken gegenüber Cloud-Diensten
  • Sensible Daten nicht unverschlüsselt auf Netzlaufwerke schreiben
  • Zugang zu OBS Websocket auf vertrauenswürdige Hosts beschränken

Fazit

Ein lokal aufgebautes Automatisierungs-Setup mit STT, LLM und OBS Websocket reduziert Latenzen und schützt Daten. Der Aufwand für Einrichtung und Ressourcen ist höher als bei Cloud-Diensten, bietet dafür mehr Kontrolle und Privatsphäre. Für Produktionsteams liefert das System spürbare Entlastung bei Routineaufgaben und erlaubt fokussierte manuelle Eingriffe über Stream Deck

FAQs

Welche Hardware wird für ein lokales LLM-Setup minimal empfohlen

Für einfache NLU-Aufgaben reicht ein moderner Quad-Core-CPU mit 16 GB RAM; für flüssige Inferenz von mittelgroßen Modellen empfiehlt sich eine GPU mit mindestens 6–8 GB VRAM

Lässt sich das System auch ohne Stream Deck betreiben

Ja, Bitfocus Companion oder eine Web-Oberfläche können Stream Deck-Funktionen ersetzen und Buttons für Browser oder mobile Geräte bereitstellen

Wie zuverlässig sind lokale STT-Modelle im Live-Einsatz

Die Zuverlässigkeit hängt stark von Audioqualität und Modell ab; mit gutem Mikrofon, Noise Gate und akustischer Behandlung sind brauchbare Ergebnisse erreichbar

Wie verhindert das System falsche automatische Szenenwechsel

Falsche Trigger reduzieren durch Schwellenwerte, Bestätigungs-Prompts oder eine kurze Hysterese vor Ausführung; kritische Aktionen per Default manuell bestätigen lassen

Kann das Setup Clips automatisch markieren und speichern

Ja, OBS bietet Marking-Funktionen via Websocket; Orchestrator kann auf Keywords reagieren und einen Clip-Marker setzen oder Recording segmente automatisch exportieren

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert