Warum dieses Thema jetzt wichtig ist
Automatisierung spart während Live-Streams Zeit und reduziert Fehlerquellen. Lokale LLMs ermöglichen Entscheidungen ohne Cloud-Latenz und ohne Datenschutzrisiken, während OBS Websocket und Stream Deck die Ausführung in der Produktion übernehmen. Der Artikel zeigt ein praktikables Setup, konkrete Einstellungen und Troubleshooting-Tipps für stabile Abläufe.
Ziel und Umfang
Dieser Leitfaden behandelt
- die Architektur für lokale KI-gesteuerte Automatisierung
- konkrete Tool-Empfehlungen und Konfigurationen
- Beispiel-Workflows für Szenenwechsel, Live-Untertitel und Clip-Markierung
Geeignet für fortgeschrittene Streamer, Technik-Streamer und kleinere Production-Teams, die bereits Erfahrung mit OBS und Stream Deck haben
Übersicht: Architektur und Komponenten
Ein typisches Setup besteht aus
- lokales LLM oder lokal laufendes NLU-Modul zur Intent-Erkennung und Metadaten-Generierung
- lokale Speech-to-Text (STT) für Live-Untertitel und Trigger-Erkennung
- OBS Studio mit Websocket-Plugin zur Fernsteuerung von Szenen und Quellen
- Stream Deck oder Bitfocus Companion als physische oder virtuelle Steueroberfläche
- Optional: ein kleiner Node.js- oder Python-Microservice zur Orchestrierung
Ablauf (vereinfachte Darstellung)
- Audio-Stream wird an lokale STT-Engine gesendet
- STT liefert Text an LLM/NLU für Intent-Erkennung und Schlagworterkennung
- LLM sendet per HTTP/WebSocket Steuerbefehle an OBS Websocket oder an Companion
- OBS führt Aktionen aus: Szenewechsel, Text-Update, Clip-Marker
- Stream Deck zeigt Statusinfos und erlaubt manuelle Übersteuerung
Tools im Vergleich
Komponente | Optionen | Vor-/Nachteile |
---|---|---|
Lokale LLMs | Ollama, Llama.cpp, Mistral-Weights lokal | Pro: Datenschutz, geringe Latenz; Kontra: Hardwarebedarf, evtl. Komplexe Einrichtung |
STT | Whisper lokal, VOSK, Coqui | Pro: Offline-Fähigkeit; Kontra: Genauigkeit variiert mit Modell und Audiosignal |
Steuerung | OBS Websocket, Bitfocus Companion, Stream Deck | Pro: Flexibel, vielseitig; Kontra: zusätzliche Layer bedeuten mehr Fehlermodi |
Schritt-für-Schritt: Minimales, robustes Setup
Voraussetzungen
- aktuelles OBS Studio installiert
- OBS Websocket Plugin (Version 5.x oder neuer empfohlen)
- Stream Deck oder Companion auf Steuerrechner installiert
- lokaler Rechner mit ausreichend CPU und idealerweise GPU für LLM/STT
- Node.js oder Python als Orchestrator
1) OBS Websocket konfigurieren
- Websocket aktivieren und statischen Port setzen, z. B. 4455
- Authentifizierung per Passwort aktivieren
- In OBS eine Text-Quelle für Live-Untertitel anlegen mit Namen „live_subtitles“
- Szenen und Quellen sinnvoll benennen, z. B. „Game“, „Facecam“, „BRB“
2) STT lokal betreiben
- Whisper oder VOSK installieren und als Service laufen lassen
- Audiosignal aus OBS per Audio-Monitoring oder virtuellem Kabel an STT leiten
- Konfigurieren, dass STT transkribierte Sätze via WebSocket oder HTTP-Post an Orchestrator sendet
3) Lokales LLM/NLU einbinden
- LLM als Service starten (Ollama, Llama.cpp oder vergleichbar)
- Für Intent-Mapping ein kleines Prompt-Template verwenden, z. B.:
{
"prompt": "Erkenne Kommando aus Transkript: <TRANSKRIPT>\nOutput: {intent: \"scene_change\"|\"clip_mark\"|\"subtitle\", params: {...}}"
}
- LLM antwortet maschinenlesbar (JSON) an Orchestrator
4) Orchestrator -> OBS Websocket (Beispiel)
- Orchestrator verbindet per WebSocket zu obs://localhost:4455
- Beispiel JSON für Szenenwechsel
{
"request-type": "SetCurrentProgramScene",
"scene-name": "BRB"
}
- Für Text-Update (Untertitel) den Text der Quelle aktualisieren
{
"request-type": "SetTextGDIPlusProperties",
"source": "live_subtitles",
"text": "Aktueller Untertiteltext"
}
5) Stream Deck / Companion integrieren
- Entweder direkten Websocket-Aufruf vom Stream Deck-Plugin an Orchestrator senden oder Companion nutzen, um HTTP-Befehle an Orchestrator zu relaisieren
- Buttons als Status-Indicators konfigurieren, z. B. „Auto-Subtitle On/Off“, „Clip Mark“
Konkrete Beispiele und Settings
Empfohlene OBS-Einstellungen für stabile Automation
- OBS-Ausgabe: Encoder NVENC (bei NVIDIA GPU) für geringe CPU-Last
- Keyframe-Intervall: 2 Sekunden für Plattform-Kompatibilität
- Aufnahmeformat: mkv als Container, um Aufzeichnungsfehler abzufangen
Ressourcen-Hinweis für LLM/STT
- Kleine LLMs und quantisierte Modelle laufen auf modernen CPUs, bieten aber reduzierte Genauigkeit
- Für flüssige Reaktionszeiten empfiehlt sich eine GPU mit mindestens 6–8 GB VRAM für mittelgroße Modelle
Checkliste: Minimal-Setup vor dem Live-Start
- OBS Backup-Profil erstellen
- Websocket-Connection testen mit obs-websocket-remote
- STT auf lokalem Audiokanal prüfen
- LLM-Prompt testen mit Beispieltranskripten
- Stream Deck Buttons für Notfall-Fallback definieren
- Clip-Marker-Button testen
Troubleshooting: Häufige Probleme und Lösungen
- Keine Verbindung zu OBS Websocket
- Port und Passwort prüfen
- Firewall-Regeln auf dem Steuerrechner kontrollieren
- STT liefert zu viele Fehler
- Mikrofon- und Desktop-Audiopegel justieren
- Hintergrundgeräusche mit Noise Gate reduzieren
- LLM reagiert langsam
- Modell runterskalieren oder quantisierte Version verwenden
- Orchestrator asynchron und non-blocking implementieren
Kauf- und Tool-Empfehlungen (kurz)
- Elgato Stream Deck
- Vorteile: native Profile, viele Plugins
- Nachteile: Preis, geschlossene Software
- Bitfocus Companion
- Vorteile: kostenfrei, sehr flexibel für viele Geräte
- Nachteile: initiale Lernkurve
- Ollama (lokale LLM-Runner)
- Vorteile: einfache Verwaltung lokaler Modelle
- Nachteile: evtl. Lizenzkosten für bestimmte Modelle
Sicherheit und Datenschutz
- Lokale Verarbeitung reduziert Risiken gegenüber Cloud-Diensten
- Sensible Daten nicht unverschlüsselt auf Netzlaufwerke schreiben
- Zugang zu OBS Websocket auf vertrauenswürdige Hosts beschränken
Fazit
Ein lokal aufgebautes Automatisierungs-Setup mit STT, LLM und OBS Websocket reduziert Latenzen und schützt Daten. Der Aufwand für Einrichtung und Ressourcen ist höher als bei Cloud-Diensten, bietet dafür mehr Kontrolle und Privatsphäre. Für Produktionsteams liefert das System spürbare Entlastung bei Routineaufgaben und erlaubt fokussierte manuelle Eingriffe über Stream Deck
FAQs
Welche Hardware wird für ein lokales LLM-Setup minimal empfohlen
Für einfache NLU-Aufgaben reicht ein moderner Quad-Core-CPU mit 16 GB RAM; für flüssige Inferenz von mittelgroßen Modellen empfiehlt sich eine GPU mit mindestens 6–8 GB VRAM
Lässt sich das System auch ohne Stream Deck betreiben
Ja, Bitfocus Companion oder eine Web-Oberfläche können Stream Deck-Funktionen ersetzen und Buttons für Browser oder mobile Geräte bereitstellen
Wie zuverlässig sind lokale STT-Modelle im Live-Einsatz
Die Zuverlässigkeit hängt stark von Audioqualität und Modell ab; mit gutem Mikrofon, Noise Gate und akustischer Behandlung sind brauchbare Ergebnisse erreichbar
Wie verhindert das System falsche automatische Szenenwechsel
Falsche Trigger reduzieren durch Schwellenwerte, Bestätigungs-Prompts oder eine kurze Hysterese vor Ausführung; kritische Aktionen per Default manuell bestätigen lassen
Kann das Setup Clips automatisch markieren und speichern
Ja, OBS bietet Marking-Funktionen via Websocket; Orchestrator kann auf Keywords reagieren und einen Clip-Marker setzen oder Recording segmente automatisch exportieren