KI-basierte Sprachverarbeitung

Projektstatus

Planung

100%

Durchführung

100%

Dokumentation

100%

Hintergrund

Aicappella ist ein junges Unternehmen im Bereich KI-gestützter Sprach- und Audiotechnologie. Das Unternehmen entwickelt Ansätze für consent-basierte KI-Stimmen, bei denen eigene Trainingsdaten kontrolliert genutzt, Rechte von Sprecherinnen und Sprechern respektiert und nur freigegebene Audioergebnisse verwendet werden.

Für kleine Medienunternehmen und Solo-Selbstständige im Audiobereich ist KI-Stimmtechnologie strategisch relevant, technisch aber schwer zugänglich. Besonders herausfordernd sind Rechenleistung, Datenschutz, Datenkontrolle, Qualitätsbewertung und die Frage, ob lokale bzw. hochschulnahe Serverinfrastruktur gegenüber Cloud-Diensten Vorteile bietet.

Im Projekt wurde untersucht, wie sich mit eigenen Trainingsdaten ein Text-to-Speech-Modell für personenindividuelle Sprachausgabe optimieren lässt und welche Serverinfrastruktur dafür notwendig ist.

"Das Projekt hat mir geholfen, KI-Stimmtechnologie nicht nur als kreative Möglichkeit, sondern als Infrastruktur- und Rechtefrage zu verstehen. Besonders wertvoll war die Erkenntnis, welche Rolle kontrollierte Serverumgebungen für Qualität, Datenschutz und Vertrauen spielen können."

Benno Lehmann, Gründer aicappella

Herausforderung

Die zentrale Herausforderung bestand darin, mit eigenen Trainingsdaten ein TTS-Modell so zu optimieren, dass daraus eine brauchbare personenindividuelle Sprachausgabe entsteht. Dabei mussten Datenaufbereitung, Trainingsaufwand, Modellqualität, Inferenzgeschwindigkeit und Serverbedarf praktisch getestet werden.

Grund des Projekts war die Frage, ob Aicappella als kleines Unternehmen für die Optimierung und Bewertung von TTS-Modellen einen eigenen bzw. bereitgestellten KI-Server benötigt oder ob leichtere bzw. alternative Betriebsmodelle ausreichen.

Lösung

Im Projekt wurde eine prototypische TTS-Trainings- und Testpipeline auf Serverinfrastruktur untersucht. Eigene Trainingsdaten wurden aufbereitet und mit unterschiedlichen Werkzeugen bzw. Modellansätzen getestet, darunter Piper, Coqui TTS, CosyVoice und Qwen3. Die Ergebnisse wurden hinsichtlich Audioqualität, Trainingsaufwand, technischer Anforderungen und praktischer Nutzbarkeit bewertet.

Umsetzung

Die Umsetzung erfolgte über praktische Trainings- und Testläufe mit TTS-Modellen auf serverbasierter Rechenleistung. Dabei wurden Trainingsdaten vorbereitet, verschiedene Modellansätze erprobt, Ausgaben verglichen und Anforderungen an Hardware, Software, Speicher, Laufzeit und Workflow-Schritte dokumentiert. Die Ergebnisse fließen in die Entscheidung ein, welche Infrastruktur Aicappella künftig für TTS-Optimierung benötigt.

Norman Günther

Norman Günther

Standort: TH Wildau
Schwerpunkt: Produktion 4.0, Prozessmanagement

Tel.: +49 (0) 3375 508 782
E-Mail: nguenther@th-wildau.de

Jetzt kontaktieren!

Zur Startseite