Personalisierte Audiodeskription mit KI-basierter Sprachsynthese
- Die Audiodeskription ermöglicht blinden und sehbeeinträchtigten Menschen das Verstehen und Erfahren von Videos und Filmen, indem visuelle Informationen in Dialogpausen beschrie- ben werden. Da die Anforderungen der Audiodeskription von Zielgruppe zu Zielgruppe stark variieren und auch der wirtschaftliche Faktor eine erhebliche Rolle spielt, existieren alterna- tive Ansätze und Erweiterungen zur Erstellung von Audiodeskriptionen. Neben den Grundlagen der Audiodeskription und der Sprachsynthese, beschäftigt sich die vor- liegende Arbeit mit bereits vorhandenen Technologien zur Erweiterung und Vervielfältigung des Angebots von Audiodeskriptionen. Außerdem wird im praktischen Teil der Arbeit ein neuer Ansatz zur Personalisierung von Audiodeskriptionen vorgestellt. Dieser untersucht, ob ein Mehrwert geschaffen wird, indem die bisher mit menschlicher Stimme produzierten Audi- odeskriptionen für Filme und Videos durch eine personalisierte künstliche Stimme ersetzt wer- den. Diese Personalisierung beinhaltet eine wählbare Sprechgeschwindigkeit, welche mit der Ausführlichkeit der Beschreibung zusammenhängt. Je höher die durch die Nutzenden be- stimmte Geschwindigkeit, desto mehr Inhalt wird vermittelt. Es kann während des Abspielens zwischen drei verschiedenen Stufen gewechselt werden. Der Ansatz wird in dieser Arbeit in einer Feldstudie anhand eines Prototyps getestet und be- wertet.
- Audio description enables blind and visually impaired people to understand and experience videos and films by describing visual information in dialog pauses. Since the requirements of audio description vary greatly from target group to target group and the economic factor also plays a significant role, there are alternative approaches and exten- sions for creating audio descriptions. Besides the basics of audio description and speech syn- thesis, this thesis deals with already existing technologies for the extension and increasing of the offer of audio descriptions. In addition, the practical part of the thesis presents a new ap- proach to the personalization of audio descriptions. This investigates whether added value is created by replacing audio descriptions for movies and videos, which have been produced with human voices so far, with a personalized artificial voice. This personalization includes a se- lectable speaking rate, which is related to the verbosity of the description. The higher the speed determined by the user, the more content is conveyed. It is possible to switch between three different levels during playback. This approach is tested and evaluated in a field study using a prototype.
Author: | Franziska Untraut |
---|---|
URN: | urn:nbn:de:bsz:900-opus4-67645 |
Referee: | Sebastian Koch |
Advisor: | Gottfried Zimmermann |
Document Type: | Bachelor Thesis |
Language: | German |
Year of Completion: | 2023 |
Granting Institution: | Hochschule der Medien |
Date of final exam: | 0023/03/27 |
Release Date: | 2023/03/27 |
GND Keyword: | Audiodeskription; Sprachsynthese; Barrierefreiheit |
Page Number: | 82 |
Institutes: | FB 2: Electronic Media |
DDC classes: | 000 Allgemeines, Informatik, Informationswissenschaft / 070 Nachrichtenmedien, Journalismus, Verlagswesen |
Licence (German): | ![]() |