UdZForschung 1/2020

37 UdZForschung – Unternehmen der Zukunft 1/2020 Leitthema: Gesellschaft & Digitalisierung – FIR-Forschungsprojekte Projekt: Smart Speaker Einsatz von Sprachassistenzsystemen in derWertschöpfung von KMU des Maschinen- und Anlagenbaus Vorgehensmodell zur Identifikation nutzenstiftender Einsatzszenarien für Sprachassistenzsysteme für KMU WährendSprachassistenzsysteme imprivatenKontextweit verbreitet sind, existieren im industriellenBereich nur vereinzelteAnwendungsbeispiele. ImRahmendes Forschungsprojekts ‚Smart Speaker‘ wirdgenaudieser Mangeladressiert.ZieldesProjektsistdieEntwicklungeinesVorgehensmodells,welchesIndustrieunternehmen zumEinsatzvonSprachassistenzsystemenbefähigensoll.Das IGF -Vorhaben20983NderForschungsvereinigung FIR e. V. an der RWTH Aachen wird über die AiF im Rahmen des Programms zur Förderung der industriellen Gemeinschaftsforschung (IGF) vom Bundesministerium für Wirtschaft und Energie (BMWi) aufgrund eines Beschlusses des Deutschen Bundestages gefördert. prachassistenzsysteme – auch als Smart Speaker bezeichnet – fin- den sich in immer mehr Privat- haushalten. Hierzu zählen Assistenten wie Google Home (Google Assistant), Apple HomePod (Siri) oder Amazon Echo (Alexa). Ein Überblick über die Funktionsweise von Sprachassistenzsystemen, die nachfolgend beschrieben werden, bietet Bild 1. Der Nutzer kommuniziert über gespro- chene Sprache mit einem Voice-User- Interface (1). Diese Hardware-Schnittstelle kanneinSmartphone, Kopfhörer,Mikrofon oder ähnliches sein (2). Sie erfasst die ge- sprochene Sprache und leitet sie als Input an eine Recheneinheit weiter. Dort werden nacheinander verschiedene Software- S Blöcke gestar tet. Zunächst wird die Sprachnachricht – welche aus akustischen Schwingungen bestehend vorliegt – mit- hilfe eines „Speech-to-Text-Algorithmus“ (STT) in geschriebene Wörter umgewan- delt (3). Im nächsten Schritt werden aus dem daraus entstandenen Text durch einen NLP- bzw. NLU-Algorithmus die für die Erkennung der Absicht des Nutzers notwendigen Informationen gewon- nen (4). Diese können aus bestimmten Signalwörtern bestehen, sich aber auch auf den Kontext oder Formulierungen beziehen. Nachdem die Intention des Nutzers feststeht, werden im Dialogue- Management entsprechende Aktionen ausgeführt (5). Hierfür kann etwa über APIs auf weitere Software zugegriffen (beispielsweise Datenbanken) oder eine Nachfrage an den Nutzer gestellt werden, falls Informationen fehlen. Nachfragen oder auch eine fertige Antwort an den Nutzer werden zunächst als geschriebene Wörter übermittelt. Diese können wahl- weise direkt zum Lesen an den Nutzer übermittelt werden, über einen „Text-to- Speech-Algorithmus“ (TTS) ingesprochene Sprache – akustische Schwingungen – um- gewandelt oder anderweitig verarbeitet werden (6). Der Nutzer erhält die Antwort dementsprechend über ein Display oder das Voice-User-Interface. 1 1 s. Li et al. 2016, S. 10; Yu u. Deng 2015, S. 101 f,; Singh et al. 2019, S. 73; Taylor 2009, S. 40f. Bild 1: Funktionsweise von Sprachassistenzsystemen (eigene Darstellung)