UdZForschung 2-2018

40 UdZForschung – Unternehmen der Zukunft 2/2018 FIR-Forschungsprojekte Projekt: SurE Selbstlernende Suche für ERP-Systeme Erhöhung der Effizienz und Effektivität von Suchanfragen in ERP-Systemen Aufgrund von Industrie 4.0, Digitalisierung und Künstlicher Intelligenz ist es heutzutage fast undenkbar, neue Systeme in einemmodernen Unternehmen einzuführen, die sich dieser Modernisierung nicht laufend anpassen. Die Funktionsvielfalt und Komplexität von ERP-Systemen nimmt im Zuge dessen zu. Gleichzeitig besteht im Bereich der ERP-Systeme noch viel Bedarf an Entwicklung, da die meisten Systeme aktuell noch statische Suchmasken und veraltete Suchmechanismen beinhalten. Im Rahmen des Projekts ‚SurE‘, eines Gemeinschaftsprojekts des Lehrstuhls für Wirtschaftsinformatik und Electronic Government an der Universität Potsdam und des FIR e. V. an der RWTH Aachen , wird daran geforscht und gearbeitet, eine selbstlernende Suchmaschine zu entwickeln, die gleichermaßen smart wie nutzerfreundlich und nutzerindividuell ist. Das IGF-Vorhaben 19270 BG der Forschungsvereinigung FIR e. V. an der RWTH Aachen wird über die AiF imRahmen des Programms zur Förderung der industriellen Gemeinschaftsforschung und -entwicklung (IGF) vom Bundesministerium für Wirtschaft und Energie (BMWi) auf- grund eines Beschlusses des Deutschen Bundestages gefördert. ie wichtigste Funktion einer Such- maschine ist die richtige Erkennung und Erfassung einer Eingabe. Solche Eingaben erfolgen in Form von Zeichenketten (engl. strings ),alsoeinerendlichenFolgevonZeichen (z. B. Buchstaben, Ziffern, Sonderzeichen und Steuerzeichen). Diese Eingabe wird dannmit den in der Datenbank verfügbaren Einträgen verglichen. Bei Übereinstimmung ergibt die Suche einen Treffer. Oft entste- hen Probleme beim Vergleich zwischen der Eingabe und der möglichen Trefferliste, besonders bei Zahlenkombinationen oder Sonderzeichen. Eins der Ziele, das in der VerbesserungvonERP-Systemenangestrebt wird, ist die Optimierung der Such- und Ähnlichkeitsmethoden der Suchmaschine. Ein intelligentes, selbstlernendesSystemsoll in der Lage sein, Strukturen, Konzepte und Wörtergruppen zu erkennen, auch wenn die Eingabe nicht zu 100 Prozent mit dem Ergebnisübereinstimmt,umdarausakkurate Treffer ineiner sinnvollenRankinghierarchie herzustellen. Auf diesem Prinzip basiert die Ähnlichkeitsuntersuchung, mit der sich das Projektteam von ‚SurE‘ aktuell beschäftigt. Bei Strings werden zwei Arten von Ähn- lichkeiten unterschieden: die semantische und die syntaktische Ähnlichkeit. Bei der semantischen Ähnlichkeit untersucht die Maschine die Suchbegriffe auf einer Bedeutungsebene.Siesollbeispielsweiseaus demKontexterschließenkönnen,obsichdie Eingabe„Bank“aufdasGeldinstitutoder auf dieSitzgelegenheit bezieht. DieBerechnung von solchen Algorithmen basiert auf der Hypothese,dassähnlicheWörterinähnlichen Kontextenauftretenundsomiteineähnliche Bedeutung haben 1 . Um die semantische Beziehung zwischen Wörtern zu erstellen, basieren derartige Algorithmen auf den drei Grundkonzepten„Semantic Similarity“, „ Semantic Relatedness “ und „ Semantic Distance “. Den drei Grundkonzepten ist gemein, dass sie die Ähnlichkeit von Ausdrücken untersuchen. Um die syntak- tische Ähnlichkeit (engl. String Matching) zu bestimmen, werden die Unterschiede zweier Zeichenfolgen untersucht. Je nach Algorithmus werden diese Unterschiede anders interpretiert und bewertet, daraus wird dann ein Ähnlichkeitswert generiert. Vergleicht die Suchmaschine diese Werte, kanneinebesser angepassteundgewertete Trefferliste erstellt werden. Allerdings va- riiert die Eignung der Algorithmen mit den Anforderungen. Im Rahmen des Projekts werden die Algorithmen mit ihren Vor- und Nachteilen untersucht. Nachdemder Parser die Eingabe als String einnimmt, setzt die Ähnlichkeitsanalyse ein. Hierbei wird nicht nur die Ähnlichkeit (unscharfe Suche, pho- netische Suche), sondern auch die Distanz untersucht(eng. stringmetric ).Dabeiwerden Algorithmen eingesetzt, die den mathema- tischen Abstand zwischen der Eingabe und den potenziellen Trefferoptionen berech- nen. Die wichtigsten werden im Folgenden kurz erläutert und diskutiert: • Levenshtein-Distanz • Hamming-Abstand • Jaro-Winkler-Distanz • Most frequent k characters • N-Gramme Die Levenshtein -Distanz gibt an, wie viel Aufwand nötig ist, um eine Zeichenkette in eine zweite umzuwandeln. Dabei wird die minimale Anzahl von Einfüge-, Lösch- und Ersetz-Operationenberechnet, jene ist dann gleichdemWert derDistanz 2 . DerHamming- Abstand zählt die Anzahl unterschiedlicher Stellen oder Charaktere zweier Strings. Allerdings ist diese Methode nur für Strings gleicher Länge anwendbar und eignet sich damit besonders gut für Ziffernfolgen und Zahlenkombinationen 3 . Zum Berechnen der Jaro-Winkler-Distanz macht man sich eine mathematische Formal zunutze. Im Grunde wird darüber das Minimum an Transpositionen einzelner Charaktere be- stimmt, das nötig ist, um eine Zeichenfolge D SurE... 1 s. Glaser 2010 2 s. Damerau 1964, S. 171ff. 3 s. Hamming 1950, S. 147ff.