UdZForschung 2-2018

41 UdZForschung – Unternehmen der Zukunft 2/2018 FIR-Forschungsprojekte in eine andere umzuwandeln 4 . Die „Most frequent k characters“ ist eine Technik, um zueinerschnellenEinschätzungzugelangen. Dabei wird verglichen, wie viele sichwieder- holende identische Zeichen bei zwei Strings vorhanden sind. Bei N-Grammen handelt es sich nicht um einen Algorithmus, der informatisch umgesetzt wird, sondern um das Ergebnis der Zerlegung eines Textes in Fragmente. N ist die Anzahl aufeinanderfol- gender Fragmente (Buchstaben, Phoneme, Wörter etc.), die als N-Gramm zusammen- gefasst werden. Sie dienen hauptsächlich zur Beantwortung der Frage, wie wahr- scheinlich es ist, dass auf eine bestimmte Zeichenfolge einbestimmtes Zeichen folgt 5 . Allgemein handelt es sich hierbei um eine Auswahl an Verfahren, die in mehreren Bereichen (von Datenbankdurchsuchung bis DNA-Abgleichen) Anwendung finden. Grundsätzlich haben alle das gleiche Ziel, beinhalten aber andere Vorgehensweisen und können dadurch zum Teil unterschied- licheErgebnissebeigleicherProblemstellung liefern. Die Levenshtein-Distanz als eine der besten Vorgehensweisen ist beispiels- weise dann gut, wenn es darum geht, die typischen Tippfehler herauszufiltern, nicht aber, um zu erkennen, dass die Zahlenfolge „20140917“ ein Datum repräsentieren könnte.IndemZusammenhangstelltsichso- mit dieHerausforderung, einenAlgorithmus zu finden bzw. zu entwickeln, der die mei- sten der genannten Anforderungen erfüllt. Selbstlernende Suchmaschinen sollen nicht nur fähig sein, ähnliche Treffer als gültig zu präsentieren, Tippfehler zu erkennen und rankingbasierte Hierarchien aufzu- stellen, sondern auch komplexe Zeichen- kombinationen aus Buchstaben, Zahlen oder Sonderzeichen auch erkennen und interpretieren zu können. Literatur Cohen, W. W.; Ravikumar, P.; Fienberg, S. E.: A comparison of string distance metrics for name-matching tasks". KDDWorkshop on Data CleaningandObjectConsolidation3,S.73 –78.ht - tps://www.cs.cmu.edu/~wcohen/postscript/kdd- 2003-match-ws.pdf (zuletzt geprüft: 17.11.2018) Damerau, F. J.: A technique for computer detection and correction of spelling errors. In: CommunicationsoftheACM.7(1964)3,S.171–176. Bild 1: Funktionsweise unterschiedlicher Ähnlichkeitsalgorithmen (eigene Darstellung) Glaser, A.: Effiziente Berechnung von seman- tischerÄhnlichkeitinGermaNet.Studienarbeit Nr. 107 imFachComputerlinguistik, Institutfür Maschinelle Sprachverarbeitung. Stuttgart, Univ., Stud-arb., 2010. http://www.ims.uni- stuttgart.de/institut/mitarbeiter/glaseraa/pu- blikationen/studienarbeit-glaser.pdf (zuletzt geprüft: 17.11.2018) Hamming, R. W.: Error-detecting and error- correcting codes. In: Bell System Technical Journal XXIX (1950) 2, S. 147 – 160. Schönpflug, W.: N-Gramm-Häufigkeiten in der deutschen Sprache. I. Monogramme und Digramme. In: Zeitschrift für experimentelle und angewandte Psychologie XVI (1969) o. H., S. 157 – 183. Ansprechpartner: Projekttitel: SurE Projekt-/Forschungsträger: BMWi; AiF Förderkennzeichen: 19270 BG Projektpartner: Asseco Solutions AG; godesys AG; KEX Knowledge Exchange AG; OHST Medizintechnik AG; PSI Automotive & Industry GmbH; Trovarit AG; Unit4 Business Software GmbH; Epicor Software Deutschland GmbH; GITO mbH Verlag für Industrielle Informations- technik und Organisation; COSMO CONSULT AG; ams.Solution AG; Universität Potsdam Lehrstuhl für Wirtschaftsinformatik Internet: sure.fir.de Gregor Josef Fuhs, M.Sc. Wissenschaftlicher Mitarbeiter FIR, Bereich Informationsmanagement Tel.: +49 241 47705-507 E-Mail: GregorJosef.Fuhs@fir.rwth-aachen.de 4 s. Cohen et. al 2003, S. 73ff. 5 s. Schönpflug 1969, S. 157ff.