UdZ / Issue 01.25

UdZ 01.25 / 49 Neben der Zusammenführung der beiden Datensätze zu einer gemeinsamen Tabelle müssen die Daten weiter aufbereitet werden, um eine konsistente und qualitativ hochwertige Datenbasis zu schaffen. Im Projekt PrEvelOp wurden hierfür verschiedene Funktionen zur Datenvorverarbeitung und -analyse entwickelt. Die explorative Datenanalyse umfasst dabei die Analyse der vorhandenen Datenstruktur. Hierzu gehören die Identifikation von Datentypen und potenziellen Ausreißern, beispielsweise durch die Berechnung des Interquartilsabstands. Eine Prüfung der Datenqualität wird durchgeführt, indem Fehl- und Leereinträge erkannt werden, die häufig in Auftrags- und Artikeldaten auftreten. Für die automatisierte Datenvorverarbeitung wurden Funktionen wie Lowercasing und Encoding implementiert. Dabei werden Zeichenketten wie Artikelnummern oder Artikelbezeichnungen normalisiert und vereinheitlicht. So wird beispielsweise aus Varianten gleicher Bedeutung wie „Artikel“, „artikel“ und „ARTIKEL“ eine einheitliche Form erstellt. Dieses Verfahren stellt sicher, dass beim anschließenden Encoding unterschiedliche Schreibweisen nicht fälschlicherweise als unterschiedliche Attribute verarbeitet werden. Diese Maßnahmen sind essenziell, da maschinelle Lernverfahren Zeichenketten nicht direkt verarbeiten können4. Neben diesen automatisierten Verfahren wird auch das Domänenwissen der Anwender berücksichtigt. Die manuelle Anpassung bestimmter Vorverarbeitungsschritte, wie die Attributauswahl für die Clusteranalyse, ermöglicht es, CAD and process data, providing a solid foundation for subsequent analyses. In addition to merging the two data sets into a common table, the data must be further processed to create a consistent, high-quality database. In the PrEvelOp project, various functions for data pre-processing and analysis were developed to achieve this goal. Exploratory data analysis involves analyzing the existing data structure, including identifying data types and detecting potential outliers, for example by calculating the interquartile range. A data quality check is carried out by identifying incorrect or missing entries, which commonly occur in order and item data. For automated data pre-processing, functions such as lowercasing and encoding have been implemented. Character strings such as article numbers or article descriptions are normalized and standardized. For example, variants with the same meaning, such as “article”, “artikel”, and “ARTIKEL” are converted to a standardized form. This ensures that different spellings are not incorrectly treated as different attributes during subsequent encoding. These steps are crucial, as machine learning methods cannot process character strings in their raw form.4 In addition to these automated processes, users' domain knowledge is also considered. Manual adjustments to certain pre-processing steps, such as attribute selection for cluster analysis, allow both item-specific and process- Text Te xt Te xt Te xt CAD component data Extraction with external software Structured component data Manufacturing program data Process data Structured process data Matching via component number Pre-processing Figure 2: Data Preparation Procedure 4 see Müller and Guido 2017, p. 214 4 s. Müller U. Guido 2017, S. 214

RkJQdWJsaXNoZXIy NzcyMw==