UdZ / Issue 01.22

UdZ 01.22 / 67 kostenfreie oder kostenpflichtige APIs verwendet werden, um Textdokumente zu beschaffen. Beispiele dafür sind arXiv, Springer LinkoderScienceDirect. Zumanderen eignet sich dieNutzung eines Webscrapers, der nach Internetdokumenten und Webseiten sucht und mit den Schlagwörtern verbundene Dokumente abspeichert. Beschreibende Schlagwörter können hierbei beispielsweise in Abstracts oder Keyword-Listen von Artikeln gesucht werden. Für die Programmierung vonWebscrapern eignen sich Code-Bibliotheken der Pro-grammiersprachePythonwie beispielsweiseScrapy, SeleniumundBeautifulSoup. Ist die Datenbasis geschaffen, folgt in Phase 3 die Identifizierung der relevanten Technologien für den beschriebenen Anwendungsfall. Dafür werden Methoden des Topic-Modelings eingesetzt. Dabei ist die Auswahl passender Algorithmen des Natural-Language-Processings maßgeblich für den Erfolg der Identifikationsaufgabe. Besonders gut eignen sich Transformer-Modelle (z. B. SciBert2) , die mithilfe vortrainierter Sprachenmodelle komplexe, schriftliche Zusammenhänge (z. B. biologischer oder technologischer Art) in Texten erkennen können3. Die vorläufig identifizierten Technologien müssen abschließend als solche bestätigt werden, weshalb ein Abgleich derer mit bestehenden Technologiedatenbanken erfolgen muss. Sofern keine Datenbank verfügbar ist, müssen die Ergebnisse manuell evaluiert werden. Entsprechen die Ergebnisse der Identifikation nach einem Durchlauf der Phasen 2 und 3 nicht dem Gewünschten, sollten die Phasen beliebig oft wiederholt werden, z. B. durch die Anbindung neuer APIs (siehe Phase 2). Nachdem ausreichend viele Technologien gefunden wurden, werden in Phase 4 die identifizierten Technologien inklusive der dazugehörigen Textdokumente nach den Schlagwörtern gruppiert, um sie im Technologieradar für den Nutzer als Sektoren anzeigen zu können. Technologien können dabei in mehreren Sektoren eines Radars erscheinen. In Phase 5 wird für jede identifizierte Technologie das TRL bestimmt. Die Lösung dieser Problemstellung ist dem alten politischen PrinzipDivide et imperaentlehnt (dt. Teile und herrsche, engl. divide and conquer). Hier bedeutet dies, dass eine komplexe Problemstellung in beherrschbare, lösbare Teilprobleme unterteilt wird. Die Bewertung einer Technologie basiert hier auf mehrerenTextdokumentenaus der gesammeltenDatenbasis. Im Umkehrschluss wird nicht direkt eine umfassende Bewertung für eine Technologie angestrebt, sondern mehrere kleine Bewertungen, die daraufhin durch eine Heuristik zusammengefasst werden. Diekleinste zubetrachtendeEbene ist nunnicht nur einTextdokument, vielmehr sind es einzelne Abschnitte innerhalb eines Textdokuments, z. B. Paragrafen. Diese Abschnitte werden zur Bewertung mittels eines überwachten Lernansatzes (Sprachenused to search the Internet for documents and web pages and store documents containing the keywords. The search for descriptive keywords may focus on the abstracts or keyword sections of journal articles, for example. Python code libraries such as Scrapy, Selenium, and BeautifulSoup provide suitable tools for the programming of web scrapers. Once the database has been created, phase 3 involves identifying the relevant technologies for the use case in question. To this end, topic modeling methods are being used. The selection of suitable natural language processing algorithms is crucial for the success of the identification task. Transformer models (e.g. SciBert), which can recognize complex (e.g. biological or technological) relationships in written texts with the help of pre-trained language models, are particularly suitable for this task. The preliminarily identified technologies must be subsequently confirmed as such – for this reason, the results must be compared with existing technology databases. If no database is available, the results must be manually evaluated. If the results of the identification process are not satisfactory after completion of phases 2 and 3, these phases should be repeated as often as desired, e.g., by connecting new APIs (see phase 2). After a sufficient number of technologies has been identified, in phase 4 the identified technologies and the associated text documents are grouped according to the keywords in order to be able to show them as sectors in the technology radar. Technologies can appear in several radar sectors. In phase 5, the TRL is determined for each of the identified technologies. The solution to this problem takes its cue from the ancient political principle of divide and conquer. In the present context, this means that a complex problem is divided into manageable, solvable sub-problems. The evaluation of a technology is based on several text documents from the created database. Conversely, the aim is not directly to produce a comprehensive evaluation for a technology, but rather to produce several small evaluations, which are then summarized using a heuristic. The smallest level to be considered is not a text document, but rather individual sections within a text document, e.g. paragraphs. These sections are classified for evaluation using a supervised learning approach (language model + transformer). As an example, the classes of the official TRL of NASA from 1 to 9 or the categories ‘low’, ‘medium’ and ‘high’ can be used. It is essential that an additional category is added, which labels the paragraph to be ‘devoid of information’. The final step is to derive an overall score from this, using a heuristic over all the sub-scores of a technology. In the simplest case, using the mean is possible. More advanced approaches include 2 s. Beltagy et al. 2019, S. 1 ff. 3 s. Wolf et al. 2019, S. 1 ff. 2 Beltagy et al. 2019, p. 1 et seqq. 3 Wolf et al. 2019, p. 1 et seqq.

RkJQdWJsaXNoZXIy NzcyMw==