Kommentar |
Sprachtechnologische Software und Ressourcen (wie Korpora, Lexika) werden zusehends auf der Basis sich rasch entwickelnder Software Engineering-Standards entwickelt und Nutzern wie Entwicklern öffentlich zugänglich gemacht. In diesem Kurs werden computerlinguistische Middleware-Architekturen (wie die Unstructured Information Management Architecture (UIMA)), computerlinguistische Repositorien für Sprachdaten sowie Software-Frameworks und -Bibliotheken (OpenNLP, NLTK, Mallet, WEKA, TensorFlow usw.) eingeführt. Ferner werden mit GitHub und MAVEN Plattformen behandelt, die kollaborative Softwareentwicklung, Code-Sharing, Versionierungs-Management und Software-Konfigurations- sowie Abhängigkeits-Management unterstützen.
Die praktischen Arbeiten besitzen in diesem Kurs einen hohen Stellenwert. Je nach programmiertechnischen Vorkenntnissen der Teilnehmer (ideal wäre solides JAVA- bzw. Python-Wissen) ist geplant, kleine Gruppenprojekte durchzuführen, in denen die vermittelten theoretischen Kenntnisse zur Ressourcenlinguistik praktisch geübt werden sollen. Das Praktikum ist Teil des Moduls M-GSW-11. |