In agreement with the participants the course will be held either in German or English. Please find below the English course description.
# German #
Die Veranstaltung ist als praxisnahe Einführung in die Verarbeitung von Texten und Text-Korpora mit Python konzipiert. Folgende Inhalte sollen dabei vermittelt werden:
1) grundlegende Kenntnisse über korpuslinguistische Forschungsfragen und Methoden sowie über Textrepräsentation und -kodierung im Computer
2) Kenntnisse über unterschiedliche Methoden und möglichen Workflows für die Vorverarbeitung, Annotation und Analyse von Texten für computergestützte Untersuchungen
3) das Erlernen von Python-Kenntnissen mit dem Ziel, einfache Textanalysen selbst durchführen zu können
4) die praktische Anwendung der vermittelten Kenntnisse durch einfache Forschungsprojekte
Im Fokus dieser Veranstaltung stehen einfache Analysemethoden wie die Erkennung von Satz- und Wortgrenzen (sog. Tokenisierung), die Extraktion von Wortfrequenzen, oder die Erkennung von spezifischen Wortgruppen.
Es werden allgemeine Grundlagen in der Programmierung mit Python vermittelt. Das Ziel ist, dass praktische Untersuchungen mithilfe der Python-Standardbibliothek und Modulen aus der Bibliothek NLTK durchgeführt werden können. Vorkenntnisse in Python oder einer anderen Programmiersprache sind nicht notwendig.
Als Prüfungsleistung ist ein Projektbericht eines Textkorpus' in Absprache mit den Prüflingen geplant. Hier sollen die erlernten Vorlesungsinhalte auf das entsprechende Korpus angewendet, anhand einer vorher festgelegten Fragestellung hin analysiert und abschließend in Form einer Ausarbeitung zusammengefasst werden.
Die Veranstaltung ist ohne Präsenzveranstaltungen geplant und setzt sich aus Vorlesungs- und Übungseinheiten zusammen. Während erstere durch Videos abgedeckt werden, soll der Ablauf der Übungseinheiten gemeinsam mit den Teilnehmenden vereinbart werden. Mögliche Optionen stellen etwa Videokonferenzen oder die Unterstützung durch Chat-Tools dar.
# English #
The course is intended as a practical introduction to processing texts and text corpora with Python. Following topics will be covered:
1) Basic understanding of corpus linguistic research and methodology as well as text representation and encoding in computers
2) Familiarity with different methods and possible workflows for the preprocessing, annotation and analysis of texts for computer-based investigations
3) Learning Python skills with the aim of being able to perform simple text analysis
4) Hands-on practical application of the skills acquired through simple research projects
This course focuses on simple analysis methods such as the recognition of sentence and word boundaries (so-called tokenization), the extraction of word frequencies, or the recognition of specific word groups.
General basics in programming with Python are taught. The goal is to learn how to analyse and experiment with corpora using the Python standard library and modules from the NLTK library. Previous knowledge of Python or another programming language is not necessary.
As an assessment, a project report of a corpus analysis in consultation with the examinee is planned. The lecture contents are to be applied to the corresponding corpus, analysed on the basis of a previously defined question and summarised in the form of a report.
The course is planned without in-class sessions and consists of lecture and exercise units. While the former are covered by videos, the organisation of the exercise units is to be agreed upon together with the participants. Possible options include video conferencing or support through chat tools. |