Allgemeines
Ein C-Test ist eine spezielle Form eines Lückentexts, bei dem Teilwörter getilgt werden, die der Proband dann rekonstruieren muss. Die hier verwendete Grundregel zur Lückensetzung lautet dabei:
Tilge
ab dem zweiten Satz von jedem zweiten Wort die zweite Hälfte.
Textanalyse (Stand April 2013)
Die automatische Verarbeitung der eingegebenen Texte basiert auf mehreren Komponenten. Das System ist entsprechend modular aufgebaut, dass für die einzelnen Verarbeitungsschritte mehrere Implementationen zur Verfügung stehen, die abhängig von der Sprache des Textes verwendet werden.
-
Satzerkennung - sentence detection
Die Zerlegung des Textes in einzelne Sätze erfolgt durch eine OpenNLP-Komponente zur Satzerkennung. -
Worterkennung - tokenizer
Die Zerlegung von Sätzen in einzelne Wörter erfolgt durch die Java-Worterkennung (BreakIterator). -
Eigennamenerkennung - named entity recognition (NER)
Zur Erkennung von Eigennamen wird eine OpenNLP-Komponente verwendet. Derzeit steht nur für Englisch ein Modell zur Verfügung. -
Wortartenerkennung - part-of-speech tagging (POS)
Standardmäßig erfolgt die Wortartenerkennung über eine OpenNLP-Komponente, für Französisch kommt der Stanford POS-Tagger, für Italienisch, Russisch und Spanisch der TreeTagger zum Einsatz.
Funktionswörter werden derzeit nur anhand der erkannten Wortarten bestimmt. Die Zuordnung ist also durch die jeweilige Klassifizierung (Treebank) in den einzelnen Sprachen beschränkt.
Lückensetzung
Nach der Textanalyse werden die Lücken gemäß einer Lückenkonfiguration automatisch gesetzt. Anhand einstellbarer Kennzahlen (z.B. Anzahl der Funktionswörter) werden die Lücken dann bewertet. Diese Bewertung dient bislang nur dem Ersteller als Hinweis, das Einstellen des Tests ist unabhängig davon möglich.
-
Lückenkonfiguration (Testlet-Konfiguration)
Eine Lückenkonfiguration besteht aus Regeln zur Wortzählung und zur Tilgung.-
Zählung
Legt die Länge des Vortexts (bei dem noch nicht getilgt wird) sowie den Umgang mit Zahlen, Ziffern, Funktionswörtern, Eigennamen und Minimalwörtern fest. Diese Wortklassen können entweder ignoriert (nicht getilgt, nicht gezählt), übergangen (nicht getilgt, aber gezählt) oder ganz regulär getilgt und gezählt werden. -
Tilgung
Legt die maximale Anzahl der Lücken fest, sowie die Länge und Häufigkeit der Lückensetzung (z.B. die zweite Hälfte jedes zweiten Wortes).
-
-
Lückenbewertung (Testlet-Bewertung)
Basierend auf der Anzahl bestimmter Merkmale (z.B. identische Lücken oder übergangene Wörter) wird eine Ampelbewertung (Gut/Warnung/Schlecht) vorgenommen. -
Nachbearbeitung
Eine manuelle Nachbearbeitung des Lückentexts ist über einen Eclipse-Client möglich. Dort kann man:- Textanalyse manuell korrigieren
- Lücken manuell setzen/entfernen
- Lücken unterschiedlich gewichten
- Alternativen zu Lücken (mit eigener Gewichtung) angeben