Tokenizer |
Der Tokenizer zerlegt einen Text in logische Einheiten (Tokens), z.B. in Wörter und Satzzeichen, die dann von weiterverarbeitenden Programmen als solche erkannt werden können. Diese Einheiten werden durch XML-Tags markiert. Der Tokenizer führt einen vom Unicode-Konsortium empfohlenen Algorithmus durch, um Wortgrenzen zu bestimmen. Die Namen der entsprechenden Elemente (für Wörter und Zeichen), sowie vordefinierten Tokens - z.B. Abkürzungen, Substantive oder reguläre Ausdrücke (z.B. für Datumsformate) - können in der Toolkonfiguration spezifiziert werden. In Tokens zerlegte Texte können dann mit anderen Tools weiterbearbeitet werden, wie z.B. mit dem Lemmatizer.
Der Tokenizer Web Service (SOAP) akzeptiert zwei Parameter:
- indata (xs:string) - die XML-codierten, zu tokenisierenden Textdaten
- config (xs:string) - die Konfiguration in XML Syntax
Der Tokenizer kann nur über die Workflow Tools verwendet werden.
Weitere Informationen finden Sie hier:
R2.3: User's Manual TextGrid-Tools (Seiten 75-77)