DE EN 
 TextGrid  >  TextGridLab Beta

Tokenizer

Der Tokenizer zerlegt einen Text in logische Einheiten (Tokens), z.B. in Wörter und Satzzeichen, die dann von weiterverarbeitenden Programmen als solche erkannt werden können. Diese Einheiten werden durch XML-Tags markiert. Der Tokenizer führt einen vom Unicode-Konsortium empfohlenen Algorithmus durch, um Wortgrenzen zu bestimmen. Die Namen der entsprechenden Elemente (für Wörter und Zeichen), sowie vordefinierten Tokens - z.B. Abkürzungen, Substantive oder reguläre Ausdrücke (z.B. für Datumsformate) - können in der Toolkonfiguration spezifiziert werden. In Tokens zerlegte Texte können dann mit anderen Tools weiterbearbeitet werden, wie z.B. mit dem Lemmatizer.

Der Tokenizer Web Service (SOAP) akzeptiert zwei Parameter:

  • indata (xs:string) - die XML-codierten, zu tokenisierenden Textdaten
  • config (xs:string) - die Konfiguration in XML Syntax

Der Tokenizer kann nur über die Workflow Tools verwendet werden.

Weitere Informationen finden Sie hier:

R2.3: User's Manual TextGrid-Tools (Seiten 75-77)