Textart-Erkennung

Anhang ›› Indexlauf ››
Parent Previous Next

Es gibt vier wichtige Zeichensätze:






FindWord erkennt und verarbeitet alle vier Zeichensätze.




Speziell bei Text-Dateien mit der Endung .txt ergibt sich das Problem, daß sie auf jedem der vier Zeichensätze beruhen können, ohne daß so ohne weiteres erkennbar wäre, auf welchem.


Dies wird nun am Beispiel des 8-bit-ANSI-Zeichensatzes und des 8-bit-ASCII-Zeichensatzes erläutert:



Sie können solche Dateien aber auch heutzutage auf Windows-Computern erzeugen: Dazu müssen Sie zuerst über »Start« - »Alle Programme« - »Zubehör« - »Eingabeaufforderung« eine sogenannte DOS-Box öffnen.


In dieser können Sie am sogenannten DOS-Prompt beliebige Befehle ausführen. Wenn Sie dabei den Namen eines Textverarbeitungsprogrammes eingeben, wird dieses aufgerufen. Auf diese Weise öffnen Sie durch Eingabe von »edit« ein von Windows mitgeliefertes simples Textverarbeitungsprogramm:



Mit diesem können Sie nun z.B. die folgende Datei »DOS-ASCII.TXT« über die Tastatur eingeben. Sie enthält nur Worte, die jeweils zwei deutsche Umlaute enthalten, da an Umlauten der Unterschied zwischen ASCII- und ANSI-Zeichen sichtbar wird. Weiterhin lassen sich die Unterschiede zwischen den Zeichensätzen an den Umrahmungen, die als graphische Sonderzeichen nur unter dem ASCII-Zeichensatz und somit nur unter DOS zur Verfügung stehen, erkennen:



Nachdem die Datei fertiggestellt und der Editor geschlossen wurde, kann sie direkt ohne irgendeine Textverarbeitung z.B. über den Befehl »type DOS-ASCII.TXT« angezeigt werden:




Wenn Sie diese DOS-Datei unter Windows z.B. mit WordPad (»Start« - »Alle Programme« - »Zubehör« - »WordPad«) öffnen, interpretiert diese Textverarbeitung die ASCII-Zeichen als ANSI-Zeichen, was bei den Umlauten und den graphischen Sonderzeichen ziemlich unschöne Folgen hat - die Datei ist mehr oder weniger unlesbar:



Umgedreht gilt das Gleiche: Wenn Sie nun die gleichen Worte mit WordPad in die Datei »Windows-ANSI.txt« schreiben, dann arbeiten Sie mit dem ANSI-Zeichensatz. Damit stehen Ihnen die graphischen Umrandungs-Zeichen nicht mehr zur Verfügung, aber ansonsten sehen die Worte genauso aus:



Solange Sie diese Datei nur mit Windows-Programmen öffnen, ist alles in Ordnung. Aber wenn Sie sie sich in der DOS-Box z.B. mit dem Befehl »type« anzeigen lassen, erscheinen die Umlaute wieder falsch, da DOS den ASCII-Zeichensatz erwartet:




Dies wird offensichtlich, wenn beide Dateien in einem Indexlauf erfaßt werden. FindWord interpretiert die unterschiedlichen Zeichensätze und zeigt alle Worte richtig an: