Virtugrade: Tübingen, July 25th, 2000
For this presentation we have prepared a sample containing about 5800 and 124 image tags.
This is an example of a single entry:
10.8.98 5:50 Uhr Wakajara [2/10.08.98 Waka] -> Um 7:00 Uhr fuhren wir los, je zu holen. [7/F Je] [7/F VIII-27a] Ich stellte mir das alles immer noch so vor, daß die Krebse am Meeresstrand seien. Nach zwei Stunden Fahrt über Waranoko kamen wir in einen großen Flußarm [7/F VIII-28] [7/F VIII-29] [7/F VIII-30]. An den schlammigen Ufern (Schlamm: jobotoboto) des Mangrovenwaldes [7/F VIII-31] [7/F VIII-32] machten wir halt und stiegen aus. Manuela, María Bermudes und ihre Enkelin, Joseito, Santas Mann, Manuelas Mann, Juri. Doris bleib bei Ugenio zurück und schrie wie am Spieß was im Endeffekt eine perfekte Orientierungshilfe ist. Manuela, der ich eigentlich folgen sollte, ist so schnell verschwunden, daß ich versuche, María Bermudes zu folgen, die mit Juri und ihrer Enkelin los zieht. Ich komme nicht hinterher, bleibe im Schlamm stecken, sinke einmal knietief ein, kriege Angst, wenn ich mich nun verirre? Ich klettere über Mangrovenwurzeln, das klappt schon etwas besser. Wenn ich die Krebse zu sehen kriege, sind sie schon im Korb. Als María Bermudes Korb voll wird [1/T III-182] und sie langsamer wird, erreiche ich sie endlich. Es gibt viele Stechmücken, mein Repelente hilft auch nur kurz, da ich schwitze. Es riecht nach faulen Eiern. Dann, viele Krebste gibt es nicht, fängt es an, zu regnen. Mir war heiß, daher stört mich der Regen nicht sonderlich. Als wir dann wieder losfahren zum nächsten Platz, wird mir kalt und ich frage nach der schwarzen Plastiktüte, die ich als Regenschutz mitgenommen hatte, Manuela hat Kleider reingetan. Sie gibt mir ein Stück der großen Regenplane von Joseitos Boot. |
Je.JPG
|
The starting point for our program were the following tools and data:
grep -A10 -B15 '7/F' $1 | tr -d '.' | stop_columns_stef.awk
| sort > output_stef.txt
|
The output of the "grep" step is a set of text parts separated by "--":
20.8.98 5:50 Uhr Wakajar [2/20.08.98 Waka] -> Gestern fuhren wir um 9:00 Uhr los, kamen gegen halb sieben zurück. Mein Daku wollte so gegen 17:00 Uhr los. Er arbeitete an einem Hauwerkzeug, um moriche-Palm-Stämme auszuhöhlen [7/F Daku] [7/F XI-16] [7/F XI-18] [7/F XI-19] [7/F XI-20] [7/F XII-22] und hatte keine Lust mehr. Als das Mädchen aus Moriche mit Doris auf dem Arm vorbeikam und diese auf den Boden setzte, woraufhin Doris (natürlich) anfing zu heulen, interpretierte er dies als Hunger. (=> Babys als Vorwand seine Wünsche auszudrücken.) Er fügte hinzu, es sei schon spät und wollte von mir die Uhrzeit wissen. Dann gingen wir los zur "vieja". die und die anderen Frauen wollten allerdings noch weiter kneten und taten dies auch. So daß wir erst um 18:00 Uhr los kamen. -> Essen -- spanischen Wendungen (nur wenn ich da bin?) wobei die Hälfte unkorrekt ist. => Die Männer neigen allgemein dazu, spanische Ausdrücke einzuwerfen. |
We can now apply various UNIX commands such as "tr" in order to filter out unwanted characters.
The main part of the indexing step is done by a small awk program.
The output is a list of word with references to document numbers and foto IDs:
Korb XV-59 6 1 Korb erstes_Foto 3 1 Korb, VII-34] 1 1 Korbgeflecht VII-18a 0 1 Korn VII-35a] 1 1 Krebs VIII-35 3 1 Krebs erstes_Foto 3 1 Krebs-i10] Krebs-i10 3 1 Krebse Je][7/ 2 1 Krebse VIII-32 2 1 Krebse: CecilioK2 3 1 |
Krebs-i10.JPG |