Hier eine erste Statusmeldung zur Datenbereinigung, die seit einiger Zeit läuft: Wir haben uns zunächst den 21.444 Datensätzen des Fotokino-Bestands aus dem Bereich der Sammlung Photographie zugewandt (davon publiziert siehe http://www.museum-digital.de/san/index.php?t=sammlung&instnr=17&gesusa=586): Ohne dass der Datenfeldkatalog für diese Sammlung vorher fertig geworden wäre (siehe die letzten beiden Blogs), haben wir die Bereinigung begonnen. Wir dachten, dass die hier zu putzenden Dinge klar und eindeutig sind und durch einen Datenfeldkatalog nicht verändert würden, was sich im Wesentlichen auch bestätigt hat. Punktuell kann es natürlich sein, dass die Datensätze nochmal angefasst werden müssen. Aber sonst hätten wir auf dieses Dokument warten müssen und würden immer noch hier sitzen …
Die allererste Großerfahrung war: Der kleinere Teil der Fotografen, die sich im Künstlermodul tummeln, haben biographische Daten, geschweige, dass sie in den entsprechenden Spezialfotolexika verzeichnet sind. D. h. Tippfehler, die beim Schreiben der Namen passiert sind, Namensvarianten (Künstlernamen etc.) oder Zweit- und Drittvornamen bzw. deren Abkürzung sind schwer zu verifizieren und zu einem validen Künstlerdatensatz zu fusionieren.
Die nächste, einige innere Spannkraft erfordernde Erfahrung war, dass unsere Software MuseumPlus keine Toleranz gegenüber Ziffernvarianten kennt. Das heißt ss oder ß sind für die Datenbank völlig verschiedene Zeichen und genauso gilt dies für ausländische Sonderzeichen (wir sind verwöhnt von google). Möglicherweise kann man es ihr beibringen, aber wir müssen noch herausfinden wie.
Das ganze Problem lautet folgendermaßen (und ich erlaube mir mal, dieses hier in aller Vollständigkeit auszubreiten, weil hieran exemplarisch deutlich wird, mit welchen "komplexen" Details wir derzeit kämpfen):
Der Fotokinoverlag, der in Halle und Leipzig von 1957 bis 1992 bestand, publizierte in seinen Zeitschriften überwiegend Abzüge von Fotografen aus der DDR und aus Osteuropa. Dabei handelt es sich zum größeren Teil um noch lebende Personen (darunter auch sehr viele Amateure), deren Werk oft (noch) nicht zu einer systematischen Würdigung gefunden hat, bzw. deren Biografie schwer zu ermitteln ist. Und "Osteuropa" heißt dabei: Es sind über 1700 Fotografen aus Polen, Weißrussland, Russland, Ungarn, aus der Ukraine, Tschechien, der Slowakei, aus Estland, Lettland, Litauen, Rumänien, Bulgarien sowie aus (Ex-)Jugoslawien. Dies ist natürlich extrem spannend, bringt aber die Schwierigkeit mit sich, dass Sonderzeichen aus mutmaßlich 20 (zwanzig) Sprachen in den Namen vorkommen. Die richtige Schreibweise (mit allen Sonderzeichen) bzw. die Toleranz der Datenbank gegenüber den Sonderzeichen, die automatisch in deutsche Buchstaben übersetzt werden müssen (z. B. c mit einem ungedrehten Dach zu c), ist von fundamentaler Bedeutung, weil die Suche in der Datenbank zum ganz überwiegenden Teil (ich schätze zu 90%) über die Namen läuft. (Übrigens hat die Blogsoftware mein erstes c mit einem umgedrehten Dach, das ich aus unserer Datenbank herauskopiert habe, in ein ? umgewandelt. Das aus der Zeichentabelle meines Computers (Start > Programme > Zubehör > Systemprogramm > Zeichentabelle) genommene Zeichen blieb zwar nach dem Speichern erhalten, hat aber den Logout nicht überstanden. So helfe ich mir mit "c mit einem umgedrehten Dach":)))
Natürlich sind wir nicht die Ersten, die dieses Problem entdecken. Menschen, die aus anderen Ländern nach Deutschland eingewandert sind, mussten schon immer die Buchstaben ihres Namen "transliterieren" (Substantiv = "Transliteration"), d. h. es gibt Tabellen, in denen steht, aus welchem (ausländischen) Zeichen welches deutsche wird.
Für dieses Verfahren benötigten wir aber eine verlässliche Grundlage. Die Daten sind über 20 Jahre und damit zu einem großen Teil noch in den Anfangsjahren des Computers erzeugt worden. Sonderzeichen einzufügen war zum Teil nicht möglich (seit wann gibt es die Zeichentabelle in Computern?), zum Teil lagen aber auch die Grundlagen dafür nicht vor, weil die Namen auch auf der analogen Vorlage nicht immer richtig oder mit den Sonderzeichen geschrieben waren …
Angenommen die Grundlage stimmt: Die deutsche und englische Transliteration der Namen unterscheidet sind, weil sie sich natürlich an der möglichst ähnlichen Aussprache des Wortes in der Zielsprache orientiert (bzw. sch ist im Englischen sh). Nun hat sich in den letzten Jahren eingebürgert, die Namen englisch zu transliterieren, was bei der insgesamt von der englischen Sprache dominierten Welt und beim ebenfalls überwiegend englischsprachigen Internet natürlich die zukunftsweisendere Form ist. So haben wir aus Herrn Nikolai Akimow die Variante "Akimov" gemacht und selbiges im dafür vorgesehen Wiederholfeld in MuseumPlus eingetragen. Als wir allerdings das Finden dieser Namensvarianten ausprobieren wollten, stellten wir fest, dass man größere Verrenkungen machen muss, um in der Suche diese Variante angezeigt zu bekommen. Jedenfalls ermöglicht die Datenbak NICHT, dass in Wiederholfeldern abgelegte Namensvarianten (z. B. auch Künstlernamen, Mädchennamen etc.) bei der Künstlernamenssuche mit angezeigt werden. Diese muss man über die Erweiterte Suche ansteuern und zwar so kompliziert, dass man schon wissen muss, dass dort etwas eingetragen ist, um es anschließend zu suchen …
Um die fehlenden Lexika auszugleichen (aber wahrscheinlich auch sonst) und sich anderweitig zu helfen, hat sich gezeigt, dass Literatur, in der die Fotos publiziert worden sind, unbedingt hinzugezogen werden muss, weil oft Wissen zur richtigen Einschätzung von Zusammenhängen, die sich in den Datensätzen niederschlagen und bereinigt werden müssen, notwendig ist. Dafür ist der Zugriff auf eine Bibliothek nötig, aus der sich jeder die Titel holen kann, die er oder sie gerade braucht. Um kompetent agieren zu können, müsste eigentlich die Gelegenheit gegeben sein, sich bis zu einem gewissen Grad einlesen zu können. Erst dann wird es möglich, in der Datenbank Zusammenhänge anzulegen und Unvollständiges oder Fehler, die keine Tippfehler sind, zu bemerken. Insofern ist Datenbankarbeit keine Praktikantenarbeit. Dafür sind die Spezialdatenbanken heutzutage zu komplex und ausdifferenziert.
Obwohl wir das Gefühl haben, nur das Notwendigste zu bereinigen, ist die Zahl an Dingen, die noch zu tun bleibt überwältigend. Dazu muss ich hinzufügen, dass man sich in der Datenbank kaputt arbeiten kann, ohne nennenswert voran zu kommen: Wenn man jedes Feld so gut wie möglich ausfüllen will, stirbt man über der Erledigung der Aufgabe. Das ist also nicht unser Ziel und auch nicht unser Problem. Aber das Einfüllen der migrierten Informationen in die richtigen Felder in MuseumPlus und in der richtigen Reihenfolge kommt einem teilweisen Neuschreiben der Informationen nahe. Wir werden über kurz oder lang nicht darüber herum kommen, genau auszuwerten, welche Dinge wegfallen müssen. Denn natürlich ist es so, dass der eine oder andere schneller bzw. langsamer arbeitet. Aber bei der jetzigen Geschwindigkeit sind wir nicht in drei oder vier Monaten mit allem fertig, wie dies geplant war.
Zum Schluss noch einige konstruktive Infos:
Bei der Bereinigung der Künstlernamen arbeiten wir viel mit der "Gemeinsamen Normdatei" (GND), die von der Deutschen Nationalbibliothek (DNB) online bereitgestellt und gepflegt wird, aber erst vom Bibliothekszentrum Konstanz (BSZ) als OGND online durchsuchbar gemacht wird. Dorthin wenden wir uns mit der Frage, ob die entsprechenden Namen einen Normdatensatz und -nummer (und ggf. weitere Information) haben. Die dort gewählte Ansetzung der Namen ist für uns verbindlich. Die ausländischen Namen suchen wir unter viaf.org (Virtual International Authority File), der internatationalen Normdatei für Personennamen und anderes, wobei sich dort das Problem ergibt, dass zum Beispiel bei ungarischen Namen ungarische Informationen stehen, die gelesen und verstanden werden wollen. Doch wer versteht alle diese Sprachen?
Danach suchen wir in Wikipedia (auch die entsprechenden landessprachlichen Seiten) und nehmen sofern weiterführend die Informationen zu dem jeweiligen Künstler unter Angabe des Datums in die Datenbank auf (nicht den gesamten Eintrag).
Jüngst haben wir für jüngere Fotografen das fotografenwiki.org gefunden. Dort waren genauere Infos als auf Wikipedia vorhanden. Anschließend hilft die blanke Suche des in Anführungszeichen geschriebenen Names in google oft weiter. Sofern sich sonst im Netz Informationen zu dieser Person finden, werden sie so gefunden. Anschließend haben wir die Fotografendatenbanken auf fotoerbe-sachsen-de und die der Deutschen Fotothek befragt. Außerdem können die online stehende Allgemeine Deutsche Biografie (ADB) und Neue Deutsche Biografie (NDB) hilfreich sein. Diese Liste ist sicherlich nicht vollständig.
Die OGND nutzen wir mittlerweile auch für die korrekte und vollständige Schreibung und Verzeichnung der Ausstellungen in der Datenbank: Durch die Datenmigration sind zum Teil bis zu zehn Ausstellungen in ein einziges Feld gewandert. Diese müssen fein aufgedröselt und fehlende Infos recherchiert werden. Die ebenfalls dort bereitgestellten Geografica, Institutionen und Schlagworte werden wir uns nach und nach erobern: Fortsetzung folgt.