Projektarbeit
Datenqualität, Datenqualitätsprobleme und Verbesserung von Datenqualität anhand von Beispielen freier Internetsoftware
Inhalt
* Bestimmung von Datenqualitätsmerkmalen, -problemen und Verbesserung der Datenqualität anhand von Beispielen freier Internetsoftware
* Bedeutung des Begriffs „Qualität“ in Data Warehouse - Umgebungen
Beschreibung
Die Projektarbeit beschäftige sich mit den Möglichkeiten der Beschreibung von Datenqualität und der sich daraus ergebenen Probleme in laufenden Systemen. Zur Sicherung bzw. Verbesserung von Datenqualität wurde eine mögliche Vorgehensweise beschrieben und verschiedene freie Softwarewerkzeuge zur Analyse und Verbesserung von Datenqualität getestet. Schließlich wurde ein Ausblick auf die Wichtigkeit von Datenqualität und deren Sicherung in Datawarehouses gegeben.
Problembeschreibung
Datenqualität bildet einen kritischen Bereich in allen Teilen des Informationsmanagements.
Zunehmend basieren wichtige Geschäftsentscheidungen auf aus Daten gewonnenen Informationen. Die Methoden und Verfahren des Business Intelligence schaffen hierfür den organisatorischen und technischen Rahmen. Dabei ist die Qualität der zugrunde liegenden Daten für die Verlässlichkeit abgeleiteter Aussagen von zentraler Bedeutung. Aus verschiedenen Gründen ist die Datenqualität in Unternehmen häufig mangelhaft. Die Projektarbeit beschäftigt sich daher mit der Bestimmung und Verbesserung der Datenqualität.
Kritisch ist vor allem, dass die Komplexität von Systemen immer weiter zunimmt.
Ein Data Warehouse ist so ein komplexes System, das hochaggregierte, qualitativ hochwertige Daten von heterogenen Quellen liefern muss. Auf Grund der dynamischen Änderungen der Anfragen und der Umgebung beziehen sich Data Warehouse Systeme auf Meta Datenbanken um ihre Operationen zu kontrollieren und bei ihrer Weiterentwicklung zu helfen.
Auf Grund der großen Anzahl von Komponenten in einem DW ist eine manuelle Qualitätskontrolle praktisch unmöglich.
Ansätze wie sie dennoch bestimmt und verbessert werden kann, werden aufgezeigt.
Vorgehensweise
Zunächst wurden die Begriffe "Daten" und "Informationsqualität definiert. Daraus hervorgehend konnte eine Klassifizierung von Datenqualität vorgenommen und entstehende Qualitätsprobleme dargestellt werden. Anschließend wurde eine Methode zur Qualitätsbestimmung und -verbesserung beschrieben. Anhand dieser Punkte wurde im Folgenden Werkzeugen zur Sicherung und Verbesserung der Datenqualität in verschiedene Bereiche eingeteilt. Als nächstes wurde aus verschiedenen Fachartikeln eine Übersicht über vorhandene Tools erstellt und im Internet recherchiert welche dieser Werkzeuge frei verfügbar (als Demo wie auch als Vollversion) sind. Diese wurde dann runtergelanden, installiert und getestet.
Abschließend wurde betrachtet inwiefern der Begriff der Qualität in Data Warehouse umgebungen neu definiert werden muss. Bereits angesprochene Werkzeuge wurden für diese Umgebung neu eingeteilt.
Ziel
Ziel war es eine Vorgehensweise zu beschreiben wie Datenqualität sichergestellt beziehungsweise verbessert werden kann und welche Werkzeuge hierfür zur Verfügung stehen bzw. was diese leisten.
Tools
Zu den getesteten Tools gehören unter anderen WizRule der Firma WizSoft, TrueMatch der Firma Dedupe Software, DB-Examiner von DBE Software und Quality Manager der Firma Ascential Software.
Personen
Ergebnis
Da der Begriff Datenqualität stark subjektiv geprägt ist, ist es nahezu unmöglich ein geeignetes Modell zur Erkennung, Sicherung und Verbesserung von Datenqualität zu erstellen. Bereits an diesem Gesichtspunkt gehen die Meinungen und Wünsche auseinander. Es ist somit klar, dass unterstützende Werkzeuge niemals das ganze Spektrum abdecken, das benötigt wird. Allerdings wäre eine leichtere Kombinationsmöglichkeit der verschiedenen Tools wünschenswert. Hierfür wäre jedoch die Einführung eines Qualitätsstandards bzw. eines Qualitätsmodells von Nöten. Ähnlich wie die Foundation für Data Warehouse Quality könnte eine übergeordnete Organisation die Koordinierung zwischen einzelnen Entwicklergruppen und Herstellern übernehmen.
Vor allem im Bereich des Data Warehouse existieren große Probleme und Lücken um hauptsächlich während des Transformationsprozesses die Datenqualität zu sichern.
Homepages:
DBS
Institut
LMU
29.09.2002, Andrea Böse