Lehr- und Forschungseinheit für Datenbanksysteme Datenbanksysteme Database Systems

Projektarbeit

Phonetische Ähnlichkeitssuche

 

Inhalt

In Zusammenarbeit mit dem Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie (IBE) der Medizinischen Fakultät der LMU München soll für das Tumorregister München (TRM) eine phonetische Namenssuche entwickelt werden.
Am Tumorregister München werden Daten von Tumorpatienten der Städte München, Landshut und Rosenheim, sowie von 17 umliegenden Landkreisen verarbeitet.
Dabei werden, neben der einmaligen Aufnahme der Anschrift der Patienten, Daten aus folgenden Formularen erfasst:
  • Ersterhebung (tumorspezifisch)
  • Allgemeine Folgeerhebung (nicht tumorspezifisch)
  • Retrospektive Erst- oder Folgeerhebung (nicht tumorspezifisch)
  • Arztbriefe
  • Pathologiebefunde
  • Todesbescheinigungen

  • Die Formulare werden von Krankenhäusern, Arztpraxen, Ärzten und Pathologen und Behörden an das Tumorregister München in Großhadern geschickt. Dort werden die Daten ausgewertet und mit Hilfe entsprechender Eingabemasken in die Datenbank eingegeben.

    Ziel eines Tumorregisters ist die Präsentation des aktuellen epidemiologischen Krankheitsbildes, um damit den Versorgungsprozess zu unterstützen, sozusagen als Spiegelbild der medizinischen Leistungen.
    Bayernweit werden aus sechs verschiedenen Tumorzentren bzw. Tumorregistern (Augsburg, Erlangen-Nürnberg, Regensburg, Würzburg, Bayreuth, München) die relevanten Daten, die zu einem logisch konsistenten Krankheitsverlauf zusammengefügt wurden, in Nürnberg geprüft und die personenbezogenen Daten verschlüsselt. Bei der Registerstelle in Erlangen werden die Daten schließlich dauerhaft gespeichert und von dort aus an das Robert-Koch-Institut in Berlin geschickt, um sie zu einem Deutschen Krebsregister zusammenzuführen.

    Alle Daten aus den oben genannten Formularen werden am TRM in einer Oracle Datenbank gespeichert und, da in der Regel mehrere Belege zu jedem Patienten existieren, werden diese über eine eindeutige Patientenidentifikationsnummer (patid = Primärschlüssel) miteinander verknüpft. Die zugrunde liegende Datenbankstruktur besteht aus unterschiedlichen Schemata und den dazugehörigen Tabellen. Dabei gibt es ein THS-Schema in dessen Tabellen die personenbezogenen und verwaltungsrelevanten Daten gespeichert sind. In der Tabelle PERS sind unter anderem der Familienname, Vorname und Geburtsname gespeichert. Für jeden dieser drei Namen gibt es bereits ein weiteres Attribut um die phonetische Abstraktion des Namens zu speichern.
    Vor dem Erstellen eines neuen Eintrags mittels einer eindeutigen patid für einen Patienten, muss überprüft werden, ob der Patient bereits in der Datenbank vorhanden ist und die neuen Daten somit über seine patid miteinander verknüpft werden. Bei der dafür vorgesehenen Suchmaske kann nach dem Familiennamen, Vornamen oder Geburtsnamen und nach der Adresse eines Patienten gesucht werden. Die dabei mögliche Ähnlichkeitssuche basiert auf dem so genannten soundex-code, der in pl/sql bereits vordefiniert ist. Dieser doch sehr ungenaue Algorithmus soll nun verbessert werden, um bei einer Ähnlichkeitssuche auch wirklich nur die relevanten Namen zu erhalten.
     

    Aufgabenstellung

    Um die Namenssuche bei der Verwaltung der Patientendaten zu verbessern, wird ein neuer Algorithmus benötigt.
    Dieser soll für jeden Namen aus der Datenbank eine Zeichenfolge erzeugen, die dann in den entsprechenden Tabellen abgespeichert wird. Die identischen Zeichenfolgen, das heißt also die phonetisch ähnlichen Namen, werden über einen Index verknüpft und können so schnell gefunden werden.
    Wird in der Eingabemaske eine Ähnlichkeitssuche ausgeführt, so wird für den entsprechenden Namen die zugehörige Zeichenfolge berechnet und mittels des Index werden alle zu diesem Namen ähnliche Einträge in der Datenbank gefunden.
    Zusätzlich sollen neben gleich klingenden Namen auch noch Sonderfälle behandelt werden. Zum Beispiel Namen die das Gleiche meinen, aber unterschiedlich klingen, wie 'Hans' und 'Johann', 'Gretel' und 'Margarethe', 'Schorsch' und 'Georg'. Auch ausländische Namen sollten auf Ähnlichkeit überprüfbar sein, so dass 'Ajsha' gleich 'Aishe', 'Savitzky' gleich 'Sawicki' und 'Wassily' gleich 'Vasilios' gilt.
     

    Tools

    Oracle 8 Datenbank
    Programmiersprache pl/sql
     

    Personen

    Bearbeiterin Marion Gantner
    Betreuer Peer Kröger

     

    Arbeitsplan

    Arbeitsabschnitt Zeitbedarf
    ... ... Tage
    ... ... Tage
    ... ... Tage
    Evaluierung ... ... Tage

     

    Ergebnis


     


    Homepages:  homeDBS homeInstitut homeLMU
    Last Modified: 2003-Jun-12