Etwa 8 Millionen Umzüge und 840.000 Sterbefälle pro Jahr in Deutschland führen zu Änderungen bei den Adressen, 370.000 Hochzeiten und 190.000 Scheidungen bringen oft Namenswechsel mit sich. Hinzu kommen jährlich tausende Änderungen bei Straßennamen, Postleitzahlen und Orten. Außerdem passieren bei der Erfassung von Kundendaten Fehler – ein Missstand, der Studien auf den Plan ruft. Die Deutsche Post Direkt stellte in ihrer „Benchmark Kundendaten-Qualität“ Datenbanken aus 10 Branchen nach sechs Kriterien auf den Prüfstand: postalisch fehlerhaft, unzustellbar auf Personen- und Haushaltsebene, unbekanntes Gebäude, korrigierte Adressen, Umzugsadressen und Dubletten lauteten die Kriterien. Das Ergebnis: Als gesamt unzustellbar führten die Automobilhersteller mit 16,1 Prozent, Telekommunikation und Verlagsgewerbe teilten sich mit 12 Prozent den zweiten Platz im Defizit-Ranking, die Banken folgten mit 11,7 Prozent. Doch selbst bei der Branche, die am meisten für ihre Datenqualität tut – dem Versandhandel – wiesen die untersuchten Adressdatenbanken im Durchschnitt 3,5 Prozent unzustellbare Anschriften auf Personen- oder Haushaltsebene auf.
Schäden im mehrstelligen Millionenbereich
Die aktuelle Ausgabe der Data Quality-Studie „Adressqualität als Erfolgsfaktor in Unternehmen“ für das Jahr 2011 kommt zu ähnlichen Ergebnissen. Hierfür wurden branchenübergreifend mehr als 80 Millionen Adressdaten in fast 1.200 Projekten untersucht. „Während der gesamten Studiendauer fanden sich in jedem Projekt im Durchschnitt 26 Prozent fehlerhafte Adressen, damit ist fast jeder vierte Datensatz nicht korrekt“, lautet das Ergebnis der Untersuchung, die von der Bertelsmann-Tochter bedirect GmbH & Co. KG in Gütersloh zwischen 2007 und 2010 durchgeführt wurde. In 33 Prozent aller Fälle lag die Korrektheit der postalischen Daten unter 80 Prozent. Lediglich in fünf Prozent aller untersuchten Datenbanken fanden sich keine Dubletten.
„Die fehlerhaften Daten verursachen allein in Marketing und Vertrieb geschätzte Kosten im mehrstelligen Millionenbereich“, konstatiert die Studie. Sie führten zu Imageverlust ebenso wie zu einer massiven Mehrbelastung der Mitarbeiter. Betroffen von den hohen materiellen und ideellen Schäden, die aus überalterten und schlecht gepflegten Daten resultieren, seien nahezu alle Bereiche: Marketing und Vertrieb, Einkauf, Risikomanagement und Geschäftsleitung.
Ganzheitlicher Ansatz verknüpft mehrere Teilprozesse
Ein ganzheitlicher Ansatz zur Sicherung der Datenqualität, der die einzelnen Teilprozesse miteinander verknüpft, kann hier Abhilfe schaffen. Die Teilprozesse umfassen das Data Profiling, das Data Cleansing und das Monitoring. Das Data Profiling gibt nicht nur Aufschluss darüber, welche Datentypen in einer Kundendatenbank vorhanden sind, sondern lässt auch erkennen, wie valide und gebräuchlich diese Daten sind. Beim Data Cleansing werden die erkannten Probleme durch Anwendung verschiedener Algorithmen direkt behoben. Um dem ganzheitlichen Ansatz zur Qualitätssteigerung Rechnung zu tragen, bedarf es schließlich einer kontinuierlichen Überprüfung der Konsistenz, Korrektheit und Zuverlässigkeit der Daten. Neue Daten werden deshalb im Teilprozess „Monitoring“ vor der Speicherung in den operativen und analytischen Systemen überprüft und in bestimmten Zeitabständen findet eine Prüfung der gesamten Kundendaten statt.
Da die manuelle Bereinigung großer Datenmengen nicht in effizienter Weise durchgeführt werden kann, ist der Einsatz von Data-Cleansing-Werkzeugen zu empfehlen. Mit ihrer Hilfe kann teilweise auch der Prozess der Datenintegration automatisiert werden. Bei der Zusammenführung gleicher Datenbestände aus unterschiedlichen Datenquellen müssen diese Datensätze zunächst identifiziert werden. Dann ist zu entscheiden, welche Bestandteile der Dubletten in den bereinigten Datenbestand übernommen werden sollen. Denn ganz gleich, woher die Daten stammen – ob von CRM-Anwendungen, von Call-Center-Agents oder externen Datenlieferanten – weisen diese Quellen regelmäßig große Unterschiede in Inhalt, Format und ihrer syntaktischen und semantischen Gültigkeit auf. Dazu können die Daten noch unvollständig, ungenau oder veraltet sein oder in anderer Weise abweichen. Und es besteht zudem die Gefahr der ungewollten mehrfachen Aufnahme.
Menschliches Wissen ist gefragt
Um Dubletten in großen Kundendatenbanken zu bereinigen, versprechen vor allem jene Verfahren Erfolg, die computergestützte Schlussfolgerungen mit der menschlichen Intelligenz kombinieren. Denn wenn angesichts der zunehmenden Globalisierung die Namen unterschiedlichster Nationalitäten Einzug in die Kundendatenbanken der Geldinstitute halten, stoßen die üblichen mathematischen Prozeduren zur Dublettenerkennung und Adressvalidierung schnell an ihre Grenzen. Dies gilt auch, wenn weltweit operierende Konzerne es bei ihren Adressdaten mit verschiedenen landesspezifischen Schreibweisen zu tun haben. Um hier „saubere“ Daten zu bekommen, ist länderspezifisches Wissen gefragt. Es muss zum Beispiel nationale Besonderheiten der Adressierung, Namen und deren Schreibweisen berücksichtigen. Neben den herkömmlichen mathematischen Verfahren kommen deshalb in der Datenqualitätssoftware zunehmend auch wissensbasierte Methoden zum Einsatz, die Einsichten der Computerlinguistik zur Spracherkennung und -synthese anwenden. Im Ergebnis wird eine deutlich höhere Erkennungsquote von Dubletten erreicht – über Länder- und Sprachgrenzen hinweg.
Allerdings sollte man den notwendigen Aufwand nicht unterschätzen. Während der erste Schritt – das Data-Profiling – sofort durchgeführt werden kann, nimmt die Beseitigung der Dubletten je nach Umfang der Datenbank und vorhandener Qualität unter Umständen mehrere Wochen oder Monate in Anspruch. Die Erfahrung zeigt, dass die Gewährleistung einer hohen Datenqualität einige Zeit braucht. Ziel ist deshalb meist nicht eine sofortige Komplettbereinigung der Kundendaten, sondern vor allem eine stetige Verbesserung und die Vermeidung von Dubletten direkt bei der Datenerfassung nach dem Prinzip, beim ersten Mal gleich alles richtig zu machen („First Time Right“). Zusätzlich werden die Daten – falls nötig– auch direkt korrigiert, vervollständigt und standardisiert.
Die Perspektive Mittelstand ist eine unabhängige, branchenübergreifende Business-Plattform zur Förderung der Leistungs- und Wettbewerbsfähigkeit kleiner und mittelständischer Unternehmen und ihrer Mitarbeiter. Ziel der Initiative ist es, über hochwertige Informations-, Kommunikations- und Dienstangebote rund um den unternehmerischen und beruflichen Alltag die Wissensbildung, Kommunikation und Interaktion von und zwischen Existenzgründern, Unternehmern, Fach- und Führungskräften und sonstigen Erwerbstätigen zu unterstützen. Weitere Informationen zur Perspektive Mittelstand unter: www.perspektive-mittelstand.de