Quellcode zum Praxis-Artikel von Dr. Roland Pleger, erschienen auf Heise+ und im iX-Magazin 09/2022.
- Doppeleinträge in Datenbanken und anderen Datenquellen aufgrund von Fehlern bei der Dateneingabe sind ein Ärgernis.
- Das Entfernen von Dubletten kann viel Handarbeit erfordern, will man keine ähnlichen Einträge aus Versehen automatisiert löschen.
- In Python helfen die Bibliotheken difflib, RapidFuzz und Record Linkage beim Erkennen von ähnlichen Wörtern oder Falschschreibungen.
- Für Pandas-Dataframes analysiert Record Linkage die Ähnlichkeit mehrerer Attributkombinationen und entfernt Dubletten auf Wunsch mit wenig Rechenaufwand