PQQ ‑Doppelte Datensätze mittels Power Query entfernen
Wenn Sie für eine Auswertung sowieso Power Query einsetzen, dann werden Sie gewiss auch den Schritt des Entfernens von Dubletten mit diesem Tool durchführen wollen. Nicht nur, dass dann alles „aus einem Guss” ist, sie haben ja auch mehr Möglichkeiten mit diesem Tool und gerade bei größeren Datenmengen ist Power Query so gut wie immer um einiges schneller.
Laden Sie am besten diese Beispiel-Datei um die gezeigten Beispiele besser nachvollziehen zu können. Auf dem Blatt Tabelle1 erkennen sie, dass jeweils 2 Datensätze mit der ID 3 und ID 4 vorhanden sind. Dass dabei die ID 4 mit unterschiedlichen Daten vorhanden ist, soll in diesem Moment unbeachtet bleiben.
Im ersten Durchgang sollen ausschließlich die Zeilen mit den doppelten IDs gelöscht werden. Also unabhängig von den Daten die weiter in der Zeile stehen wird ausschließlich die Spalte ID bewertet. Im Normalfall wird ja auch 1 ID immer nur für 1 Datensatz vergeben. 🙄
Beginnen Sie damit, irgendwo in die Tabelle zu Klicken und die Power Query Funktionalität zu aktivieren. Anschließend rufen Sie im Menüband den Punkt Aus Tabelle bzw. Aus Tabelle/Bereich auf und es öffnet sich das Abfrage-Fenster. Die Spalte mit der ID ist ‑weil es ja die 1. Spalte ist- bereits per Default markiert. Nun ein Klick auf das Symbol oder den Text Zeilen verringern. Jetzt auf Zeilen entfernen und letztendlich noch auf Duplikate entfernen. In neueren PQ-Versionen genügt es, die betreffenden Spalte(n) durch einen Klick in die Überschrift zu markieren (mehrere Spalten mit Strg oder Shift) und dann per Rechtsklick im Kontextmenü Duplikate entfernen anklicken. 🙂
Jetzt sind die beiden Duplikate entfernt worden, sodass jeweils nur 1 Datensatz jeder ID in der Liste enthalten ist. Interessant ist aber, welcher Datensatz bei Dubletten gelöscht wird. An der ID 4 können Sie sehr schön erkennen, dass der Datensatz der ersten ID erhalten geblieben ist. Soll einmal ‑aus welchen Gründen auch immer- der letzte Datensatz erhalten bleiben, dann können Sie im Register Transformieren die Reihenfolge aller Daten per Klick auf Zeilen umkehren genau dieses tun, die Duplikate löschen und auf gleichem Wege wiederum die Reihenfolge umkehren. – Zum Schluss ein Klick auf Schließen & laden und die bereinigte Abfrage wird als Tabelle in ein neues Arbeitsblatt geschrieben. Hinweis: In manchen (Ausnahme-) Fällen ist es erforderlich, dass Sie temporär eine Index-Spalte anlegen. Im Bedarfsfall einfach einmal probieren… 😉
Im Arbeitsblatt Tabelle2 erkennen sie, dass nur die ID 3 markiert ist. Das Ziel ist dieses Mal, absolut identischer Datensätze zu finden und die doppelten zu löschen. Erstellen Sie auch aus dieser Liste eine Abfrage und markieren Sie alle Überschriften. Beispielsweise durch einen Klick in die erste Überschrift, Shift und dann in die letzte Überschrift. Jetzt die gleiche Vorgehensweise wie eben beim löschen der Duplikate durchführen und sie werden erkennen, dass nur die Datensätze gelöscht worden sind, die sich in keinem einzigen Punkt von dem oder den vorherigen unterscheiden. Auch diese Abfrage werden sie vielleicht speichern.
Auch im WorkSheet Tabelle3 werden sie in die Daten Klicken um daraus eine Abfrage darstellen. Aber zuvor sollten Sie erkennen, dass hier offensichtlich 2 identische Personen mit unterschiedlichen IDs erfasst worden sind. Tatsächlich ist Peter Lustig unter 2 verschiedenen IDs, nämlich der ID 1 als auch der 5 erfasst. Wenn solch eine Gefahr besteht oder auch nachgewiesen ist, sollten Sie in der Abfrage alle Spalten mit Ausnahme der ersten markieren und dann die Duplikate nach gehabtem Muster entfernen. Anschließend können Sie natürlich auch wieder speichern.
Hinweis: An verschiedenen Stellen des Blogs ist das Thema „doppelte Datensätze” angesprochen. Nutzen Sie einfach die Suche… Wenn Sie die Dubletten nur markieren aber nicht löschen wollen, dann hilft Ihnen gewiss dieser Beitrag weiter.
Hat Ihnen der Beitrag gefallen?
Erleichtert dieser Beitrag Ihre Arbeit?
Dann würde ich mich über einen Beitrag Ihrerseits z.B. 2,00 € freuen … (← Klick mich!)