Bilder Dubletten finden

Speicher sparen mit doppelten/ähnlichen Bildern löschen

Ich wollte letztens mal etwas Ordnung in meine Bildersammlung bringen und musste feststellen, dass ich durch diverse Kopieraktionen doppelte Bilder auf der NAS liegen habe. Von Hand auszusortieren dauerte mir zu lange. Zum Glück gibt es diverse Freeware/Shareware Tools die dies viel schneller und besser machen.

Nach einem doppelten Dateinamen suchen ist einfach, das kann z.B. Directory Opus schon lange aber wenn der Name unterschiedlich ist, wird es schon interessanter. Dann braucht man Tools die den Inhalt eines Bildes vergleichen können. Alternativ kann Opus auch absolut identische Bilder finden und zwar wenn man sich in einer Spalte den sog. MD5 Hash anzeigen lassen würde. Sucht man aber auch Bilder die sich nur ganz gering unterscheiden oder zwar den gleichen Inhalt anzeigen sich aber in der Größe total unterscheiden braucht man spezial Tool.

Folgendes Szenario habe ich aufgebaut:
2.000 doppelte identische Bilder (gleicher Name, Größe usw.)
100 andere Bilder ohne Dubletten
Alle Bilder liegen im jpeg Format vor.
Von den 2.000 Bildern habe ich 11 modifziert (1. besser komprimiert, 2. um 90 Grad gedreht, 3. horizontal vertauscht, 4. als PNG gespeichert, 5. mit kleinem Text versehen, 6. Bild etwas heller gemacht, 7. Bild etwas dunkler gemacht, 8. mit Tiltshift Effekt, 9. paar kleinere Details wegretuschiert, 10. ca. 1cm Rand auf allen 4 Seiten weggenommen, 11. Bild auf 640x480px reduziert.
Es müssen also 2.100 Bilder geprüft werden. Alle Bilder haben eine Auflösung von max. 2.000×2.000px, sind im Durschnitt 200-700kb groß und haben bis auf 11 Stück den gleichen Dateinamen.

Picture Relate 2.6.4 nutze ich schon sehr lange. Das sieht man dem Tool auch an, wurde wohl in Zeiten von XP programmiert. Funktioniert aber super, auch unter Windows 10-1809 64bit. Man kann diverse Einstellungen vornehmen damit nicht doppelte Bilder gefunden werden die sich nur minimal unterscheiden.
Zudem hat das Tool noch weitere Möglichkeiten bestimmte Bilder z.B. nach Ihren Farbwerten zu suchen oder ähnliche Bilder. Die Software funktioniert im vollen Umfang aber der Programmierer möchte eine Spende.

2100 Bilder von der lokalen Platte einlesen dauert von einer Festplatte mit 7.200rpm 3min 20s, von SSD 2min 36s. Dann wird nur noch in einer DB gesucht was je nach Einstellung 1-25s dauert. Die DB kann man auch speichern.

Nachteil: Es werden immer nur Thumbnails angezeigt. Keine Zusatzinformationen. Man sieht z.B. jetzt 2 identische Bilder als Thumbnail aber welches würde man jetzt löschen. Es könnte sich 1x um ein sehr kleines Bild und 1x um ein großes Bild handeln welches man in dieser Anschicht aber nicht unterscheiden kann. Erst wenn man mit der Maus über das Bild fährt, werden die Info´s eingeblendet. Bei 10 gefunden Dupletten ist das OK, bei 100 oder mehr sehr aufwendig. Immerhin kann das Tool aber z.B. das jeweils größte/kleinste Bild markieren usw. Danach kann man mit dieser Auswahl dann die doppelten Bilder löschen.

Die Größe der Bilder ist beim Einlesen auch entscheidend. Je größer die Bilder desto länger dauert es.

Gefundene Duplikate: 995

3,6,7,8,10 wurden nicht als doppelte Bilder erkannt (siehe Szenario)
egal wie fein oder weniger fein man die Suche einstellte.

Fazit:
Kleines aber feines Tool mit vielen Möglichkeiten und kaum Schwächen.

Klick auf das Bild f. größere Darstellung

Awesome Duplicate Photo Finder ist auch schon etwas in die Jahre gekommen und trägt aktuell die Version 1.1.1. Witzigerweise hat der Programmierer 2019 ein Update nachgeschoben, nachdem 7 Jahre lange nichts mehr verändert wurde. Das Programm liegt auch als portable Version zum Download bereit.

Das Einlesen der 2100 Bilder von einer lokalen SSD dauert 3min 30s. Mit der normalen Festplatte genau 4min.
Währenddessen wird parallel gleich die Anzahl der Duplikate angezeigt.
Das sind in meinem Fall 1025 Bilder obwohl es nur 1.000 sein dürften.

Das Prg. zeigt im oberen Bereich immer 2 Bilder an die verglichen werden können und über eine Prozentanzeige wie hoch die Wahrscheinlichkeit ist, dass die Bilder identisch sind. Im unteren Bereich wird die komplette Liste aller Bilder, auch wieder mit der Prozentanzeige (Similarity) angezeigt.
Viel einstellen kann man nicht. Bei den Suchoptionen kann man noch einstellen, dass nur 100% identische Bilder angzeigt werden sollen.
Auch kann man nach der Suche nicht alle identischen Bilder löschen lassen. Das geht nur bildweise. Also bei größeren Bildbeständen nicht mehr wirklich sinnvoll. Immerhin findet das Tool 25 Bilder die sich nur leicht unterscheiden und hier kann man gut selbst entscheiden, löschen oder behalten.

Gefundene Duplikate: 1025

2,3,5,9 wurden nicht als doppelte Bilder erkannt (siehe Szenario) und 25 zusätzliche Bilder wurden als doppelte bzw. ähnlich eingestuft

Fazit:
Grundsätzlich auch empfehlenswert. Beim sichten von den Bildern funktioniert es besser wie wie PictureRelate. Aber nur verwendbar bei kleinen Bildbeständen weil keine Massenlöschfunktion vorhanden ist.

Klick auf das Bild f. größere Darstellung

VisiPics V1.31 ist auch schon älter und wird seit 2013 nicht mehr weiterentwickelt. Funktioniert bei neueren Betriebssystemen aber auch super stabil.
Das Einlesen des Testordners dauert etwas länger wie bei den anderen Programmen, von SSD 4min 43s aber man kann währendessen gleich loslegen. Von der Festplatte sind es 5min 27s. Auf der linken Seite werden sofort alle gefundenen identischen/ähnlichen Bilder dargestellt. Fährt man mit der Maus über ein Bild wird es rechts groß dargestellt. Mit einem Klick auf das Thumbnail markiert man das zu löschende Bild.

Über einen Schieberegler kann man die Genauigkeit in 3 grobe Stufen anpassen bzw. noch ein paar Unterstufen. Eine Verändung des Filters benötigt kein Neueinlesen der Bilder und dauert nur 4-6s.

Von den 11 modifizierten Testbildern wurden in der Einstellung “vage” 10 gefunden. Einstellung “Normal” noch 4.

Welche Bilder jetzt entfernt werden sollen kann man entweder manuell vornehmen oder automatisch vom Prg. auswählen lassen. Dabei kann man auswählen ob Bilder die kleiner, niedrigere Auflösung oder unkomprimiert sind ausgewählt werden sollen.

Fazit:
VisiPics ist mein Favorit weil man hier sehr flexiebel ist mit der Auswahl

Klick auf das Bild f. größere Darstellung

Als letztes Freeware und OpenSource Tool, geschrieben in C++ .NET, habe ich AntiDupl.NET getestet. Es gibt zwar seit 2018 auch nichts mehr neues aber das Prg. ist um einiges aktueller wie die anderen Kandidaten was aber nichts heißen muss. Die getestete Version: 2.3.9

Nachtrag am 09.01.2021 Der Entwickler hat nach fast 2 Jahren die Version
auf 2.3.10 angehoben und ein paar wenige Verbesserungen einfließen lassen siehe auch hier:
Was gleich nach dem Start auffällt, das Tool ist unglaublich schnell.
2100 Bilder von SSD einlesen und auswerten in 30s. HDD 60s.

Das Tool hat einige Einstellungen, 2 verschieden Suchalgorithmen und zeigt auch in einer Spalte an, wie stark ein Bild vom anderen abweicht. Über eine Bildvorschau kann man selbst noch prüfen ob die Bilder indentisch sind.
Das Tool macht autom. Vorschläge welches Bild es löschen würde. Kann man aber jederzeit pro Bild selbst ändern. Ändert man an den Einstellungen etwas, dauert es nur 2-3s bis das neue Ergebnis aufgelistet wird.

Der Algorythmus SSIM wird automatisch mit 20% festgelegt was viel zu viel ist. Bei meinen Landschaftsaufnahmen gibt es im Bereich 10-20% sehr viele Bilder die sich total unterscheiden. Hier muss man eher auf 5% oder tiefer einstellen.

Das Tool kann sehr viele Dateitypen scannen, als Besonderheit sogar Photoshop Dateien mit der Endung PSD. Habe ich aber nicht ausprobiert.,

Als einzige Tool kann AntiDupl.NET auch Bilder erkennen die gespiegelt wurden. Ob das erkannt werden soll, kann man festlegen. Interessant ist, dass dies sogar in der Dateiliste angezeigt wird.

Klick auf das Bild f. größere Darstellung

Gefundene Duplikate: 1069 auf 5%
Allerdings wurden von den 11 Testbildern dann auch 9 gefunden.
#6 wird erst bei 6% gefunden und #7 wird mit 13,09% eingestuft.

Um jetzt wirklich nur die 100% identischen auszuwählen braucht man nur die Spalte “Difference” sortieren. Alle Bilder mit 0.00 sind absolut identisch. Alle anderen kann man erst mal nur aus der Liste herauslöschen und im 2. Schritt dann alle anderen Bilder vom Prg. richtig entfernen lassen.
Oder man stellt gleich den Prozent Wert auf 0%. Dann werden gleich nur die absolut gleichen Dateien angezeigt.

Bevor man so etwas macht, bitte immer ein Backup der Bilder machen!!

Fazit:
AntiDupl.NET ist das Beste der hier getesteten Prg.
Es ist Freeware, super schnell, sehr flexiebel einzustellen und zu bedienen.
Zwar nur in englischer Oberfläche aber die ist fast selbsterklärend. Stabil läuft es auch.

(Visited 355 times, 1 visits today)