Ako sa zbaviť duplicitných súborov?

Môžu ich byť desaťtisíce medzi státisícmi. Duplicitné súbory na disku, alebo diskoch často zbytočne zaberajú dátový priestor. Zbavte sa ich.

Na prvý pohľad ide o triviálnu záležitosť. Viete, že na disku máte veľa rovnakých súborov a nechcete ich tam. Stačí teda siahnuť po nejakej utilitke, ktorá to vyrieši za vás. Samozrejme, skúsený používateľ máva v zásobe batériu nástrojov na všetko. Ale nie každý z nás sa zaoberá správou súborov s takou virtuozitou, aby vedel, kam siahnuť. Mnoho - ak nie väčšina - nástrojov na hľadanie a odstraňovanie duplicitných súborov po chvíli škrabkania na disku vypudí na obrazovku otázku, ktorý z duplicitných súborov si používateľ praje odstrániť. Korektné. Ale ak je duplicít niekoľko tisíc, nie je reálne odklikať to.

Vo väčšine prípadov správy používateľských dát pritom nie je potrebné ochraňovať celkom konkrétny súbor. Proste stačí, ak zostane na disku niektorá, ktorákoľvek, verzia. Ostatné sa môžu zmazať. A na túto činnosť už treba nájsť nástroj, ktorý to spraví s minimom otázok.

Hromadné mazanie - úskalia

Pri snahe zmazať všetky duplicity je dobré postupovať opatrne. Nie vždy je účelné likvidovať všetky duplicitné súbory.

  • Dátové súbory, ako fotografie, archívy, pesničky sa dajú mazať s prehľadom. Výnimku tvorí situácia, ak máte, napríklad, pesničky (fotky) zoradené v albumoch a niektoré sú umiestnené duplicitne aj "len tak" niekde po disku. Potom by odstránenie duplicít naslepo mohlo viesť k tomu, že vám zostanú práve pesničky nezaradené a albumy nekompletné.
  • Adresáre s inštaláciami programov nespracovávajte vôbec. Inštalačné programy často obsahujú totožné súbory v rôznych adresároch, alebo pod rôznymi názvami. Nikdy ich neodstraňujte. Inštalačný program je napísaný spravidla tak, že na určitom mieste očakáva konkrétny súbor. Ak mu ho vymažete, nebude sa dať inštalovať.
  • Adresáre s nainštalovanými programami, ani adresár s Windows tiež neupravujte. Windows, žiaľ, pracuje s veľkým množstvom redundantných [nadbytočných, opakovaných] súborov. Napríklad na disku C: je po inštalácii Windows Vista (bežná zostava programov) skoro 60 tisíc súborov zaberajúcich 12 giga priestoru. Z toho je vyše 14 tisíc súborov duplicitných, tieto duplicity zaberajú vyše troch giga priestoru. Žiaľ, ich zmazanie by spôsobilo nefunkčnosť systému.
  • Dáta ku niektorým druhom programov (napríklad DTP publishing) bývajú často zdvojené. Zdrojový adresár s fotografiami môže mať svoje kópie v adresári s pracovnými dátami programu na sadzbu. Ak vymažete dáta z pracovného adresára programu, budete sa neskôr musieť programu zodpovedať :-) presnejšie odpovedať, kde nájde zmazané súbory. V takej situácii môže byť duplicita výhodnejšia - ak nejde o desiatky giga duplicít...

Preto sa pred akýmkoľvek čistením dát na disku ubezpečte, že viete čo idete mazať a aj že si to môžete dovoliť zmazať.

Ako duplicity vznikajú

Duplicity súborov, ktoré sú súčasťou programov netreba riešiť, aj tak ich nebudeme mazať. Zaoberajme sa len dátami. Duplicita vznikne ľahko.

  • Sťahujete v priebehu času z internetu obrázky. Tu a tam stiahnete ten istý záber, no pod iným názvom.
  • Ľudia vám posielajú vtipy, alebo dávajú na CD disku materiál. Neraz tak dostanete dvojmo jeden dátový súbor. Každý bude v inom adresári, neraz pod iným názvom.
  • Medzi prácou, notebookom a kolegami zdieľate húfik dát, ktorý máte raz na USB kľúči, inokedy na sieti. Niektoré súbory sú bez zmien, iné zmenené. Vzniká chaos.
  • Máte počítač s viacužívateľským nastavením. Každý používateľ si môže uložiť rôzne dáta, často rovnaké, aké používa iný používateľ počítača. V istej chvíli sa môže oplatiť vyhľadať duplicity a dohodnúť sa na zjednotení archívu.
  • Upratujete. Skopírovali ste obsah všetkých starých CD diskov na harddisk a idete z nich vypáliť DVD. Mnoho dát ste pálili pre istotu opakovane. Ktoré to sú?

V takýchto prípadoch býva často v hre nepreberné množstvo súborov. Odstránenie duplicít prinesie razantné odľahčenie dátového objemu a to stojí aj za možno trocha menej prehľadné zmazanie všetkých nadbytočných verzií súborov.

Duplicity a podobnosti

V tomto článku sa zaoberám riešením problému exaktne duplicitných súborov, ktoré sú dátovo totožné, hoc môžu mať rôzny názov, alebo rôzny dátum vzniku. Existujú aj nástroje, ktoré dokážu identifikovať podobné fotografie - napríklad máte originálne a zmenšené fotografie. Alebo máte sekvenciu záberov s podobným motívom. Na vyhľadávanie vzhľadovo podobných súborov s obrázkami sa používajú iné programy.

Rýchlo, bez učenia

Odstraňovanie duplicít je činnosť, ktorú bežný používateľ vykonáva len zriedkakedy. Nebudem preto predpokladať znalosť súborových manažérov a ich pluginov. Zameriam sa na špeciálny nástroj určený na odstránenie duplicít.

Posudzujem len demoverzie

Ak je nástroj shareware, málokto si ho kúpi kvôli jedinému použitiu. Preto sa zaoberám aj funkcionalitou demoverzie. Takže šup sem s testami.

CloneSpy

Začnime freeware programom CloneSpy. Veľkou prednosťou je, že sa neinštaluje. Proste ho spustíte a môžete začať pracovať. Má solídny výber možností, čo všetko chcete dať prehľadávať na výskyt duplicít. Dostupný je na adrese http://www.clonespy.com/.

Skenovanie môže prebiehať v rôznych režimoch, z ktorých interaktívny využijete len ak ide o menší objem dát a vy potrebujete presne určiť, ktoré majú byť zmazané.

Ak počas skenovania program nájde duplicitu, dožaduje sa riešenia, čo chcete spraviť.

V automatickom režime vopred určíte, že chcete zmazať všetko duplicitné a program sa sám rozbehne. Automaticky potom zlikviduje duplicity. Praktické, rýchle, jednoznačné.

V teste som však narazil na problém - program je značne pomalý. Operácia hľadania a mazania súborov trvala 16 minút (!). Rovnakú paletu dát (400 mega, 4 a pol tisíc súborov, z toho tisícka duplicít) všetky ostatné programy zvládli v priebehu desiatok sekúnd.

Pomalosť môže súvisieť s tým, že program skenuje každý porovnávaný súbor a asi nie je veľmi šetrný k pamäti - ku koncu práce zaberal vyše 500 mega v pamäti a bral veľmi veľa systémových prostriedkov, počítač sa správal takmer, ako keby bol zmrzol. Napriek tomu program korektne odstránil duplicity. Je zadarmo, takže sa ľahko prižmúri oko. Neviem si však predstaviť, ako by som ho nasadil na úlohu, v ktorej by musel spracovať niekoľko sto tisíc súborov. Test prebiehal vo Windows Vista - je možné, že vo Windows XP sa program správa slušnejšie.

A poďme platiť

CloneMaster

Vcelku zaujímavý nástroj, ktorý však spomínam len pre poriadok. Demoverzia nevie zmazať súbory, len vám ukáže, ako pracuje všetko ostatné. Je teda bez zaplatenia nepoužiteľná. Dá sa nájsť na webe http://www.softbytelabs.com/.

Zvolíte si, aké adresáre chcete analyzovať...

...a na výstupe vidíte v stromovej štruktúre všetky duplicitné súbory. Máte možnosť prechádzať po jednotlivých adresároch a duplicity likvidovať, alebo kliknete na nadradený adresár a zobrazia sa všetky duplicity. Môžete teda prehľadne mazať súbory po jednom, po skupinách, alebo úplne všetky. Program na mazanie automaticky ponúka len duplicity, jeden súbor vždy nechá. Rýchlosť hľadania je obstojná (24 sekúnd), rozhranie prehľadné a zrozumiteľné.

FileCake

Ďalší platený program umožňuje 14 dňový test. Ten je limitovaný počtom 10 tisíc súborov, takže zadarmo si väčší archív "neskennete". Každopádne, nájdete ho tu: http://www.atopsoft.com/.

document.write('');

TOPlist