Usuwanie zdublowanych linii (duplikatów) w pliku tekstowym
Jeżeli w pliku tekstowy mamy zdublowane linie, które chcemy usunąć możemy posłużyć się poleceniem: sort
z parametrem -u
. Spójrzmy może na poniższy plik źródłowy o nazwie: duble.txt
. Jego zawartość wyświetlimy np. poleceniem cat
.
cat dulbe.txt TEST1 TEST2 TEST3 TEST4 TEST4 TEST6 TEST4 TEST8 TEST2 TEST10
Widzimy w nim linię: TEST4
powtórzoną 4
razy oraz TEST2
powtórzoną 2
razy. Aby teraz usunąć zdublowane linie wystarczy wykonać polecenie:
sort -u duble.txt
W wyniku otrzymamy posortowane, unikalne rekordy, już bez duplikatów:
TEST1 TEST10 TEST2 TEST3 TEST4 TEST6 TEST8
Możemy również skorzystać z polecenia dodatkowo z parametrem c
:
sort -uc duble.txt
Jednak ono zwróci nam tylko informację o pierwszej zdublowanej wartości, czyli dla pliku: duble.txt
sort: not unique: TEST4
Gdyż to wartość TEST4
została powielona jako pierwsza (4 i 5 linia).