Usuwanie zdublowanych linii (duplikatów) w pliku tekstowym

Napisano 23 sierpnia 202320 września 2023 przez Damian Jeliński

Jeżeli w pliku tekstowy mamy zdublowane linie, które chcemy usunąć możemy posłużyć się poleceniem: sort z parametrem -u. Spójrzmy może na poniższy plik źródłowy o nazwie: duble.txt. Jego zawartość wyświetlimy np. poleceniem cat.

cat dulbe.txt

TEST1
TEST2
TEST3
TEST4
TEST4
TEST6
TEST4
TEST8
TEST2
TEST10

Widzimy w nim linię: TEST4 powtórzoną 4 razy oraz TEST2 powtórzoną 2 razy. Aby teraz usunąć zdublowane linie wystarczy wykonać polecenie:

sort -u duble.txt

W wyniku otrzymamy posortowane, unikalne rekordy, już bez duplikatów:

TEST1
TEST10
TEST2
TEST3
TEST4
TEST6
TEST8

Możemy również skorzystać z polecenia dodatkowo z parametrem c:

sort -uc duble.txt

Jednak ono zwróci nam tylko informację o pierwszej zdublowanej wartości, czyli dla pliku: duble.txt

sort: not unique: TEST4

Gdyż to wartość TEST4 została powielona jako pierwsza (4 i 5 linia).

Usuwanie zdublowanych linii (duplikatów) w pliku tekstowym

Dodaj komentarz Anuluj pisanie odpowiedzi

Kategorie

Programowanie w przykładach

SQL w przykładach

Pomogłem?

Blogroll