Come ordinare e “ripulire” una wordlist gigante
In questi giorni ho contribuito ad aumentare la temperatura della mia stanza facendo lavorare come un matto il mio povero computer.
Mi sono ritrovato con una wordlist da 700MB con più di 75 milioni di parole; mi sono accorto che era piena di ripetizioni: la sola lettera “a” compariva 59 volte!
Mi sono ingegnato per risolvere il problema.
Occorreva innanzitutto ordinare la wordlist.
Per fare questo ho pensato di usare il comando sort dei sistemi Unix. Purtroppo il file gigante è codificato in unicode e sort si incazza un poco.
Per risolvere il problema ho reimpostato la variabile LC_ALL in questo modo:
export LC_ALL=C; sort wordlist.txt > sortedwordlist.txt
Dopo un poco di elaborazione, mi sono ritrovato con un bel file ordinato.
Occorreva eliminare le ripetizioni. Per fare questo ho implementato un piccolo script Python.
Ecco il codice:
#!/usr/bin/python from...
Leggi il seguito »
Invia questo articolo via email
LEGGI LE ALTRE NOTIZIE DE "IL BLOGGATORE"










