Filtres
La terminal de Linux (bash) és una eina potent i sorprenentment actual que permet treballar amb grans volums de dades textuals de manera molt eficient, encara avui en dia (i des de fa més de 30 anys).
Introducció
Encara avui en dia, la forma més ràpida i eficient de llegir i tractar fitxers de text i cercar informació dins dels discos i unitats del nostre sistema operatiu és aprofitar el terminal que ens proporciona.
Molt més que utilitzar l’entorn gràfic o usar altres llenguatges de programació que també ho poden fer, però amb un rendiment inferior degut a la càrrega de llibreries.
Aquestes eines (comandes) del terminal provenen de l’antic SO Unix, creat a finals dels anys 70 amb el llenguatge C.
Per això val la pena aprendre i dominar les comandes de filtre de fitxers de GNU/Linux (cut, sort, grep, sed, awk…) i de cerca de directoris i fitxers (find, locate, ls), ja que són eines molt potents pel processament de grans volums de dades.
Per exemple, si volem filtrar 6 de les 30 columnes i 300 files d’un fitxer amb 150.000 registres que necessitem d’un fitxer de dades d’usuaris, enfermetats o interaccions en una xarxa social.
Comandes com el grep, el cut o el sed fan meravelles.
El rendiment de realitzar aquest preprocessament i filtratge abans d’utilitzar aquest fitxer per un programari especialitzat, (per exemple, una IA que predigui els preus dels habitatges) és molt superior que volcar directament el fitxer en un programa fet amb un llenguatge d’alt nivell (Python, ,PHP, Java, JavaScript).
Preparació entorn.
En aquesta activitat repassarem algunes comandes i en veurem d’altres de noves, i la millor manera és aplicant-les primerament en un fitxer senzill.
Entra a la teva màquina, crea una carpeta separada i un arxiu de nom “empleades.csv” que contingui les següents dades:
;;;;;
;;;;;
;;;;;
;;;;;
;;;;;
;;;;;
;;;;;
;;;;;
;;;;;
;;;;;
;;;;;
;;;;;
;;;;;
;;;;;
;;;;;
;;;;;
;;;;;
;;;;;
;;;;;Recorda com es fa amb el terminal:
Copia i enganxa les dades i guarda-les (Ctrl+X, Y)
Fixa’t que el format csv és molt ventatjós pels món científic, ja que permet obrir el fitxer tant en un editor de text pla com gedit o notepad++, com en Libre Office Calc, per a crear els nostres gràfics i taules dinàmiques si volem.
Ara, repassa i prova les comandes que et posem d’exemple per verificar el funcionament i per repassar-les, ja que les hem vist prèviament.
Repàs de comandes bàsiques.
cp → Per si acàs, no oblidis fer còpia de seguretat del fitxer csv
cat → mostra per pantalla un fitxer sense llegir-lo
operador > → et permet guardar la sortida de comandes en un fitxer. Si optes per 2 vegades el símbol no es sobreescriu el fitxer, es concatena.
operador | → anomenat pipe o filtre, concatena el text de la sortida d’una comanda.
head, tail → mostren les primeres / últimes línies
wc -l → compta les línies d’un text ( també es poden comptar amb -w -c)
I què podem fer amb aquestes ?
Mostrar les 10 primeres empleades per pantalla, i la capçalera.
Estàs llegint una vista prèvia.
Inicia sessió per llegir l'article complet. Qualsevol compte obre 4 articles gratuïts al mes; l'alumnat i el professorat llegeixen les pàgines del seu curs sense límit.
Inicia sessió