Escribe para buscar…

Filtres

La terminal de Linux (bash) és una eina potent i sorprenentment actual que permet treballar amb grans volums de dades textuals de manera molt eficient, encara avui en dia (i des de fa més de 30 anys).

Esta página todavía no se ha traducido — se muestra en su idioma original:Català

Introducció

Encara avui en dia, la forma més ràpida i eficient de llegir i tractar fitxers de text i cercar informació dins dels discos i unitats del nostre sistema operatiu és aprofitar el terminal que ens proporciona.

Molt més que utilitzar l’entorn gràfic o usar altres llenguatges de programació que també ho poden fer, però amb un rendiment inferior degut a la càrrega de llibreries.

Aquestes eines (comandes) del terminal provenen de l’antic SO Unix, creat a finals dels anys 70 amb el llenguatge C.

Per això val la pena aprendre i dominar les comandes de filtre de fitxers de GNU/Linux (cut, sort, grep, sed, awk…) i de cerca de directoris i fitxers (find, locate, ls), ja que són eines molt potents pel processament de grans volums de dades.

Per exemple, si volem filtrar 6 de les 30 columnes i 300 files d’un fitxer amb 150.000 registres que necessitem d’un fitxer de dades d’usuaris, enfermetats o interaccions en una xarxa social.

Comandes com el grep, el cut o el sed fan meravelles.

El rendiment de realitzar aquest preprocessament i filtratge abans d’utilitzar aquest fitxer per un programari especialitzat, (per exemple, una IA que predigui els preus dels habitatges) és molt superior que volcar directament el fitxer en un programa fet amb un llenguatge d’alt nivell (Python, ,PHP, Java, JavaScript).


Preparació entorn.

En aquesta activitat repassarem algunes comandes i en veurem d’altres de noves, i la millor manera és aplicant-les primerament en un fitxer senzill.

Entra a la teva màquina, crea una carpeta separada i un arxiu de nom “empleades.csv” que contingui les següents dades:

csv
Nom;Cognom;Ciutat;Telèfon;Edat;Email
Cristina;Ouviña;Valencia;96123456;30;ouvina@esfuerzo.com
Silvia;Domínguez;Salamanca;923294400;34;sdom@perfumerias.es
Alba;Torrens;Ekaterinburgo;0073436898812;31;a.torrens@mvp.es
Laia;Palau;Girona;972414114;41;laia@mestitolsqueanys.com
Marta;Xargay;Barcelona;0034904221336;25;marta@hotmail.com
Tamara;Abalde;Vitoria;945139291;32;mihermano@tambienjuega.es
Aitana;Bonmati;Barcelona;003469482919;24;aitanabonmati@fcb.cat
Queralt;Casas;Valencia;00346758410;28;queralt@cultura.es
Maria;Conde Valencia;Kraków;0048531601710;22;conde@wisla.pl
Nogaye;LoSylla;LaSeu;976379156;24;nogaye-losylla@feb.com
Aida;Riko;Fujimaki;0000000000;32;seirin@manga.com
Uliana;Semiónova;Getafe;918765432;39;tachenko@ijosomdelamateixaepoca.es
Alexia;Putellas;Barcelona;0034654848419;28;alexiap@fcb.cat
Claudia;Masip;Tarragona;0034652736471;18;claudia.masip@nastic.com
Nora;Chaib;LHospitalet;003465736471;21;norachaib@uecornella.cat
Sandra;Vericat;LHospitalet;00345574361;33;sandrav2udbellvitge.cat
Jennifer;Hermoso;Barcelona;003495431336;27;jennihermoso@fcb.es
Danae;Boronat;Barcelona;0000000000;41;danae.boronat@fcb.cat

Recorda com es fa amb el terminal:

shell
mkdir act-empleades
cd act-empleades
nano empleades.csv

Copia i enganxa les dades i guarda-les (Ctrl+X, Y)

Fixa’t que el format csv és molt ventatjós pels món científic, ja que permet obrir el fitxer tant en un editor de text pla com gedit o notepad++, com en Libre Office Calc, per a crear els nostres gràfics i taules dinàmiques si volem.

Ara, repassa i prova les comandes que et posem d’exemple per verificar el funcionament i per repassar-les, ja que les hem vist prèviament.


Repàs de comandes bàsiques.

cp → Per si acàs, no oblidis fer còpia de seguretat del fitxer csv

shell
cp empleades.csv empleades-copia.csv

cat → mostra per pantalla un fitxer sense llegir-lo

operador > → et permet guardar la sortida de comandes en un fitxer. Si optes per 2 vegades el símbol no es sobreescriu el fitxer, es concatena.

operador | → anomenat pipe o filtre, concatena el text de la sortida d’una comanda.

head, tail → mostren les primeres / últimes línies

wc -l → compta les línies d’un text ( també es poden comptar amb -w -c)

I què podem fer amb aquestes ?

Mostrar les 10 primeres empleades per pantalla, i la capçalera.

shell
head -11 empleades.csv 

Estás leyendo una vista previa.

Inicia sesión para leer el artículo completo. Cualquier cuenta abre 4 artículos gratuitos al mes; el alumnado y el profesorado leen las páginas de su curso sin límite.

Iniciar sesión