Dades
Treballarem amb els formats textuals de seqüenciació d'ADN, ARN i proteïnes més habituals en bioinformàtica, el FASTA i el Genbank; i també repassarem d'altres de coneguts.
Introducció
Clona el projecte que hem preparat, que té tot el necessari per provar els exemples i activitats proposades.
Format FASTA
Probablement és el format de fitxer més utilitzat per a seqüències i un dels tipus de formats de fitxer més comuns en bioinformàtica.
El format de fitxer FASTA té els seus orígens en el programa FAST, utilitzat per a l’alineació de seqüències.
El format de fitxer es defineix simplement com un fitxer de text pla amb una o més entrades que consisteixen en una línia amb un símbol > seguit d’una línia de definició identificativa única, o defline, i una o més línies de dades de seqüència.
Crear un fitxer de text fasta és molt fàcil, tant en un editor de text pla com notepad o VSCode.
Podem crear un fitxer unifasta (una sola seqüència) que es digui uniseq.fasta amb l’editor VSCode, simplement copia el text i guarda’l.
>Seqüència aminoàcids de prova
MTHCP*MTI*O bé crear un fitxer multifasta (més d’una seqüència) anomenat sequences.fa des del terminal Linux:
>b
>c
Bingo! Ja tenim un fitxer multifasta :) amb les seqüències a, b i c.
El requisit fonamental és que el fitxer sigui plain text per tal que es pugui tractar amb qualsevol aplicació de processament de textos o llenguatge de programació.
Per tant, aquests fitxers es tracten millor en editors de text com nano, sublime o VSCode.
Per veure un fitxer FASTA des de la línia d’ordres sense editar-lo, pots fer servir l’aplicació cat.
>Seqüència
Estás leyendo una vista previa.
Inicia sesión para leer el artículo completo. Cualquier cuenta abre 4 artículos gratuitos al mes; el alumnado y el profesorado leen las páginas de su curso sin límite.
Iniciar sesión