Protein - Protein Data Bank

El format Protein Data Bank és un format de fitxer comunament utilitzat per emmagatzemar informació sobre estructures moleculars.

Introducció

El RCSB Protein Data Bank (RCSB PDB) proporciona accés i eines per a l’exploració, visualització i anàlisi de:

Aquesta base de dades és el repositori de referència de dades estructurals de proteïnes, un recurs essencial per a aplicacions com el disseny de fàrmacs i l’enginyeria de proteïnes

Pots accedir als registres d’aquesta base de dades a través de la pàgina web de RCSB a https://www.rcsb.org/

Per exemple, pots visualitzar el registre de l’Hemoglobina humana en 3D, que té el codi 4N7N, en aquest enllaç https://www.rcsb.org/3d-view/4n7n

Note

Els noms dels fitxers PDB consisteixen en un número seguit de tres caràcters, per exemple, 1HEW.

PDB Format

Un fitxer PDB (Protein Data Bank) és un format de fitxer estandarditzat basat en text que emmagatzema les dades estructurals tridimensionals (3D) de macromolècules biològiques, principalment proteïnes i àcids nucleics, així com els seus complexos.

Un fitxer PDB emmagatzema les posicions espacials dels àtoms obtingudes per cristal·lografia de raigs X, espectroscòpia RMN i altres tècniques experimentals, i contenen les coordenades atòmiques, informació d’enllaç i altres detalls rellevants de les biomolècules derivades de mètodes experimentals…

Descarrega el fitxer “Legacy PDB Format” de la proteïna Zeta-Zeta Transmembrane Dimer des del PowerShell de Windows:

Terminal window
iwr https://files.rcsb.org/download/2HAC.pdb -OutFile 2HAC.pdb

A Linux seria:

Terminal window
curl -o 2HAC.pdb https://files.rcsb.org/download/2HAC.pdb

El fitxer és un fitxer de text que pots obrir amb l’editor de text.

Title Section

Els fitxers PDB comencen amb un Title Section.

Aquesta secció conté detalls generals sobre les molècules en el fitxer, així com els experiments utilitzats per elucidar les seves estructures. Tot i que hi ha diversos tipus de registres en una secció de títol, els que discutirem a continuació són HEADER, COMPND, i REMARK.

Header Record

La primera línia és un registre header, i té aquest aspecte:

HEADER MEMBRANE PROTEIN 12-JUN-06 2HAC

En altres paraules, l’estructura en aquest fitxer és una proteïna de membrana; va ser dipositada el 12 de juny de 2006; i el seu ID PDB és 2HAC.

El més important a notar sobre aquest registre és que la posició de tot dins del registre és important. El format PDB utilitza la posició del caràcter (o “columna”) per delimitar camps dins de cada registre. Això és cert per a tots els tipus de registres, no només per al HEADER. En aquest exemple particular, els primers sis caràcters són el nom del registre ("HEADER"), els caràcters 11-50 estan reservats per al camp de “classificació” (proteïna de membrana), els caràcters 51-59 s’utilitzen per a la data de dipòsit, i els caràcters 63-66 contenen l’ID de l’estructura.

Compound Record

Un dels següents registres en 2hac.pdb és un registre de compost, i té aquest aspecte:

COMPND MOL_ID: 1;
COMPND 2 MOLECULE: T-CELL SURFACE GLYCOPROTEIN CD3 ZETA CHAIN;
COMPND 3 CHAIN: A, B;
COMPND 4 FRAGMENT: TRANSMEMBRANE REGION (28-60);
COMPND 5 SYNONYM: T-CELL RECEPTOR T3 ZETA CHAIN;
COMPND 6 ENGINEERED: YES

El registre de compost és un exemple d’un únic registre que ocupa múltiples línies. Cada línia consisteix en un parell token/valor, que hauria de recordar-vos el tipus de dades diccionari de Python, o arrays associatius d’altres llenguatges de programació.

Els registres multilínia utilitzen números per permetre la continuació d’un sol registre. Així, per exemple, la línia que comença amb "COMPND 2" simplement continua el registre de compost, donant un altre parell token/valor. En aquest cas, el token (o clau) és MOLECULE i el valor és T-CELL SURFACE GLYCOPROTEIN CD3 ZETA CHAIN.

Remark Record

Poc després del registre de compost hi ha una llista de diversos centenars de línies de remarks. Un comentari PDB és similar als comments en Python o altres llenguatges. En els fitxers PDB, un comentari comença amb REMARK i un número, que simplement identifica el comentari. Per exemple, el comentari #3 comença així:

REMARK 3
REMARK 3 REFINEMENT.
REMARK 3 PROGRAM : NMRPIPE 1.0, XPLOR-NIH 2.11
REMARK 3 AUTHORS : FRANK DELAGLIO (NMRPIPE), CHARLES SCHWIETERS
[etc.]

Observa que un comentari pot ser d’una sola línia o multilínia.

A més, els números dels comentaris no han d’augmentar d’un en un. Per exemple, el comentari #4 és seguit immediatament pel #100.

Structure

Primary Structure Section

La secció d’estructura primària llista, entre altres coses, la seqüència d’aminoàcids de la proteïna.

El tipus principal de registre per fer això és el SEQRES.

Mirem-los a continuació:

SEQRES 1 A 33 ASP SER LYS LEU CYS TYR LEU LEU ASP GLY ILE LEU PHE
SEQRES 2 A 33 ILE TYR GLY VAL ILE LEU THR ALA LEU PHE LEU ARG VAL
SEQRES 3 A 33 LYS PHE SER ARG SER ALA ASP
SEQRES 1 B 33 ASP SER LYS LEU CYS TYR LEU LEU ASP GLY ILE LEU PHE
SEQRES 2 B 33 ILE TYR GLY VAL ILE LEU THR ALA LEU PHE LEU ARG VAL
SEQRES 3 B 33 LYS PHE SER ARG SER ALA ASP

El registre SEQRES:

  • Comença amb un número de sèrie que augmenta d’1 amb cada nova línia.
  • Després del número de sèrie hi ha l’ID de la cadena, en aquest cas, A o B.
  • Després de l’ID de la cadena hi ha el nombre de residus (aminoàcids) en aquesta cadena. Aquest número ha de ser el mateix per a cada línia de la mateixa cadena. En aquest cas, com que les cadenes A i B tenen el mateix nombre de residus (33), ambdues diuen 33.
  • Cada columna posterior simplement llista els residus seqüencialment, des de l’N- fins al C-terminal (és a dir, des del terminal amino fins al carboxi).

Secondary Structure Section

La secció d’estructura secundària proporciona informació sobre l’estructura secundària de la proteïna, específicament, les hèlixs i els fulls. Podeu llegir sobre ells en detall a la pàgina d’estructura secundària de l’especificació PDB. Com podeu suposar, aquests registres donen informació sobre les α-hèlixs i els β-fulls presents en l’estructura de la proteïna.

Les estructures secundàries són determinades per diversos algoritmes utilitzats pels autors o wwPDB. Tingues en compte que aquests algoritmes no sempre coincideixen, per la qual cosa és possible que diferents bases de dades donin informació contradictòria sobre l’estructura secundària.

Connectivity Annotation Section

Aquesta secció proporciona informació sobre els enllaços o connexions presents en l’estructura de la proteïna, però que no es donen en l’estructura primària.

L’estructura 2HAC conté una d’aquestes connexions: un pont disulfur, especificat amb el registre SSBOND.

Here’s what it looks like:

SSBOND 1 CYS A 2 CYS B 2 1555 1555 2.02

Aquest registre ens diu el nom de cada residu connectat (cisteïna), els seus IDs de cadena i el número de residu dins de les seves respectives cadenes.

Els següents dos camps contenen operadors de simetria, que podeu ignorar per ara. L’últim camp conté la longitud del pont disulfur en àngstroms.

Més endavant, parlarem dels registres CONECT, LINK, i CISPEP.

Crystallographic and Coordinates Section

La Secció de Transformació Cristal·logràfica i de Coordenades proporciona informació sobre l’estructura cristal·lina en què es basen les coordenades dels àtoms (amb CRYST1).

Aquesta secció també defineix el sistema de coordenades utilitzant registres ORIGXn i SCALEn.

CRYST1 Record

Moltes estructures de proteïnes es coneixen gràcies a una tècnica anomenada cristal·lografia de raigs X.

Aquesta tècnica aprofita el fet que els àtoms que formen part d’un cristall difractaran els raigs X en un patró que es pot utilitzar per elucidar les posicions relatives dels continguts del cristall dins de cada unitat repetitiva en el cristall (coneguda com a cel·la unitària).

El registre CRYST1 descriu la forma de la cel·la unitària. En estructures determinades per cristal·lografia de raigs X, aquesta descripció dona la longitud (en àngstroms) de cada aresta i els angles formats per aquestes arestes. No obstant això, l’estructura 2HAC no va ser determinada per difracció de raigs X, sinó per espectroscòpia de ressonància magnètica nuclear (espectroscòpia RMN).

Note

En PDB, la resolució es dona en armstrongs Å, i indica quant de ben definida està cada coordenada atòmica. Com menys, millor. 2 o menys Å es considera una excel·lent resolució.

Tot i que no es van utilitzar cristalls en aquest procés, el fitxer PDB encara necessita una entrada CRYST1.

Per a 2HAC, es veu així:

CRYST1 1.000 1.000 1.000 90.00 90.00 90.00 P 1 1

Aquesta és una cel·la unitària cúbica simple; cada aresta té una longitud d’1 àngstrom, tots els angles són de 90°, i el grup espacial és P 1. Qualsevol estructura no determinada per cristal·lografia utilitzarà un registre CRYST1 amb aquests valors.

ORIGXn Record

Quan una estructura de proteïna es presenta per primera vegada a l’arxiu PDB, es dona en coordenades que poden ser diferents de les utilitzades en el fitxer PDB. Les coordenades originals s’anomenen coordenades presentades, i les coordenades utilitzades en el fitxer PDB s’anomenen coordenades ortogonals. Els registres ORIGXn donen la matriu de transformació necessària per obtenir les coordenades presentades a partir de les coordenades ortogonals.

En el cas de 2HAC, ambdues coordenades són les mateixes, per la qual cosa no cal cap transformació. Per això, la matriu de transformació donada és una matriu identitat, i es veu així:

ORIGX1 1.000000 0.000000 0.000000 0.00000
ORIGX2 0.000000 1.000000 0.000000 0.00000
ORIGX3 0.000000 0.000000 1.000000 0.00000

Observa que el nom del registre utilitza els números 1, 2 i 3 en lloc de la n en ORIGXn. n és la N-èsima fila de la matriu de transformació. Mira l’especificació ORIGXn per a més informació.

SCALEn Record

Aquest registre està relacionat amb ORIGXn. Representa la matriu de transformació necessària per passar de coordenades ortogonals a coordenades fraccionals, que són una fracció de la longitud de la cel·la unitària.

De nou, 2HAC no va ser determinada per cristal·lografia, així que es dona una matriu identitat:

SCALE1 1.000000 0.000000 0.000000 0.00000
SCALE2 0.000000 1.000000 0.000000 0.00000
SCALE3 0.000000 0.000000 1.000000 0.00000

Coordinate Section

La secció de coordenades conté les coordenades de cada àtom per a cada model en l’estructura de la proteïna.

Aquesta secció és la més gran de qualsevol fitxer PDB. La manera més fàcil de trobar-la és buscar la primera línia que comenci amb ATOM.


Activitat Python

Crea un projecte en Python o utilitza un d’existent.

Recorda com crear-lo amb uv i editar-lo amb Pycharm.

uv init demopdb
cd demopdb
pycharm .

Recorda com per baixar-se una proteïna de PDB des del terminal (PowerShell):

Terminal window
iwr https://files.rcsb.org/download/3E7Z.pdb -OutFile 3E7Z.pdb

El codi per obrir i mostrar la primera linia del fitxer que comenci per ATOM és:

with open("3E7Z.pdb") as file:
for line in file:
if line.startswith("ATOM"):
print(line, end="")
break

Si traiem el break llavors obtindrem totes les línies del fitxer que comencen per ATOM en comptes de només la primera.

Task

Escriu un script en Python que et mostri la primera línia del fitxer 2HAC.pdb. Suposa que ja el tens descarregat.

En aquesta activitat, parlarem dels registres MODEL, ATOM, i TER.

Model Record

Típicament, les proteïnes determinades per cristal·lografia només tindran un model. Com que 2HAC va ser determinada per espectroscòpia RMN, hi ha diverses conformacions de proteïnes que són consistents amb les dades de RMN. Cada conformació es registra com el seu propi model.

Un model generalment es veu així:

MODEL [model_num]
ATOM 1 [...]
ATOM 2 [...]
ATOM 3 [...]
[...]
ENDMDL

És a dir, un registre de model comença amb MODEL, seguit d’una llista de registres ATOM, i acaba amb ENDMDL.

Hi ha 15 registres de model donats en 2HAC.

Task

Escriu un script en Python que conti el número de models:

Atom Record

Un registre ATOM és d’una sola línia i apareix múltiples vegades (una per cada àtom, per cada model).

Aquí hi ha un exemple:

ATOM 2 CA ASP A -3 -24.877 1.931 -4.644 1.00 0.00 C

Aquest registre indica que l’àtom #2 s’anomena CA, que forma part del residu d’àcid aspàrtic a la cadena A, i el seu ID de residu és -3. Després se’ns donen les coordenades ortogonals de l’àtom (-24.877, 1.931, -4.644).

Després de les coordenades de l’àtom, tenim dos números especials: l’ocupació i el factor de temperatura (també conegut com a factor B).

L’ocupació és la proporció de temps que l’àtom passa ocupant una posició particular. Aquest camp és especialment important quan una regió molecular és molt flexible. En el cas de 2HAC, tots els àtoms (de cada model) prenen només una conformació, així que la seva ocupació és del 100% (o 1.00).

El factor B es discuteix en detall a Average and …. Els àtoms amb un factor B gran generalment corresponen a regions més flexibles de la molècula.

L’últim camp en aquest registre és el símbol elemental de l’àtom. Aquest és el símbol de l’àtom que es donaria en una taula periòdica d’elements. Com que l’àtom #2 és un àtom de carboni, el seu símbol és C.

TER Record

Com hem mencionat anteriorment, 2HAC té dues cadenes, anomenades A i B. Es dona un registre TER després que es llisten tots els àtoms d’una cadena.

Per exemple, aquest és el registre TER donat al final de la cadena A en el model 1:

ATOM 543 HB2 ASP A 30 13.952 -5.133 -14.399 1.00 0.00 H
ATOM 544 HB3 ASP A 30 13.434 -6.033 -12.973 1.00 0.00 H
TER 545 ASP A 30
ATOM 546 N ASP B -3 -24.040 -6.834 4.973 1.00 0.00 N
ATOM 547 CA ASP B -3 -24.918 -6.297 3.894 1.00 0.00 C

El registre TER indica el nom de l’últim residu i cadena per a l’àtom que s’acaba de donar.

Bookkeeping Section

Hi ha dos registres al final d’un fitxer PDB: MASTER i END.

El registre MASTER llista el nombre total de certs registres que apareixen:

MASTER 151 0 0 2 0 0 0 6 530 2 2 6

In the above example, we can see that there are 124 REMARK records and 530 atomic coordinate records(ATOM + HETATM).

Task

Ves a la secció MASTER de l’especificació i digues que indiquen els altres números.

The final record is simply END.

Task

Escriu un script en Python que mostri la informació de la secció MASTER indicant a que correspon cada valor:


PDB Visualization

PyMol

La forma més habitual de veure i editar les proteïnes és usar Protein - PyMOL.

Pymol is a molecular-editor program that can be used to view molecular structures like 2HAC.

iCn3D

Apart de PyMol, l’NCBI proporciona una eina molt potent per a visualitzar i treballar amb proteïnes i altres estructures en format PDB i molts altres: ICN3D.

iCn3D

No és tant potent ni automatizable com PyMol, però és una opció popular per a biòlegs i químics ja que no requereix saber programació i és fàcilment accesible des de qualsevol navegador.

Si obrim la pàgina ens donarà diverses opcions per visualizar en 3D les proteïnes.

O bé indicant una llista d’indentificadors (de PDB o altres) i pitjant INTRO.

Per exemple, podem posar 2 cadenes: 1HHO,4N7N;

frame “https://structure.ncbi.nlm.nih.gov/Structure/icn3d/?mmdbafid=1HH0,4N7N&bu=1

Apart d’obtenir la animació en 3d de 2 proteïnes alhora, teniu una barra d’eines molt potent.

L’altra manera de carregar el/s fitxers PDB (o altres formats) és obrint un o més fitxers descarregats.

Provem de carregar la proteïna 6YYT del SARS-CoV-2 al portal web de l’icn3d. És la polimerasa (encarregada de replicar el virus)

Primer cal descarregar-la, amb PowerShell:

Terminal window
iwr https://files.rcsb.org/download/4HG6.pdb -OutFile 4HG6.pdb

A Linux seria:

Terminal window
wget https://files.rcsb.org/download/6YYT.pdb

Obrim el menú principal de la pàgina, opció File i seleccionem el format.

Així és la proteïna 6YYT SARS-CoV-2:

  • Dos suports helicoïdals amb diferents tons de color blau són la cadena de plantilla d’ARN i la seva cadena de producte.

  • La major part de les cintes de color rosa és la polimerasa, que és un enzim (proteïna funcional) que fa còpies de la cadena d’ARN. Aquesta polimerasa és un objectiu atractiu per a la vacuna antiviral COVID-19.

Si voltem la molècula, podem veure les cintes grogues, verdes i taronges, que són les proteïnes víriques que ajuden a la polimerasa a mantenir-se en el camí i copiar porcions llargues de la cadena d’ARN.

Widget iCn3D

Hi ha diverses formes d’exposar la proteïna animada o una imatge estàtica (PNG) a la nostra pàgina web. S’exposa com funciona cada una a la web oficial:

Mètode senzill. Embedir el giny (widget) amb un IFrame d’HTML (tal i com faríem amb Google Maps i altres serveis)

La web proposa aquest Iframe:

<iframe allowFullScreen='true' src='https://www.ncbi.nlm.nih.gov/Structure/icn3d/?mmdbid=1tup&width=300&height=300&closepopup=1&showcommand=0&shownote=0&mobilemenu=1&showtitle=0' width='320' height='320' style='border:none'></iframe>

Per a què quedi una mica millor cal decidit adaptar-lo d’aquesta manera, així es mostrarà el títol:

<main className="container mt-5">
<h2 className="text-center mt-5 fs-2">BioActivitat 6 - Estructures de proteïnes.</h2>
<iframe src="https://www.ncbi.nlm.nih.gov/Structure/icn3d/?mmdbid=6YYT&showtitle=1&closepopup=1"
width="100%"
height="600"
frameborder="0"
allowfullscreen>
</iframe>
</main>

I així ja el pots en una pàgina qualsevol.

El paràmetre de l’iframe que defineix la proteïna és mmdbid, pots provar de canviar-la per veure si et visualitza una altra proteïna; per exemple, la mmdbid=4N78.

Activitat

1.- Prova d’embedir l’ <iframe> en una de les teves pàgines web, assegura’t que es vegi bé i surti el títol de la proteïna.


Més sobre el Format PDB

Utilitzarem eines de visualització PDB per ajudar-nos a entendre algunes característiques addicionals dels fitxers PDB.

Terminal window
iwr https://files.rcsb.org/download/4HG6.pdb -OutFile 4HG6.pdb

L’estructura PDB 4HG6 va ser determinada per cristal·lografia de raigs X, i es veu així:

En la imatge anterior, la cadena A està acolorida en cian, la cadena B en taronja, i els àtoms d’heterògens es mostren com a esferes.

Heterògens

El format PDB es pot utilitzar per descriure residus “no estàndard”, anomenats heterògens.

La Heterogen Section i la Coordinate Section contenen informació sobre heterògens.

La secció d’heterògens de 4HG6 comença amb un registre HET a la línia 1221.

HET BGC C 1 12

Aquest registre ens diu que l’heterogen #901 s’anomena BGC, forma part de la cadena A, i té 12 registres HETATM corresponents.

Unes línies més endavant, un registre HETNAM ens diu el nom complet de BGC:

HETNAM BGC BETA-D-GLUCOPYRANOSE

Els registres HETATM són anàlegs als registres ATOM, excepte que donen informació sobre substàncies químiques que no són aminoàcids o nucleòtids estàndard. Per exemple, tant l’aigua com els aminoàcids modificats es consideren heterògens.

A continuació es mostra la primera entrada d’àtom heterogen:

HETATM10783 C2 BGC C 1 11.313 82.102 123.399 1.00195.30 C

L’àtom té el número de sèrie 10783, s’anomena C2, forma part del residu BGC #901, i és un àtom de carboni.

Com que hi ha tants àtoms en aquesta entrada PDB, els dos primers camps (HETATM i 10783) no estan separats. Com s’ha mencionat anteriorment, això és perquè el format PDB utilitza la posició de columna per delimitar camps.

La imatge següent mostra tots els heterògens presents en 4HG6:

Aquí, BGC és β-D-glucosa, UDP és uridina difosfat, i LDA és òxid de lauril dimetilamina-n. Cal notar que hi ha diversos residus BGC enllaçats junts, formant un oligosacàrid d’una sola cadena. També cal notar que els àtoms d’hidrogen s’ometen d’aquesta entrada PDB. Això és perquè la resolució de raigs X ha de ser molt alta (per sota d’1Å) per veure els àtoms d’hidrogen.

Connectivitat

Anteriorment hem mencionat el tipus de registre SSBOND, que dona informació sobre els enllaços disulfur.

A més d’un enllaç disulfur, 4HG6 especifica altres connexions. Els residus heterògens en 4HG6 estan connectats entre si mitjançant registres LINK:

LINK O4 BGC C 1 C1 BGC C 2 1555 1555 1.44

En altres paraules, l’àtom O4 de BGC #912 està connectat a l’àtom C1 de BGC #913, i la distància d’enllaç és d’1,42 àngstroms.

El registre LINK anterior especifica una connexió entre residus (entre BGC 912 i 913). No obstant això, els heterògens també han d’especificar les connexions entre altres àtoms heterògens.

Això es fa amb el registre CONECT:

CONECT 6748 8743

Aquest exemple simplement enllaça dos àtoms (#6748 i #8743).

A continuació hi ha un exemple més complicat:

CONECT10783107841078810790

De nou, aquest format tan compacte es deu a l’ús de números de columna per delimitar camps, en lloc d’utilitzar un caràcter separador de camp (com una coma o espai).

Això és com es veuria el registre anterior amb espais entre cada camp:

CONECT 10783 10784 10788 10790

Per entendre què està passant en aquest registre, compara’l amb la següent imatge:

En el residu BGC anterior, cada àtom està etiquetat pel seu número de sèrie. Ara podem veure que l’àtom 10783 està connectat als àtoms 10784, 10788 i 10790.


mmCIF

El 2014, els desenvolupadors del PDB van deixar de modificar i estendre el format PDB.

Com que el format PDB utilitza la posició de columnes per delimitar camps, una de les seves principals limitacions és que no permet la descripció d’estructures que continguin més de 99.999 àtoms.

Això és perquè només es reserven 5 posicions de columna per al número de sèrie d’un àtom.

De manera similar, ja que només una columna pot descriure un identificador de cadena, cap estructura en format PDB pot tenir més de 62 cadenes (els caràcters permesos són: a-z, A-Z i 0-9).

Per aquestes i altres raons, hi ha un nou format estàndard per a estructures a l’arxiu PDB: PDBx/mmCIF, o simplement mmCIF, que significa “Macromolecular CIF”.

El nom deriva del format Crystallographic Information File (CIF), que descriu petites molècules.

En aquesta lliçó, descrivim les característiques importants del format mmCIF.

Lesson 4: PDBx/mmCIF


Principals estructures de proteïnes humanes

De les aproximadament 20.000 seqüències de proteïnes humanes canòniques, en data de 20 de gener de 2021, s’han determinat les estructures completes o parcials, de resolució mitjana a alta, de 7.077 proteïnes mitjançant cristal·lografia de raigs X o altres mètodes.

Quines d’aquestes proteïnes dominen el banc de dades de proteïnes (el PDB) i per què?

En aquest article, llistem les 273 principals estructures de proteïnes humanes basades en el nombre de les seves entrades PDB.

Aquest conjunt de proteïnes representa més del 40% de totes les entrades PDB humanes disponibles i representa tant les tendències passades com l’estat actual de la biologia estructural de proteïnes.


TODO