PubChem
PubChem is the world's largest collection of freely accessible chemical information.
Introducció
PubChem permet cercar substàncies químiques per nom, fórmula molecular, estructura i altres identificadors. Troba propietats químiques i físiques, activitats biològiques, informació sobre seguretat i toxicitat, patents, citacions bibliogràfiques i més.
Les dades de PubChem provenen de més de 500 organitzacions, incloses agències governamentals, laboratoris universitaris, empreses farmacèutiques, venedors de substàncies i altres bases de dades. Una llista actualitzada de les fonts de dades de PubChem està disponible a la pàgina Data Sources.
Per entendre millor les característiques d’aquesta pàgina, pots llegir l’article New PubChem Data Sources Page
PubChem organitza les seves dades en tres bases de dades interconnectades: substància, compost i bioassaig.
| Base de dades | URL | Identificador |
|---|---|---|
| Substància | PCSubstance | SID |
| Compost | PCCompound | CID |
| Bioassaig | PCAssay | AID |
Els identificadors únics utilitzats per localitzar registres en aquestes tres bases de dades s’anomenen SID (Substance ID), CID (Compound ID) i AID (Assay ID) per a les bases de dades de substàncies, compostos i bioassaigs, respectivament.
Compostos i substàncies
Els col·laboradors de dades individuals dipositen informació sobre substàncies químiques a la base de dades de substàncies: Substance.
Diferents contribuents de dades poden proporcionar informació sobre la mateixa molècula, per tant, la mateixa estructura química pot aparèixer diverses vegades a la base de dades de substàncies.
Per proporcionar una visió no redundant, les estructures químiques de la base de dades de substàncies es normalitzen mitjançant un procés anomenat “estandardització” i les estructures químiques úniques s’identifiquen i s’emmagatzemen a la base de dades de compostos: Compound.
La base de dades de Compound conté informació que no és enviada pels dipositants de dades, però sí anotada per l’equip de PubChem.
En el context de les bases de dades científiques, l’anotació es refereix al procés d’afegir informació addicional a una entrada de base de dades (per exemple, un compost a la base de dades de compostos i un assaig a la base de dades BioAssay).
La informació anotada sempre es presenta amb la seva informació de procedència (és a dir, la font de la informació).
La llista de totes les fonts d’anotacions utilitzades a PubChem està disponible a la pàgina Fonts de PubChem. Des d’aquesta pàgina, es poden descarregar totes les anotacions d’una font concreta.
La diferència entre les bases de dades de substàncies i compostos s’explica amb més detall en aquesta aquest article: Quina diferència hi ha entre una substància i un compost a PubChem?
BioAssay
Les descripcions d’experiments biològics sobre substàncies químiques s’emmagatzemen a la base de dades BioAssay.
Consultes
Consultes simples
Després de visitar un lloc web que proporciona informació química com PubChem, probablement hi havia un camp de text disponible que permetia a l’usuari introduir un nom alfanumèric, un número o una combinació d’ambdós per recuperar una substància química.
Les cerques senzilles d’introducció de text poden semblar la forma més bàsica de buscar alguna cosa en una base de dades i sovint ho són, però moltes permeten introduir caràcters per refinar com es realitza la cerca. Utilitzant una cerca senzilla a Google com a exemple, podeu canviar com es realitza la cerca simplement posant els vostres termes entre parèntesis. Això indica al motor de cerca que tot el que està entre parèntesis s’ha de trobar abans d’incloure’s als resultats. Hi ha algunes pràctiques comunes per a aquestes alteracions que s’utilitzen entre molts motors de cerca diferents, però això no s’ha d’interpretar per pensar que totes funcionaran igual.
Abans de realitzar una sèrie de cerques, busca la documentació facilitada per l’amfitrió del cercador per veure quines alteracions es poden fer perquè els resultats trobats tinguin més rellevància amb el que cerca l’usuari. La raó d’això es deu simplement al fet que les bases de dades químiques poden contenir moltes dades i això estalviarà en intentar ordenar milers de resultats.
TODO Reviseu la secció 1.3 per veure algunes altres alteracions que sovint es permeten a les cerques de text. Preneu nota de l’ús de caràcters booleans juntament amb algunes de les diferents maneres en què es poden representar els productes químics a l’activitat 2.
Paràmetres de cerca personalitzats
És possible que les cerques químiques avançades hagin d’utilitzar diversos paràmetres personalitzats per reduir una gran llista de productes químics a un conjunt de resultats més rellevant i més reduït. La interfície d’usuari per a una cerca personalitzada acostuma a funcionar de la mateixa manera que emplenar un formulari electrònic. Després de navegar a la cerca avançada en un lloc web, l’usuari tindrà moltes opcions per definir una cerca molt específica. Moltes d’aquestes cerques avançades inclouran caselles de selecció per seleccionar coses com ara grups funcionals, propietats experimentals i altres detalls del compost. L’usuari també pot especificar intervals per a coses com la densitat, el nombre d’àtoms o altres propietats. Les paraules clau poden ser valuoses per cercar el context d’una pàgina química per trobar una estructura que compleixi determinades categories.
Disponibilitat i intercanvi de dades
Totes les bases de dades esmentades a l’apartat 3.4 i 3.5 (inclòs PubChem) són bases de dades públiques que ofereixen els seus continguts de manera gratuïta, i en molts casos també ofereixen una manera de descarregar dades massivament i integrar-les a la pròpia base de dades. Per tant, és molt habitual que els grups de bases de dades intercanviïn la seva informació entre ells. Això sovint planteja algunes preocupacions tècniques. Per exemple, diferents bases de dades poden utilitzar diferents representacions químiques per referir-se a la mateixa molècula. Això pot provocar una concordança incorrecta de l’estructura química entre les bases de dades, la qual cosa condueix a una integració de dades incorrecta. A més, quan una base de dades té informació incorrecta, aquest error sovint es propaga a altres bases de dades. El problema de la propagació d’errors és un problema greu, però molt comú. 1 , 2 Per tant, quan s’utilitza informació en aquestes bases de dades, s’ha de tenir en compte diversos problemes de precisió i qualitat de les dades prevalents en aquestes bases de dades. L’objectiu d’aquest curs és ajudar els estudiants a desenvolupar la capacitat d’avaluar críticament la informació química disponible a les bases de dades públiques.
Python
Normalització de l’estructura
PubChem conté més de 200 milions de registres químics enviats per centenars de col·laboradors de dades. Aquests registres proporcionats pel dipositant s’arxiven en una base de dades anomenada “ substància “ i cada registre d’aquesta base de dades s’anomena substància .
Els registres de la base de dades de substàncies són molt redundants, ja que diferents contribuents de dades poden enviar informació sobre el mateix producte químic, independentment els uns dels altres.
Per tant, PubChem extreu estructures químiques úniques de la base de dades de substàncies mitjançant un procés anomenat estandardització PubChem chemical structure standardization. Aquestes estructures úniques s’emmagatzemen a la base de dades composta i els registres individuals d’aquesta base de dades s’anomenen “compostos”.
Per obtenir més informació sobre els compostos i substàncies de PubChem, llegeix aquest articleWhat is the difference between a substance and a compound in PubChem?.
Les cel·les de codi següents mostren els efectes de l’estandardització de l’estructura química.
1.- Baixa una llista dels SID associats amb el CID 1174 (uracil).
= 1174
= + +
=
=
La sol·licitud anterior retorna més de 360 substàncies, totes estandarditzades amb la mateixa estructura (CID 1174).
2.- Baixa les dades d’estructura dels SID
= 50
=
= + 1
=
= *
= *
=
= + +
=
Baixem les dades en grups de 50 i les guardem al fitxer cid2sids-uracil.sdf.
Processing chunk 0
Processing chunk 1
.
.
.
Processing chunk 7Estàs llegint una vista prèvia.
Inicia sessió per llegir l'article complet. Qualsevol compte obre 4 articles gratuïts al mes; l'alumnat i el professorat llegeixen les pàgines del seu curs sense límit.
Inicia sessió