Escribe para buscar…

SMILES

SMILES és una notació que defineix la estructura de les mol·lècules amb l'ús de cadenes de caràcters ASCII; per guardar-les de forma òptima en sistemes informàtics.

Esta página todavía no se ha traducido — se muestra en su idioma original:Català

Introducció

En els vostres estudis de química, començats als primers anys, heu trobat moltes maneres de representar els productes químics, i aquí n’enumerem algunes.

Per exemple,

Nom trivialAspirina
Nom sistemàticàcid 2-acetiloxibenzoic
Fòrmula químicaC₉H₈O₄
Fòrmula esquel·lèticaCC(=O)OC1=CC=CC=C1C(=O)O
DiagramaDibuix

Com emmagatzemar mol·lecules en sistemes informátics ?

Aquestes formes són molt útils pels professionals de la química.

Ara bé, els reptes de la quimioinformàtica són: guardar, representar i visualitzar els compostos i mol·lècules de forma eficient i còmode tant a nivell químic com informàtic.

Inicialment, podem pensar que el nom sistemàtic (àcid 2-acetiloxibenzoic) o la fórmula química (C9H8O4) ens poden servir per guardar tota la informació d’una substància, però no sempre és així.

Hi pot haver fórmules duplicades, per exemple, tant l’etanol com dimetilèter tenen la fórmula C₂H₆O, però un et fa ballar (alcohol) i l’altre… explotar (èter).

També podriem pensar que per compensar aquesta informació que manca (els enllaços) podem usar la fórmula esquel·lètica.


Afortunadament la IUPAC (Unió Internacional de Química Pura i Aplicada) acorda nomenclatures internacionals de noms químics que són generalment sistemàtics però flexibles. Permeten l’ús de certs noms trivials ben establerts.

Com que els noms IUPAC sistemàtics es fan segons regles formalitzades, en principi podrien ser utilitzats tant per humans com per ordinadors.

Tanmateix, els noms IUPAC solen ser força difícils de llegir per als químics, i molt menys d’escriure, i les regles no són canòniques, la qual cosa dóna lloc a nombroses opcions diferents per anomenar cada compost.

Amb l’arribada de la quimioinformàtica als anys 70 i 80, es va veure la necessitat de representar molècules d’una forma que fos fàcilment llegible i manipulable per ordinador.

Les primeres solucions van ser les taules de connexions, que descriuen de manera explícita quins àtoms estan units entre si i amb quin tipus d’enllaç.

Note

Els formats de text de taules de connexions encara s’utilitzen força avui en dia (en formats com .mol o .sdf), i els estudiarem més endavant.

Aquestes taules, tot i ser eficients i precises, ocupen força espai i poden resultar lentes de processar quan es treballa amb milers de molècules.

Per això, van sorgir sistemes més compactes, com les notacions lineals, pensades per codificar estructures de forma seqüencial dins de fitxers de text, ocupant menys espai i sent més ràpides de llegir, comparar i transmetre.

Les representacions de notació lineal tenen avantatges clau per a la velocitat i l’automatització, especialment per a manipular un gran nombre d’estructures (per exemple, cercant una gran base de dades).

Per això, les notació de línies es podria considerar com una nomenclatura per a ordinadors, ja que com una taula de connexió, un ordinador pot “llegir” una notació de línies i desenvolupar una molècula de la mateixa manera que un humà pot llegir la nomenclatura IUPAC i generar la molècula. Les notacions de línies són llegibles tant per màquines com per humans.

Actualment, les notacions lineals més utilitzades són el sistema simplificat d’entrada de línies d’entrada molecular (SMILES) i l’identificador químic de la IUPAC (InChI).

En aquesta sessió ens centrarem en la notació SMILES.


Notació SMILES

Les cadenes de SMILES (Simplified Molecular Input Line Entry Specification) són molt útils per ser introduïdes en programes especialitzats i representar molècules sense la necessitat de dibuixar la molècula manualment; és per això que les usare

Hi ha regles específiques sobre com representar àtoms, enllaços, aromaticitat, anells i ramificacions, etc.

Per exemple, els enllaços simples no cal representar-los, però els enllaços dobles es poden representar utilitzant el signe =.

Els àtoms d’hidrogen normalment s’ignoren.

Exemples:

CH2O (Etè) es representa com C=O.

O=C=0 representa el diòxid de Carboni.

O és per representar l’aigua (que la seva fórmula és H2O, però com hem dit els àtoms d’Hidrògen no compten)

Aquí tens una taula esquemàtica de com es relaciona la fórmula química amb la notació SMILES.

shell
| Molècula | SMILES |
| -------- | ------ |
| CH₄      | C      |
| NH₃      | N      |
| H₂O      | O      |
| CO₂      | O=C=O  |

En aquesta taula tens uns quants exemples més, de compostos més complexes:

shell
| Compost                  | SMILES                       | Notes                                                      |
| ------------------------ | ---------------------------- | ---------------------------------------------------------- |
| Etanol                   | `CCO`                        | Alcohol comú, fàcil de reconèixer.                         |
| Glucosa                  | `C(C1C(C(C(C(O1)O)O)O)O)O`   | Molècula de sucre simple, mostra molts OH.                 |
| Cafeïna                  | `Cn1cnc2c1c(=O)n(c(=O)n2C)C` | Molècula amb anells aromàtics i N, típica de bioquímica.   |
| Àcid acètic              | `CC(=O)O`                    | Molècula àcida simple, útil per calcular pKa en exercicis. |
| Propanona (acetona)      | `CC(=O)C`                    | Molècula simple amb enllaç doble C=O.                      |
| Metanamina (methylamine) | `CN`                         | Mostra un grup amino primari.                              |

OpenSmiles és una versió del llenguatge SMILES per a química patrocinada per la comunitat i basada en estàndards oberts.

Per a consultar més exemples de la notació SMILES consulta a Daylight - Smiles i també a Wikipedia - SMILES.


Taller SMILES i RDKIT

Entorn de treball

Crea un projecte smiles i importa la llibreria RDKit:

shell
uv init smiles
cd smiles
uv add rdkit

Estás leyendo una vista previa.

Inicia sesión para leer el artículo completo. Cualquier cuenta abre 4 artículos gratuitos al mes; el alumnado y el profesorado leen las páginas de su curso sin límite.

Iniciar sesión