Упрощенная система ввода строк с молекулярным вводом ( SMILES ) — это спецификация в виде строковой записи для описания структуры химических веществ с использованием коротких строк ASCII . Строки SMILES могут быть импортированы большинством редакторов молекул для преобразования обратно в двумерные рисунки или трехмерные модели молекул.
Первоначальная спецификация SMILES была разработана в 1980-х годах. С тех пор он был изменен и расширен. В 2007 году в сообществе химиков с открытым исходным кодом был разработан открытый стандарт OpenSMILES.
Первоначальная спецификация SMILES была инициирована Дэвидом Вейнингером в лаборатории отдела экологии Среднего континента USEPA в Дулуте в 1980-х годах. [1] [2] [3] [4] За вклад в раннюю разработку были отмечены «Гилман Вейт и Роуз Руссо (USEPA), Альберт Лео и Корвин Ханш ( Колледж Помоны ) за поддержку работы, а также Артур Вейнингер (Помона) ; Daylight CIS) и Джереми Скофилду (Cedar River Software, Рентон, Вашингтон) за помощь в программировании системы». [5] Агентство по охране окружающей среды профинансировало первоначальный проект по разработке SMILES. [6] [7]
С тех пор он был модифицирован и расширен другими, в первую очередь Daylight Chemical Information Systems. В 2007 году химическое сообщество с открытым исходным кодом Blue Obelisk разработало открытый стандарт под названием «OpenSMILES». Другие «линейные» обозначения включают обозначение линии Висвессера (WLN), ROSDAL и SLN (Tripos Inc).
В июле 2006 года ИЮПАК представил InChI в качестве стандарта представления формул. Обычно считается, что SMILES более удобен для чтения человеком, чем InChI; он также имеет широкую базу программного обеспечения с обширной теоретической поддержкой (например, теория графов ).
Термин SMILES относится к строковой записи для кодирования молекулярных структур, и конкретные экземпляры следует строго называть строками SMILES. Однако термин SMILES также часто используется для обозначения как одной строки SMILES, так и нескольких строк SMILES; точное значение обычно ясно из контекста. Термины «канонический» и «изомерный» могут привести к некоторой путанице при применении к УЛЫБКАМ. Эти термины описывают различные атрибуты строк SMILES и не являются взаимоисключающими.
Обычно для молекулы можно записать несколько одинаково допустимых строк SMILES. Например, CCO
и OCC
все C(O)C
указывают структуру этанола . Были разработаны алгоритмы для создания одной и той же строки SMILES для данной молекулы; из множества возможных строк эти алгоритмы выбирают только одну. Эти SMILES уникальны для каждой структуры, хотя и зависят от алгоритма канонизации , использованного для их создания, и называются каноническими SMILES. Эти алгоритмы сначала преобразуют УЛЫБКИ во внутреннее представление молекулярной структуры; затем алгоритм исследует эту структуру и создает уникальную строку SMILES. Были разработаны различные алгоритмы генерации канонических SMILES, в том числе алгоритмы Daylight Chemical Information Systems, OpenEye Scientific Software , MEDIT, Chemical Computing Group , MolSoft LLC и Chemistry Development Kit . Распространенным применением канонических SMILES является индексирование и обеспечение уникальности молекул в базе данных .
В оригинальной статье, описывающей алгоритм CANGEN [2], утверждалось, что он генерирует уникальные строки SMILES для графов, представляющих молекулы, но алгоритм не работает в ряде простых случаев (например, кунеан , 1,2-дициклопропилэтан) и не может считаться правильным методом для каноническое представление графа. [8] В настоящее время не проводится систематического сравнения коммерческого программного обеспечения, позволяющего проверить наличие подобных недостатков в этих пакетах.
Обозначение SMILES позволяет указать конфигурацию тетраэдрических центров и геометрию двойной связи. Это структурные особенности, которые не могут быть определены только с помощью связности, и поэтому УЛЫБКИ, которые кодируют эту информацию, называются изомерными УЛЫБКАМИ. Примечательной особенностью этих правил является то, что они допускают строгую частичную спецификацию киральности. Термин изомерные SMILES также применяется к SMILES, в которых указаны изомеры .
С точки зрения вычислительной процедуры на основе графов, SMILES представляет собой строку, полученную путем печати узлов символов, встречающихся при обходе дерева в глубину химического графа . Химический граф сначала обрезается, чтобы удалить атомы водорода, а циклы разрываются, чтобы превратить его в связующее дерево . Там, где циклы были разорваны, включаются числовые суффиксы, обозначающие подключенные узлы. Круглые скобки используются для обозначения точек ветвления дерева.
Результирующая форма SMILES зависит от выбора:
С точки зрения формальной теории языка УЛЫБКА — это слово. SMILES можно анализировать с помощью контекстно-свободного анализатора. Это представление использовалось для предсказания биохимических свойств (включая токсичность и биоразлагаемость ) на основе основного принципа хемоинформатики, согласно которому подобные молекулы обладают схожими свойствами. В прогнозных моделях реализован подход распознавания синтаксических образов (который включал определение молекулярного расстояния) [9] , а также более надежная схема, основанная на статистическом распознавании образов. [10]
Атомы представлены стандартным сокращением химических элементов в квадратных скобках, например, [Au]
для золота . Скобки можно опускать в общем случае атомов, которые:
Все остальные элементы должны быть заключены в скобки, а заряды и атомы водорода должны быть явно указаны. Например, УЛЫБКИ для воды могут быть записаны как O
или [OH2]
. Водород также можно записать как отдельный атом; вода также может быть записана как [H]O[H]
.
При использовании скобок символ H
добавляется, если атом в скобках связан с одним или несколькими водородами, за которым следует число атомов водорода, если оно больше 1, затем знак +
положительного заряда или знак -
отрицательного заряда. Например, [NH4+]
для аммония ( NH+
4). Если имеется более одного заряда, он обычно записывается цифрой; однако можно повторять знак и столько раз, сколько зарядов имеет ион: для титана (IV) Ti 4+[Ti+4]
можно написать либо или . Таким образом, гидроксид- анион ( OH - ) представлен , катион гидроксония ( H 3 O + ) и катион кобальта (III) (Co 3+ ) или .[Ti++++]
[OH-]
[OH3+]
[Co+3]
[Co+++]
Облигация обозначается одним из символов . - = # $ : / \
.
Связи между алифатическими атомами считаются одинарными, если не указано иное, и подразумеваются смежностью в строке SMILES. Хотя одинарные облигации могут быть записаны как -
, обычно это опускается. Например, SMILES для этанола может быть записана как C-C-O
, CC-O
или C-CO
, но обычно пишется CCO
.
Двойные, тройные и четверные связи представлены символами =
, #
, и $
соответственно, как показано SMILES O=C=O
( диоксид углерода CO 2 ), C#N
( цианистый водород HCN) и [Ga+]$[As-]
( арсенид галлия ).
Дополнительным типом связи является «несвязка», обозначаемая значком .
, обозначающая, что две части не соединены друг с другом. Например, водный раствор хлорида натрия можно записать как [Na+].[Cl-]
, чтобы показать диссоциацию.
Ароматическая «полуторная» связь может обозначаться знаком :
; см. § Ароматичность ниже.
Одинарные связи, соседние с двойными связями, могут быть представлены с использованием /
или \
для обозначения стереохимической конфигурации; см. § Стереохимия ниже.
Кольцевые структуры записываются путем разрыва каждого кольца в произвольной точке (хотя некоторые варианты приводят к более разборчивой УЛЫБКЕ, чем другие), чтобы создать ациклическую структуру, и добавления числовых меток замыкания кольца, чтобы показать связь между несмежными атомами.
Например, циклогексан и диоксан могут быть записаны как C1CCCCC1
и O1CCOCC1
соответственно. Для второго кольца метка будет 2. Например, декалин (декагидронафталин) можно записать как C1CCCC2C1CCCC2
.
SMILES не требует использования номеров звонков в каком-либо определенном порядке и допускает нулевой номер звонка, хотя это используется редко. Кроме того, разрешено повторно использовать номера колец после закрытия первого кольца, хотя обычно это затрудняет чтение формул. Например, бициклогексил обычно записывается как C1CCCCC1C2CCCCC2
, но его также можно записать как C0CCCCC0C0CCCCC0
.
Несколько цифр после одного атома обозначают несколько связей, замыкающих кольцо. Например, альтернативное обозначение SMILES для декалина C1CCCC2CCCCC12
: кольцо 12.%
C%12
Одной или обеим цифрам может предшествовать тип связи, чтобы указать тип замыкающей кольцо связи. Например, циклопропен обычно пишется C1=CC1
, но если в качестве замыкающей кольцо выбрана двойная связь, ее можно записать как C=1CC1
, C1CC=1
, или C=1CC=1
. (Первая форма предпочтительнее.) C=1CC-1
является незаконной, поскольку она явно определяет конфликтующие типы связи, замыкающей кольцо.
Замыкающие кольцо связи не могут использоваться для обозначения кратных связей. Например, не C1C1
является допустимой альтернативой C=C
этилену . Однако их можно использовать с необлигациями; C1.C2.C12
Это своеобразный, но законный альтернативный способ записи пропана , более распространенный CCC
.
Выбор точки разрыва кольца рядом с прикрепленными группами может привести к более простой форме SMILES за счет исключения ветвей. Например, циклогексан-1,2-диол проще всего записать как OC1CCCCC1O
; выбор другого места разрыва кольца создает разветвленную структуру, для записи которой требуются круглые скобки.
Ароматические кольца, такие как бензол, могут быть записаны в одной из трех форм:
C1=CC=CC=C1
,:
, например C:1:C:C:C:C:C1
, илиb
, c
, n
, и , соответственно.o
p
s
В последнем случае связи между двумя ароматическими атомами считаются (если это явно не показано) ароматическими связями. Таким образом, бензол , пиридин и фуран могут быть представлены соответственно SMILES c1ccccc1
и n1ccccc1
.o1cccc1
Ароматический азот, связанный с водородом, который содержится в пирроле , должен быть представлен как [nH]
; таким образом, имидазол записывается в обозначениях SMILES как n1c[nH]cc1
.
Когда ароматические атомы одинарно связаны друг с другом, например, в бифениле , одинарная связь должна быть явно показана: c1ccccc1-c2ccccc2
. Это один из немногих случаев, когда -
требуется символ одинарной связи. (На самом деле, большая часть программного обеспечения SMILES может правильно сделать вывод, что связь между двумя кольцами не может быть ароматической, и поэтому примет нестандартную форму c1ccccc1c2ccccc2
.)
Алгоритмы Daylight и OpenEye для генерации канонических SMILES различаются по обработке ароматичности.
COc(c1)cccc1C#N
.Ветви описываются круглыми скобками, например, CCC(=O)O
для пропионовой кислоты и FC(F)F
для фтороформа . Первый атом в скобках и первый атом после группы в скобках связаны с одним и тем же атомом в точке ветвления. Символ облигации должен находиться внутри круглых скобок; снаружи (например: CCC=(O)O
) недопустимо.
Замещенные кольца могут быть записаны с точкой разветвления в кольце, как показано SMILES COc(c1)cccc1C#N
(см. Изображение) и COc(cc1)ccc1C#N
(см. Изображение), которые кодируют изомеры 3- и 4-цианазизола. Написание SMILES для замененных колец таким образом может сделать их более удобочитаемыми.
Ветви можно писать в любом порядке. Например, бромхлордифторметан может быть записан как FC(Br)(Cl)F
, BrC(F)(F)Cl
, C(F)(Cl)(F)Br
или тому подобное. Как правило, форму SMILES легче читать, если первой идет более простая ветвь, а последняя часть без скобок является самой сложной. Единственные предостережения к таким перестановкам:
Единственная форма разветвления, которая не требует скобок, - это связи, замыкающие кольцо. Правильный выбор замыкающих кольцо связей может уменьшить количество необходимых скобок. Например, толуол обычно записывается как Cc1ccccc1
или c1ccccc1C
, без скобок, необходимых, если написано как c1cc(C)ccc1
или c1cc(ccc1)C
.
SMILES допускает, но не требует спецификации стереоизомеров .
Конфигурация вокруг двойных связей указывается с помощью символов /
и \
для обозначения направленных одинарных связей, прилегающих к двойной связи. Например, F/C=C/F
(см. изображение) — это одно из представлений транс - 1,2-дифторэтилена , в котором атомы фтора находятся на противоположных сторонах двойной связи (как показано на рисунке), тогда как F/C=C\F
(см. изображение) — одно из возможных изображений цис -1,2-дифторэтилен, в котором фторы находятся по одну сторону двойной связи.
Символы направления связи всегда входят в группы по крайней мере по два, из которых первый является произвольным. То есть F\C=C\F
то же самое, что и F/C=C/F
. При наличии чередующихся одинарных-двойных связей группы больше двух, при этом средние символы направления примыкают к двум двойным связям. Например, распространенная форма (2,4)-гексадиена пишется C/C=C/C=C/C
.
Более сложный пример: бета-каротин имеет очень длинную основу из чередующихся одинарных и двойных связей, которую можно записать CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C(C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C
.
Конфигурация тетраэдрического углерода указывается @
или @@
. Рассмотрим четыре связи в том порядке, в котором они появляются (слева направо) в форме УЛЫБКИ. Если посмотреть на центральный углерод с точки зрения первой связи, остальные три расположены либо по часовой стрелке, либо против часовой стрелки. Эти случаи обозначаются значками @@
и @
, соответственно (поскольку @
сам символ представляет собой спираль, вращающуюся против часовой стрелки).
Например, рассмотрим аминокислоту аланин . Одна из его форм SMILES NC(C)C(=O)O
более полно записывается как N[CH](C)C(=O)O
. L -аланин , более распространенный энантиомер , записывается как N[C@@H](C)C(=O)O
(см. изображение). Если смотреть со стороны связи азот-углерод, то водородные ( H
), метильные ( C
) и карбоксилатные ( C(=O)O
) группы располагаются по часовой стрелке. D -аланин можно записать как N[C@H](C)C(=O)O
(см. изображение).
Хотя порядок указания ветвей в SMILES обычно неважен, в данном случае он имеет значение; замена любых двух групп требует изменения индикатора киральности. Если ветви поменялись местами и аланин записывается как NC(C(=O)O)C
, то конфигурация также изменится; L -аланин записывается как N[C@H](C(=O)O)C
(см. изображение). Другие способы записи включают C[C@H](N)C(=O)O
, OC(=O)[C@@H](N)C
и OC(=O)[C@H](C)N
.
Обычно первая из четырех связей появляется слева от атома углерода, но если УЛЫБКА написана начиная с хирального углерода, например C(C)(N)C(=O)O
, то все четыре находятся справа, но появляется первой (связь [CH]
в этом случай) используется в качестве ссылки для заказа следующих трех: L -аланин также может быть записан [C@@H](C)(N)C(=O)O
.
Спецификация SMILES включает в себя уточнение @
символа для обозначения стереохимии вокруг более сложных хиральных центров, таких как тригонально-бипирамидальная молекулярная геометрия .
Изотопы обозначаются номером, равным целой изотопной массе, предшествующей атомному символу. Бензол , в котором один атом представляет собой углерод-14, обозначается как, [14c]1ccccc1
а дейтерохлороформ — [2H]C(Cl)(Cl)Cl
.
Чтобы проиллюстрировать молекулу с более чем 9 кольцами, рассмотрим цефаостатин-1, [12] стероидный 13-кольцевой пиразин с эмпирической формулой C 54 H 74 N 2 O 10 , выделенный из полухордата Индийского океана Cephalodiscus gilchristi :
Начиная с крайней левой метильной группы на рисунке:
CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO
%
появляется перед индексом метки замыкания кольца выше 9; см. § Кольца выше.
Обозначение SMILES подробно описано в руководстве по теории SMILES, предоставленном Daylight Chemical Information Systems, и представлен ряд иллюстративных примеров. Утилита изображения Daylight предоставляет пользователям возможность проверить свои собственные примеры УЛЫБОК и является ценным образовательным инструментом.
SMARTS — это строковое обозначение для указания субструктурных структур в молекулах. Хотя он использует многие из тех же символов, что и SMILES, он также позволяет указывать подстановочные знаки атомов и связей, которые можно использовать для определения субструктурных запросов для поиска в химической базе данных . Одним из распространенных заблуждений является то, что подструктурный поиск на основе SMARTS включает сопоставление строк SMILES и SMARTS. Фактически, строки SMILES и SMARTS сначала преобразуются во внутренние представления графа, которые ищут изоморфизм подграфа .
SMIRKS, расширенный набор «reaction SMILES» и подмножество «reaction SMARTS», представляет собой строковую нотацию для указания преобразований реакции. Общий синтаксис расширений реакций следующий REACTANT>AGENT>PRODUCT
(без пробелов), где любое из полей можно либо оставить пустым, либо заполнить несколькими молекулами, обозначенными точкой ( .
), а также другими описаниями, зависящими от базового языка. Атомы могут быть дополнительно идентифицированы номером (например [C:1]
, ) для сопоставления, [13] , например, в . [14]
SMILES соответствует дискретным молекулярным структурам. Однако многие материалы представляют собой макромолекулы, которые слишком велики (и часто стохастические), чтобы для них можно было удобно создавать УЛЫБКИ. BigSMILES — это расширение SMILES, целью которого является создание эффективной системы представления макромолекул. [15]
SMILES можно преобразовать обратно в двумерные представления с использованием алгоритмов генерации структурных диаграмм (SDG). [16] Это преобразование иногда неоднозначно. Преобразование в трехмерное представление достигается за счет подходов к минимизации энергии. Существует множество загружаемых и доступных через Интернет утилит для конвертации.