Покритикуйте, пожалуйста, нашу бесплатную базу на пол миллиарда конформеров

обсуждение вопросов физической химии и химической физики
physical chemistry and chemical physics: discussions for professionals
Ответить
chemigor
Сообщения: 585
Зарегистрирован: Вс июн 21, 2015 5:29 pm
Контактная информация:

Покритикуйте, пожалуйста, нашу бесплатную базу на пол миллиарда конформеров

Сообщение chemigor » Пн дек 21, 2020 10:32 pm

Добрый день,

предлагаю Вашему вниманию предварительный релиз базы данных химических веществ с поиском по функциональным группам, на данный момент в ней 103 миллиона молекул и около 500 миллионов конформеров, которая основана на данных PubChem и которую мы планируем сами дополнять новыми данными и расчетами.

https://www.elegant-nmr.com/mdb/

Мы планируем эту базу всегда поддерживать бесплатно у нас на сайте.

С радостью выслушаю критику, замечания, отзывы, советы.

Спасибо!

С уважением и с наступающими Новогодними праздниками!

Аватара пользователя
Гесс
Сообщения: 12134
Зарегистрирован: Ср фев 15, 2012 11:19 pm

Re: Покритикуйте, пожалуйста, нашу бесплатную базу на пол миллиарда конформеров

Сообщение Гесс » Вт дек 22, 2020 12:01 am

Прикольно, но несовсем понятно нафига.
1) не отображается число найденных результатов.
Ввел C11 H14 - получил 2250+ результатов. Кто будет отсматривать такое богатство?
2) дикие структуры
Ввел C6 H2 - из 16 структур - 4 нормальных (гептатриин и три его изотопозамещенных), все остальное - структуры из категории фантастики.

Нужна какая то сортировка, но какая я пока сформулировать неготов.

chemigor
Сообщения: 585
Зарегистрирован: Вс июн 21, 2015 5:29 pm
Контактная информация:

Re: Покритикуйте, пожалуйста, нашу бесплатную базу на пол миллиарда конформеров

Сообщение chemigor » Вт дек 22, 2020 12:11 am

Спасибо большое за отзыв!

Да, в базе есть "не от мира сего" структуры, ибо основана на PubChem. Обычно если нет 3Д структуры, а набор атомов из обычной органики - это практически сразу - гарантия структуры "не от мира сего".

Чтобы ограничить поиск надо пользовать поиск по функциональным группам.

Рассмотрим, например, Ваш пример, C11 H14, но, например, мы ищем то, что содержит бензольное кольцо и C3H7 группу.

В этом случае вначале в дополнительном поиске (auxilary search) ищем бензол и C3H7 и втыкаем в основной поиск. Получается уже только 45 структур, правда больше половины - все еще не реальных, но всяко, можно все хорошо ограничить.

Попытаюсь в хелпе понятнее про эту сортировку написать, спасибо за наводку!
Гесс писал(а):
Вт дек 22, 2020 12:01 am
Прикольно, но несовсем понятно нафига.
для удобного поиска известных молекул и их конформеров на основе составных функциональных групп. Грубо говоря, вот например, я знаю, что хочу найти молекулу с COOH, CH3 и нафталиновым кольцом, и еще чтоб какой-нибудь галоген был, при использовании вспомогательного поиска как раз такой поиск очень легко совершается. У нас эта база как побочный продукт получилась, поэтому готовы давать такой поиск за так, но и хочется чтобы всем удобной была.
Гесс писал(а):
Вт дек 22, 2020 12:01 am
1) не отображается число найденных результатов.
в общем виде это довольно сложно, ибо можно написать очень обширный запрос для поиска и тогда в качестве результатов будет под 100+ миллионов ответов, а для этого надо загрузить сервер на пару минут. Буду думать как оповестить пользователя, что поиск может дать огромное число ответов.
Последний раз редактировалось chemigor Вт дек 22, 2020 1:48 am, всего редактировалось 1 раз.

Аватара пользователя
Гесс
Сообщения: 12134
Зарегистрирован: Ср фев 15, 2012 11:19 pm

Re: Покритикуйте, пожалуйста, нашу бесплатную базу на пол миллиарда конформеров

Сообщение Гесс » Вт дек 22, 2020 1:47 am

Согласен, auxilary search хорошая штука.
1) Я несколько раз наблюдаю как после выбора фрагмента из аукксиларного поиска - кнопка основного поиска неактивна. Благо можно скопировать CID-коды в новое окно.
С бензолом хороший пример, возможно стоит сделать одноминутное обучающее видео и дать на него ссылку где то на видном месте.
Я решил попробовать найти https://pubchem.ncbi.nlm.nih.gov/compound/15584856
У него нет таких конкретных функциональных групп, я решил искать в ауксиларном поиске норборнадиен C7H8.
Это довольно трудоемко: даже при Range of atoms >15 и <15 (вы б там поставили "больше или равно" и "меньше или равно", а то чисел удовлетворяющих условию 15>X>15 ИМХО мало) надо проскипать 8 страниц. После обретения волшебного кода 8473B жизнь конечно становится веселее, но всеравно но ближайшего дубля https://pubchem.ncbi.nlm.nih.gov/compound/101371782 надо полистать.
Возможно (неуверен) стоит где то дать таблицу типовых CID-кодов, типа бензольного кольца, метильной, карбоксильной, карбонильной группы. (Это не поможет в конкретном случае но возможно вцелом). И если код поддерживает - количество таких функциональных групп. Чтобы например имея в брутто формуле помимо прочего O4 и из аксилиарного поиска код карбоксигруппы - можно было сказать что интересуют структуры с двумя карбоксилатами (дикислоты, диэстеры, и т.п).

chemigor
Сообщения: 585
Зарегистрирован: Вс июн 21, 2015 5:29 pm
Контактная информация:

Re: Покритикуйте, пожалуйста, нашу бесплатную базу на пол миллиарда конформеров

Сообщение chemigor » Вт дек 22, 2020 2:53 am

Спасибо большое, Гесс за классные советы!
Гесс писал(а):
Вт дек 22, 2020 1:47 am
1) Я несколько раз наблюдаю как после выбора фрагмента из аукксиларного поиска - кнопка основного поиска неактивна. Благо можно скопировать CID-коды в новое окно.
Спасибо! Баг подтверждаю, слишком заумно указал условия и в них сам запутался.
Гесс писал(а):
Вт дек 22, 2020 1:47 am
Возможно (неуверен) стоит где то дать таблицу типовых CID-кодов, типа бензольного кольца, метильной, карбоксильной, карбонильной группы.
Просто не успел, даже в сорсах веб интерфейса это уже есть, но просто не успел набить базу типовых групп.
Гесс писал(а):
Вт дек 22, 2020 1:47 am
Я решил попробовать найти https://pubchem.ncbi.nlm.nih.gov/compound/15584856
верно, как писатель этого поиска я поступил по-другому :)

Во вспомогательном поиске я ввел C5 H10 и импортировал первый попавшийся циклопентан с опцией игнорировать водороды.
Дальне также поступил с циклогексаном.
Вот с С8 H16 мне стало лениво листать много страниц, поэтому я ввел С8 и на первой же странице и импортировал непонятно откуда взявшуюся циклическую молекулу С8 но без учета типов связей. После этого искомая структура нашлось уже на 4-ой странице.

Согласен, что поиск надо упрощать, буду думать...

Ключевое, что есть - это сравнение структур молекул и поиск по такому сравнению, вот только как указать удобно все необходимые функциональные группы пока не додумался, а графический редактор делать не хотелось бы.

EDIT (23.12.2020): диапазон - число атомов с меньше/больше на меньше или равно/больше или равно исправил. Кнопка поиска не должна исчезать кроме случаев не правильного диапазона в вводе. Остальные замеченные баги тоже исправил. Также теперь можно вводить все слитно и писать в том числе COOH, она должна распознать все как надо. Отключил временно совсем не от мира сего молекулы.
Последний раз редактировалось chemigor Ср дек 23, 2020 5:59 pm, всего редактировалось 2 раза.

chemigor
Сообщения: 585
Зарегистрирован: Вс июн 21, 2015 5:29 pm
Контактная информация:

Re: Покритикуйте, пожалуйста, нашу бесплатную базу на пол миллиарда конформеров

Сообщение chemigor » Ср дек 23, 2020 12:31 am

EDIT (26.12.2020):

CAS прикрутили, теперь можно искать по PubChem CID и по CAS. Не всегда есть 100% соответствие, так как эту информацию брали из PubChem substances, а там иногда указывают CAS схожих веществ.

EDIT (05.01.2021):

Встроили отображение расстояний между атомами, обычные и торсионные углы. Также добавили набор радикалов (предварительный).

EDIT (12.05.2021):

сильно переделали все, теперь все молекулы с одинаковым графом объединены в один блок, в котором можно и конформеры поискать, и стерео-, диа-стерео-, изотопные изомеры.

Появилась возможность у выбранного варианта конформера сохранить его в MOL файл, а результат поиска сохранить в статический html вместе с визуализатором, чтобы потом не зависимо от базы его просматривать.

База переехала на https://www.elegant-nmr.com/mdb.html?m
русскоязычная версия переехала на https://www.elegant-nmr.com/mdb.html?rm

Ответить

Вернуться в «физическая химия / physical chemistry»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя