STRUKTURNÍ DATABÁZE ORGANICKÝCH A ORGANOMETALICKÝCH SLOUČENIN

 

Jindřich Hašek

 

Institute of Macromolecular Chemistry, AS CR, Heyrovského nám.2, 162 06 Praha 6,
hasek@imc.cas.cz

 

Introduction

 

Strukturní databáze organických a organometalických struktur „Cambridge Structural Database (CSD)“ distribuovaná  střediskem ”Cambridge Crystallographic Data Centre (CCDC)” obsahuje v současné době okolo půl milionu publikovaných struktur organických a organometalických látek zjištěných experimentálně metodami difrakce rtg záření nebo difrakce neutronů. CCDC software umožňuje vyhledávání struktur, výpočet strukturních parametrů a statistickou analýzu strukturních rozdílů.

 

Obsah databáze

 

CSD ve verzi "listopad 2008 obsahuje 457 000 organických a organometalických sloučenin. Přesnější definice sloučenin obsažených v databázi:

Sloučeniny obsahující alespoň jeden uhlíkový atom, a nepatří do následujících kategorií :

 

 

Software pro práci s daty uloženými v databázi CSD

 

CONQUEST – umožňuje vyhledávat struktury nejen podle chemického složení, sumárního vzorce ale výrazů použitých v textu, ale též podle uspořádání atomů či molekul v prostoru. 

 

PREQUEST – umožňuje uživateli přidat do CSD databáze svoje vlastní (dosud nepublikované) struktury a provádět statistické analýzy s kompletní databází.

 

MERCURY – Velmi praktický a snadno ovladatelný program pro zobrazování a grafickou analýzu stavby krystalu a pro analýzu molekulární struktury

 

VISTA – Program pro statistickou analýzu  dat získaných z CSD. Specializovaný tabulkový procesor s možností vhodné úpravy a analýzy získaných dat, tisk grafů, histogramů, atd. Data lze také exportovat do XLS formátu a pracovat v jiných tabulkových a grafických programech.

 

Nadstavbové programy využívající znalostí získaných předchozí analýzou databází

 

MOGUL – Program, který zobrazí statistiku požadovaných vazebných délek, úhlů nebo torzních úhlů pro zadaný strukturní fragment pro všechny struktury ve kterých byl tento fragment nalezený. Struktury odpovídající jednotlivým bodům jediným kliknutím zobrazíte a tak můžete snadno odfiltrovat nevhodné případy.  

 

ISOSTAR – A collection of statistical analyses of intermolecular interactions containing 25022 scatterplots and 1550 theoretical studies derived from X-ray and NMR determined structures of 257162 organic and organometalic compounds and 7021 protein-ligand complexes. It describes combinations of 350 central function groups and 45 contact groups. User can view three dimensional distribution of frequency occurrence of intermolecular contacts (so called density surfaces). User has a possibility to add his own structures and prepare his own statistical analysis locally.

 

SUPERSTAR – program pro identifikaci interakčních míst in proteinech. Trojrozměrné mapy propensity zvýrazňují vhodná místa pro interakce vybraného proteinu s ligandy (vazebná místa proteinů).

 

RELIBASE – Program usnadňující analýzu struktury proteinů. Obsahuje databázi mezimolekulárních interakcí vytvořenou z dat obsažených v "Proteinové strukturní databázi" obsahující v současné době ~ 50 000 makromolekulárních structur určených difrakcí rtg záření určených zpravidla pomocí rtg difrakce. RELIBASE obsahuje přehledy vazebných míst pro ligandy (substráty, inhibitory), které byly v komplexu experimentálně nalezeny rtg difrakcí a NMR, nebo které byly do experimentálně určené struktury proteinu namodelovány.

 

HERMES – Program pro grafické znázornění a analýzu interakcí mezi proteiny a ligandy (program Merkury pro proteiny nelze použít). Upraven zejména pro práci se systémy SuperStar, Relibase, GOLD, Mogul a IsoStar.

 

GOLD (Genetic Optimization for flexible Ligand Docking) - program nalezení optimálního umístění ligandu v molekule proteinu na základě pseudopotenciálů nastavených tak, aby vypočítané modely souhlasily co nejlépe s experimentálně stanovenými strukturami v CSD. Formálně jsou použity atomové a vazebné typů známé z programu SYBYL, ale empirické potenciály (force fields) a geometrická omezení (constraints), jsou odlišná. Program je tedy optimalizován tak, aby dával střední geometrii obdobných fragmentů pozorovaných v Cambridgeské [1] a Proteinové strukturní databázi [2]. Program vyžaduje kontrolu strukturních typů a pečlivé doplnění vodíkových atomů, ale počáteční poloha, orientace ligandů ani konformace bočních řetězců nejsou podstatné. Program používá "genetický algoritmus" pro hledání optimální cesty pro "zagarážování" ligandu v proteinu. Pracuje i s těžkými atomy. Statistické vyhodnocení výsledků garážování ligandu pro 83 komplexů protein-ligand dalo odhad chyby (RMSD) ~2.0 Å pro 81 procent případů.      

 

GoldMine – Program pro usnadnění zpracování výsledků získaných programem GOLD při hledání optimálního zaparkování (docking) skupiny ligandů v proteinu a pro vyhodnocování optimálního ligandu pro různé váhy jednotlivých pseudopotenciálů vystupujících v účelové fukci (evaluation of ligands docking into proteins using different scoring functions).

 

DASH – Software pro řešení krystalových struktur z práškových dat, tj. na základě měření práškových difraktogramů. Program využívá metodu "simulated annealing" k hledání globálního minima účelové funkce.

 

 

Cambridgeská strukturní databáze je provozována obvykle jako lokální instalace pod systémem MS Windows licencovaná pro jednu IP adresu (objednávky na adrese: hasek@imc.cas.cz). Internetový přístup je možný pouze po registraci ve Fyzikálním ústavu AV ČR (kontakt: dusek@fzu.cz).

 

Licence na používání Cambridgeské strukturní databáze je placena jednou ročně. Nový software a data jsou dodávány v jarních měsících na DVD a nově přibývající data je možné doplňovat stahováním doplňků ze serveru http://www.ccdc.cam.ac.uk. Licence pro české uživatele se vztahují pouze na nekomerční uživatele [3].

 

Nadstavbové programy GOLD, DASH, RELIBASE+ a SUPERSTAR jsou distribuovány přímo administrativním centrem v Cambridge http://www.ccdc.cam.ac.uk/contact/obtaining_products/ pouze jako lokální licence. Od všech produktů je možné vyžádat si " free evaluation copy".

 

Příklady aplikací Cambridgeské strukturní databáze v různých vědních oborech lze nalézt například v níže uvedené literatuře [1,2,3,4]

 

LITERATURA

 

1. J. van de Streek, Acta Cryst., B62, (2006), 567-579.  [DOI: 10.1107/S0108768106019677]

Searching the Cambridge Structural Database for the 'best' representative of each unique polymorph.

 

2. A. G. Orpen, Acta Cryst., B58, (2002), 398-406.  [DOI: 10.1107/S0108768102002446]

Applications of the Cambridge Structural Database to molecular inorganic chemistry.

 

3. F.H.Allen and W.D.S.Motherwell, Acta Cryst., B58, (2002), 407-422.

[DOI: 10.1107/S0108768102004895]

Applications of the Cambridge Structural Database in organic and crystal chemistry.

 

4. R. Taylor, Acta Cryst., D58, (2002), 879-888.  [DOI: 10.1107/S090744490200358X]

Life Science applications of the Cambridge Structural Database.