STRUKTURNÍ DATABÁZE ORGANICKÝCH A
ORGANOMETALICKÝCH SLOUČENIN
Jindřich Haek
Institute of
Macromolecular Chemistry, AS CR, Heyrovského nám.2, 162 06 Praha 6,
hasek@imc.cas.cz
Introduction
Strukturní
databáze organických a organometalických struktur Cambridge Structural
Database (CSD)
distribuovaná střediskem Cambridge
Crystallographic Data Centre (CCDC) obsahuje v současné době okolo půl milionu
publikovaných struktur organických a organometalických látek zjitěných
experimentálně metodami difrakce rtg záření nebo difrakce neutronů. CCDC
software umoňuje vyhledávání struktur, výpočet strukturních parametrů a
statistickou analýzu strukturních rozdílů.
Obsah
databáze
CSD ve verzi "listopad 2008 obsahuje 457 000
organických a organometalických sloučenin. Přesnějí definice sloučenin
obsaených v databázi:
Sloučeniny obsahující alespoň jeden uhlíkový atom,
a nepatří do následujících kategorií :
Software
pro práci s daty uloenými v databázi CSD
CONQUEST
umoňuje vyhledávat struktury
nejen podle chemického sloení, sumárního vzorce ale výrazů pouitých
v textu, ale té podle uspořádání atomů či molekul v prostoru.
PREQUEST umoňuje uivateli přidat do CSD databáze svoje
vlastní (dosud nepublikované) struktury a provádět statistické analýzy s
kompletní databází.
MERCURY Velmi praktický a snadno ovladatelný program pro
zobrazování a grafickou analýzu stavby krystalu a pro analýzu molekulární
struktury
VISTA Program pro statistickou analýzu dat získaných z CSD. Specializovaný tabulkový
procesor s moností vhodné úpravy a analýzy získaných dat, tisk grafů, histogramů,
atd. Data lze také exportovat do XLS formátu a pracovat v jiných tabulkových a
grafických programech.
Nadstavbové
programy vyuívající znalostí získaných předchozí analýzou databází
MOGUL Program, který zobrazí statistiku poadovaných
vazebných délek, úhlů nebo torzních úhlů pro zadaný strukturní fragment pro
vechny struktury ve kterých byl tento fragment nalezený. Struktury
odpovídající jednotlivým bodům jediným kliknutím zobrazíte a tak můete snadno
odfiltrovat nevhodné případy.
ISOSTAR A collection of statistical analyses of
intermolecular interactions containing 25022 scatterplots and 1550 theoretical
studies derived from X-ray and NMR determined structures of 257162 organic and
organometalic compounds and 7021 protein-ligand complexes. It describes
combinations of 350 central function groups and 45 contact groups. User can
view three dimensional distribution of frequency occurrence of intermolecular
contacts (so called density surfaces). User has a possibility to add his own
structures and prepare his own statistical analysis locally.
SUPERSTAR program pro identifikaci interakčních míst in
proteinech. Trojrozměrné mapy propensity zvýrazňují vhodná místa pro interakce
vybraného proteinu s ligandy (vazebná místa proteinů).
RELIBASE Program usnadňující analýzu struktury proteinů.
Obsahuje databázi mezimolekulárních interakcí vytvořenou z dat obsaených
v "Proteinové strukturní databázi" obsahující v současné době ~
50 000 makromolekulárních structur určených difrakcí rtg záření určených
zpravidla pomocí rtg difrakce. RELIBASE obsahuje přehledy vazebných míst pro
ligandy (substráty, inhibitory), které byly v komplexu experimentálně nalezeny
rtg difrakcí a NMR, nebo které byly do experimentálně určené struktury proteinu
namodelovány.
HERMES Program pro grafické znázornění a analýzu
interakcí mezi proteiny a ligandy (program Merkury
pro proteiny nelze pouít). Upraven zejména pro práci se systémy SuperStar,
Relibase, GOLD, Mogul a IsoStar.
GOLD (Genetic Optimization for flexible Ligand
Docking) - program nalezení optimálního umístění ligandu v molekule proteinu na
základě pseudopotenciálů nastavených tak, aby vypočítané modely souhlasily co
nejlépe s experimentálně stanovenými strukturami v CSD. Formálně jsou pouity
atomové a vazebné typů známé z programu SYBYL, ale empirické potenciály
(force fields) a geometrická omezení (constraints), jsou odliná. Program je
tedy optimalizován tak, aby dával střední geometrii obdobných fragmentů pozorovaných
v Cambridgeské [1] a Proteinové strukturní databázi [2]. Program vyaduje kontrolu
strukturních typů a pečlivé doplnění vodíkových atomů, ale počáteční poloha,
orientace ligandů ani konformace bočních řetězců nejsou podstatné. Program pouívá
"genetický algoritmus" pro hledání optimální cesty pro
"zagaráování" ligandu v proteinu. Pracuje i s těkými atomy.
Statistické vyhodnocení výsledků garáování ligandu pro 83 komplexů protein-ligand
dalo odhad chyby (RMSD) ~2.0 Å pro 81 procent případů.
GoldMine Program pro usnadnění zpracování výsledků
získaných programem GOLD při hledání optimálního zaparkování (docking) skupiny
ligandů v proteinu a pro vyhodnocování optimálního ligandu pro různé váhy
jednotlivých pseudopotenciálů vystupujících v účelové fukci (evaluation of
ligands docking into proteins using different scoring functions).
DASH Software pro řeení krystalových struktur z
prákových dat, tj. na základě měření prákových difraktogramů. Program vyuívá
metodu "simulated annealing" k hledání globálního minima účelové
funkce.
Cambridgeská strukturní databáze je provozována
obvykle jako lokální instalace pod systémem MS Windows licencovaná pro jednu IP
adresu (objednávky na adrese: hasek@imc.cas.cz). Internetový přístup je moný
pouze po registraci ve Fyzikálním ústavu AV ČR (kontakt: dusek@fzu.cz).
Licence na pouívání Cambridgeské strukturní databáze
je placena jednou ročně. Nový software a data jsou dodávány v jarních měsících
na DVD a nově přibývající data je moné doplňovat stahováním doplňků ze serveru
http://www.ccdc.cam.ac.uk.
Licence pro české uivatele se vztahují pouze na nekomerční uivatele [3].
Nadstavbové programy GOLD, DASH, RELIBASE+ a
SUPERSTAR jsou distribuovány přímo administrativním centrem v Cambridge
http://www.ccdc.cam.ac.uk/contact/obtaining_products/ pouze jako lokální
licence. Od vech produktů je moné vyádat si " free evaluation
copy".
Příklady aplikací Cambridgeské strukturní databáze
v různých vědních oborech lze nalézt například v níe uvedené literatuře
[1,2,3,4]
LITERATURA
1. J. van de Streek, Acta
Cryst., B62, (2006), 567-579. [DOI: 10.1107/S0108768106019677]
Searching the
Cambridge Structural Database for the 'best' representative of each unique
polymorph.
2. A. G. Orpen, Acta
Cryst., B58, (2002), 398-406.
[DOI: 10.1107/S0108768102002446]
Applications of the Cambridge
Structural Database to molecular inorganic chemistry.
3. F.H.Allen and
W.D.S.Motherwell, Acta Cryst., B58,
(2002), 407-422.
[DOI: 10.1107/S0108768102004895]
Applications of the Cambridge Structural Database
in organic and crystal chemistry.
4. R. Taylor, Acta
Cryst., D58, (2002), 879-888. [DOI: 10.1107/S090744490200358X]
Life
Science applications of the Cambridge Structural Database.