Hodnocení kvality krystalových
struktur makromolekul.
Rentgenová
krystalografie je hlavní technikou získání detailní informace o atomové
struktuře makromolekul. Typické problémy makromolekulární krystalografie:
difrakční data získaná na omezeném rozlišení a nepřesná fázová informace,
nevyhnutelně ovlivňují kvalitu map elektronových hustot a následně se odrazí i
v kvalitě konečného modelu. Chyby se mohou vyskytnout v každém kroku
určování krystalové struktury: od experimentálních chyb měření až po chyby při
interpretaci mapy elektronové hustoty a upřesňování modelu.
V současné době
existuje mnoho metod pro ověření kvality modelu, které lze rozdělit do dvou základních
skupin. První skupina hodnotí kvalitu modelu podle jeho shody
s experimentálními daty. Druhá skupina ověřovacích metod hodnotí
geometrické a konformační parametry modelu srovnáním se standardními hodnotami
odvozenými z krystalových struktur malých molekul nebo struktur
makromolekul určených na vysokém rozlišení. Tématu hodnocení a ověřování
kvality struktur se věnuje řada přehledných článků [např. [1],
[2],
[3]].
Nejdůležitějším měřítkem kvality daného atomového
modelu je jeho shoda s experimentálními daty. Tato metoda ověření kvality
modelu odhalí jak systematické chyby ovlivňující správnost modelu, tak náhodné
chyby odrážející se na jeho přesnosti. Hodnocení shody lze provádět buď globálně
(shoda celého modelu s daty), anebo existují i kriteria pro hodnocení
lokální shody modelu s daty (shoda polohy jednotlivého atomu či residua
s mapou elektronové hustoty) [[4], [5]].
Tradičním a nejpoužívanějším měřítkem globální
shody modelu s difrakčními daty jsou krystalografické faktory R a Rfree [[6], [7],
[8]].
R faktor je definován následujícím vzorcem:
R = å½êFo ê- êFc ê½/ å êFo ê,
kde Fo
je experimentální strukturní faktor a Fc
je strukturní faktor vypočítaný ze souřadnic modelu. Rfree faktor je definován stejně jako R faktor, ale
počítá se pro malou podskupinu dat, jež nebyla používaná při upřesňování modelu
(většinou 5 – 10 % dat) a slouží tak ke vzájemné kontrole („cross-validation“).
Původně byla hodnota R faktoru pod 0.25 považována za ukazatel správnosti
modelu [[9]], Brünger navrhuje též zavedení hranice 0.40
pro Rfree [6]. Rozdíl hodnot faktorů Rfree – R vypovídá o
správnosti modelu. Tento rozdíl by tedy
měl být malý [[10]],
respektive poměr Rfree /R (tzv. Rfree poměr [[11]]) by
se měl blížit jedné.
Nejčastěji programem používaným k hodnocení
shody modelu s difrakčními daty je program SFCHECK [[12]],
který počítá a shrnuje jak globální tak lokální parametry hodnotící kvalitu dat
a shody modelu s daty. SFCHECK je součástí softwarového projektu CCP4.
Vstupem do programu jsou difrakční data, amplitudy strukturních faktorů ve
formátu mmCIF (macromolecular Crystallographic Inforamtion File) a
souřadnice modelu ve formátu PDB. SFCHECK poskytuje několik grafických výstupů
ve formě souborů PostScript.
Kvalitu modelu lze
též hodnotit srovnáním řady
geometrických a stereochemických parametrů se standardními hodnotami. Tento
přístup bere v úvahu pouze model
(tj. souřadnice atomů a teplotní faktory B). Standardní
hodnoty jsou odvozeny
z krystalových struktur malých molekul nebo struktur makromolekul určených
na vysokém rozlišení.
Pro hodnocení kvality
modelů musí být použita nezávislá kritéria, jež nejsou kontrolována. Typické
protokoly upřesňování většinou kontrolují běžné stereochemické parametry, jako
jsou délka vazby, úhly mezi vazbami a planarita vazeb [[13]].
K hodnocení kvality proteinů jsou proto využívána následující nezávislá
kritéria:
·
torzní
(dihedrální) úhly hlavního řetězce,
·
nevazebné
interakce atomů proteinu s dalšími proteinovými atomy či atomy
rozpouštědla,
·
sbalení
(„packing“) atomů v modelu.
Existuje řada
programů, která tyto parametry určuje pro celý model nebo pro určité části
proteinu a tím může být hodnocena globální kvalita modelu, či jen jeho segmentů
(např. jednotlivých aminokyselinových zbytků). Nejrozšířenější jsou programy
PROCHECK [[14]],
součást CCP4 a WHATCHECK, verifikační část programu WHATIF [[15]].
Program PROCHECK poskytuje celkové i lokální hodnoceni
kvality proteinového modelu srovnáním jeho stereochemických parametrů
s parametry struktur dobře upřesněných se stejným rozlišením. Vstupem do programu jsou souřadnice modelu
ve formátu PDB a rozlišení, pro jaké byl model určen a upřesněn. Výstup programu
PROCHECK obsahuje řadu grafů a diagramů pro celkové hodnocení modelu a též
detailní a přehledný výpis parametrů pro jednotlivé aminokyselinové zbytky.
Detaily lze nalézt v manuálu volně přístupném na síti [[16]].
Badger a Hendle na základě analýzy 26 proteinových
struktur navrhli ve své práci z roku 2002 [[17]]
jednak hodnoty globálních indikátorů kvality pro kompletně upřesněnou
proteinovou strukturu a jednak sadu indikátorů pro odhalení lokálních chyb.
K analýze kvality použili programů představené v tomto příspěvku
(SFCHECK, PROCHECK a WHAT CHECK). Jejich doporučení jsou shrnuta v tabulce
1.
Tabulka 1:
Doporučené hodnoty globálních ukazatelů kvality [17] |
||
Ukazatel kvality (použitý program) |
rozlišení >
2,3Å |
rozlišení <
2,3 Å |
R faktor pro všechna data
(SFCHECK) |
< 0,250 |
|
R faktor pro pracovní sadu dat
, Rwork (SFCHECK) |
|
< 0,225 |
Rozdíl hodnot faktorů Rfree
– Rwork (SFCHECK) |
< 0,08 |
< 0,08 |
Počet aa v povolené části Ramachandranova
diagramu (PROCHECK) |
> 88% |
> 88% |
Počet blízkých kontaktů na 100
aa zbytků (PROCHECK) |
< 4 |
< 1 |
Aa zbytky s abnormálními c1-c2 úhly (PROCHECK) |
< 3% |
< 2% |
Ukazatele lokálních chyb v modelu [17] |
||
Ukazatel lokální chyby modelu (použitý program) |
rozlišení >
2,3Å |
rozlišení <
2,3 Å |
„Density correlation“
pro hlavní řetězec (SFCHECK) |
< 80 |
< 85 |
„Density correlation“
pro postranní řetězec (SFCHECK) |
< 65 |
< 80 |
Kovalentní vazba lišící se
svou délkou či úhlem od standardních
hodnot o více jak šestinásobek
standardní odchylky (PROCHECK) |
|
|
Aa zbytek v zakázané části Ramachandranova diagramu
(PROCHECK) |
|
|
Nutná optimalizace rotace
postranního řetězce pro Asp, Gln nebo His (WHAT CHECK) |
|
|
Se stále rostoucím počtem určených
makromolekulárních struktur roste i potřeba kvalitních nástrojů pro
ověřování hodnocení jejich kvality. Od
počátku devadesátých let minulého století zaznamenalo toto odvětví nesmírný
rozvoj, který pokračuje až do současnosti. Stále rostoucí počet struktur získaných
na atomovém rozlišení umožňuje určení přesnějších geometrických a
stereochemických parametrů užívaných při upřesňování a validaci struktur a
zároveň návrh lepších kritérií pro posuzováni shody modelu s elektronovou
hustotou.
1. Úvod
2. Hodnocení a ověřování kvality modelu shodou s
experimentálními daty
2.1. Program SFCHECK
2.1.1. Hodnocení kvality difrakčních dat a
celkové shody modelu s daty
2.1.2. Hodnocení kvality určitých částí modelu
3. Ověřování kvality modelu hodnocením
stereochemických parametrů
3.1. Program PROCHECK
3.1.1. Stereochemické parametry hlavního
řetězce
3.1.2. Stereochemické parametry
postranního řetězce
3.1.3. Lokální hodnocení stereochemických
parametrů
4. Program WHAT CHECK
5. Praktická doporučení pro hodnocení kvality
proteinových modelů
6. Závěr
[1] Wodak, S. J., Vagin, A.A., Richelle, J., Das, U., Pontius, J. Berman, H. M. (2001): Assessing the quality of macromolecular structures. In International Tables for Crystallography Vol. F, Rossmann M. G., Arnold, E. (ed.), Kluwer Academic Publishers: 507
[2] Dym, O., Eisenberg, D, Zeates, T. O. (2001): Detection of errors in protein models. In International Tables for Crystallography Vol. F, Rossmann M. G., Arnold, E. (ed.), Kluwer Academic Publishers: 520
[3] Kleywegt, G. J. (2000): Validation of protein crystal structures. Acta Cryst. D56: 249
[4] Zhou, G., Wang, J., Blanc,
E. and Chapman, M. S., (1998): Determination of relative precision of atoms in
macromolecular structure. Acta Cryst D54: 391
[5] Jones, T. A., Zou, J.-Y.,
Cowan, S. W., Kjeldgaard, M. (1991): Improved methods for building protein
models in electron density maps and location of errors in these models. Acta
Cryst A47: 110
[6] Brünger A.T. (1992): Free R-value: a novel statistical quantity for assessing the accuracy of crystal structures. Nature 355: 472
[7] Brünger A.T. (1993):
Assessment of phase accuracy by cross-validation: the free R value. Acta
Cryst D49: 24
[8] Brünger A.T. (1997). The
free R-value: a more objective statistics for crystallography. Methods Enzymol. 277: 366
[9] Brändén C.-J., and Jones T.
A. (1990): Between objectivity and
subjectivity. Nature 343:
687
[10] Kleywegt, G. J. and Brünger A. T. (1996): Checking your
imagination, application of free R value.
Structure 4: 897
[11] Tickle I. J., Laskowski, R. A., and Moss, D. S. (1998): Error estimates of protein structure coordinates and deviations from standard geometry by full-matrix refinement of bB- and gB-crystallin. Acta Cryst D54: 547
[12] Vaguine, A. A., Richelle,
J., and Wodak, S. J. (1999): SFCHECK: a unified set of procedures for
evaluating the quality of macromolecular structure-factor data and their
agreement with the atomic model. Acta Cryst D55: 191
[13] Engh R. A. and Huber R.
(1991): Accurate bond and angle parameters for X-ray protein structure
refinement. Acta Cryst A 47: 392
[14] Laskowski R.A., Mc Arthur M.W., Moss, D.S., Thornton J.M.
(1993): PROCHECK: a program to check the stereochemical quality
of protein structures. J. Appl. Cryst. 26: 283
[15] Vriend, G. (1990): WHAT IF:
a molecular modeling and drug design program. J. Mol. Graph. 8:52
[16]
http://www.biochem.ucl.ac.uk/~roman/procheck/manual/
[17] Badger, J., Hendle, J. (2002): Reliable quality-control methods for protein crystal structures. Acta Cryst D58: 284