Hodnocení kvality krystalových struktur makromolekul.

 

Pavlína Řezáčová

 

Ústav molekulární genetiky Akademie věd ČR, Flemingovo n. 2, 166 37 Praha 6

Úvod

Rentgenová krystalografie je hlavní technikou získání detailní informace o atomové struktuře makromolekul. Typické problémy makromolekulární krystalografie: difrakční data získaná na omezeném rozlišení a nepřesná fázová informace, nevyhnutelně ovlivňují kvalitu map elektronových hustot a následně se odrazí i v kvalitě konečného modelu. Chyby se mohou vyskytnout v každém kroku určování krystalové struktury: od experimentálních chyb měření až po chyby při interpretaci mapy elektronové hustoty a upřesňování modelu.

V současné době existuje mnoho metod pro ověření kvality modelu, které lze rozdělit do dvou základních skupin. První skupina hodnotí kvalitu modelu podle jeho shody s experimentálními daty. Druhá skupina ověřovacích metod hodnotí geometrické a konformační parametry modelu srovnáním se standardními hodnotami odvozenými z krystalových struktur malých molekul nebo struktur makromolekul určených na vysokém rozlišení. Tématu hodnocení a ověřování kvality struktur se věnuje řada přehledných článků  [např. [1], [2], [3]].

Hodnocení a ověřování kvality modelu shodou s experimentálními daty

Nejdůležitějším měřítkem kvality daného atomového modelu je jeho shoda s experimentálními daty. Tato metoda ověření kvality modelu odhalí jak systematické chyby ovlivňující správnost modelu, tak náhodné chyby odrážející se na jeho přesnosti. Hodnocení shody lze provádět buď globálně (shoda celého modelu s daty), anebo existují i kriteria pro hodnocení lokální shody modelu s daty (shoda polohy jednotlivého atomu či residua s mapou elektronové hustoty) [[4], [5]].

Tradičním a nejpoužívanějším měřítkem globální shody modelu s difrakčními daty jsou krystalografické faktory R  a Rfree [[6], [7], [8]]. R faktor je definován následujícím vzorcem:

R = å½êFo ê- êFc ê½/  å êFo ê,                            

kde Fo  je experimentální strukturní faktor a Fc je strukturní faktor vypočítaný ze souřadnic modelu.  Rfree faktor je definován stejně jako R faktor, ale počítá se pro malou podskupinu dat, jež nebyla používaná při upřesňování modelu (většinou 5 – 10 % dat) a slouží tak ke vzájemné kontrole („cross-validation“). Původně byla hodnota R faktoru pod 0.25 považována za ukazatel správnosti modelu [[9]],  Brünger navrhuje též zavedení hranice 0.40 pro Rfree [6]. Rozdíl hodnot faktorů Rfree – R vypovídá o správnosti  modelu. Tento rozdíl by tedy měl být malý [[10]], respektive poměr Rfree /R (tzv. Rfree  poměr [[11]]) by se měl blížit jedné.

Nejčastěji programem používaným k hodnocení shody modelu s difrakčními daty je program SFCHECK [[12]], který počítá a shrnuje jak globální tak lokální parametry hodnotící kvalitu dat a shody modelu s daty. SFCHECK je součástí softwarového projektu CCP4. Vstupem do programu jsou difrakční data, amplitudy strukturních faktorů ve formátu mmCIF (macromolecular Crystallographic Inforamtion File) a souřadnice modelu ve formátu PDB. SFCHECK poskytuje několik grafických výstupů ve formě souborů PostScript.

Ověřování kvality modelu hodnocením stereochemických parametrů

Kvalitu modelu lze též hodnotit  srovnáním řady geometrických a stereochemických parametrů se standardními hodnotami. Tento přístup bere v úvahu pouze model  (tj. souřadnice atomů a teplotní faktory B). Standardní hodnoty  jsou odvozeny z krystalových struktur malých molekul nebo struktur makromolekul určených na vysokém rozlišení.

Pro hodnocení kvality modelů musí být použita nezávislá kritéria, jež nejsou kontrolována. Typické protokoly upřesňování většinou kontrolují běžné stereochemické parametry, jako jsou délka vazby, úhly mezi vazbami a planarita vazeb [[13]]. K hodnocení kvality proteinů jsou proto využívána následující nezávislá kritéria:

·        torzní (dihedrální) úhly hlavního řetězce,

·        nevazebné interakce atomů proteinu s dalšími proteinovými atomy či atomy rozpouštědla,

·        sbalení („packing“) atomů v modelu.

Existuje řada programů, která tyto parametry určuje pro celý model nebo pro určité části proteinu a tím může být hodnocena globální kvalita modelu, či jen jeho segmentů (např. jednotlivých aminokyselinových zbytků). Nejrozšířenější jsou programy PROCHECK [[14]], součást CCP4 a WHATCHECK,  verifikační část programu WHATIF [[15]].

Program PROCHECK  poskytuje celkové i lokální hodnoceni kvality proteinového modelu srovnáním jeho stereochemických parametrů s parametry struktur dobře upřesněných se stejným rozlišením.  Vstupem do programu jsou souřadnice modelu ve formátu PDB a rozlišení, pro jaké byl model určen a upřesněn. Výstup programu PROCHECK obsahuje řadu grafů a diagramů pro celkové hodnocení modelu a též detailní a přehledný výpis parametrů pro jednotlivé aminokyselinové zbytky. Detaily lze nalézt v manuálu volně přístupném na síti [[16]].

Praktická doporučení pro hodnocení kvality proteinových modelů

Badger a Hendle na základě analýzy 26 proteinových struktur navrhli ve své práci z roku 2002 [[17]] jednak hodnoty globálních indikátorů kvality pro kompletně upřesněnou proteinovou strukturu a jednak sadu indikátorů pro odhalení lokálních chyb. K analýze kvality použili programů představené v tomto příspěvku (SFCHECK, PROCHECK a WHAT CHECK). Jejich doporučení jsou shrnuta v tabulce 1.

 

Tabulka 1:

Doporučené hodnoty globálních ukazatelů kvality [17]

Ukazatel kvality (použitý program)

rozlišení  > 2,3Å

rozlišení  < 2,3 Å

R faktor pro všechna data (SFCHECK)

< 0,250

 

R faktor pro pracovní sadu dat , Rwork (SFCHECK)

 

< 0,225

Rozdíl hodnot faktorů Rfree  Rwork (SFCHECK)

< 0,08

< 0,08

Počet aa  v povolené části Ramachandranova diagramu (PROCHECK)

> 88%

> 88%

Počet blízkých kontaktů na 100 aa zbytků (PROCHECK)

< 4

< 1

Aa zbytky  s abnormálními c1-c2 úhly (PROCHECK)

< 3%

< 2%

Ukazatele lokálních chyb v modelu [17]

Ukazatel lokální chyby modelu (použitý program)

rozlišení  > 2,3Å

rozlišení  < 2,3 Å

Density correlation“ pro hlavní řetězec (SFCHECK)

< 80

< 85

Density correlation“ pro postranní řetězec (SFCHECK)

< 65

< 80

Kovalentní vazba lišící se svou délkou či úhlem  od standardních hodnot o  více jak šestinásobek standardní odchylky (PROCHECK)

 

 

Aa  zbytek v zakázané části Ramachandranova diagramu (PROCHECK)

 

 

Nutná optimalizace rotace postranního řetězce pro Asp, Gln nebo His (WHAT CHECK)

 

 

 

Závěr

Se stále rostoucím počtem určených makromolekulárních struktur roste i potřeba kvalitních nástrojů pro ověřování  hodnocení jejich kvality. Od počátku devadesátých let minulého století zaznamenalo toto odvětví nesmírný rozvoj, který pokračuje až do současnosti. Stále rostoucí počet struktur získaných na atomovém rozlišení umožňuje určení přesnějších geometrických a stereochemických parametrů užívaných při upřesňování a validaci struktur a zároveň návrh lepších kritérií pro posuzováni shody modelu s elektronovou hustotou. 

 

Podrobná osnova příspěvku

1. Úvod

2. Hodnocení a ověřování kvality modelu shodou s experimentálními daty

2.1. Program SFCHECK

2.1.1. Hodnocení kvality difrakčních dat a celkové shody modelu s daty
2.1.2. Hodnocení kvality určitých částí modelu

3. Ověřování kvality modelu hodnocením stereochemických parametrů

3.1. Program PROCHECK

3.1.1. Stereochemické parametry hlavního řetězce

3.1.2. Stereochemické parametry postranního řetězce

3.1.3. Lokální hodnocení stereochemických parametrů

4. Program WHAT CHECK

5. Praktická doporučení pro hodnocení kvality proteinových modelů

6. Závěr

 

 



[1] Wodak, S. J., Vagin, A.A., Richelle, J., Das, U., Pontius, J. Berman, H. M. (2001): Assessing the quality of macromolecular structures. In International Tables for Crystallography Vol. F, Rossmann M. G., Arnold, E. (ed.), Kluwer Academic Publishers: 507

[2] Dym, O., Eisenberg, D, Zeates, T. O. (2001): Detection of errors in protein models. In International Tables for Crystallography Vol. F, Rossmann M. G., Arnold, E. (ed.), Kluwer Academic Publishers: 520

[3] Kleywegt, G. J. (2000): Validation of protein crystal structures.  Acta Cryst. D56: 249

[4] Zhou, G., Wang, J., Blanc, E. and Chapman, M. S., (1998): Determination of relative precision of atoms in macromolecular structure. Acta Cryst D54: 391

[5] Jones, T. A., Zou, J.-Y., Cowan, S. W., Kjeldgaard, M. (1991): Improved methods for building protein models in electron density maps and location of errors in these models. Acta Cryst A47: 110

[6] Brünger A.T. (1992): Free R-value: a novel statistical quantity for assessing the accuracy of crystal structures. Nature 355: 472

[7] Brünger A.T. (1993): Assessment of phase accuracy by cross-validation: the free R value. Acta Cryst D49: 24

[8] Brünger A.T. (1997). The free R-value: a more objective statistics for crystallography.  Methods Enzymol. 277: 366

[9] Brändén C.-J., and Jones T. A.  (1990): Between objectivity and subjectivity.  Nature 343: 687

[10] Kleywegt, G. J.  and Brünger A. T. (1996): Checking your imagination, application of free R value.  Structure 4: 897

[11] Tickle I. J., Laskowski, R. A., and Moss, D. S. (1998): Error estimates of protein structure coordinates and deviations from standard geometry by full-matrix refinement of bB- and gB-crystallin.  Acta Cryst D54: 547

[12] Vaguine, A. A., Richelle, J., and Wodak, S. J. (1999): SFCHECK: a unified set of procedures for evaluating the quality of macromolecular structure-factor data and their agreement with the atomic model. Acta Cryst D55: 191

[13] Engh R. A. and Huber R. (1991): Accurate bond and angle parameters for X-ray protein structure refinement. Acta Cryst A 47: 392

[14] Laskowski R.A., Mc Arthur M.W., Moss, D.S., Thornton J.M. (1993): PROCHECK: a program to check the stereochemical quality of protein structures. J. Appl. Cryst. 26: 283

[15] Vriend, G. (1990): WHAT IF: a molecular modeling and drug design program. J. Mol. Graph. 8:52

[16] http://www.biochem.ucl.ac.uk/~roman/procheck/manual/

[17] Badger, J., Hendle, J. (2002): Reliable quality-control methods for protein crystal structures. Acta Cryst D58: 284