技術(shù)文章
TECHNICAL ARTICLES評判數(shù)據(jù)標(biāo)準(zhǔn)的指標(biāo)
也許是歷史傳統(tǒng)的問題, Rint (Rsym,Rmerge)被選中了作為評判數(shù)據(jù)標(biāo)準(zhǔn)的指標(biāo)。甚至在很多不是很專業(yè)的書里,學(xué)生們都被告知Rint 需要低于多少,I/σ高于多少才能表示數(shù)據(jù)可用。于是乎,這些數(shù)值變成了評判數(shù)據(jù)質(zhì)量所謂的金標(biāo)準(zhǔn)??墒钱?dāng)提問Rint 是什么意義時,跟什么因素相關(guān)時,大多數(shù)同學(xué)卻卡在了那里。可能Rint在大多數(shù)同學(xué)眼里就是個發(fā)表文章的門檻數(shù)值,具體是什么意義已經(jīng)不再重要。不然就不會有那么多同學(xué)追問著怎么把Rint修下去,或者解決掉所謂的“錯誤"。
誠然Rint本身的意義并不復(fù)雜。它的公式也看起來一目了然,表示著合并等效衍射點之間的誤差。Rint值越低,通常表示著數(shù)據(jù)的精度越高。然而這是有一定的前提條件的。Rint實際上并不是一個很好的評判數(shù)據(jù)質(zhì)量的指標(biāo)。畢竟絕大多數(shù)數(shù)據(jù)都是通過Scale校正獲得。過度的Fitting,以及刻意排除太多的衍射點都可以獲得人為的更低的Rint(以及更高的I/σ)。而這些刻意追求的數(shù)字對結(jié)構(gòu)精修并無意義,反而會導(dǎo)致精修的結(jié)果失真。甚至一些數(shù)據(jù)處理的軟件會去迎合同學(xué)們的這種“追求",去“美顏"數(shù)據(jù),讓大家“喜聞樂見",然而有時掉進了坑里,卻渾然不知。Rint同時也受到數(shù)據(jù)收集的多重度的影響。過低的多重度,會讓衍射點沒有其它等效點可以進行比較,自然Rint就會很低,甚至接近于0,然而卻毫無意義(結(jié)構(gòu)甚至都無法解析)。而高多重度的數(shù)據(jù),由公式?jīng)Q定了Rint自然會升高,反而成了大家不喜歡看到的數(shù)值。但是不管怎么解釋,很多同學(xué)仍然不以為然,原因只是Checkcif不檢查多重度,但是對Rint卻有“嚴(yán)格"的門檻(而實際上大多數(shù)Rint高的問題是分辨率的問題)。同樣的I/σ也是一樣,不同的誤差模型的算法,自然得到的數(shù)值會大有不同。調(diào)高I/σ自然也是大家喜聞樂見的事情,比如故意降低σ,刪除更多的衍射點也會讓I/σ看起來更高。然而這些美顏的數(shù)據(jù),對結(jié)構(gòu)精修卻毫無意義。
對于多重度對Rint的影響,Rmeas解決了這個問題,所以對于蛋白晶體學(xué)傾向于用Rmeas。此外現(xiàn)在還有CC1/2 來表征數(shù)據(jù)質(zhì)量。不過在化學(xué)晶體學(xué)界似乎對這兩個數(shù)值并不感冒。也許是通常衍射太強,不需要更寬松的指標(biāo)。這些指標(biāo)在APEX4里都能輕松看到。
實例分析
比如前兩天講座的時候提到的一個數(shù)據(jù),大家投票的結(jié)果在意料之中。超過一半的同學(xué)都認(rèn)為質(zhì)量更高的數(shù)據(jù)是A。如果這是不同的數(shù)據(jù)還情有可原,然而這是同一套數(shù)據(jù),同樣的結(jié)構(gòu)模型。或許是顏色的誤導(dǎo),讓同學(xué)們失去了基本的判斷力。A為什么會看起來更好看,因為Reject了很多數(shù)據(jù)。完整度表觀上只下降了2%,而實際上卻高達30%的數(shù)據(jù)被reject,Multiplicity極大的下降。保留下來的衍射點自然站在了一邊,雖然看起來更精確,卻丟失了準(zhǔn)確。自然結(jié)構(gòu)精修的結(jié)果就會反過來打臉。追求某些數(shù)字,對結(jié)構(gòu)解析和精修本身毫無意義。結(jié)構(gòu)精修的質(zhì)量作為評判數(shù)據(jù)質(zhì)量的指標(biāo)才更加合理。比如R1,健長的精度,殘余的電子峰等。
▲圖1 Better Data Quality A or B?
除了軟件處理造成的假象,有時候會遇到一些看起來數(shù)值質(zhì)量很高,卻怎么也精修不好的數(shù)據(jù)。比如有嚴(yán)重的無序,莫名的Q峰。這時候?qū)W⒂诮Y(jié)構(gòu)精修,會百思不得其解。從衍射圖上才會發(fā)現(xiàn)更多的端倪。孿晶自然不需要多做解釋,而另外一些問題則更加的隱蔽,單純從hkl上其實發(fā)覺不了任何問題。因為單晶的數(shù)據(jù)還原并不是還原的所有的信息,而是通過晶胞截選而來。而很多時候,“晶胞"不能反映衍射的全部信息,自然會丟掉很多原本的衍射細(xì)節(jié)。比如很多Smear的信號,Modulation的信號,衍射點形狀的信號。這些信息都不會在hkl文件中體現(xiàn)。普通的結(jié)構(gòu)精修自然也無法全部的反映晶體的實際狀況。
▲圖2 丟失的衍射信息 A,衍射點間的彌散信號 B,衍射的背景彌散,C,Modulation (Precession Image)
結(jié)論
所以數(shù)據(jù)質(zhì)量的評估,從來都不是單個指標(biāo),固定的標(biāo)準(zhǔn)。從衍射圖到數(shù)據(jù)處理,到結(jié)構(gòu)精修,每一步的細(xì)節(jié)都在告訴著我們的數(shù)據(jù)可能出現(xiàn)的問題。真實的數(shù)據(jù)才會有真實的結(jié)構(gòu),刻意為了迎合某些死板的標(biāo)準(zhǔn),不惜去“美顏"甚至偽造數(shù)據(jù),也就背離了科學(xué)研究。
-轉(zhuǎn)載于《布魯克X射線部門》公眾號
掃一掃,關(guān)注公眾號
服務(wù)電話:
021-34685181 上海市松江區(qū)千帆路288弄G60科創(chuàng)云廊3號樓602室 wei.zhu@shuyunsh.com服務(wù)熱線:
021-34685181
17621138977