2019-07-06 paml軟件安裝


Hyphy,不亞于Paml的選擇壓力分析的優秀軟件,使用指北 近幾年來,Hyphy的使用人數越來越來多,雖然不及paml,但這款軟件的一些優秀特性使得它值得受到使用和關注 。
首先相比paml,hyphy有以下幾大優點:
接下來介紹的一系列東西,實際上是對Hyphy官方網站的一系列教程的總結,很多東西官網都寫得很清楚,官網地址為 https://www.hyphy.org/。
如果你不想看長篇大論,直接跳到最后的總結部分,那里有最簡練的總結
關于Hyphy的不同版本 ,hyphy的網頁版即是datamonkey,并且還有GUI版本,這里介紹的主要是命令行版本,并且命令行版本也可以分為交互式運行和一行命令運行,這里不介紹交互式方法的使用 。
關于hyphy的安裝 ,只需要用conda就可以安裝了
關于hyphy的輸入文件 ,要求一顆newick格式(只能是此格式)系統發育樹以及相對應的fasta序列比對文件(可以是FASTA, phylip, 等等),標注foreground branch,即前景支的方法和paml略微不同,即在newick文件中在分支名和支長(如果有的話)之間加上{Foreground}來標注,或者你可以去hyphy官網的phylotree來在線標注,地址為 http://phylotree.hyphy.org/。
關于多線程支持方面 ,2.4.0版本當中,軟件中的命令 hyphy 和 HYPHYMPI 已經等同,都是調用多線程,在這個版本之前,hyphy 調用的是單核,而 HYPHYMPI 則對應的是多線程版本命令 。
關于具體使用方法 ,hyphy的使用非常簡單,以2.2.0版本為例,如果你要使用多線程命令,則如下有兩種方法,分別對應位點模型slac以及指定了前景支的支位點模型absrel,它們都需要openmp支持
不同的模型,只需要改相應的模型名稱就可以調用了(替換上面命令的slac或者absrel),用法非常簡單,如果不特別用branches指定Foreground,那么則會默認對整個系統發育應用模型 。
關于輸出結果及結果可視化 ,Hyphy運行的時候,默認打印到屏幕上的結果是以markdown格式輸出的,這個結果還是很直觀的,而保存到本地文件的結果是以json格式輸出的,并不是很直觀( 但json格式可以很方便的用python的json模塊提取各種信息,例如pvalue和正選擇位點,在多個任務批量操作的時候,非常的方便,這種保存的格式非常具有通用性,其實是件好事 ),默認是輸出到和多序列比對文件相同的文件夾,可以用 --output 來改變輸出位置,可以去官網 http://vision.hyphy.org/ 來可視化輸出結果,具體的格式介紹,詳見 https://www.hyphy.org/resources/json-fields.pdf。
關于Hyphy的各種模型,基本上都可以分為不指定foreground和指定foreground運行的兩種方式,前者對應的是檢測 pervasive (across the whole phylogeny) positive or purifying selection ,即整個系統發育中的普遍的正選擇/純化選擇,而后者對應的是檢測 episodic (at a subset of branches) positive or purifying selection ,即檢測一部分branches的獨立正選擇/純化選擇 。
①FEL 固定效應似然法(FEL, Fixed Effects Likelihood)
使用最大似然(ML)方法來推斷每個位點上的非同義(dN)和同義(dS)替換率,用于給定的編碼比對和相應的系統發育 。該方法假設在整個系統發育過程中,每個位點的選擇壓力是恒定的 。注意,FEL適合小到中型數據
②SLAC (Single-Likelihood Ancestor Counting)
對于給定的編碼比對和相應的系統發育使用最大似然(ML)和計數方法的結合來推斷每個位點上的非同義(dN)和同義(dS)替換率 。像FEL一樣,該方法假設在整個系統發育過程中,每個位點的選擇壓力是恒定的 。SLAC和FEL精準度相似,但適合更大的數據,并且不適合高度分歧的序列
③?FUBAR(Fast, Unconstrained Bayesian AppRoximation)?
使用貝葉斯方法來推斷給定編碼比對和相應系統發育的每個位點上的非同義(dN)和同義(dS)替換率 。該方法假設在整個系統發育過程中,每個位點的選擇壓力是恒定的 。FUBAR適用于中到大數據集,預計在檢測位點的普遍選擇方面比FEL更有效 。FUBAR是推斷pervasive selection的首選方法 。
MEME(Mixed Effects Model of Evolution)
MEME(混合效應進化模型)采用混合效應最大似然方法來檢驗個別位點是否受到episodic positive或多樣化選擇的影響的假設 。換句話說,MEME的目的是檢測在一定比例的分支下正選擇下進化的位點 。
對于每個位點,MEME推測兩種ω值,以及在給定的分支下,以此ω進化的概率 。為了推斷ω,MEME會推斷α(dS) 和兩個不同的β(dN),β?和β+ 。在空模型和備擇模型中,MEME強制β?≤α 。因此β+是空模型和備擇模型不同的關鍵:在空模型中,β+被限制為≤α,但在備擇模型中不受限制 。最終,當β+>α時,位點被推斷為正選擇,并使用似然比檢驗顯示顯著 。
FADE(FUBAR Aproach to Directional Evolution)
是一種基于FUBAR引入的貝葉斯框架(Bayesian framework)的方法,用來測試蛋白質比對中的位點是否受定向選擇的影響 。具體地說,FADE將系統地測試,對于比對中的每個位點,與背景分支相比,一組指定的前景分支是否顯示對特定氨基酸的替代偏向 。該偏差參數的高值表明該位點對特定氨基酸的取代作用大大超過預期 。使用貝葉斯因子(BF)評估FADE的統計顯著性,其中BF>=100提供了強有力的證據,表明該位點正在定向選擇下進化 。
重要的是,與HyPhy中的大多數方法不同,FADE不使用可逆的馬爾可夫模型,因為它的目標是檢測定向選擇 。因此,FADE分析需要一個有根的系統發育 。在使用FADE進行分析之前,可以使用基于瀏覽器的交互工具“Phylotree.js”來幫助建立樹的根 。
aBSREL (adaptive Branch-Site Random Effects Likelihood)
是常見的“Branch-Site”類模型的改進版本 。aBSREL既允許分支的先驗指定(即指定foreground branches)來測試選擇,也可以以探索性的方式測試每個譜系以進行選擇( p-value將自動進行BH校正,為什么叫探索性的方法呢,因為你可以先不指定foreground,來看看哪個支的pvalue更低,然后來針對那一支進行進一步的選擇壓力分析 ) 。請注意,探索性的方法將犧牲功效 。?aBSREL是在各個分支檢測正選擇的首選方法?,需要注意一點的是,aBSREL是多次獨立對指定的每一支進行檢驗的,也就是說,你指定了許多的branches,實質上和多次指定不同一個branch來多次運行,效果是一樣的,而并非將這些branches視為一個整體去做檢測
BUSTED(Branch-Site Unrestricted Statistical Test for Episodic Diversification)
通過測試一個基因是否在至少一個分支的至少一個位點上經歷了正選擇,BUSTED(分支位點無限制統計檢驗)提供了一個全基因(非位點特異性)正選擇的測試 。當運行BUSTED時,用戶可以指定一組前景支來測試正選擇(其余分支被指定為“背景”),或者用戶可以測試整個系統發生的正選擇 。在后一種情況下,整個樹被有效地視為前景,正選擇的檢驗考慮整個系統發育 。這種方法對于相對較小的數據集(少于10個分類單元)特別有用,在這些數據集中,其他方法可能沒有足夠的功效來檢測選擇 。這種方法不適用于確定有正選擇的特定位點 。
對于每個系統發育分區(前景和背景分支位點),BUSTED擬合了一個具有三個速率類的密碼子模型,約束為ω1≤ω2≤1≤ω3 。與其他方法一樣,BUSTED同時估計每個分區屬于每個ω類的位點的比例 。這種模型作為選擇檢驗中的替代模型,被稱為無約束模型 。然后,BUSTED通過比較這個模型與前景分支上ω3=1(即不允許正選擇)的空模型的擬合度來測試正選擇 。這個零模型也被稱為約束模型 。如果零假設被拒絕,那么就有證據表明,至少有一個位點在前景枝上至少有一部分時間經歷了正選擇 。重要的是,一個顯著的結果并不意味著該基因是在整個前景的正選擇下進化的 。
RELAX
RELAX是一種假設檢驗框架,它檢測自然選擇的強度是否沿著一組指定的測試分支被放松或加強 。因此,RELAX不是明確檢測正選擇的合適方法 。相反,RELAX在識別特定基因上自然選擇嚴格程度的趨勢和/或變化方面最有用 。K>1表示選擇強度加強,K<1表示選擇壓力放松 。
RELAX需要一組指定的 "測試 "分支與第二組 "參考 "分支進行比較(注意,不必分配所有的分支,但測試集和參考集各需要一個分支) 。RELAX首先對整個系統發育過程擬合一個具有三個ω類的密碼子模型(空模型) 。然后,RELAX通過引入作為選擇強度參數的參數k(其中k≥0)作為推斷ω值的指數:ωk來測試放松/強化選擇 。具體來說,RELAX固定推斷的ω值(都是ωk<1,2,3>),并對測試分支推斷出一個將比率修改為ωk<1,2,3>的k值(替代模型) 。然后,RELAX進行似然比檢驗,比較替代模型和空模型 。
用法來說,以我用的2.2.0版本為例子,(2.4.0直接用hyphy命令即可)
模型上來說:
如果你要檢測類似paml中的M8位點模型,最好用FUBAR,如果是小數據,則用FEL,大數據并且分歧度不是很高用SLAC 。
如果你要檢測某個前景支當中正選擇位點,最好用MEME 。
如果你要檢測單獨的某個branch是否存在正選擇,最好用aBSREL 。
如果你要檢測一系列的branches的正選擇,即檢驗你的這個基因,在指定的branches的任意一個位點是否在某段時間經歷過正選擇,則用BUSTED,BUSTED是不適合檢測單獨位點的正選擇的 。
如果你要檢測選擇壓力的放松/加強,用RELAX 。
如果你要用蛋白序列來檢測氨基酸位點正選擇/定向選擇,用FADE 。
最后再提一下,幾乎所有模型(還有一些沒常用的模型沒有提到)都可以分為指定前景和不指定前景的模式運行,但不是都適合,就像官方說的那樣,根據你的目的不同,會有最優選擇,當然你也可以把某種模型都跑一遍,比如各種位點模型都走個流程,并且你也可以結合paml的模型,例如,對于檢測Pervasive selection的位點模型,你可以結合paml的M8、M2a來分析 。對于檢測episodic selection的branch-site,你可以結合paml的branch-site modelA和BUSTED/aBSREL來比較分析 。
以上的所有文字,都是筆者根據官方以及一些文獻當中對于hyphy的使用總結、翻譯,如有錯誤使用之處,還請各位多多指正 。
pamlsmith中文叫什么牌子?... 你是說Poul Smith嗎 。。。要不就是某個山寨品牌 。。。保羅·史密斯 (Paul Smith) 是來自英國的二線奢侈品牌,走的是英式幽默的紳士風格 。當然和HERMES, LV, CHANEL等一線品牌不能比,不過我個人還是蠻喜歡它的設計,雖然它大部分的包都是中國造 。。。。價格也比較親民,走中低路線 。
在精準醫學時代為臨床管理建立風險分層時考慮種族背景十分重要(IF14+)
發表期刊:Nat Commun
發表日期:2022 Mar 28
DOI:10.1038/s41467-022-29336-y
最近的研究表明,包括 AML 在內的兒童和成人癌癥的基因組圖譜存在顯著差異 。與成人相比,兒童 AML 在 MYC ITD 和 WT1 中往往表現出更高的突變頻率,而在 DNMT3A 和 TP53 中的突變頻率較低 。同時有研究表明,不同的種族背景可能對疾病發展和進展的分子陵慎驅動因素產生深遠影響 。根據這一證據,值得注意的是,盡管綜合基因組研究揭示了兒童 AML 的關鍵基因組異常,但這些觀察結果主要基于西方人群患者的基因組分析,中國 AML 患者仍然缺乏基因組分析 。
(1)骨髓樣本取自 2001-2018 年在上海兒童醫學中心 (SCMC) 血液腫瘤尺備敬科診斷為 AML 的 292 名患者 。
(2)收集了10個具有匹配RNA seq和WGS數據的所有診斷樣本
(1)轉錄組測序(RNA-seq)和分析、SNV與Indel分析
(2)驅動突變分析:PeCanPIE24和MutClan分析用于識別驅動突變;從St.Jude Cloud收集的983例兒童腫瘤中,共有6975733個已發表的體細胞突變用于構建突變簇背景,如果突變在PeCanPIE分析中被歸類為gold或顯著位于突變簇中,則該突變將被視為潛在的驅動因素
(3)RNA-seq檢測驅動突變:10個具有匹配RNA seq和WGS數據的所有診斷樣本;對RNA-seq數據進行SNV和INDEL分析;收集WGS檢測到的SNV和INDEL作為基準 。PeCanPIE應用于所有突變,本分析僅包括分類為金或銀的突變 。
(4)統計分析:相關性分析、生存分析、Cox回歸分析
通過研究2001-2018年在上海兒童醫學中心(SCMC)診斷和治療的292名中國兒童AML患者,分析了基因組改變 。中國人群的臨床特征與西方人群的臨床特征相當 。然而,中國AML患者較年輕,中位年齡為5.3歲,而西方隊列為10.6歲 ?;颊呓邮蹵ML-SCMC-2009-A和AML-SCMC-2009-B方案的預后無顯著差異或在一段時間內接受治療的患者之間無顯著差異(圖S1) 。轉錄組測序(RNA-seq)應用于所有腫瘤樣本,并分析序列突變和基因重排 。
RNA-seq數據分析顯示,292例患者中有200例(滾顫68.5%)發生224次重排,涉及97個基因(圖1a) 。與之前的報道一致,在中國AML患者中檢測到的最常見融合包括RUNX1-RUNX1T1、KMT2A重排和NUP98重排 。此外,在本研究隊列的三名患者中發現了涉及XPO1基因的復發性幀內融合(圖1b),包括XPO1-TNRC18融合和XPO1-MLLT10融合 。值得注意的是,在另外兩名最近在SCMC診斷的AML患者中也檢測到XPO1-TNRC18融合 。有趣的是,所有四個攜帶XPO1-TNRC18的病例都屬于M7組,并且沒有任何已知的AML驅動融合,支持這種融合是這些病例中AML的潛在驅動因素,并且在FAB組中定義了以前未分類的分子亞型 。總體而言,XPO1-TNRC18病例占AML M7亞型的5.0%(隊列中40例中有2例) 。在目前的分析中,還發現了以前未觀察到的其他基因重排,包括PTPRA-FUS、ZEB2-ATIC和MSI2-UBE3C 。
作者優化了變體調用和處理管道,以分析來自純腫瘤RNA序列數據的潛在體細胞和癌癥相關序列突變 。首先為了評估這種方法的性能,將其應用于從之前發表的10例兒科ALL病例中收集的RNA-seq數據,還對每個病例的腫瘤和緩解樣本的全基因組測序(WGS)數據進行了匹配 。結果表明,對純腫瘤RNA序列數據的分析成功地識別了WGS發現的85.7%的驅動突變(21例中的18例) 。同時,RNA-seq分析檢測到另外9種潛在的驅動突變,包括NRAS G13D和KRAS G13D等 。在這9個突變中,有8個在之前的研究中使用基因組DNA被納入捕獲驗證實驗 。在這8個突變中,有7個驗證成功 。值得注意的是,所有9個突變均為亞克隆,由于覆蓋范圍不足而在WGS分析中被遺漏 。這些結果證明了從RNA-seq分析序列突變的能力,尤其是用于檢測亞克隆變異 。使用這種方法,作者接下來確定了總共975個影響305個基因的非同義序列突變 。這些突變包括707個單核苷酸變異(SNV)和268個插入/缺失(indels),每個病例檢測到的中位數為4個突變 。通過應用組合策略進一步分析潛在的驅動突變,將PECANPI24的突變致病性分析與MutClan的突變聚類分析相結合,共鑒定出572個潛在的驅動因素變異,影響73個基因 。此外,CICERO25檢測到24個內部串聯重復(ITD),影響FLT3和MYC ??偟膩碚f,81.8%(n=239)的病例檢測到了驅動序列突變,每個病例檢測到三個驅動突變的中位數 。
在之后的分析中只關注驅動突變 。在這些驅動因素中,超過5%的患者有10個基因反復突變(圖2a),包括FLT3、KIT、NRAS、KRAS、CEBPA、ASXL2、PTPN11、CSF3R、GATA2和JAK2 。值得注意的是,作者發現了兒童AML的驅動基因,包括LZTR1和SPOP,之前未發現與兒童AML相關聯,以及ARID2 和 SH2B3 的功能缺失突變,據報道它們在其他兒科癌癥(如 ALL)中具有致病性,但在 AML 中沒有 。盡管這些基因中的大多數基因的基因組突變先前已經在兒童AML中報道過,但與代表西方人群的TARGET AML研究相比,中國隊列中的突變發生率有顯著不同 。在SCMC或TARGET隊列中>4%的患者中,驅動基因內的21個基因或熱點反復突變,其中10個(47.6%)顯示出顯著不同的突變頻率(圖2b、c) 。其中4例在中國患者中顯示出較高的突變頻率,包括ASXL2、JAK2、CSF3R胞質結構域和KIT外顯子17(KIT-E17) 。另一方面,中國患者的FLT3、FLT3 ITD、NRAS、WT1、NPM1和TET2突變頻率較低 。值得注意的是,中國和西方患者之間的不同突變頻率主要由3-14歲的患者構成(圖S4a) 。此外,作者發現FLT3和NRAS突變在中國隊列的年輕患者中更常見(圖S4b) 。
作者進一步整合了不同的變異類型以分析中國兒童AML的基因組圖譜 。除了上述融合和序列突變外,用RNA-seq分析發現CBL外顯子8/9缺失 。本研究隊列中有12例(4.1%)發現了這種局部缺失,與TARGET隊列相當 ??偟膩碚f,在93個基因中發現的驅動突變被分為六條途徑(圖3a) 。AML中最常見的突變途徑是轉錄調節、表觀遺傳學和RAS信號傳導 。共有 50.7% 的患者檢測到激活其他信號通路的突變,包括JAK-STAT等 。值得注意的是,在中國患者中,RAS信號通路的突變頻率顯著降低,這與在RAS途徑中觀察到的單個基因的低突變頻率一致 。
接下來,作者研究了在中國AML患者中檢測到的驅動基因突變的配對關系 。共發現150對基因、突變熱點或FAB組(排除融合伙伴或單個基因內不同結構域之間的配對后為143對)顯著同時或完全突變(圖3b) 。通過這項分析,在建AML中立了的多個關聯,包括CSF3R和KIT、ASXL2和KIT、DHX15和KIT、DNM2和JAK3等的共突變 。對這些以前未曾描述過的關聯的觀察,只能部分解釋為這些基因在中國 AML 患者中的突變頻率較高,因為在不同人群中也發現了完全不同的突變關聯 。
生存分析顯示驅動基因組畸變與患者預后相關(圖4a) 。CBFB-MYH11融合與預后良好相關,而NUP98-KDM5A/NSD1、FUS-ERG和CBFA2T2-GLIS2與預后不良相關 。另一方面,作者注意到RUNX1-RUNX1T1融合和KMT2A重排患者的5年無事件生存率(EFS)相似 。關于這些突變,發現CEBPA、NPM1和GATA2的突變與良好的預后相關,而RUNX1和FLT3、ITD的突變與較差的預后相關,這與之前在西方隊列中的發現一致 。攜帶上述驅動基因畸變的患者在中國和西方隊列中的預后情況相似(圖S6) 。
除了這些先前建立的關聯,還發現攜帶UBTF突變的患者與野生型相比預后更差(圖S7a) 。與單獨攜帶FLT3變體的患者相比,攜帶FLT3變體并伴有UBTF突變、RUNX1突變或NUP98重排的患者的預后更差(圖S7b-d) 。另一方面,FLT3 ITD和NPM1突變的患者在當前的分析中顯示出良好的結果(圖S7e) 。
研究中應用了單變量和多變量Cox回歸分析 。單變量Cox回歸顯示上述結果一致,而多變量Cox回歸顯示CBFA2T3-GLIS2、FUS-ERG、NUP98重排、FLT3 ITD和RUNX1突變與不良預后獨立相關,而GATA2與良好預后獨立相關 。由于UBTF和CEBPA突變分別與FLT3 ITD和GATA2存在顯著的共突變,因此不包括在多變量Cox回歸模型中 。此外,將上述五個與不良預后相關的基因組因素合并為高?;蛐停约癈R1狀態和GATA2,再次進行多變量Cox回歸分析 。結果顯示,合并高?;蛐褪桥c不良預后顯著相關的獨立危險因素 。
在本研究隊列中,有78名患者至少有一項上述改變與良好或不良結果相關 。接下來,作者檢查了剩下的患者是否有任何其他與臨床相關的改變,將重點放在那些缺乏任何畸變的患者身上,這些畸變與預后有著良好的關聯 。除上述78名患者外,還有24名患者因攜帶TP53或ASXL1突變、DEK-NUP214融合或確認的染色體異常而被進一步排除在外 。發現,對于剩下的患者,第一周期誘導治療后的治療反應是與患者預后最顯著相關的因素之一(圖S8a) 。在一個誘導周期(CR1)后未達到完全緩解的患者顯示出不良結局,與攜帶與不良結局相關的基因組變異的患者相似(圖S8b) 。另一方面,雖然CR1患者的預后相對較好,但與攜帶與良好預后相關的變異的患者相比,這些患者的預后較差(圖S8c),表明該CR1組中存在混合患者 。
接下來,分析了129例CR1患者的每個融合亞型的基因組畸變與預后之間的關系,包括RUNX1-RUNX1T1,KMT2A重排,其他融合病例,融合陰性病例 。發現CSF3R和KIT-E17的突變在RUNX1-RUNX1T1患者中與不良預后相關 。CSF3R和KIT外顯子17突變在RUNX1-RUNX1T1融合亞型中顯著共同發生 。事實上,與攜帶CSF3R和KIT外顯子17突變的RUNX1-RUNX1T1融合亞型CR1患者相比,攜帶CSF3R和KIT外顯子17突變的CR1患者的預后更差(圖4b) 。
接下來,作者根據本研究建立的臨床相關性修改了歐洲白血病(ELN)遺傳風險分類模型 。提出的SCMC pAML模型(圖5a)的特點是調整了幾種基因畸變的風險分類 。例如,FUS-ERG、CBFA2T3-GLIS2、NUP98-KDM5A和NUP98-NSD1被歸為高風險組(HR),而KMT2A重排被歸為中等風險組(IR) 。重要的是,RUNX1-RUNX1T1融合的患者在之前的模型中與良好的預后相關,根據CR1狀態和隨后獲得的突變(包括CSF3R和KIT-E17突變)進一步細分 。與ELN模型相比,SCMC pAML模型識別出更多的HR患者和更少的低風險(LR)患者,以及相似數量的IR患者(圖5b) 。盡管兩種模型分類的風險組在患者預后方面存在顯著差異,但使用SCMC pAML分類的LR組和IR組顯示出更有利的結果(圖5c),5年EFS率分別為84.9%和74.5%,這些比率顯著高采用ELN模型分層的LR組和IR組 。另一方面,與ELNHR組相比,SCMC pAML HR組的預后更差,5年EFS發生率分別為18.2%和30.9%,無統計學差異 。此外,在多變量cox模型中,將SCMC pAML模型分為HR組是一個獨立的風險因素,SCMC pAML HR患者的不良事件風險顯著增加 。
研究展示了中國兒科AML驅動器改變的基因組景觀,并發現了以前未描述的基因組畸變,包括 XPO1-TNRC18 融合 。全面比較中國和西方AML隊列,發現基因組改變特征明顯 。例如,中國AML患者在 KIT 和 CSF3R 中表現出突變,而RAS信號通路中的基因突變較少 。同時提出了一種精細的預后風險分類模型,該模型更好地反映了中國AML患者的不良事件風險 。本研究結果揭示了一個臨床相關的突變譜,該譜在突變頻率和突變共發生模式方面與西方隊列不同 。這些發現進一步闡明了兒童急性髓系白血病的復雜性,并強調了在精確醫學時代為臨床管理建立風險分層時考慮種族背景的重要性 。
生信分析軟件介紹ParaAT
網址:https://ngdc.cncb.ac.cn/tools/paraat
ParaAT(Parallel Alignment and back-Translation, is a parallel tool that parallelly constructs protein-coding DNA alignments for a large number of homologs. ParaAT is well suited for large-scale data analysis in the high-throughput era, providing good scalability and exhibiting high parallel efficiency for computationally demanding tasks.
The resulting alignments can be outputted into different formats, including fasta, axt (forKaKs_Calculator ), paml (for PAML), codon and clustal. Documentation and usage information can be foundhere .
一個批量比對軟件
2019-07-06
Ka/Ks
【2019-07-06 paml軟件安裝】 在遺傳念歲學中,Ka/Ks或者dN/dS表示的是異意替換(Ka)和同意替換(Ks)之間的比例 。這個比例可以判斷是否有選擇壓力作用于這個蛋白質編碼基因 。
不導致氨基酸改變的核苷酸變異我們稱為同義突變,反之則稱為非同義突變 。培乎一般認為,同義突變不受自然選擇,而非同義突變則受到自然選擇作用配高悉 。在進化分析中,了解同義突變和非同義突變發生的速率是很有意義的 。常用的參數有以下幾種:同義突變頻率(Ks)、非同義突變頻率(Ka)、非同義突變率與同義突變率的比值(Ka/Ks) 。如果Ka/Ks>1,則認為有正選擇效應 。如果Ka/Ks=1,則認為存在中性選擇 。如果Ka/Ks<1,則認為有純化選擇作用 。
Ks = 同義突變SNP數/同義位點數
即同義突變率
Ka = 非同義突變SNP數/非同義位點數
即非同義突變率
同義突變SNP數= Σ同義SNP
非同義突變SNP數= Σ非同義SNP
同義位點數= Σ同義位點
非同義位點數= Σ非同義位點
uKa>>Ks或者Ka/Ks >> 1,基因受正選擇(positive selection)
uKa=Ks或者Ka/Ks =1,基因中性進化(neutral evolution)
uKa<<Ks或者Ka/Ks << 1,基因受純化選擇(purify selection)
檢測序列的功能性(funcional or pseudo)
篩選正在快速進化的基因(rapid evolution)
Ks可以反映事件發生的時間(age)
分子進化領域常用軟件
系統進化樹構建軟件列表:
Phylip
Clustalw
PAML-Codml
其他
選擇壓力ka/ks計算軟件列表:
PAML-yn00
Kaks_calculator
K-estimator
其他
snp搜索軟件列表:
polyphred
SNPdetector
BGI-Variation analysis
非同義替換率(氨基酸改變,dn)與同義替換率的(氨基酸不改變,ds)的比值(dn/ds)也經常被用于分化分析 。dn/ds的比值為1表示所研究的基因在中性選擇(neutral selection)下進化,小于0. 25意味著純化選擇(purifying selection)下進化,當比值大于1時則被認為進行正向選擇(positive selection)下的進化(Hurst et al, 2002; Swanson et al 2003) 。
對于研究蛋白編碼序列突變的一種簡單而有效的分類方法是將替換分成同義
替換(Synonymous substitution) 和錯義替換(Non-synonymous substitution) 。同義替換是指那些可以引
起所編碼的氨基酸發生不改變的替換,一般認為這樣的替換不會受到選擇的壓力或者受到的選擇作用
比較小;非同義替換是指那些可以改變所編碼的氨基酸的替換,這樣的替換有時候會導致新的功能 。
依據密碼子的簡并性(degeneracy)可以將核苷酸位點分成兩類:同義替換位點(Synonymous site)和錯
義替換位點(Non-synonymous site) 。同義替換率和錯義替換率定義為:每代或者每年在每個可能的同
義(錯義)位點上實際發生的同義(錯義)替換數目(rS, rN) 。然而由于對序列分化的時間不能確
定,因此同義替換率(Synonymous substitution, Ks 或 dS)和錯義替換率(Non-synonymous substitutionrate, Ka 或dN)可以定義為:在兩序列分化至今的 t 年里每個可能的同義(錯義)位點上實際發生
的同義(錯義)替換數目 。因此有:Ka = 2rNt,Ks = 2rSt。通過比較錯義替換率和同義替換率的相對
比值可以確定這個基因在進化中受到的選擇壓力 。Ka, Ks 的之間的比值是已經為人們所接受和廣泛
應用的表現進化動力的指標 。
Similar to dn / ds ratios,
the rate of accumulation of non-synonymous polymorphism
(pN) scaled by the rate of synonymous polymorphism
(pS) provides a glimpse on the selective forces
driving the evolution of a protein-coding sequence.
Thus, genes with a high pN / pS (i.e. >1) ratio are likely
to be evolving under the influence of positive selection
paml中文翻譯
沒有這個字,只有paramecium這個字,意思是草履蟲 。
草履蟲是一種身體很小,圓筒形的原生動物,它只有一個細胞構成,是單細胞動物,雌雄同體 。最常見的是尾草履蟲 。體長只有180—280微米 。它和變形蟲的壽命最短,以小時來計算,壽命時間為一晝夜左右 。因為它身體形狀從平面角度看上去像一只倒放的草鞋底而叫做草履蟲 。
草履蟲Paramecium是纖毛綱的代表種,也是原生動物的代表種 。草履蟲生活在淡水中,一般池沼,小河中都可采到 。世界已知22種,常見有大草履蟲(長180~300微米)、雙小核草履蟲(長80~170微米,伸縮泡2個,有兩個小核,很?。?、多小核草履蟲(長180~310微米,有時有3個伸縮泡,小核泡型,有3~12個)、綠草履蟲(體長80~150微米,細胞質內有綠藻共生,在見光處培養后通體呈綠色,小核1個,致密型) 、大草履蟲是最常見者 。
草履蟲一般呈長圓筒形,前端鈍圓,后端寬而略尖,形狀似倒置的草鞋,因此得名 。草履蟲全身長滿縱行排列的纖毛,纖毛和鞭毛的結構基本相同 。蟲體的表面為表膜,由3層膜組成,起到緩沖和保護作用,里面的細胞質分化為內質與外質 。每一根纖毛從位于表膜下的一個基體發出來,整個表膜下的基體由縱橫連接的小纖維連接成網,起到協調纖毛活動的作用 。
表膜下的外質中有一排小桿狀的囊泡結構,與表膜垂直排列,叫做刺絲泡,開口于表膜上,當蟲體遇到刺激時,刺絲泡射出其內容物,遇水形成細絲 。如用5%亞甲基藍、稀醋酸或墨水刺激時,可見放出刺絲 。一般認為刺絲泡具有防衛和捕食的作用 。
一種身體很小、圓筒形的原生動物 。最常見的是尾草履蟲,體長只有80~300微米 。因為它身體形狀從平面角度看上去像一只倒放的草鞋底而叫做草履蟲 。草履蟲全身由一個細胞組成,身體表面包著一層膜,膜上密密地長著許多纖毛,靠纖毛的劃動在水里運動 。它身體的一側有一條凹入的小溝,叫“口溝”,相當于草履蟲的“嘴巴” ??跍蟽鹊拿荛L的纖毛擺動時,能把水里的細菌和有機碎屑作為食物擺進口溝,再進入草履蟲體內,供其慢慢消化吸收 。殘渣由一個叫肛門點的小孔排出 。草履蟲靠身體的外膜吸收水里的氧氣,排出二氧化碳 。常見的草履蟲具有兩個細胞核:大核主要對營養代謝起重要作用,小核主要與生殖作用有關 。
草履蟲營吞噬營養,有較復雜的消化細胞器 。由蟲體近前端開始有一條口溝,斜著伸向身體中部,口溝末端的與表膜相連處形成胞口,下面連著漏斗形的胞咽 。食物(如細菌、小的生物和腐爛的有機物等)通過口溝處纖毛擺動而進入胞口,在胞咽下端積聚成下泡,被細胞質包裹而脹大,形成食物泡,在固定的路徑中流動,與溶酶體融合后進行消化 。最后不能消化的殘渣由身體后部的胞肛排出蟲體外 。
在內、外質之間有2個伸縮泡,一個在體前部,一個在體后部 。每個伸縮泡向周圍細胞質伸出放射排列的收集管,這些收集管端部與內質網的小管相通 。在伸縮泡主泡和收集管上有由一束微管組成的收縮絲,內質網收集的水分以及代謝廢物通過收縮絲的收縮而進入收集管,注入伸縮泡,從表膜小孔(排泄孔)排出蟲體外 。前后2個伸縮泡交替收縮,維持其體內水分平衡 。可見,伸縮泡的功能是調節滲透壓和排泄 。
草履蟲的生殖可分為無性生殖和有性生殖 。無性生殖為橫二分裂,小核先進行有絲分裂,大核再進行無絲分裂,然后細胞質一分為二,最后蟲體從中部橫斷,成為2個新個體 。有性生殖為接合生殖,2個草履蟲口溝對口溝粘合在一起,粘合處細胞膜溶解,兩個蟲體的細胞質相通,小核離開大核,分裂2次形成4個核,其中3個解體,剩下的1個小核又分裂成大小不等的2個核,大核逐漸消失 。然后兩蟲體互換其新小核,并與對方較大核融合,這一過程相當于受精作用 。此后兩蟲體分開,接合核分裂3次成為8個核,4個變為大核,其余4核有3個解體,剩下1核分裂為2小核,再分裂為4小核,每個蟲體也分裂2次,結果原接合的兩親本蟲體各形成4個草履蟲,新形成的8個草履蟲都有一大核,一小核 。
元音字母e在重讀開音節里發長元音/i/的音,發音時,舌端靠近下齒,舌前部抬得很高,但不接觸上顎,不發生任何摩擦,牙床接近合,唇形扁平,這個音出現在字首、字中和字尾的位置,如:
even 偶數的
meter 米
fever 發燒
zebra 斑馬
he 他(主格)
we 我們(主格)
me 我(賓格)
be 是
希望我能幫助你解疑釋惑 。
關于PAML和paml軟件安裝的內容就分享到這兒!更多實用知識經驗,盡在 m.apearl.cn