攜帶重要表觀遺傳信息的化學(xué)修飾堿基的直接類(lèi)似物,如m5C/5mC,hm5C/5hmC和m6A/6mA,分別在RNA和DNA中檢測(cè)到。修飾的堿基n4-乙酰胞嘧啶(ac4C)在RNA中的研究已經(jīng)很好,但它在細(xì)胞DNA中的存在和表觀遺傳作用還沒(méi)有被探索。本研究通過(guò)多種檢測(cè)方法證實(shí)了擬南芥基因組DNA中存在n4-乙酰脫氧胞嘧啶(4acC)。對(duì)4acC修飾的全基因組分析表明,4acC峰大多分布在擬南芥的常染色質(zhì)區(qū),在近一半的表達(dá)蛋白編碼基因中都有4acC峰的存在,4acC主要位于轉(zhuǎn)錄起始位點(diǎn)附近,與基因表達(dá)水平呈正相關(guān)。5mC的不平衡并不直接影響4acC的修飾。我們還描述了4acC與5mC和組蛋白修飾的關(guān)系,這些修飾協(xié)同調(diào)節(jié)基因表達(dá)。此外,通過(guò)質(zhì)譜分析,在水稻、玉米、小鼠和人類(lèi)基因組DNA中也檢測(cè)到4acC。我們的研究結(jié)果表明4acC在高等真核生物中是一種未知的DNA修飾。我們確定了該標(biāo)記與其他表觀遺傳標(biāo)記在基因表達(dá)調(diào)控中的潛在相互作用。本文于2022年2月發(fā)表于Genome Biology(IF=17.906)上。
技術(shù)路線:
主要研究結(jié)果:
(1) 擬南芥gDNA中4acC修飾的特征
為了確定gDNA中4acC的存在,我們使用一種特異性識(shí)別mRNA中ac4C堿基的抗體,通過(guò)免疫印跡分析檢測(cè)了4acC,該抗體已用于mRNAs中ac4C位點(diǎn)的全基因組分析。在免疫-Southern blot試驗(yàn)中,用RNase-A去除gDNA中的RNA,用凝膠電泳分離可能殘留的RNA。從含有0.2 μg純化gDNA的凝膠中很容易檢測(cè)到4acC信號(hào)(圖1a)。我們進(jìn)一步用羥胺處理gDNA,羥胺可以使總RNA中的ac4C去乙酰化,通過(guò)抗4acC斑點(diǎn)雜交(anti-4acC dot blot),我們發(fā)現(xiàn)處理后的樣品比未處理的樣品信號(hào)大大減少(圖1b),支持DNA中4acC的存在。
此外,應(yīng)用超高效液相色譜-電噴霧質(zhì)譜法(uplc-MS/MS)檢測(cè)和定量了擬南芥gDNA中的4acC。與4acC標(biāo)準(zhǔn)的保留時(shí)間約2.81 min相匹配的峰均存在于擬南芥gDNA中,而在模擬樣品中不存在(圖1c-e)。3周齡的col0蓮座葉gDNA中4acC水平為0.1% (4acC/dC)(圖1f)。羥胺處理后,4acC的豐度下降到dC的0.02%(圖1f),進(jìn)一步支持了4acC在擬南芥gDNA中的存在。這些結(jié)果表明,4acC修飾在高等真核生物中是一個(gè)豐富而普遍的表觀遺傳標(biāo)記。
(2) 擬南芥4acC基因的全基因組定位
為了探索4acC的表觀遺傳作用,我們研究了4acC在擬南芥基因組區(qū)域的分布,包括基因間區(qū)、啟動(dòng)子(TSS上游1 kb內(nèi))、基因體及其子區(qū)域。我們發(fā)現(xiàn)82%的4acC峰位于基因體上,其中一半位于外顯子中(圖2a)。蛋白質(zhì)編碼基因組成了4acC乙酰化基因的最大群體(圖2b,右圖),基因組中41%的蛋白質(zhì)編碼基因包含4acC修飾(圖2b,左圖)。在其他類(lèi)型的基因中也檢測(cè)到4acC,如假基因、TE基因和非編碼RNA基因(圖2b,左圖)。大多數(shù)蛋白質(zhì)編碼基因在基因體中包含一個(gè)4acC峰(圖2c)。為了進(jìn)一步分析4acC在基因中的分布模式,我們繪制了所有基因的4acC-ip和輸入reads在整個(gè)編碼區(qū)和1kb的上游和下游。擬南芥全基因組的4acC位置在TSS附近富集(圖2d)。圖2e顯示了4acC分布的一個(gè)代表性特征。為了驗(yàn)證這些峰確實(shí)代表4acC修飾,我們用羥胺處理DNA以部分去除4acC修飾。對(duì)羥胺處理樣品的IP-seq分析顯示,與未處理樣品相比,處理樣品中的幾乎所有峰都大幅減少,但沒(méi)有消除(圖2d, e),這表明這些峰確實(shí)與4acC修飾有關(guān)。因此,4acC修飾是區(qū)域特異性的,在蛋白質(zhì)編碼基因的TSSs周?chē)叨雀患?/span>
(3) 4acC修飾與轉(zhuǎn)錄的相關(guān)性
擬南芥基因中TSSs周?chē)?acC峰高度富集,促使我們研究4acC與基因表達(dá)的關(guān)系。為此,我們對(duì)兩個(gè)生物重復(fù)進(jìn)行RNA-seq以分析單個(gè)基因的表達(dá),結(jié)果顯示Pearson相關(guān)系數(shù)很高(R = 0.99)(補(bǔ)充圖未展示)。根據(jù)RNA-seq數(shù)據(jù),F(xiàn)PKM>0和FPKM>1分別檢測(cè)到21,950和12,615個(gè)基因(FPKM表示外顯子每千堿基的片段/百萬(wàn)片段)(圖3a)。在FPKM值為>0或1的表達(dá)基因中,分別有45%或46%以上的表達(dá)基因含有4acC修飾。此外,89%或51%的4acc標(biāo)記基因的FPKM值分別為>0或1。我們進(jìn)一步對(duì)有或沒(méi)有4acC修飾的表達(dá)基因(FPKM>0)的基因本體(GO)術(shù)語(yǔ)進(jìn)行了分類(lèi)。使用agriGO v2.0發(fā)現(xiàn)含有4acc的基因富集了192個(gè)術(shù)語(yǔ)(補(bǔ)充表未展示),但不含4acc的基因富集了24個(gè)術(shù)語(yǔ)(補(bǔ)充表未展示)。這表明,4acc修飾的表達(dá)基因比非4acc表達(dá)的基因參與更多樣化的生物學(xué)功能。
為了探究4acC與基因表達(dá)的關(guān)系,我們將基因組中所有蛋白編碼基因按照表達(dá)水平分為前四25%、25-50%、50-75%和75-100%四組。這四組的4acC豐度圖顯示,在TSS區(qū)域周?chē)瑥?qiáng)表達(dá)基因的4acC占用率高于弱表達(dá)基因(圖3b)。在全基因組水平上,含有4acC的基因的表達(dá)水平顯著高于沒(méi)有4acC修飾的基因,此外,在TSS周?chē)?acC峰值的基因(在以TSS為中心的250 bp窗口內(nèi))的表達(dá)高于非TSS區(qū)域修飾的基因(圖3c)。因此,4acC修飾,特別是在TSS區(qū)域,與基因表達(dá)密切相關(guān)。
(4) 4acC與5mC DNA修飾的關(guān)系
考慮到4acC和5mC都是擬南芥基因組中大量存在的DNA修飾,我們研究了這兩種修飾是否相互作用。首先,研究了4acC在染色體上的分布。與富集于周?chē)刭|(zhì)異染色質(zhì)的5mC相反,4acC峰大多位于常染色質(zhì)區(qū)域(圖4a)。因此,4acC和5mC似乎占據(jù)了基因組的不同區(qū)域。其次,分析了5mC在4acC峰及其上游、下游1 kb區(qū)域的分布和修飾水平。4acC富集區(qū)域的mCG、mCHG和mCHH水平低于隨機(jī)選擇區(qū)域(圖4b),進(jìn)一步支持了4acC和5mC分布在不同位置的觀點(diǎn)。
為了檢驗(yàn)5mC的不平衡是否影響4acC修飾,我們分析了兩個(gè)DNA甲基化突變體met1和ros1dml2dml3 (rdd)的全基因組4acC修飾。在Col-0野生型(WT)中發(fā)現(xiàn)的4acC的tssenrich分布模式也在met1和rdd突變體中觀察到(圖4c)。然而,與WT植株相比,met1和rdd突變體的整體4acC豐度都降低了(補(bǔ)充圖未展示)。峰召喚后,met1和rdd突變體中分別檢測(cè)到8024和8876個(gè)4acC峰,其中98%的4acC峰與WT植株中檢測(cè)到的峰重疊(圖4d)。met1和rdd突變體的DARs與DMRs的重疊明顯低于隨機(jī)區(qū)域,這意味著DARs與DMRs沒(méi)有關(guān)聯(lián)(圖4e,f)。此外,met1突變體中的DARs在mCG水平上的變化比隨機(jī)選擇的區(qū)域略低(圖4g),因?yàn)?acc富集區(qū)域的DNA甲基化程度較低。此外,rdd突變體中的DARs在mCG、mCHG和mCHH水平上有倍性變化,與隨機(jī)選擇的區(qū)域相似(圖4h-j)。因此,met1和rdd突變體中4acC的改變與5mC修飾的改變沒(méi)有直接關(guān)聯(lián)。met1和rdd突變體中4acC的多個(gè)表觀遺傳標(biāo)記或書(shū)寫(xiě)或擦除的改變可能導(dǎo)致4acC水平的全局降低。
為了研究4acC水平的變化對(duì)基因表達(dá)的影響,我們分析了met1突變體與WT相比差異表達(dá)基因(DEGs)和唯一差異乙酰化基因(uDAGs)之間的重疊。我們利用之前研究中met1突變體的RNA-seq數(shù)據(jù),發(fā)現(xiàn)45%的uDAGs在met1和WT植物中表達(dá)顯著差異。此外,在met1突變體中,有36%的DEGs與uDAGs重疊(補(bǔ)充圖未展示),這表明4acC在基因表達(dá)調(diào)控中發(fā)揮作用。
(5) 4acC和5mC修飾在基因表達(dá)調(diào)控中的協(xié)同作用
由于在基因體中被5mC甲基化的基因也被發(fā)現(xiàn)具有高表達(dá),我們比較了4acC和5mC在蛋白質(zhì)編碼基因中的分布,并研究了它們對(duì)基因表達(dá)的協(xié)同作用。值得注意的是,與4acc富集區(qū)域比隨機(jī)區(qū)域含有更低的CG、CHG和CHH甲基化水平的發(fā)現(xiàn)相比(圖4b),4acc標(biāo)記的基因在基因體中顯示出更高的mCG甲基化水平(圖5a),但比非4acc標(biāo)記的基因(圖5b,c)更低的mCHG和mCHH上下文水平。幾乎所有基因都含有mCG,有重度、中度和輕度mCG修飾的基因表現(xiàn)出中等、較低和較高水平的基因表達(dá)(圖5d)。因此,mCG的程度與基因表達(dá)無(wú)顯著相關(guān)性。對(duì)于沒(méi)有4acC的基因,高mCG基因的表達(dá)高于中mCG或低mCG基因的表達(dá),而對(duì)于有4acC的基因,低mCG基因的表達(dá)高于高mCG或中mCG基因的表達(dá)(圖5d)。因此,對(duì)于中度或低mCG的基因,4acC與基因表達(dá)增加強(qiáng)相關(guān)。在不同的4acC和mCG組合中,含有4acC的低mCG與最高的基因表達(dá)相關(guān),而不含4acC的中低mCG與最低的基因表達(dá)相關(guān)(圖5d)。這些數(shù)據(jù)表明,4acC對(duì)基因表達(dá)有積極的影響,其影響在低mCG基因中最為強(qiáng)烈。這些數(shù)據(jù)也為mCG水平和基因表達(dá)水平之間的松散聯(lián)系提供了解釋?zhuān)驗(yàn)?acC是基因表達(dá)水平的另一個(gè)重要貢獻(xiàn)者。
(6) 4acC與組蛋白修飾標(biāo)記的共定位和相互作用
4acC修飾、TSS周?chē)叨雀患约芭c基因表達(dá)呈正相關(guān)的特點(diǎn)促使我們研究了4acC與活性染色質(zhì)標(biāo)記的共定位。我們觀察到4acC與活性修飾標(biāo)記顯著共定位,包括H3K4 di/三甲基化(H3K4me2/3)、H3K36三甲基化(H3K36me3)、H3K9乙酰化(H3K9ac)和H3K14乙酰化(H3K14ac)(圖6a,b)。總的來(lái)說(shuō),32-57%的4acC峰與活性修飾標(biāo)記重疊,顯著高于隨機(jī)發(fā)生的重疊百分比(圖6b)。令人驚訝的是,15%的4acC峰顯示與抑制標(biāo)記H3K27三甲基化(H3K27me3)重疊,這也顯著高于偶然發(fā)生的重疊百分比(圖6b)。4acC峰與另一抑制標(biāo)志H3K9二甲基化(H3K9me2)的重疊顯著低于預(yù)期(圖6b)。總的來(lái)說(shuō),抑制性組蛋白修飾標(biāo)記的4acC峰重疊比例低于活性組蛋白修飾標(biāo)記的重疊比例。因此,4acC表現(xiàn)出高度共定位與活躍的組蛋白修飾標(biāo)記。
我們隨后分析了組蛋白修飾和4acC對(duì)基因表達(dá)水平的聯(lián)合影響。正如之前所觀察到的,H3K27me3基因的表達(dá)低于沒(méi)有H3K27me3基因的表達(dá),而不考慮4acC的修飾(兩者與4acC相比,H3K27me3與兩者都相比,如圖6c所示)。值得注意的是,在有或無(wú)H3K27me3的兩組基因中,每組的4acC均與表達(dá)增加相關(guān)(兩者與H3K27me3相比,4acC與兩者均相比,如圖6c所示),并且在無(wú)H3K27me3的基因中,效應(yīng)更大(圖6c)。
我們還研究了4acC對(duì)基因表達(dá)的影響,分別考慮具有或不具有活性組蛋白標(biāo)記的基因。無(wú)論4acC修飾與否,h3k4me2標(biāo)記基因的表達(dá)量均高于非h3k4me2修飾基因(圖6d)。在未修飾H3K4me2的基因組中,帶有4acC標(biāo)記的基因的表達(dá)量明顯高于未修飾的基因(圖6d)。然而,4acC在組蛋白修飾標(biāo)記活躍的一組基因中表現(xiàn)出明顯的影響。在h3k4me2標(biāo)記的基因組中,帶有4acC的基因與沒(méi)有4acC的基因表達(dá)相似(圖6d),但在H3K14ac標(biāo)記的基因組中,表達(dá)高于沒(méi)有4acC的基因,而在H3K4me3、H3K36me3、H3K9ac和H3K9me3標(biāo)記的其他四組基因中表達(dá)較低(補(bǔ)充圖未展示)。因此,在特定的組蛋白修飾狀態(tài)下,4acC與高表達(dá)相關(guān),且其對(duì)組蛋白標(biāo)記不活躍或抑制性基因的影響最為顯著。
(7) 4acC與DNase I超敏感位點(diǎn)(DHs)和轉(zhuǎn)錄因子(TF)結(jié)合位點(diǎn)共定位
此外,我們研究了4acC與DHs之間的重疊,發(fā)現(xiàn)近50%的4acC峰區(qū)與DHs重疊(圖7a),這表明相當(dāng)一部分4acC修飾區(qū)域可能含有調(diào)控DNA元件。因此,我們使用MEME-ChIP對(duì)4acC峰值區(qū)域的共識(shí)基序進(jìn)行無(wú)偏搜索。數(shù)十個(gè)基序顯著富集,如CDYCDYCDYCDY (D代表A、G、T;Y代表C和T;E-value=5.3×10?152)和YCTCTCTYTCTYYYT (E-value=3.9×10?74),它們是許多類(lèi)tf的已知或類(lèi)似基元(圖7b)。事實(shí)上,對(duì)這些tf(包括ERF3、ERF11、ERF115、BPC1、ANAC71、DREB2A、MYB63和RAP2-11)的DAP-seq數(shù)據(jù)的分析顯示,它們與4acc修飾區(qū)域顯著重疊(圖7a)。典型場(chǎng)景如圖7c所示。因此,4acC可能促進(jìn)tffs的結(jié)合,調(diào)節(jié)基因表達(dá)。
結(jié)論:
綜上所述,我們發(fā)現(xiàn)4acC是一種新的和豐富的植物基因組DNA修飾。在擬南芥中,4acC主要位于常染色質(zhì)區(qū)蛋白質(zhì)編碼基因的TSSs周?chē)c基因表達(dá)水平呈正相關(guān)。我們觀察到該標(biāo)記與其他表觀遺傳標(biāo)記在基因表達(dá)調(diào)控中的潛在相互作用。然而,還有幾個(gè)問(wèn)題需要研究,特別是乙酰轉(zhuǎn)移酶介導(dǎo)4acC修飾,4acC在基因表達(dá)調(diào)控中的作用,以及與其他表觀遺傳標(biāo)記的串柄。我們的發(fā)現(xiàn)擴(kuò)展了調(diào)節(jié)基因表達(dá)的DNA修飾的目錄。
參考文獻(xiàn):
Wang, S., Xie, H., Mao, F., Wang, H., Wang, S., Chen, Z., Zhang, Y., Xu, Z., Xing, J., Cui, Z., Gao, X., Jin, H., Hua, J., Xiong, B., & Wu, Y. (2022). N4-acetyldeoxycytosine DNA modification marks euchromatin regions in Arabidopsis thaliana. Genome biology, 23(1), 5. https://doi.org/10.1186/s13059-021-02578-7.