盡管轉錄組學技術在過去幾十年中發展迅速,但由于芯片和 RNA-seq 之間固有的可變性差異,對混合數據的綜合分析仍然具有挑戰性。本文提出了 Rank-In (http://www.baddcao.net/rank-in/index.html)來糾正兩種技術之間的非生物效應,從而能夠自由混合數據以進行整合分析。
網站首頁如下,支持上傳用戶自己的芯片、轉錄組數據。該網頁最終會給出調整后的矩陣、差異基因列表以及聚類結果圖。
第一步:上傳表達文件
表達文件格式如下,需上傳第一行為樣本名、第一列為基因名的表達矩陣
轉錄組數據表達量可以使用FPKM、TPM或TMM;芯片數據使用基因表達強度;如果下載GEO數據,需要對探針注釋為基因,然后上傳注釋后的表達文件。
第二步:上傳分組文件
分組文件第一列文樣本名,第二列為分組。“1”表示來自正常組織的樣本,“2”表示癌癥亞型1的樣本,“3”表示癌癥亞型2的樣本,依此類推
第三步:上傳附加文件(可以選擇性上傳)
附加文件中可以包括平臺、批次等信息。 例如,在平臺列中,“1”表示數據來自 Affymetrix U133 plus2 平臺,“2”表示來自安捷倫微陣列芯片的數據,“3”表示來自 Illumina Hiseq 2000 的數據等。
第四步:填寫電子郵箱(選填,建議填寫)
如果填寫郵箱,結果會以郵件形式發送至該郵箱。
第五步:提交
數據文件全部上傳后,點擊“Submit”進行提交,頁面會自動跳轉至結果頁。也可以根據頁面給出的job ID查詢結果。
結果頁面如下:
總而言之,我們可以使用Rank-In對癌癥的芯片和 RNA-seq中的混合數據進行綜合轉錄組學分析。