服務(wù)目錄

技術(shù)服務(wù)

技術(shù)專(zhuān)題

聯(lián)系我們

廣州賽誠(chéng)生物科技有限公司
廣州市黃埔區(qū)學(xué)大道攬?jiān)侣窂V州企業(yè)孵化器B座402
電話(huà)：020-85625352
手機(jī)：18102256923、18102253682
Email：[email protected]
Fax：020-85625352
QQ：386244141

您當(dāng)前所在的位置：首頁(yè)>>服務(wù)目錄 >>分子機(jī)制實(shí)驗(yàn)平臺(tái) >>生物信息學(xué)分析-報(bào)告解讀

(RNA-seq)轉(zhuǎn)錄組測(cè)序及分析報(bào)告

項(xiàng)目名稱(chēng)：(RNA-seq)轉(zhuǎn)錄組測(cè)序及分析報(bào)告

所屬分類(lèi)：生物信息學(xué)分析-報(bào)告解讀

聯(lián)系電話(huà)：020-85625352

QQ：386244141

Email：[email protected]

技術(shù)服務(wù)描述

轉(zhuǎn)錄組測(cè)序及分析報(bào)告

生信部

2021年03月19日

項(xiàng)目信息

合同編號(hào)：xx-xx-202x-xx-xx

客戶(hù)姓名：xxx

客戶(hù)單位：xxxxxx

1. 分析流程

1.1. 建庫(kù)測(cè)序流程

??從RNA樣品提取到最終數(shù)據(jù)獲得，樣品檢測(cè)、建庫(kù)、測(cè)序等每一環(huán)節(jié)都會(huì)直接影響數(shù)據(jù)的數(shù)量和質(zhì)量，從而影響后續(xù)數(shù)據(jù)分析的結(jié)果。為從源頭保證測(cè)序數(shù)據(jù)準(zhǔn)確可靠，在數(shù)據(jù)的所有生產(chǎn)環(huán)節(jié)都嚴(yán)格把關(guān)，從根源上確保高質(zhì)量數(shù)據(jù)的產(chǎn)出。建庫(kù)測(cè)序的流程：

Total RNA 樣本檢測(cè)
RNA 富集
雙鏈cDNA合成
末端修復(fù)、加A和接頭
片段選擇和 PCR 擴(kuò)增
文庫(kù)質(zhì)檢
Illumina測(cè)序

1.2. 信息分析流程

??RNA-seq的核心是基因表達(dá)差異的顯著性分析，使用統(tǒng)計(jì)學(xué)方法，比較兩個(gè)條件或多個(gè)條件下的基因表達(dá)差異，從中找出與條件相關(guān)的特異性基因，然后進(jìn)一步分析這些特異性基因的生物學(xué)意義，分析過(guò)程包括質(zhì)控、比對(duì)、定量、差異顯著性分析、功能富集等環(huán)節(jié)。信息分析流程如下圖所示：

2. 信息分析

2.1. 測(cè)序數(shù)據(jù)質(zhì)量控制

對(duì)原始測(cè)序數(shù)據(jù)及去除接頭后的可用數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估。測(cè)序數(shù)據(jù)一般為雙端測(cè)序，因此，每個(gè)測(cè)序樣本會(huì)有兩個(gè)測(cè)序結(jié)果。

評(píng)估的具體內(nèi)容見(jiàn)：

RawData-fastqc 文件鏈接： /result/qc/qc_rawdata/*.html
CleanData-fastqc 文件鏈接： /result/qc/qc_cleandata/*.html
Fastqc 格式補(bǔ)充說(shuō)明： /result/qc/qc_Supplement.html

2.2. 參考基因組比對(duì)

??測(cè)序片段（fragments）是mRNA隨機(jī)打斷的，為了確定這些一段由哪些基因轉(zhuǎn)錄來(lái)，需要將質(zhì)控后的clean reads比對(duì)到參考基因組上。使用HISAT2軟件將Clean Reads與參考基因組進(jìn)行快速精確的比對(duì)，獲取Reads在參考基因組上的定位信息[4]。HISAT2軟件官方手冊(cè)。

??如果參考基因組組裝的較為完善，而且所測(cè)物種與參考基因組一致，且相關(guān)實(shí)驗(yàn)不存在污染，那么實(shí)驗(yàn)所產(chǎn)生的測(cè)序reads成功比對(duì)到基因組的比例會(huì)高于70% (Total Mapped Reads or Fragments)。本項(xiàng)目所用參考基因組為 hg38 ，下載鏈接：Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz，基因組結(jié)構(gòu)注釋文件：Homo_sapiens.GRCh38.90.gtf.gz。

結(jié)果文件：

各個(gè)樣本的比對(duì)情況統(tǒng)計(jì)文件：/result/map_stat/*.flagstat.txt

2.3. 定量分析

2.3.1. 基因表達(dá)定量

??我們對(duì)每個(gè)樣本分別進(jìn)行基因表達(dá)水平的定量分析，再合并得到所有樣本的表達(dá)矩陣，第一列為基因的ID，其余列為各樣本的原始read count值，seqname列之后為該基因注釋信息。

表格說(shuō)明：

表頭	說(shuō)明
`Geneid`	基因名
`Samples_name*`	樣本的表達(dá)矩陣原始read count值
`...`	同上
`seqname`	基因所在的染色體名稱(chēng)
`start`	基因所在染色體的起始位置
`end`	基因所在染色體的終止位置
`strand`	基因所在染色體的正負(fù)鏈信息
`ENSEMBL`	基因名稱(chēng)ENSEMBL
`SYMBOL`	基因名稱(chēng)SYMBOL
`biotype`	基因注釋中對(duì)應(yīng)的biotype
`description`	基因功能描述

結(jié)果文件：

原始表達(dá)矩陣及注釋結(jié)果：result/Quant/gene_counts.xls

2.3.2. 樣本間相關(guān)性

??生物學(xué)重復(fù)通常是任何生物學(xué)實(shí)驗(yàn)所必須的，目前主流期刊也基本要求生物學(xué)重復(fù)。生物學(xué)重復(fù)主要有兩個(gè)用途：一個(gè)是證明所涉及的生物學(xué)實(shí)驗(yàn)操作不是偶然，而是可重復(fù)的。另一個(gè)是為了確保后續(xù)的差異基因分析得到更可靠的結(jié)果。樣品間基因表達(dá)水平相關(guān)性是檢驗(yàn)實(shí)驗(yàn)可靠性和樣本選擇是否合理的重要指標(biāo)。相關(guān)系數(shù)越接近1，表明樣品之間表達(dá)模式的相似度越高。Encode計(jì)劃建議皮爾遜相關(guān)系數(shù)的平方(R2)大于0.92(理想的取樣和實(shí)驗(yàn)條件下)。具體的項(xiàng)目操作中，我們要求生物學(xué)重復(fù)樣品間R2至少要大于0.8，否則需要對(duì)樣品做出合適的解釋?zhuān)蛘咧匦逻M(jìn)行實(shí)驗(yàn)。根據(jù)各樣本所有基因的表達(dá)值計(jì)算組內(nèi)及組間樣本的相關(guān)性系數(shù)，繪制成熱圖，可直觀顯示組間樣本差異及組內(nèi)樣本重復(fù)情況。樣本間相關(guān)性系數(shù)越高，其表達(dá)模式越為接近，樣本相關(guān)性熱圖如下圖所示。

圖 1 樣本間相關(guān)性熱圖

圖中橫縱坐標(biāo)為各樣本相關(guān)系數(shù)的平方

結(jié)果文件：

樣本間相關(guān)性熱圖結(jié)果：Quant/cor_pheatmap*

2.3.3. 主成分分析

??主成分分析（PCA）也常用來(lái)評(píng)估組間差異及組內(nèi)樣本重復(fù)情況，PCA采用線(xiàn)性代數(shù)的計(jì)算方法，對(duì)數(shù)以萬(wàn)計(jì)的基因變量進(jìn)行降維及主成分提取。我們對(duì)所有樣本的基因表達(dá)值進(jìn)行PCA分析，如下圖所示。理想條件下，PCA圖中，組間樣本應(yīng)該分散，組內(nèi)樣本應(yīng)該聚在一起。

圖 2 主成分分析結(jié)果圖

圖中橫坐標(biāo)為第一主成分，縱坐標(biāo)為第二主成分

結(jié)果文件：

主成分分析結(jié)果：Quant/pca*

2.4. 差異分析

??基因表達(dá)定量完成后，需要對(duì)其表達(dá)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析，篩選樣本在不同狀態(tài)下表達(dá)水平顯著差異的基因。差異分析主要分為三個(gè)步驟。

首先對(duì)原始的readcount進(jìn)行標(biāo)準(zhǔn)化（normalization），主要是對(duì)測(cè)序深度的校正。
然后統(tǒng)計(jì)學(xué)模型進(jìn)行假設(shè)檢驗(yàn)概率（pvalue）的計(jì)算
最后進(jìn)行多重假設(shè)檢驗(yàn)校正，得到FDR值（錯(cuò)誤發(fā)現(xiàn)率，padj是其常見(jiàn)形式)[1-2]。

??針對(duì)不同的實(shí)驗(yàn)情況，我們選用合適的軟件進(jìn)行基因表達(dá)差異顯著性分析，具體如下表所示。

表1 表達(dá)差異分析所用軟件及差異基因篩選標(biāo)準(zhǔn)

類(lèi)型	軟件	標(biāo)準(zhǔn)化方法	pvalue計(jì)算模型	FDR計(jì)算方法	差異基因篩選標(biāo)準(zhǔn)
有生物學(xué)重復(fù)	DESeq2(Anders et al, 2014)	DESeq	負(fù)二項(xiàng)分布	BH	\|log2(FoldChange)\| > 0 & padj < 0.05
無(wú)生物學(xué)重復(fù)	edgeR(Robinson et al, 2010)	TMM	負(fù)二項(xiàng)分布	BH	\|log2(FoldChange)\| > 1 & padj < 0.05

??若按照以上標(biāo)準(zhǔn)篩選得到的差異基因過(guò)少（低于100），很有可能導(dǎo)致后面的功能富集分析沒(méi)有顯著性結(jié)果，所以，我們會(huì)根據(jù)項(xiàng)目的具體情況，適當(dāng)?shù)亟档秃Y選差異基因的閾值標(biāo)準(zhǔn)。若項(xiàng)目實(shí)驗(yàn)只關(guān)注某幾個(gè)基因的表達(dá)情況（如基因敲除），不在意富集結(jié)果，從下面的差異分析表格中篩選關(guān)注的那幾個(gè)基因即可。

??一般來(lái)說(shuō)，如果一個(gè)基因在兩組樣品中的表達(dá)量差異達(dá)到兩倍以上，我們認(rèn)為這樣的基因是具有表達(dá)差異的。為了判斷兩個(gè)樣品之間的表達(dá)量差異究竟是由于各種誤差導(dǎo)致的還是本質(zhì)差異，我們需要對(duì)所有基因在這兩個(gè)樣本中的表達(dá)量數(shù)據(jù)進(jìn)行假設(shè)檢驗(yàn)。而轉(zhuǎn)錄組分析是針對(duì)成千上萬(wàn)個(gè)基因進(jìn)行的，這樣會(huì)導(dǎo)致假陽(yáng)性的累積，基因數(shù)目越多，假設(shè)檢驗(yàn)的假陽(yáng)性累積程度會(huì)越高，所以引入padj對(duì)假設(shè)檢驗(yàn)的P-value進(jìn)行校正，從而控制假陽(yáng)性的比例[3]。

??差異基因的篩選標(biāo)準(zhǔn)是非常重要的，我們給出的標(biāo)準(zhǔn)|log2(FoldChange)| > 1 & padj< 0.05是常用的經(jīng)驗(yàn)值，在實(shí)際項(xiàng)目中可以根據(jù)情況靈活選擇。例如，差異倍數(shù)可以選擇1.5倍，也可以選擇3倍，padj常用的閾值包括0.01、0.05、0.1等。若按照以上標(biāo)準(zhǔn)篩選得到的差異基因過(guò)少，很有可能導(dǎo)致后?的功能富集分析沒(méi)有顯著性結(jié)果。若項(xiàng)目實(shí)驗(yàn)只關(guān)注某幾個(gè)基因的表達(dá)情況（如基因敲除），不在意富集結(jié)果，從下面的差異分析表格中篩選關(guān)注的那幾個(gè)基因即可。反之，如果得到的差異基因數(shù)目過(guò)多，不利于后續(xù)目標(biāo)基因的篩選，這個(gè)時(shí)候可使用更嚴(yán)格的閾值標(biāo)準(zhǔn)進(jìn)行篩選，則可以使用更嚴(yán)格的閾值標(biāo)準(zhǔn)進(jìn)行篩選。

2.4.1. 差異基因的篩選

??通過(guò)Deseq2進(jìn)行差異分析，我們通常采用 |log2FC|>1 & padj < 0.05 進(jìn)行差異基因的篩選，隨后對(duì)差異基因進(jìn)行注釋?zhuān)玫桨⑨屝畔⒌牟町惢蛄斜怼?/p>

結(jié)果文件：

差異基因列表及相關(guān)注釋信息（篩選結(jié)果）：result/Enrichment/Allgene_anno.xls
差異基因列表及相關(guān)注釋信息（總的結(jié)果）：result/Enrichment/Allgene_anno_ALL.xls

Differential/Allgene_anno*.xls表頭

亚洲老鸭窝一区二区三区,97成人碰碰在线人妻少妇,97人摸人人澡人人人超碰,中文字幕乱码人妻波多野结衣,中文字幕乱码人妻波多野结衣

轉(zhuǎn)錄組測(cè)序及分析報(bào)告

生信部

2021年03月19日

項(xiàng)目信息

1. 分析流程

1.1. 建庫(kù)測(cè)序流程

1.2. 信息分析流程

2. 信息分析

2.1. 測(cè)序數(shù)據(jù)質(zhì)量控制

2.2. 參考基因組比對(duì)

2.3. 定量分析

2.3.1. 基因表達(dá)定量

2.3.2. 樣本間相關(guān)性

2.3.3. 主成分分析

2.4. 差異分析

2.4.1. 差異基因的篩選