> 質量控制
樣本平行性質控
左右分別代表歸一化前、后的各樣本蛋白定量強度分布??v軸為Log10蛋白定量強度,樣本對應箱形圖的中位數越一致,表明各樣品實驗操作一致性越高。歸一化后(右圖)的中位數應該處于一個水平線。

CV值區間統計
對#組樣本,經過#次技術重復鑒定到的 precursors的總鑒定數、CV(變異系數)<20%和 CV<10%的鑒定數,分別如下圖所示 。CV值為衡量指標中各觀測值變異程度的一個統計量,同組內CV越小,組內樣本的差異越小。QC樣本為混樣,可以用于衡量儀器和實驗操作引入的偏差。

> 數據可視化
QC樣本的相關性分析
所有數據可視化分析均由Perseus軟件作圖,首先對normalized intensity進行log2轉換——樣本分組。相關性分析主要針對有做生物學重復的實驗數據,用來評估平行樣本間個體差異的大小。采用pearson相關系數來衡量其相關性,R2越接近于1,圖中的點越靠近表示重復性越好。橫坐標和縱坐標分別為該組實驗樣品蛋白相對定量值的Log2對數值,任意兩組重復實驗的R2如圖上標注所示。

PCA分析
PCA分析通過對數據進行降維分析,從而檢測實驗組間的差異性及組內的重復性。PCA二維圖中,空間分布差異越小,表示兩個樣本的數據越接近。圖中每個點代表一個實驗樣本,并以不同顏色區分不同實驗分組。差異顯著的實驗,同一組內的不同樣本應該聚集在一個相對集中的范圍內,并可以與其他組的數據聚集區域區分開。

火山圖
通過火山圖(Volcano Plot)可以快速地查看蛋白在兩組樣品中表達水平的差異,以及差異的統計學顯著性。

差異蛋白層次聚類分析
聚類分析是模式識別和數據挖掘中普遍使用的一種方法,是基于數據的知識發現的有效方法,表達模式相似的蛋白通常具有相似的功能。對定量到的蛋白進行聚類(縱向),并根據蛋白表達量對樣本進行聚類(橫向),顏色對應蛋白質表達量。
基于樣本中篩選出的差異蛋白(Multi Sample Test ANOVA p-value≤0.05)進行層次聚類,對Normalized Intensity值在橫向和縱向上分別計算z-socre。

差異蛋白cluster聚類
基于層次聚類的結果,對各聚類中的蛋白在不同樣本中的表達量進行cluster聚類分析,直觀的反應出處理條件與蛋白表達水平的關系。橫坐標為處理條件,縱坐標為蛋白表達強度,顏色代表該蛋白與整體表達趨勢的偏離程度,暖色(紅)表示接近整體表達趨勢,冷色(綠)表示偏離整體表達趨勢。

> 功能分析
差異蛋白GO分類分析
OmicsBox軟件含有Blast2GO功能注釋模塊,可以對差異蛋白進行功能注釋分析,該模塊是一個綜合性的生物信息學工具,用于對基因或蛋白質序列進行進行注釋,獲取與這些蛋白質所有相關的功能信息,包括Gene Ontology(GO)和通路等注釋信息。由于背景注釋庫的局限性,因此不是所有的蛋白都能獲得相應的注釋信息。目前注釋信息比較全的物種為模式物種,即:人、大鼠、小鼠、擬南芥、水稻、斑馬魚、線蟲、大腸桿菌、酵母菌等。有些非模式物種的蛋白注釋信息不全,需要通過與模式物種或接近的注釋信息較多的近源物種的蛋白blast,為所研究的差異蛋白進行功能注釋。
GO總共有三個本體,分別描述基因的分子功能(MF)、所處的亞細胞位置(CC)、參與的生物過程(BP)。GO定義的術語有有向無環式(directed acyclic graphs, DAGs)的特點,隨著Level(代數)增加,下一級比上一級更為具體。例如,己糖合成途徑為第3級,那么,它的上一級為己糖代謝和單糖合成。

差異蛋白GO富集分析
GO 功能富集分析給出與蛋白質組背景相比,在差異表達蛋白中顯著富集的GO功能條目,從而給出差異表達蛋白與哪些生物學功能顯著相關。該分析首先把所有差異表達基因向Gene Ontology數據庫(http://www.geneontology.org/)的各個term映射,計算每個term的蛋白數目,然后找出與整個蛋白質組背景相比,在差異表達蛋白中顯著富集的條目。差異蛋白GO富集分析,由于考慮到了統計算法,結果比GO分類更為嚴格。
對篩選出的差異表達蛋白利用Blast2GO軟件進行GO富集分析,對富集到的前10個GO功能條目(按照-LOG10 p-value從大到小排序)。

差異蛋白KEGG信號通路分類分析
在生物體內,不同蛋白相互協調行使其生物學行為,基于Pathway的分析有助于更進一步了解其參與的通路。KEGG(Kyoto Encyclopedia of Genes and Genomes)是有關Pathway的主要公共數據庫。計算差異蛋白在不同Pathway 的分布情況,可以對差異蛋白進行歸類,尋找不同樣品的差異蛋白可能和哪些細胞通路的改變有關。

差異蛋白Pathway富集分析
根據篩選出的差異蛋白,計算差異蛋白同Pathway的超幾何分布關系,根據p-value判斷差異蛋白是否在相應Pathway中出現富集。通過差異蛋白的Pathway分析,可以找到差異蛋白顯著富集的Pathway條目,尋找不同樣品的差異蛋白可能和哪些細胞通路的改變有關,富集分析結果比分類結果更為嚴格。
對富集到的KEGG通路前20個(按照p-value由小到大的順序)作氣泡圖,圖中KEGG富集程度通過Rich factor、p-value和富集到此通路上的蛋白個數來衡量。其中Rich factor指該Pathway中富集到的差異蛋白個數與注釋蛋白個數的比值。Rich factor越大,表示富集的程度越大。p-value越接近于零,表示差異表達蛋白在該通路中的富集顯著性越可靠。
縱軸表示Pathway名稱,橫軸表示Rich factor(該Pathway中富集到的差異蛋白個數與注釋蛋白個數的比值)。富集因子越大,表示差異表達蛋白在該通路中的富集水平越顯著。圖中每一個圓點表示一個KEGG通路,圓點的大小代表富集到該通路的蛋白的數目,圓點的顏色代表p-value,p-value越小表示差異表達蛋白在該通路中的富集顯著性越可靠。

為了便于查看差異蛋白在通路圖中的分布情況,將差異蛋白標注到通路圖中,顯示顯著富集的通路圖。
相對于對照組來說,紅色框標記的為差異蛋白的節點,綠色框標記的為該物種特有的基因或酶??騼鹊臄底执砻傅木幪枺‥C number),整個通路由多種酶催化的復雜生化反應構成。此通路圖中與差異表達蛋白相關的酶節點均用紅色標出,根據研究對象間的差異,重點研究某些代謝通路相關蛋白的差異表達情況,通過通路解釋表型差異的根源。

蛋白質相互作用網絡分析
蛋白質相互作用網絡分析通過兩種方法實現:第一種,IPA軟件基于自身數據庫分析所得蛋白的相互作用關系,獲得相互作用網絡圖;第二種,基于STRING、IntAct、Ihop、BioGRID、MINT、DIP等蛋白互作網絡數據庫獲得蛋白的相互作用關系,Cytoscape軟件對差異蛋白質進行相互作用網絡構圖。IPA軟件只可以對哺乳動物進行分析,其余動植物或菌類需要第二種方法分析。
圖中的節點(node)為蛋白質,邊為互作關系?;プ骶W絡中邊(edge)的顏色表示此邊連接的兩個節點間的互相作用的關系形式,不相連的蛋白節點間沒有已知的互作關系。
