關于測序常用名詞的解釋整理
高通量測序技術(High-throughputsequencing,HTS)是對傳統Sanger測序(稱為一代測序技術)革命性的改變,一次對幾十萬到幾百萬條核酸分子進行序列測定,因此在有些文獻中稱其為下一代測序技術(nextgenerationsequencing,NGS)足見其劃時代的改變,同時高通量測序使得對一個物種的轉錄組和基因組進行細致全貌的分析成為可能,所以又被稱為深度測序(Deepsequencing)。什么是Sanger法測序(一代測序)
Sanger法測序利用一種DNA聚合酶來延伸結合在待定序列模板上的引物。直到摻入一種鏈終止核苷酸為止。每一次序列測定由一套四個單獨的反應構成,每個反應含有所有四種脫氧核苷酸三磷酸(dNTP),并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基團,使延長的寡聚核苷酸選擇性地在G、A、T或C處終止。終止點由反應中相應的雙脫氧而定。每一種dNTPs和ddNTPs的相對濃度可以調整,使反應得到一組長幾百至幾千堿基的鏈終止產物。它們具有共同的起始點,但終止在不同的的核苷酸上,可通過高分辨率變性凝膠電泳分離大小不同的片段,凝膠處理后可用X-光膠片放射自顯影或非同位素標記進行檢測。
什么是基因組重測序(GenomeRe-sequencing)
全基因組重測序是對基因組序列已知的個體進行基因組測序,并在個體或群體水平上進行差異性分析的方法。隨著基因組測序成本的不斷降低,人類疾病的致病突變研究由外顯子區域擴大到全基因組范圍。通過構建不同長度的插入片段文庫和短序列、雙末端測序相結合的策略進行高通量測序,實現在全基因組水平上檢測疾病關聯的常見、低頻、甚至是罕見的突變位點,以及結構變異等,具有重大的科研和產業價值。
什么是denovo測序
denovo測序也稱為從頭測序:其不需要任何現有的序列資料就可以對某個物種進行測序,利用生物信息學分析手段對序列進行拼接,組裝,從而獲得該物種的基因組圖譜。獲得一個物種的全基因組序列是加快對此物種了解的重要捷徑。隨著新一代測序技術的飛速發展,基因組測序所需的成本和時間較傳統技術都大大降低,大規模基因組測序漸入佳境,基因組學研究也迎來新的發展契機和革命性突破。利用新一代高通量、高效率測序技術以及強大的生物信息分析能力,可以高效、低成本地測定并分析所有生物的基因組序列。
測序名詞關系圖
什么是fragments
fragments就是打成的片段,而測序測的就是這些fragments,測出來的結果就是reads,又可以分為單端側和雙端側,單端測序的話,只是從fragments的一端測序,測多長read就多長,雙端測序就是從一個fragments的兩端測,就會得出兩個reads
什么是Reads
高通量測序平臺產生的序列就稱為reads。
(測序讀到的堿基序列片段,測序的最小單位;)
什么是Contig
拼接軟件基于reads之間的overlap區,拼接獲得的序列稱為Contig(重疊群)。(由reads通過對overlap區域拼接組裝成的沒有gap的序列段;)
什么是ContigN50
Reads拼接后會獲得一些不同長度的Contigs。將所有的Contig長度相加,能獲得一個Contig總長度。然后將所有的Contigs按照從長到短進行排序,如獲得Contig1,Contig2,Contig3...???Contig25。將Contig按照這個順序依次相加,當相加的長度達到Contig總長度的一半時,最后一個加上的Contig長度即為ContigN50。舉例:Contig1+Contig2+Contig3+Contig4=Contig
總長度*1/2時,Contig4的長度即為ContigN50。ContigN50可以作為基因組拼接的結果好壞的一個判斷標準。
什么是Scaffold
基因組denovo測序(沒有參考基因組的測序,需要研究人員從頭拼接得到的序列),通過reads拼接獲得Contigs后,往往還需要構建454Paired-end庫或IlluminaMate-pair庫,以獲得一定大小片段(如3Kb、6Kb、10Kb、20Kb)兩端的序列。基于這些序列,可以確定一些Contig之間的順序關系,這些先后順序已知的Contigs組成Scaffold。
(通過pairends信息確定出的contig排列,中間有gap)
什么是ScaffoldN50
ScaffoldN50與ContigN50的定義類似。Contigs拼接組裝獲得一些不同長度的Scaffolds。將所有的`Scaffold長度相加,能獲得一個Scaffold總長度。然后將所有的Scaffolds按照從長到短進行排序,如獲得Scaffold1,Scaffold2,Scaffold3...???Scaffold25。將Scaffold按照這個順序依次相加,當相加的長度達到Scaffold總長度的一半時,最后一個加上的Scaffold長度即為ScaffoldN50。舉例:Scaffold1+Scaffold2+Scaffold3+Scaffold4+Scaffold5=Scaffold總長度*1/2時,Scaffold5的長度即為ScaffoldN50。ScaffoldN50可以作為基因組拼接的結果好壞的一個判斷標準。
什么是測序深度和覆蓋度
測序深度:是指測序得到的總堿基數與待測基因組大小的比值。假設一個基因大小為2M,測序深度為10X,那么獲得的總數據量為20M。
覆蓋度:是指測序獲得的序列占整個基因組的比例。
Gap:由于基因組中的高GC、重復序列等復雜結構的存在,測序最終拼接組裝獲得的序列往往無法覆蓋有所的區域,這部分沒有獲得的區域就稱為。例如一個細菌基因組測序,覆蓋度是98%,那么還有2%的序列區域是沒有通過測序獲得的。
什么是RPKM、FPKM
RPKM,ReadsPerKilobaseofexonmodelperMillionmappedreads,isdefinedinthisway[Mortazavietal.,2008]:
每1百萬個map上的reads中map到外顯子的每1K個堿基上的reads個數。假如有1百萬個reads映射到了人的基因組上,那么具體到每個外顯子呢,有多少映射上了呢,而外顯子的長度不一,那么每1K個堿基上又有多少reads映射上了呢,這大概就是這個RPKM的直觀解釋。
如果對應特定基因的話,那么就是每1000000mapped到該基因上的reads中每kb有多少是mapped到該基因上的exon的read
【測序常用名詞的解釋整理】相關文章:
名詞分析與解釋08-29
自學考試古代文學名詞解釋整理05-26
努力的名詞解釋08-28
招引的名詞解釋01-17
建筑名詞解釋08-29
描寫整理的成語及解釋02-19
跟石頭有關的名詞及解釋08-29
股市上的名詞解釋08-29
關于工程材料名詞的解釋08-29