數百萬年前至今的生物進化樹
何為宇宙?
古人稱:四方上下曰宇,古往今來曰宙。宇宙有上千億個星系存在,銀河系就是其中一個存在。每個星系中又都包含數十億顆恒星,而每一顆恒星都會在自身引力的作用下,吸引一群行星繞在自己身旁形成子單系,太陽系就是恒星,我們居住的地球就是圍繞太陽運轉的那顆行星。地球形成至今已有46億年,在地質、環境等條件不斷演變的情況下,生物體通過基因突變(自然選擇)慢慢適應這個星球,再經過時間的延續,無數碳基生物體你來我往,構建了上圖的生物種類進化樹。這里的基因突變就是DNA鏈中的特殊某段定義的,地球的生命史就被篆刻在每一種生物的DNA中。今天的故事就要從DNA說起。
那么,什么是DNA呢?
DNA:脫氧核糖核酸(英語:DeoxyriboNucleic Acid,縮寫為DNA)由含氮的堿基+脫氧核糖+磷酸組成。因為脫氧核糖核糖和磷酸都一樣,但堿基可以分為四種(腺嘌呤A,鳥嘌呤G,胸腺嘧啶T,胞嘧啶C),所以脫氧核糖核苷酸就可以分為四種(按照堿基的不同區分),同時在書寫過程中可以用堿基的簡寫(AGTC)代替。
人類DNA序列片段
簡單來說,DNA就是由A、T、G、C四種堿基無規則排序組成的一長串序列編碼,是大多數生物的遺傳信息的載體。DNA編碼上的信息可以組成遺傳指令,用來引導生物發育與生命機能運作。
生物體中的DNA堿基構成一條長序列后,幾乎從不作為單鏈存在,而是應用堿基互補原則,既通過A對T或者T對A、G對C或者C對G的方式形成堿基對,構建出另一條DNA堿基序列,作為一對彼此緊密相關的雙鏈,彼此交織在一起形成雙螺旋結構。
DNA雙螺旋結構
影視劇中經常出現被我們大家熟知的親子鑒定,就是利用到了DNA。生物學、遺傳學上使用DNA做親子鑒定時,否定親子關系的準確率幾近100%,肯定親子關系的準確率可達到99.99%。
在我們開發的應用程序中,通過對某禽流感病毒DNA堿基序列片段的比對,找到同源性比較高的DNA序列片段,這些序列代表的是與原序列相近的病毒,或者說與原序列代表的病毒屬于“近親”。
DNA比對結果
再對列表內的序列進行同源性比較,就能看到所選擇的序列兩兩之間的同源性為多少,用以判斷兩種病毒的“親緣”關系,如下圖:
DNA比對矩陣
由這些DNA序列構建而成的進化樹更能說明序列所代表的病毒的“親緣”關系,如下圖。圖中,進化樹中的橙色字體代表查詢序列的序列號,藍色字體代表比對序列的序列號。其中,在一個外群的分支“親緣”關系更為緊密,而同一外群中,一個節點下的兩個病毒的DNA序列支長越短,“親緣”關系越近,反之,“親緣”關系越遠。而對于支長,我們可以通過標尺來觀測其長短。
進化樹
而DNA又是如何成為蛋白質的呢?
DNA不是直接就變成了蛋白質,而是通過一系列過程,最終轉化為蛋白質。
首先是DNA的轉錄:DNA在細胞核內,根據堿基互補配對原則,和基因的選擇性表達等,轉錄出mRNA(信使RNA),信使RNA上攜帶的就是特定的DNA序列,叫做密碼子,密碼子對應不同的氨基酸。
其次是mRNA的翻譯:mRNA通過核孔來到細胞質中的核糖體上,根據密碼子的不同,tRNA(轉運RNA)上有反密碼子和攜帶的特定氨基酸。根據堿基互補配對的方式,tRNA和mRNA結合,那么就會有不同的氨基酸,通過脫水縮合的方式形成肽鍵,多個氨基酸通過肽鏈結合形成肽鏈。
最后肽鏈:多個肽鏈通過高爾基體,內質網等加工,在空間上通過折疊,反轉,螺旋等方式形成空間結構,從而形成具有生物活性的蛋白質。
DNA—RNA—蛋白質
總結下來就是:DNA序列是遺傳信息的貯存者,它通過自主復制得到永存,并通過轉錄生成mRNA,再翻譯生成蛋白質的過程。該過程完全自主完成,且該過程控制所有生命現象。通俗點講就是我干自己的活,誰也管不了我,但我能弄你。偉不偉大先不說,牛X不牛X就完了!
不由感嘆:敬畏宇宙,敬畏自然!
工作中,我們通常操作的只是類似ATGC這樣的DNA堿基的序列編碼,通過對DNA堿基序列的轉錄、翻譯,最終成為的氨基酸序列就可以了。在我們應用程序里更是直接利用密碼子表將DNA序列轉換為氨基酸序列:
DNA序列翻譯為氨基酸序列
上圖就是在一長串DNA原始序列找到開放閱讀框,將該閱讀框內的DNA序列翻譯為氨基酸序列的操作。通過程序計算,該原始序列內共找到13條開放閱讀框序列。也就是說,我們可以將該原始序列翻譯成13條氨基酸序列。
提到開放閱讀框,就不得不提密碼子,它就像摩斯電碼一樣,不同的點橫組合,可以翻譯為不同的代碼。
摩斯電碼表
所謂密碼子,就是三個連續DNA堿基為一組,這一組堿基序列就可以翻譯為一個氨基酸編碼,而所有的三個連續DNA堿基的排列組合構成了密碼子表。有了密碼子表(下圖),我們就能更便捷的將DNA翻譯為氨基酸。但密碼子表中有兩個特殊存在:起始密碼子ATG和終止密碼子TAA/TAG/TGA,它們是定義一段DNA序列是否能翻譯為氨基酸序列的標準。
DNA-氨基酸密碼子表
氨基酸中文對照表
在正向DNA序列中,從第一個起始密碼子開始到最后任意一個終止密碼子結束,且中間堿基數量是3的倍數的DNA序列,才是正常的可翻譯氨基酸的DNA序列,也被稱為開放閱讀框;否則稱為殘缺序列。殘缺序列是無法被翻譯為氨基酸序列的。需要提到的一點就是,當我們翻譯時,默認將終止密碼子翻譯為星號(*)。
到這里,我們就已經成功將DNA翻譯成了氨基酸。而氨基酸最終會構成蛋白質。至于蛋白質的功效,就不必多講了。生活中各種高蛋白之類的產品宣傳估計已經將蛋白的功效普及的差不多了。
那么問題來了,給你一串人類DNA序列片段:ATGGCACATGCAGCGCAATAG,你能將其翻譯成氨基酸序列嘛?
中科北緯軟件研發團隊,長期從事林草病蟲害監測預報防治、野生動物保護和疫源疫病監測預警等方面業務梳理和軟件開發工作,以網絡和信息化助力您的基因探索之路。