標題: 挖掘可語意解讀之知識並預測蛋白質之殘基與去氧核醣核酸之鍵結
Mining Interpretable Knowledge and Predicting Residues of DNA-Binding Proteins
作者: 張嘉芸
何信瑩
生物資訊及系統生物研究所
關鍵字: 決策樹系統;和去氧核醣核酸鍵結之蛋白質;知識獲取;預測;Decision tree (DT);DNA-binding proteins;Knowledge acquisition;Prediction
公開日期: 2005
摘要: 本論文探討哪一個殘基能夠和去氧核醣核酸形成鍵結的預測問題,並且擷取以可語意解讀鍵結和非鍵結規則來表現的知識。在使用機械學習的方法時,分類器的選擇將會影響預測的結果及知識取得。在生物資訊領域中常用的分類器在預測上有著各種不同的應用並且可產生不錯的結果,但是其中的許多方法缺少可語意解讀的特性。在這篇論文中,使用可語意解讀之分類器,也就是用規則式決策樹系統來研究和去氧核醣核酸鍵結之蛋白質問題,它有下列幾項優點:能直接處理符號式的特徵、可得特徵重要度的排名以及能挖掘可讀的知識。 在過去已有許多預測和去氧核醣核酸鍵結之蛋白質的研究,最近使用類神經網路系統得到79.1%的正確率61.1%的淨預測值,在此研究中所使用的決策樹系統,以同樣的和去氧核醣核酸鍵結之蛋白質資料,並使用相同的特徵,可發現不論在正確率或是淨預測值皆有改善。當使用本文所提新特徵的情況下,更可讓正確率達到79.72%,淨預測值達到72.90%。因為我們希望挖掘出的規則能更具代表性,所以我們使用了共982筆大量的去氧核醣核酸鍵結之蛋白質資料,來進行資料挖掘的工作。結果顯示出除了眾所周知的和溶劑接觸的相對面積外,殘基周圍的電荷分佈和殘基的類別都在預測中扮演重要的角色。同時,這些由決策樹系統挖掘出的規則顯示,其他的特徵也給予我們在處理和去氧核醣核酸鍵結之蛋白質的預測問題提供一定的幫助。
URI: http://140.113.39.130/cdrfb3/record/nctu/#GT009351512
http://hdl.handle.net/11536/79865
顯示於類別:畢業論文


文件中的檔案:

  1. 151201.pdf