2010-11-30 81 views
10

什麼是生物信息學參與者應該知道的一些數據結構?我想任何人都應該知道列表,哈希,平衡樹等,但我期望有特定於域的數據結構。有沒有專門討論這個問題的書?生物信息學的數據結構

回答

6

生物信息學中使用的最基本的數據結構是字符串。還有一系列代表字符串的不同數據結構。而字符串匹配等算法則基於高效的表示/數據結構。

這一綜合性工作是丹Gusfield的Algorithms on Strings, Trees and Sequences

+0

同意。古斯菲爾德的書很全面。 – awesomo 2010-11-30 07:59:06

4

一個生物信息學很多入門書籍將介紹一些你會使用的基本結構。我不確定標準課本是什麼,但我相信你可以找到。這可能是看一些具體的語言書籍有用:我選擇了這兩個作爲例子,因爲它們是由O'Reilly出版,

其中,以我的經驗,出版高質量的書籍。

我只是碰巧在我的硬盤上安裝了Python書籍,其中大部分內容都是關於使用Python處理生物信息學字符串的。它似乎不像生物信息學使用任何奇特的特殊數據結構,只是現有的。

2

生物信息學中的許多項目涉及結合來自不同的半結構化來源的信息。 RDF和本體在很多方面都是必不可少的。例如,參見bio2RDF項目。 http://bio2rdf.org/。對標識符的理解很有價值。

許多生物信息學是探索性的,而且經常使用快速輕量級的工具。請參閱工作流程工具,例如Taverna,其中主要資源通常是一組Web服務 - 因此HTTP/REST很常見。

3

例如空間散列數據結構(kd-tree)通常用於任意特徵向量的最近鄰查詢以及3d蛋白質結構分析。

您$$的最佳書籍是Understanding Bioinformatics by Zvelebil,因爲它涵蓋了從序列分析到結構比較的所有內容。

1

無論您的數學或計算專業知識是什麼,您都可能在計算生物學中找到應用。如果沒有,請將這個另一個stackoverflow的問題,你會得到幫助:o)

正如在其他答案中提到的,在一維數據的字符串比較和模式發現有些永恆,因爲序列是如此容易得到。隨着對醫學信息學的重新興趣,您還可以進行二維/三維圖像分析,例如運行鍼對基因組數據。通過分子生物化學,您還可以在3D表面和分子模擬上進行模式搜索。爲了研究藥物效應,您將使用基因網絡並比較各種組織。大數據和信息集成的典型挑戰適用。然後,您需要對偶然發現的任何特徵的模式或臨牀關聯可能性的統計描述。