我正在考慮解析一個平行於的fasta文件的方法。對於那些不知道的fasta格式的示例:並行解析文件
>SEQUENCE_1
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL
>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
所以行開頭的「>」是含有使標識符以下序列的識別符標題行。
我想你將整個文件加載到內存中,但在此之後,我無法找到處理這些數據的方法。
問題是:線程無法從任意位置開始,因爲它們可能以這種方式切割序列。
有人有任何經驗在並行解析文件時,行之間相互依賴?任何想法是讚賞。
你也可以問http://biostar.stackexchange.com/ – Pierre