我希望對幾乎完全由單個字母組成的大型文本文件執行一系列編輯,這些編輯文件由空格分隔。該文件大約300行,大約400,000列,大約250 MB。在大文本文件上執行編輯序列
我的目標是使用一系列步驟轉換此表格,以便最終用另一種語言(R可能)處理。我沒有太多處理大數據文件的經驗,但是PERL被認爲是最好的解決方法。請讓我知道如果有更好的方法:)。
所以,我希望寫一個Perl腳本,執行以下操作:
- 打開文件,編輯或寫入到一個新的文件中:
- 刪除列2-6
- 合併從第2列開始(如此,合併列2-3,4-5等)
根據按照每行的運行順序條件算法替換每個字符對:
[example PSEUDOCODE: if character 1 of cell = character 2 of cell=a, cell=1 else if character 1 of cell = character 2 of cell=b, cell=2 etc.] such that except for the first column, the table is a numerical matrix
刪除所有n列,或保留每n列,並刪除所有其他
我剛開始學習PERL,所以我在想,如果這些操作在Perl是可能的,無論是PERL會是做這些操作的最佳方式,並且如果在讀取/寫入文件的上下文中對這些操作的語法有任何建議。
注:IA了$ I + = 1作爲循環增量。它應該是$ i + = 2,所以我編輯了答案。 – 2013-03-25 05:20:19