我有一個文本文件(大約1.5千兆字節),我想要搜索特定標題的出現。我的列表中有大約1000萬個標題。fgrep可以處理多少個搜索字符串?
顯然,列表中的每個標題都不會存在於文本文件中。沒關係。我只需要知道文本中存在哪些標題。
現在,如果只有幾百個標題,我會使用fgrep
並告訴它從文件(即fgrep -f patternlist.txt bigtextfile.txt
)中讀取搜索字符串。
但是fgrep
會扼殺那麼多的數據嗎?
將我的標題列表和文本文件轉換爲可與fgrep
一起使用的形式,這是一項有點工作,所以我想了解一下在我付出這些努力之前是否可以使用這種形式。
另一種選擇是將標題列表拆分爲多個文件併爲每個子列表運行fgrep
一次。這並不瘋狂,前提是fgrep
可以處理相當多的搜索字符串。如果它可以處理100萬,這是一個不容易的事情。如果它不能處理100,000個(需要超過100個單獨運行),那麼這是一個不太有吸引力的選擇。
那麼,任何人都有使用fgrep
搜索大量字符串的經驗嗎?如果沒有,有沒有其他的程序可用?我可以自己寫一兩天,但是如果我能避免這項工作。 。 。
你爲什麼不試試呢? – 2011-01-10 11:36:50
正如我所說,這是幾個小時的工作,使我的數據進入適當的格式來嘗試。我希望有人在我花時間之前嘗試過。 – 2011-01-10 16:26:02
Downvoter?習慣上提供解釋性評論。 – 2014-12-17 15:14:32