2014-05-19 48 views
0

我有一個文本文件,數以千計的亂碼行,隱藏在裏面的某個地方是一串英文單詞。在文本文件中搜索字符串?

什麼是最有效的方式來搜索文本而不必逐行閱讀?

是否有我可以通過文件讀取的腳本?

如果有人對此感興趣,我可以發佈該文件嗎?

編輯:如果有人願意告訴我如何檢查在Java中使用BufferedReader的單詞,這將非常酷!

回答

1

如果您只知道文件中某處有一個有效的英文單詞,您必須閱讀文件並檢查每個單詞與一組有效單詞(字典)。在第一次擊中時,您將繼續讀入文件,直到出現第一個無效單詞。

這裏假設在亂碼中沒有意外的有效單詞。在這種情況下,你必須找到所有有效的單詞,然後可能有一個人(你)決定哪一個是正確的。

編輯:你可以做的另一件事是定義一個最小條紋長度n,如果你知道你正在尋找的字符串包含n個有效詞上的最小值。這至少可以免除你處理亂碼中單個意外有效單詞的所有錯誤的單字條形碼。

+0

是否需要比較字典?我正在考慮製作一系列「字符」,如果其中三個連續出現,請停止閱讀並檢查是否是句子。當然,我可以在Java中做的事情正確嗎? – 23k

+0

這取決於什麼樣的亂碼可以組成。在最常見的情況下,如果亂碼可能是任何東西(隨機字母,符號,空格),即使意外地有效的英文單詞,你也幾乎被迫有一組有效的單詞(字典)來比較每個單詞與檢查是否有效。當然,這可以用Java來完成。 – timgeb

+0

@ 23k現在你有什麼進一步的了嗎? – timgeb