2010-02-17 116 views
1

我試圖在單個詞在PDF文件中隔離開來,但閱讀使用PDF閱讀器的寶石文本到來時斷裂的文件,這樣當是否有一個ruby庫來檢查一個字符串是否是一個有效的單詞?

"A lit" 
"tle " 
"bit of tex" 
"t" 

所以我打算把這些結合在一起使用一些啓發式。對於這一點,我需要哪些檢查,如果給定的字符串是一個有效的英文單詞庫,就像

"tree".is_english? # => true 
"askdjfah".is_english? # => false 

這是否存在?理想情況下,它也適用於德語文本。

如果不是,有沒有免費的字典在線?如果必須的話,我想我可以編寫我自己的樹結構來進行查找。

+0

要做你想做的事,圖書館將不得不*字典。鑑於沒有人知道英語中有多少單詞(並且它一直在增加),因此很難提供完整的報道,甚至不考慮*其他語言*。你當然可以下載一本字典並自行推出,但我認爲你會發現它的覆蓋率不足。 – pavium 2010-02-17 22:53:38

回答

3

你可以用raspell或者甚至手動調用aspell來查看你喜歡的字典。

0

我不知道任何圖書館都可以做你想做的事,但是有詞的詞典。在谷歌上找到它們不應該很難。例如this

2

如果您的系統上安裝了unix工具look,您可以輕鬆檢查單詞是否是一個單詞。例如:

這裏有look的更多信息:http://docstore.mik.ua/orelly/unix/upt/ch27_18.htm

由於外觀採用了詞典在/ usr /詞典/話,我認爲這是可以安裝一個德語單詞詞典。在Debian中尋找wgerman軟件包。我不知道如何在其他系統上安裝它。

+0

它似乎尋找字典中的前綴,無論如何查找確切的字符串? – 2014-01-11 02:16:44

相關問題