我試圖在單個詞在PDF文件中隔離開來,但閱讀使用PDF閱讀器的寶石文本到來時斷裂的文件,這樣當是否有一個ruby庫來檢查一個字符串是否是一個有效的單詞?
"A lit"
"tle "
"bit of tex"
"t"
所以我打算把這些結合在一起使用一些啓發式。對於這一點,我需要哪些檢查,如果給定的字符串是一個有效的英文單詞庫,就像
"tree".is_english? # => true
"askdjfah".is_english? # => false
這是否存在?理想情況下,它也適用於德語文本。
如果不是,有沒有免費的字典在線?如果必須的話,我想我可以編寫我自己的樹結構來進行查找。
要做你想做的事,圖書館將不得不*字典。鑑於沒有人知道英語中有多少單詞(並且它一直在增加),因此很難提供完整的報道,甚至不考慮*其他語言*。你當然可以下載一本字典並自行推出,但我認爲你會發現它的覆蓋率不足。 – pavium 2010-02-17 22:53:38