2012-03-20 76 views
3

我不確定如果R是正確的地方嘗試這個或不是,但這是我的情況。我有一個充滿字符串的角色矢量。R拼寫檢查器/標記器

id Words 
1 'The' 
2 'victory' 
3 'wasgreat' 
... ... 

原始數據有一些編碼的問題,某些字符串是幾個單詞concatenizations:

(ie 'My name is' -> 'Mynameis'). 

我需要獨自離開正確的話,並獲得拼錯concatenizations分離到他們的正確子。

我很好奇,如果在R中有任何設置來處理這類問題。我認爲python中有幾個程序可以處理這個問題,但是我的python技能大大減弱了(接近於不存在的)。但是,我願意考慮將它作爲替代方案。

有什麼建議嗎?

+2

http://stackoverflow.com/questions/6897214/breaking-a-string-into-individual-wordspython – fraxel 2012-03-20 15:52:16

回答

6

最近一期R Journalarticle by Hornik and Murdoch on R for spell-checking這是遞歸救援,它們適用於R源自己。

+0

我一直在努力弄清楚如何讓aspell在Windows 7 x64上使用自定義字典。嘗試** saveRDS()**函數和** aspell_write_personal_dictionary_file()**函數。前者我收到此錯誤**「單詞」UTF-8「無效,字符' - '可能不會出現在單詞的中間。」**和警告。隨着後來** aspell **找不到我的自定義詞典。有關如何攻擊這個的任何想法? – Diego 2014-05-24 23:37:52