我不確定如果R是正確的地方嘗試這個或不是,但這是我的情況。我有一個充滿字符串的角色矢量。R拼寫檢查器/標記器
id Words
1 'The'
2 'victory'
3 'wasgreat'
... ...
原始數據有一些編碼的問題,某些字符串是幾個單詞concatenizations:
(ie 'My name is' -> 'Mynameis').
我需要獨自離開正確的話,並獲得拼錯concatenizations分離到他們的正確子。
我很好奇,如果在R中有任何設置來處理這類問題。我認爲python中有幾個程序可以處理這個問題,但是我的python技能大大減弱了(接近於不存在的)。但是,我願意考慮將它作爲替代方案。
有什麼建議嗎?
http://stackoverflow.com/questions/6897214/breaking-a-string-into-individual-wordspython – fraxel 2012-03-20 15:52:16