我有許多複合術語,比如hello World,早安,晚安,...我想在我的語料庫中找到它們,然後用它們的等價物替換它們作爲helloWorld,goodMorning,goodNight。所以這樣我就可以保留他們的概念。 我可以一個一個地做,但由於有很多複合術語,它非常繁瑣。我需要用R語言來做到這一點。如何找到複合詞,刪除它們之間的空格,並將它們替換爲我的語料庫?
回答
如果你所有的複合詞用空格分隔只,你可以使用gsub
:
> x = c("hello World", "good Morning", "good Night")
> y = gsub(pattern = " ", replacement = "", x = x)
> print(y)
[1] "helloWorld" "goodMorning" "goodNight"
您可以隨時添加更多的模式來pattern
說法。閱讀有關R here和here中正則表達式的更多信息。
編輯
@ user4241750:是的,但我只是想爲特定化合物做到這一點 條件(有很多),不是所有在語料庫中的條款,因爲有 在許多其他方面語料庫
如果您知道要更改的所有特定複合詞,可以在docs[[j]]
上指定它。說你想改變的唯一條款是「簡單部分」和「早上好」:
terms.to.change = c("simple parts","good morning")
for (j in seq(corpus)) {
positions.to.change = which(docs[[j]] %in% terms.to.change)
docs[[j]][positions.to.change] <- gsub(" ", "", docs[[j]][positions.to.change])
}
我有一個語料庫,它有20個文本文件,我怎樣才能用gsub在我的語料庫中應用這些更改? – user4241750
我已經嘗試過gsub,但問題是我不想手動執行此操作,因爲它需要很長時間。我在一個文本文件中使用了這些術語,每個複合術語用單獨的一行代替,我正在尋找一些有用的代碼來獲取此文本文件,並刪除它們之間的毯子,然後轉到我的語料庫並用新術語替換複合術語(沒有毯子之間) – user4241750
你能給一個簡單的例子(在R代碼中)你有什麼? –
- 1. 查找零個值,並用空格替換/刪除它們 - Perl的
- 2. 如何刪除它們之間rotateX
- 3. elasticsearch:如何刪除停用詞而不是替換它們?
- 4. 刪除輸入字段中的括號,它們之間的文本以及它們之前的空格?
- 5. 的sed +不同炭之間刪除空格與 「」 它們之間的分隔符
- 6. 查找我所有的視頻,並將它們刪除youtube api
- 7. 如何找到不同的Python安裝並刪除它們?
- 8. 刪除尾部空格並將它們添加爲前導空格
- 9. 如何刪除換行符和空格,並用Perl中的空白字符替換它們?
- 10. 使用MAKEFILE在編譯之前複製文件並在刪除它們之後刪除它們
- 11. 搜索關鍵字並用它們的縮寫替換它們
- 12. 如何刪除換行符並用記事本中的逗號替換它們+
- 13. 變量爲空時出現Div類。我如何刪除它們?
- 14. 找到字符串中的重複單詞和它們之間的符號
- 15. 如何在同一行上保留它們之間有空格的單詞?
- 16. 找到「string1」並刪除它和「string2」之間的刪除
- 17. 如果兩個單詞之間存在一個單詞,如何刪除它們之間的所有內容?
- 18. 刪除重複項並將它們的值合併成一行 - Excel報告
- 19. java陣列查找重複項並替換它們
- 20. 我們可以恢復數據庫,如果它被刪除
- 21. 如何將鏈接放在同一行上,並在它們之間有空格?
- 22. PDF格式的NSImages並將它們合併到Swift中
- 23. 如何替換字符或高效刪除它們
- 24. OpenLibrary.org返回空白圖片,如何檢測並替換它們?
- 25. 替換字符串中的單詞並重新加入它們
- 26. 刪除數組元素,並將它們添加回它們所在的位置
- 27. C,如何找到一個字符串中的2個重複單詞,並計算它們之間的距離
- 28. 使用MS Access查找重複項並刪除它們
- 29. jQuery的數格,分爲兩個並在它們之間添加
- 30. 如何在用戶刪除它們之前複製文件 - Android
你搜索了什麼?你發現了什麼?你到目前爲止嘗試了什麼?請分享一些嘗試。 –
也許你可以看看'?gsub' – Vongo
我已經嘗試過gsub,但問題是我不想手動執行此操作,因爲它需要很長時間。我在一個文本文件中使用了這些術語,每個複合術語用單獨的一行代替,我正在尋找一些有用的代碼來獲取此文本文件,並刪除它們之間的毯子,然後轉到我的語料庫並用新術語替換複合術語(沒有毯子術語 – user4241750