我試圖用R腳本過濾出像'ffff'和'fdaljfdlksajf'這樣糟糕的開放答案(字符串變量)。我希望R中有一些可用的字典包,我可以這樣做,但我似乎無法找到它。Datacheck:將字符串值(輸入)與現有語言(荷蘭語字典)進行比較R
另一種選擇是上傳荷蘭語(這是我需要的字典)單詞列表並將其與輸入進行比較,但這不是很容易找到。
你們有沒有曾經嘗試過這種做法,並找到了解決辦法?
我試圖用R腳本過濾出像'ffff'和'fdaljfdlksajf'這樣糟糕的開放答案(字符串變量)。我希望R中有一些可用的字典包,我可以這樣做,但我似乎無法找到它。Datacheck:將字符串值(輸入)與現有語言(荷蘭語字典)進行比較R
另一種選擇是上傳荷蘭語(這是我需要的字典)單詞列表並將其與輸入進行比較,但這不是很容易找到。
你們有沒有曾經嘗試過這種做法,並找到了解決辦法?
試用包SnowballC。這是一個詞幹術語算法,但支持包括荷蘭語在內的語言,幷包括每種語言的詞彙表。
library(SnowballC)
load(system.file("words", "dutch.RData", package = "SnowballC"))
voc[[1]] # Dutch words
voc[[2]] # Stemmed dutch words
現在,你有詞彙,你可以比較每個打開的響應比賽荷蘭詞彙的多少百分比,設定一個閾值來濾除「壞」的答案。
Ola Hoggue。非常感謝你的建議。我沒有時間立即查看它,但是我將在接下來的幾天內這樣做,併爲您提供有關解決方案的反饋。聽起來很有希望 – SHW
您是否嘗試過R中的tm或qdap包?有一些文字清理..但我認爲只是基於英語的。好運。 (考慮到某人對荷蘭人的做法不太可能......意大利人是一樣的:那裏沒有運氣) – Ale
謝謝你的建議Ale。我們會盡快查看並回復你 – SHW