2016-12-02 12 views
0

我試圖用R腳本過濾出像'ffff'和'fdaljfdlksajf'這樣糟糕的開放答案(字符串變量)。我希望R中有一些可用的字典包,我可以這樣做,但我似乎無法找到它。Datacheck:將字符串值(輸入)與現有語言(荷蘭語字典)進行比較R

另一種選擇是上傳荷蘭語(這是我需要的字典)單詞列表並將其與輸入進行比較,但這不是很容易找到。

你們有沒有曾經嘗試過這種做法,並找到了解決辦法?

+1

您是否嘗試過R中的tm或qdap包?有一些文字清理..但我認爲只是基於英語的。好運。 (考慮到某人對荷蘭人的做法不太可能......意大利人是一樣的:那裏沒有運氣) – Ale

+0

謝謝你的建議Ale。我們會盡快查看並回復你 – SHW

回答

0

試用包SnowballC。這是一個詞幹術語算法,但支持包括荷蘭語在內的語言,幷包括每種語言的詞彙表。

library(SnowballC) 
load(system.file("words", "dutch.RData", package = "SnowballC")) 
voc[[1]] # Dutch words 
voc[[2]] # Stemmed dutch words 

現在,你有詞彙,你可以比較每個打開的響應比賽荷蘭詞彙的多少百分比,設定一個閾值來濾除「壞」的答案。

+0

Ola Hoggue。非常感謝你的建議。我沒有時間立即查看它,但是我將在接下來的幾天內這樣做,併爲您提供有關解決方案的反饋。聽起來很有希望 – SHW

相關問題