Datacheck：將字符串值（輸入）與現有語言（荷蘭語字典）進行比較R

我試圖用R腳本過濾出像'ffff'和'fdaljfdlksajf'這樣糟糕的開放答案（字符串變量）。我希望R中有一些可用的字典包，我可以這樣做，但我似乎無法找到它。Datacheck：將字符串值（輸入）與現有語言（荷蘭語字典）進行比較R

另一種選擇是上傳荷蘭語（這是我需要的字典）單詞列表並將其與輸入進行比較，但這不是很容易找到。

你們有沒有曾經嘗試過這種做法，並找到了解決辦法？

2016-12-02 SHW

您是否嘗試過R中的tm或qdap包？有一些文字清理..但我認爲只是基於英語的。好運。（考慮到某人對荷蘭人的做法不太可能......意大利人是一樣的：那裏沒有運氣） – Ale

謝謝你的建議Ale。我們會盡快查看並回復你 – SHW

試用包SnowballC。這是一個詞幹術語算法，但支持包括荷蘭語在內的語言，幷包括每種語言的詞彙表。

library(SnowballC) 
load(system.file("words", "dutch.RData", package = "SnowballC")) 
voc[[1]] # Dutch words 
voc[[2]] # Stemmed dutch words

現在，你有詞彙，你可以比較每個打開的響應比賽荷蘭詞彙的多少百分比，設定一個閾值來濾除「壞」的答案。

2016-12-03 00:12:19 hoggue

Ola Hoggue。非常感謝你的建議。我沒有時間立即查看它，但是我將在接下來的幾天內這樣做，併爲您提供有關解決方案的反饋。聽起來很有希望 – SHW

回答