2012-12-19 95 views
0

我正試圖在兩個句子之間找到一些相似性度量。我使用了兩個單詞的單個語義相似性。但是我從我的句子中得出的字典中有很多詞。我想從句子中刪除一些我不認爲傳達關於內容的信息的單詞。首先,我用較少的字母刪除單詞,但我認爲它不可重複使用,因爲它也刪除了一些內容豐富的單詞。哪些詞可以省略?

看一些句子這裏

"Despite the fact that ..." 
"There's a debate such that ..." 
"To sum up ..." 
"Although ..., there is ..." 

零件如果我有涉及這些詞的文本文件,我就從我的字典中刪除,並讓只有翔實的話留在那裏。

有沒有,你知道英語,所以我可以用它來過濾我的字典這樣的話任何列表?用於該類型的問題

+1

我對這種類型的問題的方法是去除分佈的頭部和尾部。非常常見的詞語(即停用詞)幾乎不會添加關於相似性的信息。相反,非常罕見的詞往往是錯別字。你必須小心唯一性的門檻。因人而異。 –

+0

這是一個非常聰明的主意。感謝您的評論。我認爲它也可能適用於其他語言。你可以請你的評論作爲答案。所以,如果沒有其他好的答案到來,我可以接受。 – petrichor

回答

1

有共同的「停止詞」列出了可用,例如,here

停止的話也可以稍微域相關的。例如,顯然US Patent Full Text Database認爲「權利要求」和「實施例」是非常常見的,這是我懷疑爲非專利-特定文檔真。

+0

其實我找的關鍵詞是「停詞」。當我搜索「最常用的單詞」時,我看到語言課程:)非常感謝。 – petrichor

+1

是的,「停詞」不是立即想到的術語。那些不熟悉該術語的人會怎麼想到這一點? – kc2001

2

一種方法是除去分佈的頭部和尾部。非常常見的詞語(即停用詞)幾乎不會添加關於相似性的信息。相反,非常罕見的詞往往是錯別字。你必須小心唯一性的門檻,它將取決於你的語料庫的起源和異質性:用戶生成的輸入往往包含比來自維基百科等策劃資源的內容更多的獨特拼寫錯誤。