我正試圖在兩個句子之間找到一些相似性度量。我使用了兩個單詞的單個語義相似性。但是我從我的句子中得出的字典中有很多詞。我想從句子中刪除一些我不認爲傳達關於內容的信息的單詞。首先,我用較少的字母刪除單詞,但我認爲它不可重複使用,因爲它也刪除了一些內容豐富的單詞。哪些詞可以省略?
看一些句子這裏
"Despite the fact that ..."
"There's a debate such that ..."
"To sum up ..."
"Although ..., there is ..."
零件如果我有涉及這些詞的文本文件,我就從我的字典中刪除,並讓只有翔實的話留在那裏。
有沒有,你知道英語,所以我可以用它來過濾我的字典這樣的話任何列表?用於該類型的問題
我對這種類型的問題的方法是去除分佈的頭部和尾部。非常常見的詞語(即停用詞)幾乎不會添加關於相似性的信息。相反,非常罕見的詞往往是錯別字。你必須小心唯一性的門檻。因人而異。 –
這是一個非常聰明的主意。感謝您的評論。我認爲它也可能適用於其他語言。你可以請你的評論作爲答案。所以,如果沒有其他好的答案到來,我可以接受。 – petrichor