2017-02-22 54 views
2

是否有可以評估文本項目之間的共同趨勢/主題的算法或方法?NLP:有效比較和識別文本之間趨勢的方法

例如,讓我們說,有四個數據點(文本輸入):

  • 「我發現學校很緊張的今天」
  • 「物理測試是很容易的。」
  • 「我的物理測試根本沒有挑戰性」
  • 「每個人都很早離開,因爲物理測試很簡單,我們很早就完成了。」

基於這四個項目,第一個是一個局外人,沒有關係的休息,但其他三隻提「物理測試」是如何容易(更普遍,其他三個表達了積極的情緒圍繞着「物理測試」)。

是否有方法提取相關句子之間的通用線程?這些句子完全是開放式的,並不侷限於簡單地表達對某個對象的感受 - 他們可能在談論任何事情。

我知道這是一個相當廣泛的問題,但我想我會問這個問題,看看人們是否知道現有解決方案或人們過去解決這個問題的方式。

回答

6

其中一個可能的解決方案可以是 - 首先生成句子表示(Sent2Vec),然後比較這些表示。

有很多方法來生成一個英語句子的句子嵌入。流行的方法之一是skip-though vectors。只需將句子轉換爲矢量,然後使用餘弦相似度來比較句子。

您還可以使用這些語句嵌入來訓練神經網絡來完成您的目標任務。

+0

看起來很有趣 - 謝謝!看起來,Sent2Vec過程將幫助完成我的任務的第一部分 - 但我也在尋找一種方法來真正確定具體的句子之間的關係(即它們都將「物理測試」與形容詞「容易「) – abagshaw

+0

@abagshaw然後你需要句子解析和提取名詞短語,然後生成短語嵌入和比較它們所有可能的對。你應該得到一些直覺來確定關鍵詞之間的關係吧! –

+0

這就是我的想法......但我不確定這是否能夠擴展到比較幾十個/幾十萬個句子。 – abagshaw