NLP：有效比較和識別文本之間趨勢的方法

是否有可以評估文本項目之間的共同趨勢/主題的算法或方法？NLP：有效比較和識別文本之間趨勢的方法

例如，讓我們說，有四個數據點（文本輸入）：

基於這四個項目，第一個是一個局外人，沒有關係的休息，但其他三隻提「物理測試」是如何容易（更普遍，其他三個表達了積極的情緒圍繞着「物理測試」）。

是否有方法提取相關句子之間的通用線程？這些句子完全是開放式的，並不侷限於簡單地表達對某個對象的感受 - 他們可能在談論任何事情。

我知道這是一個相當廣泛的問題，但我想我會問這個問題，看看人們是否知道現有解決方案或人們過去解決這個問題的方式。

2017-02-22 abagshaw

其中一個可能的解決方案可以是 - 首先生成句子表示（Sent2Vec），然後比較這些表示。

有很多方法來生成一個英語句子的句子嵌入。流行的方法之一是skip-though vectors。只需將句子轉換爲矢量，然後使用餘弦相似度來比較句子。

您還可以使用這些語句嵌入來訓練神經網絡來完成您的目標任務。

2017-02-22 06:03:23

看起來很有趣 - 謝謝！看起來，Sent2Vec過程將幫助完成我的任務的第一部分 - 但我也在尋找一種方法來真正確定具體的句子之間的關係（即它們都將「物理測試」與形容詞「容易「） – abagshaw

@abagshaw然後你需要句子解析和提取名詞短語，然後生成短語嵌入和比較它們所有可能的對。你應該得到一些直覺來確定關鍵詞之間的關係吧！ –

這就是我的想法......但我不確定這是否能夠擴展到比較幾十個/幾十萬個句子。 – abagshaw

回答