2017-08-08 37 views

回答

2

的算法中沒有一個基於提取摘要單一的算法。有幾種不同的算法可供選擇。你應該選擇一個適合你的具體需求。

有萃取基於彙總兩種方法:

  • 監督學習 - 你用自己的關鍵字給節目大量的實例文檔在一起。該程序瞭解什麼是關鍵字。然後你給它一個新的文檔,這次沒有任何關鍵字,程序根據它在訓練階段學到的內容提取這個文檔的關鍵字。有大量的監督學習技巧。僅舉幾例,有神經網絡,決策樹,隨機森林和支持向量機。

  • 無指導的學習 - 你simly給該程序文件並創建關鍵字列表,而不依賴於任何過去的經驗。基於摘要的流行無監督算法是TextRank。

0

首先,我認爲你應該學習如何找到論文和研究。如果你沒有找到任何東西,這是絕對不可能的。在任何情況下,一些基於提取文本summarziation是:

  1. 易於基於詞頻
  2. 貝葉斯方法
  3. 基於圖形的方法,例如TextRank/LexRank是一個良好的開端實現方法。
  4. 聚類
  5. 進行彙總
  6. 基於神經網絡的系統
  7. 我已經基於優化算法
    我建議谷歌上搜索這些方法,看看你會得到什麼方法看到模糊系統。這些有很多變化,我不能確定哪種方法是最好的。請記住找到適當的預處理工具。
    祝你好運。