-2

我想寫一個學習算法,它可以自動創建文章摘要。小結Algo小說:監督學習

e.g,也有一些科幻小說(一類考慮到它作爲一個過濾器)的PDF格式。我想要創建一個自動創建摘要的過程。 我們可以提供一些樣本數據來實施監督學習方法。 請建議我如何正確執行此操作。

我是初學者&上午追求安德魯吳課程,並意識到一些常見的算法(線性reg,logistic,神經網絡)+ Udacity統計課程,並準備更深入地學習NLP,深入學習等,但動機是解決這個。 :) 在此先感謝

+3

這是一個廣泛而未解決的話題。我認爲這是一個初學者解決這種問題的好主意。如果你真的覺得你必須 - 只要谷歌任何最近關於這個主題的論文,並試圖重新實現他們的想法(正如我所說 - 這是一個廣泛和未解決的問題,有一些「解決方案」的東西,而不是單一的其中**真的**起作用)。 – lejlot

回答

3

的關鍵詞是Automatic Summarization

一般而言,有兩種方法來自動總結:萃取抽象

  • 提取方法通過選擇原文中現有單詞,短語或句子的一個子集來形成摘要。
  • 寫意方法建立一個內部的語義表達,然後用自然語言生成技術來創建摘要更接近什麼人可能會產生。

寫意總結是一個很大的困難。 Alexander M.Rush,Sumit Chopra,Jason Weston(基於論文here的源代碼)在A Neural Attention Model for Abstractive Sentence Summarization中描述了一種有趣的方法。

A「簡單」的方法在Word(AutoSummary Tool)時:

自動編寫通過分析文檔和將一個得分指定給每個句子確定關鍵點。包含文檔中經常使用的單詞的句子被賦予更高的分數。然後,您可以選擇摘要中顯示得分最高的句子的百分比。

您可以選擇是否在文檔中突出重點,在文檔的頂部插入的執行摘要或抽象的,創建一個新文檔,並把內容存在,或隱藏一切,但總結。

如果你選擇突出重點或隱藏一切,但總的來說,可以將文檔(文檔的其餘部分是隱藏的)中只顯示了關鍵點和文檔中突出顯示它們之間進行切換。在您閱讀的時候,您還可以隨時更改詳細程度。

無論如何,自動數據(文本)摘要是許多正在進行的研究的機器學習/數據挖掘的活躍領域。您應該開始閱讀一些很好的概述: