2009-09-23 42 views
4

我運行了一個網站,允許用戶寫博客文章,我真的想總結一下書面內容,並用它來填充<meta name="description".../> -tag。如何自動摘錄用戶生成的內容?

我可以使用什麼方法來自動總結/描述用戶生成內容的內容?
有沒有解決這個問題的方法(最好是免費的)?

(我見過的其他網站只複製前100個字左右,但是這在我看來是一個次優的解決方案。)

回答

5

認爲摘要的任務是挑戰「從文檔中選擇最重要的句子」。

H.P.在The Automatic Creation of Literature Abstracts中描述的方法。 Luhn(1958)描述了一種天真的方法,其實際表現相當好。嘗試給它一個鏡頭。

如果您的網站是Python編碼,使用NLTK(自然語言工具包)這個算法是一項有趣的任務。

+0

不幸的是,它在PHP(+1) – Jacco

1

我可能會嘗試使用機械土耳其人或任意數量的其他衆包的選項。

0

這與人工智能有關,所以這裏不會有「簡單」的解決方案,但有些產品針對這個問題。

退房Copernic Summarizer,一個。

1
+1

「如何識別文本的要點」論文也有軟件可用:http://www.icmc.usp.br/~taspardo/GistSumm.htm –

+0

另外,MEAD項目(http: //www.summarization.com/mead/)密歇根大學的一些人看起來像有軟件可用,儘管現在鏈接已經停止。 –

+0

其他鏈接已死,所以「如何識別文本的要點」論文現在可以在這裏找到:http://www.icmc.usp.br/~taspardo/I2TS2002-PardoEtAl.pdf – HappyTimeGopher

4

使其具有可預測。

從用戶的角度來看,簡單地使用第一段並不算差。 在某些情況下使用任何自動化功能必然會失敗。所以我建議將第一段(可能在某些時候截斷)作爲摘要顯示 ,並提供通過可選字段覆蓋該段的功能。

0

名詞短語通常往往是句子的重要因素。用高密度的名詞短語選擇句子可以產生一個很好的總結。您可以使用POS標記器獲取名詞短語。

對於一個好的總結,它是可取的,它是一個有意義的句子。讀一個破句是有點刺耳的。

0

或者,當筆者職位文章,作者可以突出什麼,然後可以自動將可在描述中使用的關鍵字在元描述標籤中。

+0

我一直在想這個選項..但我想保持系統儘可能簡單的爲用戶。所以這個選項是不可能的。 (這對付費捐款和東西很有用,但不適合我的觀衆) – Jacco

相關問題