2012-09-20 43 views
1

我有一個項目,我想識別給定文本的作者,博客 如何爲特定作者創建培訓數據和語料庫?建議「作者身份驗證」的步驟?

請建議一些鏈接和算法相同。

+1

歡迎來到Stack Overflow!這個問題太寬泛,無法在本網站上得到很好的回答。正如[常問問題](http://stackoverflow.com/faq#dontask)中所述,「您的問題應該是合理的,如果您可以想象整本書可以回答您的問題,那麼您的問題就太多了。」 –

回答

3

有許多方法來完成作者身份識別任務。因爲你似乎是NLP中的新手,所以我建議從一個基本的單詞袋矢量方法開始:

  1. 想出一組字作爲功能。
  2. 取每個文檔並將其轉換爲每個特徵詞的計數向量。
  3. 通過餘弦相似性對矢量進行聚類。
  4. 最終在同一個羣集中的文檔很可能由同一個作者編寫。

現在有一個重要的發現使得作者身份識別的聚類與普通文檔聚類不同:在正常的文檔聚類中,我們試圖忽略「停用詞」,高頻詞如「the」,「be」,「那「等等,並且只關注」內容詞語「。但在作者身份識別中,事實證明,這些停用詞是讓個人寫作獨特的東西!所以實際上應該根據作者在寫作中如何使用這些功能詞彙來聚合這些媒介。

作爲下一步,請嘗試使用更好的功能,比如單詞bigrams,因爲這樣可以更好地洞察作者書寫風格的獨特方面。

要了解該地區的廣泛視野以及人們嘗試過的技術,請查看Google scholar必須說的話。你也許應該找一些調查文章或其他文章來概述這個領域,這樣你就可以清楚地知道人們已經嘗試過什麼,並取得了哪些成功。

+0

感謝您的快速回復。現在我會嘗試建議的事情,如果有任何問題相同的回覆。非常感謝你。 – Target

1

你可以使用神經網絡。例如,有一篇文章here,它試圖識別莎士比亞,弗萊徹和馬洛的作品作者。它還包含一些python腳本(和C中的神經網絡實現)。還有一些數據文件應該讓你知道如何編寫你的訓練數據。

但如前所述,現在你的問題仍然過於寬泛。希望這個例子能讓你開始,所以你可以回來問一些更具體的問題。

+0

非常感謝您給予的幫助。現在我會爲此嘗試,並提出更具體的問題,以便對團隊和我也更加清楚。再次感謝您。 – Target

相關問題