1
A
回答
3
有許多方法來完成作者身份識別任務。因爲你似乎是NLP中的新手,所以我建議從一個基本的單詞袋矢量方法開始:
- 想出一組字作爲功能。
- 取每個文檔並將其轉換爲每個特徵詞的計數向量。
- 通過餘弦相似性對矢量進行聚類。
- 最終在同一個羣集中的文檔很可能由同一個作者編寫。
現在有一個重要的發現使得作者身份識別的聚類與普通文檔聚類不同:在正常的文檔聚類中,我們試圖忽略「停用詞」,高頻詞如「the」,「be」,「那「等等,並且只關注」內容詞語「。但在作者身份識別中,事實證明,這些停用詞是讓個人寫作獨特的東西!所以實際上應該根據作者在寫作中如何使用這些功能詞彙來聚合這些媒介。
作爲下一步,請嘗試使用更好的功能,比如單詞bigrams,因爲這樣可以更好地洞察作者書寫風格的獨特方面。
要了解該地區的廣泛視野以及人們嘗試過的技術,請查看Google scholar必須說的話。你也許應該找一些調查文章或其他文章來概述這個領域,這樣你就可以清楚地知道人們已經嘗試過什麼,並取得了哪些成功。
+0
感謝您的快速回復。現在我會嘗試建議的事情,如果有任何問題相同的回覆。非常感謝你。 – Target
1
相關問題
- 1. 身份驗證流程步驟順序和驗證碼功能
- 2. 需要ASP.NET身份驗證建議
- 3. Rails身份驗證插件建議
- 4. asp.net ldap身份驗證幫助/建議
- 5. Rails 3身份驗證插件建議?
- 6. 多步MFA身份驗證
- 7. 爲CAC卡身份驗證配置Apache HTTPD的步驟
- 8. Gmail上下文小工具和OpenID身份驗證步驟
- 9. Typo3後臺登錄身份驗證服務多個步驟
- 10. SASL身份驗證步驟中的服務器返回錯誤:身份驗證失敗。分析到mLab遷移
- 11. ADFS中的自定義身份驗證適配器作爲主要步驟
- 12. 解析遷移:服務器在SASL身份驗證步驟返回錯誤:身份驗證失敗
- 13. Facebook身份驗證令牌未能創建Firebase身份驗證
- 14. scalatra的異步身份驗證
- 15. 基本卡身份驗證協議
- 16. 安全和身份驗證協議
- 17. phpmyadmin身份驗證協議加密
- 18. BizTalk:呼叫者身份驗證
- 19. Ember簡單身份驗證 - 自定義授權者打破身份驗證
- 20. 微軟同步框架身份驗證
- 21. AWS Cognito:開發者身份驗證身份
- 22. 的Windows Phone 7 - 用於身份驗證的步驟推送通知
- 23. AWS Cognito用戶身份驗證流程需要建議和建議
- 24. 如何自定義身份驗證提供者的工作
- 25. Firebase身份驗證(安卓)電子郵件驗證需要一些建議
- 26. 需要建議如何在asp.net中進行身份驗證
- 27. 報告服務尋求身份驗證建議
- 28. MediaWiki/Python身份驗證需要集成建議
- 29. 承載者未通過身份驗證:簽名驗證失敗
歡迎來到Stack Overflow!這個問題太寬泛,無法在本網站上得到很好的回答。正如[常問問題](http://stackoverflow.com/faq#dontask)中所述,「您的問題應該是合理的,如果您可以想象整本書可以回答您的問題,那麼您的問題就太多了。」 –