我正在研究作者姓名消歧問題。我想做一些實驗。我想分類引文記錄。我需要培訓數據和測試數據,其中每個出版物記錄的真實作者都可以使用。有許多書目數據庫,如DBLP,Medline和Pubmed等。我對測試階段感到困惑。將DBLP分爲培訓和測試是一種很好的做法嗎?手動添加DBLP引用記錄?我能保證每個引文記錄都被分配給DBLP中的真正作者嗎?有沒有關於培訓和測試數據庫的建議。 注:在文獻中我注意到,在一些論文中,他們使用Pubmed進行培訓,DBLP進行測試,儘管第一篇文章是醫學出版物,第二篇是計算機。作者姓名消歧數據
Q
作者姓名消歧數據
0
A
回答
0
下面是我對您的問題:
我感到困惑的測試階段。將DBLP分爲培訓和測試是一種很好的做法嗎?
使用的做法是拆分數據進行培訓和測試。然而,確保每個測試樣本都存在訓練樣本是一個好主意。
手動添加了DBLP引用記錄嗎?我能保證每個引文記錄都被分配給DBLP中的真正作者嗎?
根據本文,DBLP引文記錄是手動添加的。 https://clgiles.ist.psu.edu/papers/ECDL-2005-Citation-Databases.pdf
是否有任何關於培訓和測試數據庫的建議。
ANDDataset1在一些工作已經被用於此類任務 https://sites.google.com/site/tinhuynhuit/dataset
您也可以嘗試KDD杯2013 - 作者歧挑戰 https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data
相關問題
- 1. Symfony呈現作者姓名
- 2. 更改作者姓名
- 3. 人名消歧
- 4. 如何訪問作者姓名和其他docx元數據
- 5. 如何修復git log作者姓名?
- 6. 搜索不可靠的作者姓名
- 7. 如何讓nntplib作者姓名可讀?
- 8. 顯示作者姓名(WordPress的)
- 9. laravel 5作者姓名顯示書籍
- 10. git log作者姓名來自htpasswd
- 11. WorsPress orederby特定作者姓名
- 12. Randomise Latex中的作者姓名
- 13. 在TortoiseSVN中更改作者姓名
- 14. Natbib不顯示完整作者姓名
- 15. WordPress的作者歸檔:讓作者姓名
- 16. 在評論中顯示作者姓名而非作者ID
- 17. Android說來電者姓名
- 18. 獲取所有者姓名
- 19. 消歧
- 20. :姓名,姓氏:姓名
- 21. 顯示作者姓名,書名爲誰寫的多本書籍
- 22. 在簽名密鑰-BB10中更改作者姓名-BB10
- 23. WordPress的 - get_comment_author()返回 「匿名」 爲作者姓名
- 24. Azure SQL數據庫命名歧義
- 25. PlayFramework Logback打印來電者姓名
- 26. 獲取參與者的姓名MSConversation
- 27. Dcmj2pnm tojpeg患者姓名缺失
- 28. Python消歧
- 29. 絕對需要作者姓名的代碼嗎?
- 30. 如何爲每個帖子選擇作者的姓名?
「我可以保證,每一個引文記錄被分配到真正的作者在DBLP?「請注意,雖然DBLP是手動策劃的,但這絕不能保證DBLP沒有錯誤。元數據錯誤的來源是多方面的,甚至通常手動研究也無法揭示「真相」。由於其獨特的數據管理方法,DBLP的質量可能比其他聚合數據源的質量更高且不易出錯。但是有了一些經驗,你可以很容易地找到很多例子,即使DBLP錯了。 – MRA