作者姓名消歧數據

我正在研究作者姓名消歧問題。我想做一些實驗。我想分類引文記錄。我需要培訓數據和測試數據，其中每個出版物記錄的真實作者都可以使用。有許多書目數據庫，如DBLP，Medline和Pubmed等。我對測試階段感到困惑。將DBLP分爲培訓和測試是一種很好的做法嗎？手動添加DBLP引用記錄？我能保證每個引文記錄都被分配給DBLP中的真正作者嗎？有沒有關於培訓和測試數據庫的建議。注：在文獻中我注意到，在一些論文中，他們使用Pubmed進行培訓，DBLP進行測試，儘管第一篇文章是醫學出版物，第二篇是計算機。作者姓名消歧數據

來源

2016-06-21 s.e

「我可以保證，每一個引文記錄被分配到真正的作者在DBLP？「請注意，雖然DBLP是手動策劃的，但這絕不能保證DBLP沒有錯誤。元數據錯誤的來源是多方面的，甚至通常手動研究也無法揭示「真相」。由於其獨特的數據管理方法，DBLP的質量可能比其他聚合數據源的質量更高且不易出錯。但是有了一些經驗，你可以很容易地找到很多例子，即使DBLP錯了。 – MRA

下面是我對您的問題：

我感到困惑的測試階段。將DBLP分爲培訓和測試是一種很好的做法嗎？

使用的做法是拆分數據進行培訓和測試。然而，確保每個測試樣本都存在訓練樣本是一個好主意。

手動添加了DBLP引用記錄嗎？我能保證每個引文記錄都被分配給DBLP中的真正作者嗎？

根據本文，DBLP引文記錄是手動添加的。 https://clgiles.ist.psu.edu/papers/ECDL-2005-Citation-Databases.pdf

是否有任何關於培訓和測試數據庫的建議。

ANDDataset1在一些工作已經被用於此類任務 https://sites.google.com/site/tinhuynhuit/dataset

您也可以嘗試KDD杯2013 - 作者歧挑戰 https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data

來源

2016-10-26 10:40:27 H123098

作者姓名消歧數據

回答

相關問題