2016-06-21 108 views
0

我正在研究作者姓名消歧問題。我想做一些實驗。我想分類引文記錄。我需要培訓數據和測試數據,其中每個出版物記錄的真實作者都可以使用。有許多書目數據庫,如DBLP,Medline和Pubmed等。我對測試階段感到困惑。將DBLP分爲培訓和測試是一種很好的做法嗎?手動添加DBLP引用記錄?我能保證每個引文記錄都被分配給DBLP中的真正作者嗎?有沒有關於培訓和測試數據庫的建議。 注:在文獻中我注意到,在一些論文中,他們使用Pubmed進行培訓,DBLP進行測試,儘管第一篇文章是醫學出版物,第二篇是計算機。作者姓名消歧數據

+0

「我可以保證,每一個引文記錄被分配到真正的作者在DBLP?「請注意,雖然DBLP是手動策劃的,但這絕不能保證DBLP沒有錯誤。元數據錯誤的來源是多方面的,甚至通常手動研究也無法揭示「真相」。由於其獨特的數據管理方法,DBLP的質量可能比其他聚合數據源的質量更高且不易出錯。但是有了一些經驗,你可以很容易地找到很多例子,即使DBLP錯了。 – MRA

回答

0

下面是我對您的問題:

我感到困惑的測試階段。將DBLP分爲培訓和測試是一種很好的做法嗎?

使用的做法是拆分數據進行培訓和測試。然而,確保每個測試樣本都存在訓練樣本是一個好主意。

手動添加了DBLP引用記錄嗎?我能保證每個引文記錄都被分配給DBLP中的真正作者嗎?

根據本文,DBLP引文記錄是手動添加的。 https://clgiles.ist.psu.edu/papers/ECDL-2005-Citation-Databases.pdf

是否有任何關於培訓和測試數據庫的建議。

ANDDataset1在一些工作已經被用於此類任務 https://sites.google.com/site/tinhuynhuit/dataset

您也可以嘗試KDD杯2013 - 作者歧挑戰 https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data