2010-10-04 32 views
1

我目前正在做人名消歧項目。項目背後的想法是,當有多個同名的人時,它將能夠識別出正確的人。我用維基百科這個。我想根據一些標準數據評估我的項目。我正在尋找一些測試數據。我不熟悉維基百科中流行的名字。任何想法,我可以在哪裏找到這些數據?我不是在尋找大量的數據。我只是想找一些100-500的例子。人名消歧

謝謝

添加更多信息的問題。

我在尋找的是具有相同名稱但實際上不同的人。對於前者,邁克爾喬丹是一位着名的籃球運動員,並且還有一位名字統計學家。我正在尋找這樣的例子。

http://en.wikipedia.org/wiki/Michael_Jordan http://en.wikipedia.org/wiki/Michael_I._Jordan

希望,你現在明白這個問題。

回答

2
+0

感謝您的數據集。但是所有這些數據集都包含一個要訓練的數據,然後包括評估它們的文章。我只需要兩個感官的人名。因爲,我的代碼從wikipedia中提取功能,並且不能將其應用於任意文本。 – Boolean 2010-10-04 23:12:49

+0

嗯..現在我明白了。考慮到例如wikipage是否有信息框,您可以開發一種算法。最好的評估基礎是信息,這些信息在特定時間段內合併。肯定有一個這樣的數據集。因爲有很多關於歸檔網絡的研究項目,例如http://www.slideshare.net/phonedude/memento-time-travel-for-the-web,維​​基百科是關於歸檔的最重要的知識門戶之一網頁。也許你可以從wikipages的歷史中提取這些信息。 – Skarab 2010-10-05 12:36:50

+0

關於合併的wikipage,可能有助於尋找信息如何檢索automaticaly wikipages歷史記錄:http://en.wikipedia.org/wiki/Wikipedia:Merge – Skarab 2010-10-05 12:45:05