2014-10-02 81 views
1

我想找到一種方法來獲取所有傳入鏈接到維基百科頁面(從維基百科內的其他頁面)的錨文本。我已經閱讀了一些已經完成了這些信息實驗的論文(例如http://web2py.iiit.ac.in/research_centres/publications/download/inproceedings.pdf.809e1550d80bca59.4d756c7469446f635f53756d6d6172697a6174696f6e5f46696e616c2e706466.pdf) ,但他們似乎沒有解釋他們如何獲得這些信息。我知道有一種資源叫做YAGO,它提供了鏈接到相關頁面的維基百科頁面,但似乎沒有提供錨文本。任何人都可以提出一種獲取這些信息的方式嗎獲取Wikipedia錨文本

+0

也許他們已經簡單地下載了轉儲並解析了文件以提取鏈接。 – Bergi 2014-10-03 01:01:35

+1

你可以(並且在這種情況下**應該**)總是問作者。他們的聯繫信息在論文中。也許他們甚至會給你發送他們的數據! – Bergi 2014-10-03 01:10:10

回答

0

您需要解析wikipedia頁面的html文本。

這種錨文本就像piped link format中的[鏈接|錨文本],您需要自己實施parser才能找到。

您可以找到計算器後here