我想找到一種方法來獲取所有傳入鏈接到維基百科頁面(從維基百科內的其他頁面)的錨文本。我已經閱讀了一些已經完成了這些信息實驗的論文(例如http://web2py.iiit.ac.in/research_centres/publications/download/inproceedings.pdf.809e1550d80bca59.4d756c7469446f635f53756d6d6172697a6174696f6e5f46696e616c2e706466.pdf) ,但他們似乎沒有解釋他們如何獲得這些信息。我知道有一種資源叫做YAGO,它提供了鏈接到相關頁面的維基百科頁面,但似乎沒有提供錨文本。任何人都可以提出一種獲取這些信息的方式嗎獲取Wikipedia錨文本
1
A
回答
0
0
更詳細的信息,你可以做的是:
- 下載維基百科從https://dumps.wikimedia.org/enwiki/轉儲文件。選擇
latest
,然後選擇enwiki-latest-pages-articles.xml.bz2 - 清理維基百科轉儲文件https://github.com/attardi/wikiextractor。使用標記
l, --links
保留鏈接
現在,您已經清除了包含錨文本的純文本維基百科純文本。使用任何編程語言,您可以解析這些文件並提取錨文本。
相關問題
- 1. 在MQL中獲取Wikipedia ID
- 2. 如何使用DomDocument獲取錨文本?
- 3. 獲取文本中的錨標籤
- 4. 使用javascript獲取錨標記文本
- 5. 從錨標記獲取文本
- 6. 如何獲取Wikipedia文章的所有XML修訂版本?
- 7. 獲取隨機Wikipedia提取與Ajax
- 8. 在文本節點中獲取錨點中的文本
- 9. 獲取錨父
- 10. Wikipedia api從wikipage獲取jpeg圖像
- 11. Wikipedia API:按時間表獲取修訂
- 12. 如何從wikipedia API獲取圖片?
- 13. php Wikipedia API JSON獲取頁面ID
- 14. Wikipedia數據提取
- 15. 提取錨文本週圍的文字
- 16. 如何獲取維基百科頁面的HTML內容文本(通過Wikipedia API)?
- 17. 如何使用AJAX獲取Wikipedia網頁或獲取()
- 18. jQuery獲取錨值
- 19. 如何通過API獲取Wikipedia文章的維基數據ID?
- 20. 使用NSScanner獲取Wikipedia文章摘要問題
- 21. 如何使用Wikipedia API獲取文章的主要類別
- 22. 使用Wikipedia API獲取PHP中的文章時間戳
- 23. 使用Python從Wikipedia html中提取文本
- 24. 獲取ckeditor文檔中的錨點
- 25. 如何在代碼後面獲取錨標記文本?
- 26. 如何獲取錨點DOMElement的值/文本?
- 27. jquery - 在錨標記後獲取文本值
- 28. 如何獲取錨標籤的文本內容?
- 29. Xpath表達式獲取href。不只是錨文本
- 30. PHP preg_replace鏈接獲取href和錨文本並連接它
也許他們已經簡單地下載了轉儲並解析了文件以提取鏈接。 – Bergi 2014-10-03 01:01:35
你可以(並且在這種情況下**應該**)總是問作者。他們的聯繫信息在論文中。也許他們甚至會給你發送他們的數據! – Bergi 2014-10-03 01:10:10