2012-12-20 34 views
1

我目前使用SPARQLWrapper for python從DBpedia文章中提取數據,但我似乎無法找到如何提取給定文章的觀察者數量(和其他統計信息)。從Wikipedia文章中提取統計信息

有沒有簡單的方法來實現這一目標?我不介意它是通過DBpedia還是直接通過wikipedia(例如使用wget)。

感謝您的任何建議。

+4

如果您正在考慮使用維基百科,請查看[MediaWiki API](http://www.mediawiki.org/wiki/API:Main_page);它可能比屏幕抓取更容易使用。 – mc10

+0

你在找什麼「其他統計信息」? – svick

+1

@ mc10一般來說,是的,但具體而言,觀察者的數量在那裏不可用。 – svick

回答

4

它被禁止獲取每個任意文章的觀察者數量,因爲如果每個人都可以找到未瀏覽的頁面,它被認爲是安全漏洞。例如,只有特權用戶才能訪問Special:Unwatched Pages。有一個toolserver tool(可訪問數據庫)顯示觀察者的數量,但限於擁有30名以上觀察者的頁面for the same reasons - 至少未經身份驗證。

MediaWiki query API公開只有大多content and status information有關的文章,雖然你可以查詢和評估public logsrevision histories以及獲取有關(公共)用戶行爲的統計數據。有關維基媒體網站的更多統計信息,您可以查看Meta:Statistics,其中列出了各種數據源(大多數爲http://stats.wikimedia.org/)及其可視化。