2012-08-09 53 views
0

我想將「United States of America」的所有內容都grep到沒有圖像的文本文件。我正在查看文本格式的回覆。維基百科API以文本格式獲取特定搜索文本

我該怎麼做?我得到了這個網址構建:http://en.wikipedia.org/w/api.php?format=xml&action=query&titles=united_states&prop=revisions&rvprop=content

但我沒有得到我想要的。也許我錯過了一些基本的東西。

  1. 如何獲得我在查詢中給出的任何字符串的內容?請幫助我的網址。

  2. 我想在文本文件中有這個。我能以文本格式獲得回覆嗎?除XML和JSON之外?

  3. 在美國的例子中,我想得到城市領先人口中心的第一列。是否有可能獲得該信息(或)我應該使用解析器?

回答

2

如果你只需要文章的文本,action=raw比使用API​​簡單得多:

http://en.wikipedia.org/wiki/United_States?action=raw&ctype=text/css

http://en.wikipedia.org/wiki/United_States?action=raw&ctype=text/css&templates=expand

ctype=text/css是唯一重要的如果你想在瀏覽器中打開它。)

目前尚不清楚你在第3點討論了什麼,但是如果你想從表格中提取數據,最好的方法是獲取渲染(HTML)內容並使用某種類型的DOM解析器(並保留一半注意Wikidata這會讓事情在幾個月內變得更簡單)。