Q

維基百科API以文本格式獲取特定搜索文本

2012-08-09 53 views 0 likes

0

我想將「United States of America」的所有內容都grep到沒有圖像的文本文件。我正在查看文本格式的回覆。維基百科API以文本格式獲取特定搜索文本

我該怎麼做？我得到了這個網址構建：http://en.wikipedia.org/w/api.php?format=xml&action=query&titles=united_states&prop=revisions&rvprop=content

但我沒有得到我想要的。也許我錯過了一些基本的東西。

如何獲得我在查詢中給出的任何字符串的內容？請幫助我的網址。
我想在文本文件中有這個。我能以文本格式獲得回覆嗎？除XML和JSON之外？
在美國的例子中，我想得到城市領先人口中心的第一列。是否有可能獲得該信息（或）我應該使用解析器？

2012-08-09 The Learner

A

回答

2

如果你只需要文章的文本，action=raw比使用API簡單得多：

http://en.wikipedia.org/wiki/United_States?action=raw&ctype=text/css

或

http://en.wikipedia.org/wiki/United_States?action=raw&ctype=text/css&templates=expand

（ctype=text/css是唯一重要的如果你想在瀏覽器中打開它。）

目前尚不清楚你在第3點討論了什麼，但是如果你想從表格中提取數據，最好的方法是獲取渲染（HTML）內容並使用某種類型的DOM解析器（並保留一半注意Wikidata這會讓事情在幾個月內變得更簡單）。

2012-08-09 22:56:18 Tgr

相關問題