2009-11-30 29 views

回答

5

您可能需要考慮使用API:您可以獲取任何文章的「文本」版本。之後,由您來提取摘要。

另一種選擇是隻請求頁面原料格式:

Raw (Wikitext) page processing: sending a action=raw or a action=raw&templates=expand GET request to index.php will give the unprocessed wikitext source code of a page.

例如

http://en.wikipedia.org/wiki/Main_Page?action=raw

當然,你需要做一點一刮。瀏覽API可能會更有效,因爲您可以直接從數據庫中將拉到(如果您願意,可以使用wiki文本),您可以更好地控制它。

+0

僅供參考 - 斷開鏈接 – Greg 2009-11-30 18:18:10

+0

已修復...複製並粘貼錯誤。 – jldupont 2009-11-30 18:21:04

+0

我希望有一個神奇的關鍵字(如可打印)......但謝謝。 – koops 2009-11-30 18:30:58

0

使用mediawiki API用行動=查詢和道具記錄了功能豐富,靈活的API =修訂獲取給定修訂,刪除wiki文字(圖片,InfoBoxes到)並提取第一句的內容。