2013-01-08 60 views
-1

從維基百科獲得好萊塢一詞的第一段文章的正確方法是什麼?作爲結果,$result變量包含first paragraph of the page從維基百科獲取文章的第一段

好萊塢是位於洛杉磯市中心西北西洛杉磯,加利福尼亞州,美國的一個區。[2]由於作爲電影製片廠和電影明星曆史中心的名聲和文化特徵,好萊塢這個詞經常被用作美國電影的代名詞。儘管許多電影業已經分散到周邊地區,如西洛杉磯,聖費爾南多和聖克拉麗塔山谷,但編輯,特效,道具,後期製作和照明公司等重要的輔助產業仍然留在好萊塢,這是派拉蒙影業的幕後工作。

它可以包含HTML標籤(甚至比純文本更好)。

+0

您可以改爲訪問http://dbpedia.org/resource/Hollywood。這是一種提供多種RDF格式的wikipdia數據集的服務。看看頁腳。尤其是XML格式可能會對你有所幫助 – KingCrunch

回答

3

我不知道Kohana是什麼,但要獲取某個維基百科頁面的HTML文本,您可以使用the API

例如,爲了獲得好萊塢文章的第一部分的HTML,你可以使用一個查詢,如:

http://en.wikipedia.org/w/api.php?format=xml&action=query&prop=revisions&titles=Hollywood&rvprop=content&rvsection=0&rvparse

這是XML格式,但JSON也是一種選擇。

此外,這將返回整個第一部分(包括信息框),而不僅僅是第一段。

+0

對不起。好的,我有 http://en.wikipedia.org/w/api.php?format=xml&action=query&prop=revisions&titles=Hollywood&rvprop=content&rvsection=0&rvparse 如何將第一段放入$ result?謝謝。 – Haradzieniec

+0

我不知道PHP,所以我不能幫你,對不起。 – svick

+0

這是否被認爲是「刮」? – user86895

1

可以使用Simple HTML DOM庫可以輕鬆地從網頁解析HTML:

include('inc/simple_html_dom.php'); // this line should be replaced with the Kohana way of including the library 

// Create DOM from URL 
$html = file_get_html('http://en.wikipedia.org/wiki/Hollywood'); 

// Get the first paragraph 
$p = $html->find('p', 0); 

echo $p->innertext; // Prints <b>Hollywood</b> is a district in (...) 

我從未使用過Kohana的,但似乎有at least 2 Kohana modules for Simple HTML DOM,所以它應該是易於使用的庫項目。

+1

屏幕抓取維基百科頁面不是一個好主意,因爲佈局隨時都可能發生變化,並且有API可用。 – svick