從維基百科獲取文章的第一段

-1

從維基百科獲得好萊塢一詞的第一段文章的正確方法是什麼？作爲結果，$result變量包含first paragraph of the page 從維基百科獲取文章的第一段

好萊塢是位於洛杉磯市中心西北西洛杉磯，加利福尼亞州，美國的一個區。[2]由於作爲電影製片廠和電影明星曆史中心的名聲和文化特徵，好萊塢這個詞經常被用作美國電影的代名詞。儘管許多電影業已經分散到周邊地區，如西洛杉磯，聖費爾南多和聖克拉麗塔山谷，但編輯，特效，道具，後期製作和照明公司等重要的輔助產業仍然留在好萊塢，這是派拉蒙影業的幕後工作。

它可以包含HTML標籤（甚至比純文本更好）。

來源

2013-01-08 Haradzieniec

您可以改爲訪問http://dbpedia.org/resource/Hollywood。這是一種提供多種RDF格式的wikipdia數據集的服務。看看頁腳。尤其是XML格式可能會對你有所幫助 – KingCrunch

我不知道Kohana是什麼，但要獲取某個維基百科頁面的HTML文本，您可以使用the API。

例如，爲了獲得好萊塢文章的第一部分的HTML，你可以使用一個查詢，如：

http://en.wikipedia.org/w/api.php?format=xml&action=query&prop=revisions&titles=Hollywood&rvprop=content&rvsection=0&rvparse

這是XML格式，但JSON也是一種選擇。

此外，這將返回整個第一部分（包括信息框），而不僅僅是第一段。

來源

2013-01-08 13:04:56 svick

對不起。好的，我有 http://en.wikipedia.org/w/api.php?format=xml&action=query&prop=revisions&titles=Hollywood&rvprop=content&rvsection=0&rvparse 如何將第一段放入$ result？謝謝。 – Haradzieniec

我不知道PHP，所以我不能幫你，對不起。 – svick

這是否被認爲是「刮」？ – user86895

可以使用Simple HTML DOM庫可以輕鬆地從網頁解析HTML：

include('inc/simple_html_dom.php'); // this line should be replaced with the Kohana way of including the library 

// Create DOM from URL 
$html = file_get_html('http://en.wikipedia.org/wiki/Hollywood'); 

// Get the first paragraph 
$p = $html->find('p', 0); 

echo $p->innertext; // Prints <b>Hollywood</b> is a district in (...)

我從未使用過Kohana的，但似乎有at least 2 Kohana modules for Simple HTML DOM，所以它應該是易於使用的庫項目。

來源

2013-01-08 10:08:32 Armon

屏幕抓取維基百科頁面不是一個好主意，因爲佈局隨時都可能發生變化，並且有API可用。 – svick

從維基百科獲取文章的第一段

回答

相關問題