2011-03-10 186 views
1

我需要如何去解決這個問題的一些要點:刮網頁和格式化

我有超過10K +簡單的HTML網頁,它們都具有相同的格式。當我說「相同的格式」時,我的意思是它們在開始時都會有相同的h1標籤,但是文本不同,後面跟着一個表格,然後是一個鏈接,等等。所以,如果你看到,基本的HTML 10K +頁面的骨架是相同的,但只是文本會不斷變化。

我有一種方法來遍歷所有這些10K頁。但是我不知道如何將該頁面中的特定文本複製到XLS/CSV列中。一旦我可以達到這個目標,我將把這張excel表格導入MySQL並做進一步的處理。

我知道PHP在一定程度上。所以,這是我能想到的:

$html = file_get_contents("http://www.SomeWebsite.com/"); 

然後我可以使用一些正則表達式來操作,我需要的數據。然而,我不知道如何處理重定向。

這是我能想到的,但還有什麼更好的嗎?可能是現有的工具或更好的腳本語言?

回答

0

您可以使用HTQL來提取html內容。它具有Python和COM接口。見:http://htql.net/

要提取<H1>標籤,簡單地用 「<H1>」 作爲查詢。