刮網頁和格式化

我需要如何去解決這個問題的一些要點：刮網頁和格式化

我有超過10K +簡單的HTML網頁，它們都具有相同的格式。當我說「相同的格式」時，我的意思是它們在開始時都會有相同的h1標籤，但是文本不同，後面跟着一個表格，然後是一個鏈接，等等。所以，如果你看到，基本的HTML 10K +頁面的骨架是相同的，但只是文本會不斷變化。

我有一種方法來遍歷所有這些10K頁。但是我不知道如何將該頁面中的特定文本複製到XLS/CSV列中。一旦我可以達到這個目標，我將把這張excel表格導入MySQL並做進一步的處理。

我知道PHP在一定程度上。所以，這是我能想到的：

$html = file_get_contents("http://www.SomeWebsite.com/");

然後我可以使用一些正則表達式來操作，我需要的數據。然而，我不知道如何處理重定向。

這是我能想到的，但還有什麼更好的嗎？可能是現有的工具或更好的腳本語言？

您可以使用HTQL來提取html內容。它具有Python和COM接口。見：http://htql.net/

要提取<H1>標籤，簡單地用「<H1>」作爲查詢。

2011-03-11 14:37:03 seagulf

你可以用PHP來做到這一點，儘管我推薦使用XPath而不是正則表達式。我個人使用Python lxml和this webscraping library。

2011-04-12 01:25:59 hoju

回答