我需要如何去解決這個問題的一些要點:刮網頁和格式化
我有超過10K +簡單的HTML網頁,它們都具有相同的格式。當我說「相同的格式」時,我的意思是它們在開始時都會有相同的h1標籤,但是文本不同,後面跟着一個表格,然後是一個鏈接,等等。所以,如果你看到,基本的HTML 10K +頁面的骨架是相同的,但只是文本會不斷變化。
我有一種方法來遍歷所有這些10K頁。但是我不知道如何將該頁面中的特定文本複製到XLS/CSV列中。一旦我可以達到這個目標,我將把這張excel表格導入MySQL並做進一步的處理。
我知道PHP在一定程度上。所以,這是我能想到的:
$html = file_get_contents("http://www.SomeWebsite.com/");
然後我可以使用一些正則表達式來操作,我需要的數據。然而,我不知道如何處理重定向。
這是我能想到的,但還有什麼更好的嗎?可能是現有的工具或更好的腳本語言?