2011-08-08 81 views
0

我想提取基於PHP(Joomla)網站的所有href值並將其保存爲CSV或類似內容。我有權訪問MySQL內容表,以便在需要時梳理原始數據。提取所有href值

可能需要過濾掉我稍後提取的內容,但現在我會歡迎任何想法開始。

在此先感謝!

+0

SO不是一個地方,有成千上萬的志願者在做你的工作 – zerkms

+0

我不是在找人做這件事_我(我沒有說清楚嗎?)......只需要一些想法即可開始。 – lee

+0

它看起來並不像您爲解決您的問題所做的任何事情。你在堅持什麼? – zerkms

回答

1

您可以使用HTML解析器來解析HTML內容;無論它來自文本文件,數據庫字段還是URL。解析器可以讓你有選擇地從HTML中提取內容,在你的情況下,屬性上的<a>標籤。我使用PHP Simple HTML DOM Parser從網站提取〜1.5 Gig的數據。該頁面上有一個5-10行示例,可以幫助您開始。您也可以使用PHP DOM函數來完成這項工作。您可以在SO上找到大量關於從HTML塊中提取特定內容(標籤,屬性,文本節點)的示例。

+0

謝謝你,只是我正在尋找的答案:)將更新我的方式。 – lee

+0

我已經玩過PHP簡單的HTML DOM解析器。看起來它不能自動抓取整個網站。 (或者你是否設法用你的〜1.5GB的數據做到這一點?!)所以...我試圖找到一種方法將sql列轉換爲1個巨大的HTML文件進行解析... – lee

+0

@lee:爬行是一個單獨的問題。我使用簡單的DOM,類ID /名稱和正則表達式提取了感興趣的*鏈接 - 並非所有鏈接。至於整合數據,你可以用3/4行PHP代碼來完成;然而,我不建議簡單的DOM拋出大文件(一次解析600-800Kb文件,其他時間在450Kb後耗盡內存)。 –