提取所有href值

我想提取基於PHP（Joomla）網站的所有href值並將其保存爲CSV或類似內容。我有權訪問MySQL內容表，以便在需要時梳理原始數據。提取所有href值

我可能需要過濾掉我稍後提取的內容，但現在我會歡迎任何想法開始。

在此先感謝！

2011-08-08 lee

SO不是一個地方，有成千上萬的志願者在做你的工作 – zerkms

我不是在找人做這件事_我（我沒有說清楚嗎？）......只需要一些想法即可開始。 – lee

它看起來並不像您爲解決您的問題所做的任何事情。你在堅持什麼？ – zerkms

您可以使用HTML解析器來解析HTML內容;無論它來自文本文件，數據庫字段還是URL。解析器可以讓你有選擇地從HTML中提取內容，在你的情況下，屬性上的<a>標籤。我使用PHP Simple HTML DOM Parser從網站提取〜1.5 Gig的數據。該頁面上有一個5-10行示例，可以幫助您開始。您也可以使用PHP DOM函數來完成這項工作。您可以在SO上找到大量關於從HTML塊中提取特定內容（標籤，屬性，文本節點）的示例。

來源

2011-08-08 10:43:38

謝謝你，只是我正在尋找的答案:)將更新我的方式。 – lee

我已經玩過PHP簡單的HTML DOM解析器。看起來它不能自動抓取整個網站。（或者你是否設法用你的〜1.5GB的數據做到這一點？！）所以...我試圖找到一種方法將sql列轉換爲1個巨大的HTML文件進行解析... – lee

@lee：爬行是一個單獨的問題。我使用簡單的DOM，類ID /名稱和正則表達式提取了感興趣的*鏈接 - 並非所有鏈接。至於整合數據，你可以用3/4行PHP代碼來完成;然而，我不建議簡單的DOM拋出大文件（一次解析600-800Kb文件，其他時間在450Kb後耗盡內存）。 –

提取所有href值

回答

相關問題