我想提取基於PHP(Joomla)網站的所有href值並將其保存爲CSV或類似內容。我有權訪問MySQL內容表,以便在需要時梳理原始數據。提取所有href值
我可能需要過濾掉我稍後提取的內容,但現在我會歡迎任何想法開始。
在此先感謝!
我想提取基於PHP(Joomla)網站的所有href值並將其保存爲CSV或類似內容。我有權訪問MySQL內容表,以便在需要時梳理原始數據。提取所有href值
我可能需要過濾掉我稍後提取的內容,但現在我會歡迎任何想法開始。
在此先感謝!
您可以使用HTML解析器來解析HTML內容;無論它來自文本文件,數據庫字段還是URL。解析器可以讓你有選擇地從HTML中提取內容,在你的情況下,屬性上的<a>
標籤。我使用PHP Simple HTML DOM Parser從網站提取〜1.5 Gig的數據。該頁面上有一個5-10行示例,可以幫助您開始。您也可以使用PHP DOM函數來完成這項工作。您可以在SO上找到大量關於從HTML塊中提取特定內容(標籤,屬性,文本節點)的示例。
SO不是一個地方,有成千上萬的志願者在做你的工作 – zerkms
我不是在找人做這件事_我(我沒有說清楚嗎?)......只需要一些想法即可開始。 – lee
它看起來並不像您爲解決您的問題所做的任何事情。你在堅持什麼? – zerkms