0
我想使用一個像美麗湯(python)的HTML解析器來獲取特定div的內容,通過運行一個python腳本將其中的所有數據存儲在我的本地服務器中將通過cron定期在我的web服務器上執行。使用HTML解析器獲取特定div的內容
此外,我需要能夠顯示那些內容完全符合他們在我的網站上以前的網頁顯示。
如果div的內容是單獨的文本,它會很容易,但它是文本和圖像的組合。 雖然偶爾會有swf文件,但我不想導入它們。
假設有問題的div被稱爲'cont'。 什麼是最好的方法來做到這一點?
最好的辦法是先寫一些代碼,tbh。否則,你要求的是太寬泛。 – Manhattan
寫完這個問題之後,我認爲XML可能是一種解決這個問題的方法。你認爲這是一個好主意嗎? – dK3
確實有可能。儘管如此,如果頁面被分析的很小,我不明白爲什麼urllib和bs4或lxml的簡單組合不夠用。您也可以將圖像保存爲離線圖像,也可以保存在數據庫中,其中Python已經擁有豐富的資源。 :) – Manhattan