我目前正在研究一個涉及程序的項目,該程序使用Python來檢查網頁的HTML。我的程序必須監視一個網頁,當對HTML進行更改時,它會完成一組操作。我的問題是如何提取網頁的一部分,以及如何監控網頁的HTML並在發生變更時立即報告。謝謝。使用python從網站中提取HTML的部分
0
A
回答
1
Scrapy可能是一個很好的開始。 http://doc.scrapy.org/en/latest/intro/overview.html
獲取網站的部分很容易,它只是xml,您可以使用scrapy或美麗的。
2
在過去,我寫了自己的解析器。如今HTML是HTML 5,多個語句,更多的JavaScript,很多crappiness的開發人員和他們的編輯完成的,像
document.write('<SCR' + 'IPT
而且一些Web框架/開發者糟糕的編碼改變的Last-Modified HTTP標頭中的每一個請求,即使對於人來說,您在頁面上閱讀的文本也不會改變。
我建議你BeautifulSoup爲解析的東西;通過您自己,您必須小心選擇要監視的內容,以決定網頁是否被修改。
其介紹:
BeautifulSoup是一個Python包,解析破HTML,就像 LXML支持它的基礎上的libxml2的解析器。 BeautifulSoup使用不同的解析方法。它不是一個真正的HTML解析器,但使用正則表達式來瀏覽標籤湯。因此,在某些情況下,更多的是寬容的,而其他的則不那麼好。 並不罕見,lxml/libxml2更好地解析並修復了損壞的HTML,但 BeautifulSoup對編碼檢測有着卓越的支持。它非常依賴於解析器工作得更好的輸入。
相關問題
- 1. 從網站中提取HTML部分?
- 2. 從網站中提取html
- 3. 使用python從網站提取數據
- 4. 使用Python從網站提取數據
- 5. 使用Python從HTML網站提取多行數據
- 6. 使用python從網頁中提取部分
- 7. 在Python中獲取html網站的一部分
- 8. 從使用Python中的beautifulsoup的網站中提取數字
- 9. 使用Python從網站中提取網頁元素
- 10. 從可能使用Cookie的網站的URL中提取HTML內容通過Python
- 11. 使用python和beautlfulsoup從網站中的href中提取文本
- 12. 從python中的URL中提取部分
- 13. 從其他網站嵌入HTML部分?
- 14. 使用python從html中提取文本
- 15. 無法從網站提取HTML
- 16. Android - 如何從FTP網站提取HTML
- 17. 我將如何去使用Python從網站中提取數據?
- 18. 使用beautifullsoup和python從網站/文件中提取.js文件
- 19. 用groovy提取部分HTML
- 20. Javascript從外部網站獲取html
- 21. 從Python中提取XML部分
- 22. Python:從網站提取數據值
- 23. 從外部網站提取信息
- 24. 提取從網站使用BeautifulSoup(Python)的具體信息
- 25. 使用DOM從網站獲取HTML
- 26. 使用HtmlAgilityPack從網站提取數據
- 27. 提取從網站使用VBA
- 28. 使用iMacros從網站提取數據
- 29. 使用XSLT從網站提取數據
- 30. 從網站使用rvest提取表格