我正在學習一種叫做'web scraping'的練習,使用python。從我目前可以知道的想法是發出一個請求,從服務器加載站點數據,將DOM html存儲在一個變量中,然後基本上數據從結果字符串中挖掘s ***,直到您能夠快速訪問完全且只有您需要的信息。有誰知道你好世界的網站?
那麼我準備開始擺弄可能會幫助我做實際數據挖掘的語句,但首先我需要查看和理解字符串中的所有html。在我掌握了它之後,我不會在意HTML的外觀,但現在我需要能夠引用它來正確分析我的輸出。到目前爲止,我已經嘗試谷歌,python.net,YouTube,各種博客等,但他們都看起來像別名。
我只是在尋找你認識的典型東西?
<html><head><meta><script src=""><style src=""><title></title></head><body><div class=""><img src=""></div><div><h1>my page</h1><li></li><li></li><li></li><li></li><li></li><li></li><p>click <a href="">here</a></p></div></body></html>
你明白我的意思了嗎?只是一個網站...使用像... html ...來渲染一些簡單的結構化數據。
P.S.這是一種整潔。我去給這個帖子一些標籤,我發現了'simple-html-dom'。所以我Google搜索了它。顯然,它是某種語言,它可以讓你從網上資源中解析html,正是我想要的。我可能會稍後再檢查,但我仍想弄清楚如何用python來做到這一點。
編輯實際上像this這樣的工作可以很好,但它是如此之大。我更喜歡小一點的東西。
爲什麼你不只是運行你自己的網絡服務器?然後,您可以根據需要創建頁面。你也應該看美麗的湯(http://www.pythonforbeginners.com/beautifulsoup/) – rj93
+1美麗的湯。但請注意,目前大多數網站都使用JavaScript視圖呈現功能,因此您不能只使用HTTP請求的結果。有趣的是深入挖掘,以便找到AJAX調用返回數據(很好地格式化json或xml)。 – richerlariviere
@richerlariviere我並不完全理解你剛纔所說的話,但我很高興你這樣說,因爲它感覺就像我在一點點潛入後會變得有意義的事情之一。 – Musixauce3000