2016-04-26 53 views
0

我正在學習一種叫做'web scraping'的練習,使用python。從我目前可以知道的想法是發出一個請求,從服務器加載站點數據,將DOM html存儲在一個變量中,然後基本上數據從結果字符串中挖掘s ***,直到您能夠快速訪問完全且只有您需要的信息。有誰知道你好世界的網站?

那麼我準備開始擺弄可能會幫助我做實際數據挖掘的語句,但首先我需要查看和理解字符串中的所有html。在我掌握了它之後,我不會在意HTML的外觀,但現在我需要能夠引用它來正確分析我的輸出。到目前爲止,我已經嘗試谷歌,python.net,YouTube,各種博客等,但他們都看起來像別名。

我只是在尋找你認識的典型東西?

<html><head><meta><script src=""><style src=""><title></title></head><body><div class=""><img src=""></div><div><h1>my page</h1><li></li><li></li><li></li><li></li><li></li><li></li><p>click <a href="">here</a></p></div></body></html> 

你明白我的意思了嗎?只是一個網站...使用像... html ...來渲染一些簡單的結構化數據。

P.S.這是一種整潔。我去給這個帖子一些標籤,我發現了'simple-html-dom'。所以我Google搜索了它。顯然,它是某種語言,它可以讓你從網上資源中解析html,正是我想要的。我可能會稍後再檢查,但我仍想弄清楚如何用python來做到這一點。

編輯實際上像this這樣的工作可以很好,但它是如此之大。我更喜歡小一點的東西。

+6

爲什麼你不只是運行你自己的網絡服務器?然後,您可以根據需要創建頁面。你也應該看美麗的湯(http://www.pythonforbeginners.com/beautifulsoup/) – rj93

+1

+1美麗的湯。但請注意,目前大多數網站都使用JavaScript視圖呈現功能,因此您不能只使用HTTP請求的結果。有趣的是深入挖掘,以便找到AJAX調用返回數據(很好地格式化json或xml)。 – richerlariviere

+0

@richerlariviere我並不完全理解你剛纔所說的話,但我很高興你這樣說,因爲它感覺就像我在一點點潛入後會變得有意義的事情之一。 – Musixauce3000

回答

3

雖然建立自己的網頁可能很好用,但您也可以嘗試尋找「爲l optimized進行優化」的頁面。 Lynx是一個純文本瀏覽器,與「簡單」頁面自然效果最佳。

你會發現大多數鏈接已經死了,但我發現這個列表,例如,仍然有很多活着和同樣簡單的頁面:http://www.put.com/dead.html(請忽略內容本身......沒有特別的原因我選擇了這個例子以外,它可能很適合你的目的!)