有誰知道你好世界的網站？

我正在學習一種叫做'web scraping'的練習，使用python。從我目前可以知道的想法是發出一個請求，從服務器加載站點數據，將DOM html存儲在一個變量中，然後基本上數據從結果字符串中挖掘s ***，直到您能夠快速訪問完全且只有您需要的信息。有誰知道你好世界的網站？

那麼我準備開始擺弄可能會幫助我做實際數據挖掘的語句，但首先我需要查看和理解字符串中的所有html。在我掌握了它之後，我不會在意HTML的外觀，但現在我需要能夠引用它來正確分析我的輸出。到目前爲止，我已經嘗試谷歌，python.net，YouTube，各種博客等，但他們都看起來像別名。

我只是在尋找你認識的典型東西？

<html><head><meta><script src=""><style src=""><title></title></head><body><div class=""><img src=""></div><div><h1>my page</h1><li></li><li></li><li></li><li></li><li></li><li></li><p>click <a href="">here</a></p></div></body></html>

你明白我的意思了嗎？只是一個網站...使用像... html ...來渲染一些簡單的結構化數據。

P.S.這是一種整潔。我去給這個帖子一些標籤，我發現了'simple-html-dom'。所以我Google搜索了它。顯然，它是某種語言，它可以讓你從網上資源中解析html，正是我想要的。我可能會稍後再檢查，但我仍想弄清楚如何用python來做到這一點。

編輯實際上像this這樣的工作可以很好，但它是如此之大。我更喜歡小一點的東西。

來源

2016-04-26 Musixauce3000

爲什麼你不只是運行你自己的網絡服務器？然後，您可以根據需要創建頁面。你也應該看美麗的湯（http://www.pythonforbeginners.com/beautifulsoup/） – rj93

+1美麗的湯。但請注意，目前大多數網站都使用JavaScript視圖呈現功能，因此您不能只使用HTTP請求的結果。有趣的是深入挖掘，以便找到AJAX調用返回數據（很好地格式化json或xml）。 – richerlariviere

@richerlariviere我並不完全理解你剛纔所說的話，但我很高興你這樣說，因爲它感覺就像我在一點點潛入後會變得有意義的事情之一。 – Musixauce3000

雖然建立自己的網頁可能很好用，但您也可以嘗試尋找「爲l optimized進行優化」的頁面。 Lynx是一個純文本瀏覽器，與「簡單」頁面自然效果最佳。

你會發現大多數鏈接已經死了，但我發現這個列表，例如，仍然有很多活着和同樣簡單的頁面：http://www.put.com/dead.html（請忽略內容本身......沒有特別的原因我選擇了這個例子以外，它可能很適合你的目的！）

來源

2016-04-26 14:59:09 CherryDT

有誰知道你好世界的網站？

回答

相關問題