2015-05-07 56 views
-1

我正在廢除網站。所以我爲此製作了一個桌面應用程序。我不能看到整個html源代碼按ctrl + U

我使用檢查元素檢查網站,然後我可以看到網站的整體數據,但是當我嘗試使用頁面源(ctrl + U)檢查網站數據時,沒有任何內容。 表示我無法在頁面源中找到任何網站數據,但可以在螢火蟲(檢查元素)中看到。

因爲這一點,當我試圖獲取數據使用C#編碼,然後我只獲取頁面源數據,其中不包含任何網站數據只包含架構(結構)和JS鏈接。

看到螢火蟲的形象。

Page source in Firebug

這是網頁的源圖像。

Page source

+0

也許它們被動態地追加到文檔中。 –

+0

是的,我也這麼認爲,但還有其他方式可以從這類網站上取消數據。 –

+0

「廢料數據」是什麼意思?您正在比較開發工具和發送給瀏覽器的初始輸出。您可以搜索在開發工具中動態添加的元素。 – Kamo

回答

0

您遇到的JS供電現場。內容是通過js動態加載的,因此它在頁面源代碼中不可見。轉到支持js代碼評估的scrape庫。在這裏看到an example

+0

你知道任何支持js代碼的scrape庫嗎? –

+0

@KaranPatel,你使用什麼語言?看到我提到的帖子及其評論(如果使用* python *)。 –

+0

我正在使用c#語言。 –