2012-10-12 47 views
0

我對隱藏的html代碼有些困惑。如果我用「查看源文件」功能,也就是說我想提取的HTML源代碼的部分看起來像這樣:用Python提取隱藏的html

<div class="comments_with_more"> 
    <div id="comments_section"> 
    </div> 
</div> 

如果我使用Firefox中的「檢查元素」的功能,它顯示的附加層這是隱藏的「查看源」選項:

<div class="comments_with_more"> 
    <div id="comments_section"> 
    <div id="comments"> 
     (....what I am trying to get to.........) 
    </div> 
    <script> 
    </div> 
</div> 

我懷疑腳本可能是什麼的搞砸了。有沒有人知道如何在一般或Python中隱藏代碼?

+10

多餘的部分不隱藏;他們是通過JavaScript添加的。 「查看源代碼」顯示了服務器發送的HTML結構,「Inspect Element」顯示*當前* HTML結構,因爲它現在* *,包括任何由JavaScript代碼更改的內容。 –

回答

1

你應該使用webkit的這種結合,here你可以看到它在行動做你需要什麼(解析頁面已經載入JavaScript的變化)

+0

謝謝。我從該網頁運行代碼,但它似乎返回空白頁面。 html變量中的內容是:PyQt4.QtCore.QString(u'')。我錯過了什麼嗎?謝謝。 – ezbentley