3

如何使用美麗的湯和selectorgadget來刮掉網站。例如,我有一個網站 - (a newegg product),我希望我的腳本能夠返回該產品的所有規格(點擊規格),我的意思是 - 英特爾,臺式機......,2.4GHz,1066Mhz,。 .....,3年有限。使用selectorgadget.com解析HTML文件

使用selectorgadget後,我得到了與字符串 .desc

如何使用呢?

謝謝:)

回答

1

檢查的頁面,我可以看到的規格被放置在一個div與ID pcraSpecs:

<div id="pcraSpecs"> 
    <script type="text/javascript">...</script> 
    <TABLE cellpadding="0" cellspacing="0" class="specification"> 
    <TR> 
     <TD colspan="2" class="title">Model</TD> 
    </TR> 
    <TR> 
     <TD class="name">Brand</TD> 
     <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD> 
    </TR> 
    <TR> 
     <TD class="name">Processors Type</TD> 
     <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>  
    </TR> 
    ... 
    </TABLE> 
</div> 

遞減是班裏的表格單元格。

你想要做的是提取此表的內容。

soup.find(id="pcraSpecs").findAll("td")應該讓你開始。

0

您是否嘗試過使用Feedity - http://feedity.com從任何網頁創建自定義RSS訂閱源。