如何使用美麗的湯和selectorgadget來刮掉網站。例如,我有一個網站 - (a newegg product),我希望我的腳本能夠返回該產品的所有規格(點擊規格),我的意思是 - 英特爾,臺式機......,2.4GHz,1066Mhz,。 .....,3年有限。使用selectorgadget.com解析HTML文件
使用selectorgadget後,我得到了與字符串 .desc
如何使用呢?
謝謝:)
如何使用美麗的湯和selectorgadget來刮掉網站。例如,我有一個網站 - (a newegg product),我希望我的腳本能夠返回該產品的所有規格(點擊規格),我的意思是 - 英特爾,臺式機......,2.4GHz,1066Mhz,。 .....,3年有限。使用selectorgadget.com解析HTML文件
使用selectorgadget後,我得到了與字符串 .desc
如何使用呢?
謝謝:)
檢查的頁面,我可以看到的規格被放置在一個div與ID pcraSpecs:
<div id="pcraSpecs">
<script type="text/javascript">...</script>
<TABLE cellpadding="0" cellspacing="0" class="specification">
<TR>
<TD colspan="2" class="title">Model</TD>
</TR>
<TR>
<TD class="name">Brand</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD>
</TR>
<TR>
<TD class="name">Processors Type</TD>
<TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>
</TR>
...
</TABLE>
</div>
遞減是班裏的表格單元格。
你想要做的是提取此表的內容。
soup.find(id="pcraSpecs").findAll("td")
應該讓你開始。
您是否嘗試過使用Feedity - http://feedity.com從任何網頁創建自定義RSS訂閱源。