-1
我想利用該網站的三個組成部分,第一個是Ipadress,港口和protoco,我用的HTMLParser在Python來解決,但在標籤下面的代碼有沒有attrisbute和價值獲取數據
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>proxy-list</title>
</head>
\t <body>
\t \t <table>
\t \t \t <tr>
\t \t \t \t <td>192.168.1.10</td>
\t \t \t \t <td>HTTP1</td>
\t \t \t \t <td>Vietnam</td>
\t \t \t \t <td>8080</td>
\t \t \t \t <td>a</td>
\t \t \t \t <td>%d1</td>
\t \t \t </tr>
\t \t \t <tr>
\t \t \t \t <td>10.25.100.10</td>
\t \t \t \t <td>HTTPS2</td>
\t \t \t \t <td>Campuchia</td>
\t \t \t \t <td>3214</td>
\t \t \t \t <td>b</td>
\t \t \t \t <td>%d2</td>
\t \t \t </tr>
\t \t \t <tr>
\t \t \t \t <td>203.25.10.110</td>
\t \t \t \t <td>HTTP3</td>
\t \t \t \t <td>ThaiLan</td>
\t \t \t \t <td>123</td>
\t \t \t \t <td>c</td>
\t \t \t \t <td>%d3</td>
\t \t \t </tr>
\t \t \t <tr>
\t \t \t \t <td>220.155.10.13</td>
\t \t \t \t <td>HTTP4</td>
\t \t \t \t <td>Itali</td>
\t \t \t \t <td >1000</td>
\t \t \t \t <td>d</td>
\t \t \t \t <td>%d4</td>
\t \t \t </tr>
\t \t \t <tr>
\t \t \t \t <td>220.155.10.113</td>
\t \t \t \t <td>HTTP5</td>
\t \t \t \t <td>Itali</td>
\t \t \t \t <td >505</td>
\t \t \t \t <td>d</td>
\t \t \t \t <td>%d4</td>
\t \t \t </tr>
\t \t \t <tr>
\t \t \t \t <td>220.155.10.115</td>
\t \t \t \t <td>HTTPS6</td>
\t \t \t \t <td>Itali</td>
\t \t \t \t <td >321</td>
\t \t \t \t <td>d</td>
\t \t \t \t <td>%d4</td>
\t \t \t </tr>
\t \t </table>
\t </body>
</html>
那麼,如何讓所有3個組件IPadress和端口,protoco。
任何你試過的東西? –
讓所有**'
回答
嘗試使用
lxml
:輸出:
來源
2015-11-06 10:11:11
非常感謝:D –
但我想用HTMLParser編寫,沒有AndrésPérez-Albela H? –
對不起AndrésPérez-Abela H,我非常感謝您的幫助 –
你將不得不自己添加標籤。我同意Andres認爲
lxml
更適合於此,但使用HTMLParser
,您可以創建一個TableParser
類,該類輸出一個嵌套數組,其中包含每個表格行的字典。來源
2015-11-06 10:19:46 Jaco
非常感謝 –
Jaco:爲什麼?腳本只是得到一個數組
我不確定你在問什麼。我已經修改我的腳本來返回一個嵌套的數組,只是包含你想要的細節。 – Jaco
相關問題