好吧,我有這個HTML文件,其中包含許多div標籤和表標籤。 div標籤包含與其他div標籤部分相關的id,但在每個div標籤部分之後是包含我需要的數據的表格部分。我希望能夠獲取這個HTML文件並創建數組,列表,字典等...某種結構,以便我可以輕鬆搜索相關信息並從中提取我需要的信息。如何使用python從非結構化的HTML中創建結構化陣列
HTML文件中whats的示例。
<DIV class="info"> <A name="bc968f9fa2db71455f50e0c13ce50e871fS7f0e"
id="bc968f9fa2db71455f50e0c13ce50e871fS7f0e">
<B>WORKSPACE_WEBAPP</B> (WORKSPACE_WEBAPP)<BR/> <B>Object ID:
</B> bc968f9fa2db71455f50e0c13ce50e871fS7f0e<BR/> <B>Last
Modified Date : </B> 26-Sep-13 10:41:13<BR/>
<B>Properties:</B><BR/> </DIV>
<TABLE class="properties"> <TR class="header"><TH>Property
Name</TH><TH>Property Value</TH></TR>
<TR><TD>serverName</TD><TD>FoundationServices0</TD></TR>
<TR><TD>context</TD><TD>workspace</TD></TR>
<TR><TD>isCompact</TD><TD>false</TD></TR>
<TR><TD>AppServer</TD><TD>WebLogic 10</TD></TR>
<TR><TD>port</TD><TD>28080</TD></TR>
<TR><TD>maintVersion</TD><TD>11.1.2.2.0.66</TD></TR>
<TR><TD>version</TD><TD>11.1.2.0</TD></TR>
<TR><TD>SSL_Port</TD><TD>28443</TD></TR>
<TR><TD>instance_home</TD><TD>/essdev1/app/oracle/Middleware/user_projects/epmsystem1</TD></TR>
<TR><TD>configureBPMUIStaticContent</TD><TD>true</TD></TR>
<TR><TD>validationContext</TD><TD>workspace/status</TD></TR> </TABLE>
所以我希望能夠爲這些div部分創建一個數組,並且還包含該表中的區域以及該數組中的屬性。我無法將自己的頭圍繞在最好的方式去做。我知道答案可能包含使用BeautifulSoup解析標籤。由於沒有其他方式將表格部分與div部分關聯起來,我相信我必須一次加載一行文件並以此方式處理文件,除非有更簡單的方法?任何想法都會非常有幫助。
你看了一下[在Python中解析HTML](http://stackoverflow.com/questions/11709079/parsing-html-python)? – Huey
是的,我讀過這個和許多其他的python HTML解析指南。我想我最大的問題是如何控制閱讀div標籤部分,然後閱讀它的關聯表部分,然後移動到下一個div標籤部分和表部分,直到整個文件被解析。 – todd1215
您可以在閱讀後刪除div標籤,然後查找下一個標籤,直到找不到更多標籤爲止? – Huey