解析許多HTML文件我有HTML文本如下所示結構的許多實例:與BeautifulSoup和Python
<DOC>
<DOCNO> XXX-2222 </DOCNO>
<FIRST>Reports Former Saigon Officials Released from Re-education Camp</FIRST>
<TEXT>
Lots of text here
</TEXT>
</DOC>
<DOC>
<DOCNO> YYYY-0001 </DOCNO>
<FIRST>AP-ONU-ISRAEL -URGENT-</FIRST>
<TEXT>
Text
</TEXT>
</DOC>
etc, etc...
我需要做的是索引中的每個結構,與DocNo,首先,和文本,以後再分析(標記等)。
我想使用BeautifulSoup,但我需要一起提取幾件事 - 我該怎麼做,並將它們鏈接在一起?
我想的格式,如:
[(XXX-2222, "Reports Former Saigon Officials Released from Re-education Camp", "Lots of text here"), (YYYY-0001, "AP-ONU-ISRAEL -URGENT-", "Text"), etc...)
謝謝!
S.
這不是HTML。差遠了!它可能是* XML *嗎? – 2013-02-14 19:38:31
文件格式是在HTML中,而文件本身是語言語料庫的一部分.. – user2070177 2013-02-14 19:42:18
我不明白 - 無論你在這裏發佈的是*不* HTML。你問我們如何解析你沒有顯示的HTML?此外,代碼與你嘗試過什麼? – 2013-02-14 19:44:36