所以我是一個webscraping noob,並遇到了一些我從未見過的HTML格式。我需要的所有信息都是完全平坦的層次結構。我需要抓住日期/電影名稱/位置/設施。在完全平坦的HTML層次上使用BeautifulSoup
它奠定了這樣(就這樣):
<div class="caption">
<strong>July 1</strong>
<br>
<em>Top Gun</em>
<br>
"Location: Millennium Park"
<br>
"Amenities: Please be a volleyball tournament..."
<br>
<em>Captain Phillips</em>
<br>
"Location: Montgomery Ward Park"
<br>
<br>
<strong>July 2</strong>
<br>
<em>The Fantastic Mr. Fox </em>
我想最終在一本字典或列表格式,以能夠使用csvwriter寫出來作爲一個CSV文件或Dictwriter;所以像
輸出[7月1日,壯志凌雲,千禧公園,「請一個排球賽......」], [7月1日,飛利浦船長,蒙哥馬利沃德公園]等
由於令人煩惱的是,當兩部電影在相同的日期顯示時,日期只顯示在第一部電影之前;然後列出所有電影,直到下一個<strong>somedate<strong>
歸入該初始日期。
建議傢伙?如何讓多部電影在上面標籤中指定的日期之下?可能考慮find_next_siblings包括檢查標籤是否爲<strong>
標籤?
嘿@Erik Vesteraas,不是真正理解doc.replace的目的。你能否詳細說明一下?謝謝! – SpicyClubSauce