我對編程,Python和BS4相當陌生,我希望通過網絡爬蟲項目更好。我有一堆類似的信息,我想單獨分頁。這裏是什麼,我需要使用的模板:BeautifulSoup4中兩個標籤之間的段落
<h3>Synopsis</h3>
<p>First part of synopsis</p>
<p>Second part of paragraph</p>
<p>Third part of paragraph</p>
<p class="writerDirector"><strong>Written By:</strong> Writer<br>
<strong>Directed By:</strong> Director</p>
<h4>Cast</h4>
<p>List of the cast in one line</p>
的「導演」和信息「書面」是很容易收集,但我想有大綱和投段落爲好。問題在於網站上的故事梗概並不總是三段(有時更少,有時更多),所以我無法對其進行硬編碼。我的想法是使用文本中的「概要」一詞作爲起點和關鍵點,並收集所有內容,我不知道如何實現這一點。我試圖用正則表達式工作,但我不知道那麼多,我不知道如何在正則表達式中使用html標記。
任何幫助,將不勝感激。
你想要的一切所示在灰色的框? –