0
我使用Goose從各種URL提取標題和主文本。它適用於大多數網址,只有一個特定的荷蘭新聞網站。任何想法這裏怎麼了?從鵝提取HTML文本(除一個以外的所有工作)
具體問題的URL是here.
我的代碼:
g = Goose()
content_url = g.extract(url=url)
allcontent = content_url.cleaned_text
print allcontent
我期待整個文本,但奇怪的是我剛剛得到從文章下面的段落在隨機點。
Toerisme was een groot goed toen het een voorrecht was van de elite. Maar nu de massa in het voetspoor treedt van Floortje Dessing gaat het van kwaad tot erger. Het verplaatsen van mensen per cruiseboot of jumbojet is milieubelastend. Toeristen die de bloemetjes buiten zetten, veroorzaken geluidsoverlast in de kleine uurtjes. Toeristenplaatsen veranderen buiten het seizoen in spookoorden. En een bezoek aan de yakherders in Mongolië is een stuk minder interessant als blijkt dat de buren er twee maanden eerder ook waren geweest.
我對每篇文章的前2-3句感興趣。有沒有辦法強制Goose選擇第一個文本塊? – utengr