1

因此,我的應用程序需要來自給定URL的可見內容,例如文本部分,無html無頁眉或頁腳數據。截至目前,我使用beautifulsoupboilerpipe獲得相同的。但在極少數情況下,我沒有獲得足夠的數據或正確的數據。所以想知道是否還有其他競爭對手,編程語言不是障礙。最佳可見內容提取器可用

回答

1

我會推薦xpathcss提取器直接提取內容,這兩個選擇器已經簡單地在parsel模塊上實現。

對於一整套網絡抓取+內容提取器,scrapy將是我的首選選項。

如果你想提取視覺選擇HTML的哪些部分提取,我會建議portia

希望有幫助。

+0

非常感謝您的回答。而且,所有這些都很好,但我們不是爬蟲。只需要一個頁面上的可見內容提取,如鍋爐或美麗。 – najeeb