Q

最佳可見內容提取器可用

2017-01-02 36 views 1 likes

1

因此，我的應用程序需要來自給定URL的可見內容，例如文本部分，無html無頁眉或頁腳數據。截至目前，我使用beautifulsoup和boilerpipe獲得相同的。但在極少數情況下，我沒有獲得足夠的數據或正確的數據。所以想知道是否還有其他競爭對手，編程語言不是障礙。最佳可見內容提取器可用

2017-01-02 najeeb

A

回答

1

我會推薦xpath或css提取器直接提取內容，這兩個選擇器已經簡單地在parsel模塊上實現。

對於一整套網絡抓取+內容提取器，scrapy將是我的首選選項。

如果你想提取視覺選擇HTML的哪些部分提取，我會建議portia。

希望有幫助。

2017-01-02 13:19:34 eLRuLL

+0

非常感謝您的回答。而且，所有這些都很好，但我們不是爬蟲。只需要一個頁面上的可見內容提取，如鍋爐或美麗。 – najeeb

相關問題