我是Apache Nutch的新手,我想知道是否可以抓取網頁的選定區域。例如,請選擇一個特定的div
並僅在該div
中抓取內容。任何幫助,將不勝感激。謝謝!如何選擇nutch中特定標籤的數據
1
A
回答
2
您將不得不編寫一個plugin,它將擴展HtmlParseFilter以實現您的目標。
我認爲你會自己做一些東西,比如解析html的特定部分,提取你想要的URL並將它們添加爲outlinks。
HtmlParseFilter實現:(下面的代碼給出了總體思路)
ParseResult filter(Content content, ParseResult parseResult, HTMLMetaTags metaTags, DocumentFragment doc){
// get html content
String htmlContent = new String(content.getContent(), StandardCharsets.UTF_8);
// parse html using jsoup or any other library.
String url = content.getUrl();
Parse parse = parseResult.get(url);
ParseData parseData = parse.getData();
Outlink[] links = parseData.getOutlinks();
// modify/select only required outlinks
// return ParsePesult with modified outlinks
return parseResult;
}
希望這會有所幫助。
如果您是插件新手,我寫了一個簡單的插件「nutch-fetch-page」,它使用HtmlParseFilter
接口將本地驅動器上的html頁面和文本內容保存起來。您可以派生/下載並修改代碼。
+0
你可以添加如何使用jsoup設置選定的outlinks嗎? – Sachin
相關問題
- 1. 如何在li標籤中選擇特定的標籤內容?
- 2. JQuery選擇特定標籤
- 3. 如何解析html與nutch和索引特定的標籤solr?
- 4. 如何在CSS中選擇特定的標籤?
- 5. 如何突出顯示從comboBox中選擇的特定標籤?
- 6. 選擇在jQuery庫特定的標籤
- 7. jquery選擇 - 一個特定的標籤
- 8. 選擇特定的標籤,在WordPress
- 9. Nutch topN選擇標準
- 10. 如何在此html中選擇特定標籤?
- 11. 的XPath:選擇特定的標籤後和同一個標籤
- 12. 如何選擇核心數據中的特定數據?
- 13. 如何從數據表中選擇特定的數據?
- 14. 如何選擇所有包含特定標籤的帖子?
- 15. 如何選擇使用jQuery的特定錨標籤?
- 16. 如何在HTML中傳遞數據選擇選項標籤?
- 17. Mysql根據選擇標籤檢索數據選項標籤
- 18. 在php中選擇數據庫標籤
- 19. 如何記住選擇標籤中的多個選定選項?
- 20. 從ArrayList中選擇特定的數據
- 21. 如何使用jQuery選擇特定標籤時更改標籤文本?
- 22. 如何自定義選擇標籤?
- 23. 在選擇選項標籤中顯示數據庫中的選定選項
- 24. 如何從vb.net中的數據表中選擇特定列?
- 25. 如何在android中選擇列表中的特定數據?
- 26. 從選擇選項標籤定義要創建的數據庫
- 27. 如何更改Pandas數據框中的特定行標籤?
- 28. GSP-選擇標籤。如何才達到選定=「選擇」
- 29. 使用Nutch的抓取特定HTML標籤
- 30. 如何選擇div中的標籤?
從技術上講,爬蟲將始終加載整個頁面。你對內容的處理取決於你。 –
如果是這樣,我如何才能選擇下一輪爬行的特定標籤下的內容? – Sachin
你是什麼意思通過抓取特定的div?你只想提取這個div內的URL?或僅索引div的內容? –