0
A
回答
3
如果您只想告訴nutch不要遵循「a」標籤,您可以簡單地將「a」添加到「parser.html.outlinks.ignore_tags」設置中。
如果你想從解析後的數據中去掉「a」標籤及其內容,因爲目前與nutch一起提供的HtmlParser沒有任何與此相關的設置,我認爲你應該編寫一個nutch插件並開發一個HtmlParseFilter來做你的邏輯。
相關問題
- 1. 刪除標籤及其內容
- 2. 刪除除了某個標記及其內容之外的所有內容Python
- 3. 刪除XML標籤及其內容之間的任何東西
- 4. 刪除單詞類及其內部<img>標籤內容
- 5. 如何刪除Sublime tex 2.0中標籤內的所有內容
- 6. PHP:strip_tags - 只刪除特定標籤(及其內容)?
- 7. 使用BeautifulSoup和lxml在Python中刪除標籤及其內容
- 8. PHP函數刪除目錄及其所有子內容。
- 9. 如何刪除所有<span>標籤及其各自的內容,包括其他嵌套元素?
- 10. Nutch + Solr; SolrDeleteDuplicates刪除除索引之外的所有內容
- 11. Apache重寫規則刪除部分網址及其後的所有內容
- 12. 如何從所有其他標籤中刪除標籤屬性?
- 13. 刪除DB2 8.x中的模式及其所有內容
- 14. 在Ruby中刪除「@」符號及其後的所有內容
- 15. Neo4j刪除標籤中的所有節點及其關係
- 16. 刪除Smartgit配置目錄不刪除所有內容
- 17. 刪除腳本內的所有內容標籤
- 18. 如何刪除視覺工作室中的#地區及其所有內容
- 19. 如何從當前目錄中刪除文件夾及其所有內容?
- 20. Java - 刪除文件夾及其內容
- 21. 刪除HTML實體及其內容
- 22. Codeigniter刪除目錄及其內容
- 23. 刪除「quote」標籤之間的所有內容([quote])
- 24. 刪除特定標籤內的內容
- 25. 如何刪除所有標籤?
- 26. 刪除每個H4標籤之前的所有內容
- 27. 如何隱藏除標籤jQuery以外的標籤內的所有內容?
- 28. 在匹配的模式後刪除其他所有內容
- 29. 如何刪除特定的div標籤並使用javascript重置其內容
- 30. PHP刪除標題標籤內的所有段落標籤