1
nutch-site.xml
,在plugin-includes
標題下,當我寫parse-(type1|type2)
時,這是什麼意思?nutch-site.xml文件的插件包含標題下的「parse-(type1 | type2)」的含義
這是否意味着由nutch提取每個url,nutch首先使用type
1解析器解析內容,然後依次調用type2
解析器?
nutch-site.xml
,在plugin-includes
標題下,當我寫parse-(type1|type2)
時,這是什麼意思?nutch-site.xml文件的插件包含標題下的「parse-(type1 | type2)」的含義
這是否意味着由nutch提取每個url,nutch首先使用type
1解析器解析內容,然後依次調用type2
解析器?
你的假設是正確的。這是它的工作原理。但請記住,可以爲每個插件分配一定的內容類型或一組內容類型。例如,parse-pdf插件不會分析msword文檔。