我明白了這一點,以防其他人苦苦掙扎,這就是我是如何做到的。答案是在文件中,它只是不是那很簡單。
閱讀:http://www.opensearchserver.com/documentation/faq/crawling/how_to_extract_specific_information_from_web_pages.md - 它包含方法
假設你建立了一個「網絡爬蟲」指數。
假設你正在使用元縮略圖像這樣:
<meta name="thumbnail" content="http://my_cdn.com/news/images/29637.jpg">
走進模式/場。添加一個索引號爲'thumbnail'的新字段,存儲是,矢量號,分析器文本,空白副本。除此之外。
現在轉到模式/解析器列表,編輯HTML解析器。轉到'字段映射',現在爲html中的縮略圖添加一個新的正則表達式。我們使用匹配的正則表達式從'htmlSource'映射到縮略圖'。
我的不完美的正則表達式(即工作雖然)是:
htmlSource - >在聯:縮略圖 - >通過捕獲:
(?s)<meta name="thumbnail" content="(.*?)">
現在保存此去抓取/手動爬行,進入具有縮略圖的網址,然後檢查該字段是否在讀取時現在出現在下面的列表中。如果不檢查你的正則表達式,並檢查你實際保存了HTML分析器的變化。
爲了讓拇指在搜索結果中,只需將字段名添加到您的查詢發送JSON:
"returnedFields": [ "
"url",
"thumbnail"
],