在OpenSearchServer搜索結果中獲取縮略圖

我需要一個替代Google自定義搜索的網站，我需要的是抓取網站，索引它，允許優先級擺弄，然後允許通過REST進行搜索查詢或類似的東西，並返回XML或JSON等，它需要在Windows Server實例上運行。在OpenSearchServer搜索結果中獲取縮略圖

所以，我和http://www.opensearchserver.com/一起運行，它似乎在做伎倆，但不能爲我的生活找出如何在結果中獲得縮略圖？我搜索了文檔並閱讀了所有可能的內容，但無法找到如何做到這一點（或者如何讓我的頭腦轉向它）。

我爬行的標準網頁，他們都有縮略圖元數據，我假設應該能夠以某種方式解析結果幷包含在JSON結果中？

任何指針都會非常有幫助，謝謝！

2016-05-10 Ralpharama

我明白了這一點，以防其他人苦苦掙扎，這就是我是如何做到的。答案是在文件中，它只是不是那很簡單。

假設你建立了一個「網絡爬蟲」指數。

假設你正在使用元縮略圖像這樣：

<meta name="thumbnail" content="http://my_cdn.com/news/images/29637.jpg">

走進模式/場。添加一個索引號爲'thumbnail'的新字段，存儲是，矢量號，分析器文本，空白副本。除此之外。

現在轉到模式/解析器列表，編輯HTML解析器。轉到'字段映射'，現在爲html中的縮略圖添加一個新的正則表達式。我們使用匹配的正則表達式從'htmlSource'映射到縮略圖'。

我的不完美的正則表達式（即工作雖然）是：

htmlSource - >在聯：縮略圖 - >通過捕獲：

(?s)<meta name="thumbnail" content="(.*?)">

現在保存此去抓取/手動爬行，進入具有縮略圖的網址，然後檢查該字段是否在讀取時現在出現在下面的列表中。如果不檢查你的正則表達式，並檢查你實際保存了HTML分析器的變化。

爲了讓拇指在搜索結果中，只需將字段名添加到您的查詢發送JSON：

"returnedFields": [ " 
    "url", 
    "thumbnail" 
],

2016-05-10 14:31:04 Ralpharama

回答