2016-05-10 52 views
0

我需要一個替代Google自定義搜索的網站,我需要的是抓取網站,索引它,允許優先級擺弄,然後允許通過REST進行搜索查詢或類似的東西,並返回XML或JSON等,它需要在Windows Server實例上運行。在OpenSearchServer搜索結果中獲取縮略圖

所以,我和http://www.opensearchserver.com/一起運行,它似乎在做伎倆,但不能爲我的生活找出如何在結果中獲得縮略圖?我搜索了文檔並閱讀了所有可能的內容,但無法找到如何做到這一點(或者如何讓我的頭腦轉向它)。

我爬行的標準網頁,他們都有縮略圖元數據,我假設應該能夠以某種方式解析結果幷包含在JSON結果中?

任何指針都會非常有幫助,謝謝!

回答

0

我明白了這一點,以防其他人苦苦掙扎,這就是我是如何做到的。答案是在文件中,它只是不是很簡單。

閱讀:http://www.opensearchserver.com/documentation/faq/crawling/how_to_extract_specific_information_from_web_pages.md - 它包含方法

假設你建立了一個「網絡爬蟲」指數。

假設你正在使用元縮略圖像這樣:

<meta name="thumbnail" content="http://my_cdn.com/news/images/29637.jpg"> 

走進模式/場。添加一個索引號爲'thumbnail'的新字段,存儲是,矢量號,分析器文本,空白副本。除此之外。

現在轉到模式/解析器列表,編輯HTML解析器。轉到'字段映射',現在爲html中的縮略圖添加一個新的正則表達式。我們使用匹配的正則表達式從'htmlSource'映射到縮略圖'。

我的不完美的正則表達式(即工作雖然)是:

htmlSource - >在聯:縮略圖 - >通過捕獲:

(?s)<meta name="thumbnail" content="(.*?)"> 

現在保存此去抓取/手動爬行,進入具有縮略圖的網址,然後檢查該字段是否在讀取時現在出現在下面的列表中。如果不檢查你的正則表達式,並檢查你實際保存了HTML分析器的變化。

爲了讓拇指在搜索結果中,只需將字段名添加到您的查詢發送JSON:

"returnedFields": [ " 
    "url", 
    "thumbnail" 
],