2013-05-17 91 views
0

我在Ubuntu服務器上使用Nutch 1.6和Solr 4.3 12.04 我想打開和關閉內容索引。有沒有辦法在我的HTML頁面中指定這種行爲,以便Solr可以相應地執行?作爲一個例子,當使用Google Search Appliance時,我會在頁面上我不想索引的內容(頁眉,頁腳,版權字符串等)周圍使用「googleon」 - 「googleoff」標籤。如何關閉/打開網頁索引

謝謝

回答

3

您需要爲Nutch創建一個自定義插件才能完成此行爲。以下是一些與示例相關的鏈接。

+1

第二個鏈接非常清楚需要發生什麼。我有一個類似它的實現來定位由我們的模板系統注入的自定義標籤,所以我想像編寫一個類似的插件可以幫你實現,Zander。 – Claude

+0

謝謝佩奇和克勞德。將嘗試這種方法。 – MarioCannistra

0

有一個文本文件,爲「robots.txt」,爲搜索引擎哪些網頁的HTML程序被允許或不看內容提供信息。在鏈接FAQ robots.txt: How to stop indexing你會發現所有的信息。

+0

該文件控制抓取工具活動它被放置在Web文件夾。相反,我指的是使用標籤控制頁面內部索引的方法(有關更多詳細信息,請參閱谷歌googleov/googleon標籤) – MarioCannistra