2015-09-14 33 views
1

我需要獲取GSA(GSA 7)索引/集合中包含一個或多個特定鏈接的所有文檔的列表。 所以我有一個網址列表,需要找到任何包含它們的文檔(在文檔正文中,而不是元數據)。 UCM提供了大約70萬份文檔(全文索引)。 包含鏈接的文檔數量太大,無法通過常規搜索來獲取。 是否有一些OOTB的方式來實現這一目標?將要走什麼路?我正在考慮創建一個單獨的集合,但過濾條件僅適用於URL,而不適用於文件的內容。GSA - 獲取索引的子集

由於提前, ž

回答

1

Entity Recognition使用你可以標記包含URL模式(一個或多個),您有興趣與特定一條元數據的每個文檔。然後,您可以使用此生成的元數據標記將結果篩選爲您感興趣的結果。 不幸的是,您仍然依賴運行搜索來找到它們,並且您需要等待GSA重新抓取創建ER規則後的所有內容,然後才能查找這些文檔。

或者,如果您從連接器饋送它們,您可以添加一個Document Filter,它檢查每個正在饋送的文件的內容,然後在某處(如:文件,數據庫或Web服務)記錄當前文檔的URL你正在尋找的模式。這仍然需要重新抓取,但至少您不需要運行搜索來查找匹配,您可以查閱您的日誌。

+0

這些是我不知道的兩個好主意,謝謝。關於DocumentFilter的一個問題:我看到元數據可以很容易地被改變。但是,如何引用文檔中的文本(如果有方法的話)?所以在我的情況下,我需要搜索一堆網址。我是否使用「內容」並將其視爲常規標籤?另外,是否可以修改文檔的主體?我會假設沒有。 – user1681189

+0

這段時間以來,我已經嘗試過,但是,我確定如果您實現自己的DocumentFilter類,您將能夠訪問內容。如果我能找到一個例子,我會編輯我的答案。 – BigMikeW