2016-01-18 39 views
1

我們需要通過元數據和網址Feed添加特定的網址,並阻止GSA跟蹤這些網頁上的鏈接。即使在遵循模式規則中指定的網頁上找到的網址也必須被忽略。通過元數據和網址Feed添加的網址的抓取深度

是否可以指定爬行的深度,通過元數據和網址飼料或可能有一些其他的方法來防止GSA遵循特定頁面上找到的網址添加網址嗎?

回答

0

你不能只是一個解決這個問題的元數據和-URL供稿。 GSA會抓取它找到的鏈接,除非您可以指定模式來阻止它們。

有幾種可能的解決方案,我可以想到。

  1. 您可以使用內容供稿替換元數據和URL供稿。然後您必須獲取任何想要索引的內容並將其包含在Feed中。您的提取程序可以刪除所有鏈接,也可以通過爲每個文檔指定不正確的URL來「破壞」相關鏈接。然後,您必須將不正確的網址重新寫回搜索結果顯示頁面中的正確網址。我之前完成了第二種方法,這很容易做到。

  2. 您可以使用爬網代理來阻止訪問您不希望GSA遵循的任何鏈接。

0

最簡單的方法是將以下內容添加到HTML的「HEAD」部分。

這將防止GSA(及其他任何搜索引擎)從以下頁面上的任何鏈接。

+0

嗨特里。感謝您的回覆。我們只需要爲GSA指定此規則,但此頁面必須可供其他搜索引擎訪問。 –

+0

GSA是一個網絡爬蟲程序,所以它將遵循鏈接,除非您準備將GSA配置爲具有不可爬網的已知網址列表。 –

0

既然你說你不能添加相關的nofollow元標籤到你的內容,那麼你可以使用你的關注和爬行模式來處理這個。

official documentation

谷歌建議爬行到最大深度,允許谷歌的算法呈現最好的搜索結果的用戶。您可以使用URL模式來控制索引中包含多少級別的子目錄。

例如,以下網址模式而使Search Appliance抓取的網站www.mysite.com前三個子目錄:

regexp:www\\.mysite\\.com/[^/]*$ 
regexp:www\\.mysite\\.com/[^/]*/[^/]*$ 
regexp:www\\.mysite\\.com/[^/]*/[^/]*/[^/]*$ 
+0

HI BigMikeW,感謝您的回覆!問題是頁面可能包含具有相同模式的其他URL(相同深度)。例如,我們通過feed添加URL http://example.com/123,抓取工具轉到此頁面並找到http://example.com/223 URL並將其添加到索引,但只能添加123。 –

+0

您可以像傳遞Feed中的任何其他元數據一樣傳遞機器人nofollow。是否已嘗試將漫遊器元數據添加到Feed中的每個文檔? – BigMikeW

+0

是的,我試過了。它看起來像GSA忽略它們。_一般而言,可以將機器人META標記的值爲noindex,nofollow或noarchive嵌入到HTML文檔的頭部,以防止Search Appliance將鏈接編入索引或在文檔中追蹤它們。但是,供稿文件中的機器人META標記不符合HTML文檔本身的META標記._ https://www.google.com/support/enterprise/static/gsa/docs/admin/72/gsa_doc_set/ feedsguide/feedsguide.html#1073150 –