2014-06-05 98 views
0

我們有一個要求,我們需要抓取一組特定的網址。關於Google Search Appliance的抓取網址

說例如我們有網站abc.com。我們需要抓取abc.com/test/needed - 在「需要」文件夾下匹配此模式的所有URL。但我們不想抓取abc.com/test/下的其他網址。

我想這將使用RegEx完成。任何人都可以幫助我RegEx?

+1

你的問題有點不清楚,你想要什麼?你有一個網址列表,你想匹配一些而不是其他的?哪些你想匹配,哪些不想匹配,舉例說明。 –

+0

舉例說明我有以下網址1)www.abc.com 2)www.abc.com/xyz 3)www.abc.com/xyz/imp 4)www.abc.com/xyz/waste 5)www。 abc.com/pqr我正在尋找一個正則表達式,它會找到具有模式「/ xyz」的匹配uls,但是如果它的「xyz/imp」它會跳過它,則休息所有組合f或「/ xyz」應該匹配。 – user1085906

+0

所以你想匹配'/ xyz'形式的東西,而不是'/ xyz/imp'形式的東西? –

回答

0

從你的評論說,模式匹配形式的東西去的形式/xyz/imp/xyz但事情:

/xyz(/[^i][^m][^p].*)?|/xyz/.{0,2} 
+0

謝謝。這是好的,並且匹配了xyz ..要求是bit diff的url模式。我想匹配www.abc.com/xyz/imp,www.abc.com/,www.abc.com/pqr,但不是www.abc.com/xyz/waste。 ...所以簡而言之,如果url有/ xyz /比它應該有xyz/imp或者不匹配它。如果url沒有/ xyz /也不匹配那些url。 – user1085906

+0

我真的不明白你在問什麼。 [這裏是關於正則表達式的教程](http://www.regular-expressions.info/tutorial.html),祝你好運。 –

0

可以添加到GSA的模式可以是:

abc.com/test/needed

包含:abc.com/test/needed

需要考慮的是GSA如何獲取此文檔。如果它不能抓到文件夾,它將無法找到文件。

0

在GSA中有三種規格允許您製作。

  1. 開始抓取網址 - 這些告訴GSA從哪裏開始尋找鏈接。
  2. 僅追蹤和抓取網址格式 - 這些文件告訴GSA需要從「開始抓取網址」開始搜索那些網址,並對其進行索引。
  3. 不抓取網址 - 這些網址格式符合上述2種模式,但不應該被抓取。

從問題本身已經指出的情況來看,我認爲您需要做的就是將「開始抓取」網址放入「abc.com/」並放入「關注並抓取「規範爲:」abc.com/test/needed/「,假設您在爬網的網站上不需要其他路徑/文件夾。

相關問題