我們有一個要求,我們需要抓取一組特定的網址。關於Google Search Appliance的抓取網址
說例如我們有網站abc.com。我們需要抓取abc.com/test/needed - 在「需要」文件夾下匹配此模式的所有URL。但我們不想抓取abc.com/test/下的其他網址。
我想這將使用RegEx完成。任何人都可以幫助我RegEx?
我們有一個要求,我們需要抓取一組特定的網址。關於Google Search Appliance的抓取網址
說例如我們有網站abc.com。我們需要抓取abc.com/test/needed - 在「需要」文件夾下匹配此模式的所有URL。但我們不想抓取abc.com/test/下的其他網址。
我想這將使用RegEx完成。任何人都可以幫助我RegEx?
從你的評論說,模式匹配形式的東西去的形式/xyz/imp
的/xyz
但事情:
/xyz(/[^i][^m][^p].*)?|/xyz/.{0,2}
謝謝。這是好的,並且匹配了xyz ..要求是bit diff的url模式。我想匹配www.abc.com/xyz/imp,www.abc.com/,www.abc.com/pqr,但不是www.abc.com/xyz/waste。 ...所以簡而言之,如果url有/ xyz /比它應該有xyz/imp或者不匹配它。如果url沒有/ xyz /也不匹配那些url。 – user1085906
我真的不明白你在問什麼。 [這裏是關於正則表達式的教程](http://www.regular-expressions.info/tutorial.html),祝你好運。 –
可以添加到GSA的模式可以是:
abc.com/test/needed
或
包含:abc.com/test/needed
需要考慮的是GSA如何獲取此文檔。如果它不能抓到文件夾,它將無法找到文件。
在GSA中有三種規格允許您製作。
從問題本身已經指出的情況來看,我認爲您需要做的就是將「開始抓取」網址放入「abc.com/」並放入「關注並抓取「規範爲:」abc.com/test/needed/「,假設您在爬網的網站上不需要其他路徑/文件夾。
你的問題有點不清楚,你想要什麼?你有一個網址列表,你想匹配一些而不是其他的?哪些你想匹配,哪些不想匹配,舉例說明。 –
舉例說明我有以下網址1)www.abc.com 2)www.abc.com/xyz 3)www.abc.com/xyz/imp 4)www.abc.com/xyz/waste 5)www。 abc.com/pqr我正在尋找一個正則表達式,它會找到具有模式「/ xyz」的匹配uls,但是如果它的「xyz/imp」它會跳過它,則休息所有組合f或「/ xyz」應該匹配。 – user1085906
所以你想匹配'/ xyz'形式的東西,而不是'/ xyz/imp'形式的東西? –