我仔細Pratik Chowdhury和Robbie Vercammen檢查答案。他們提供了一個鏈接到Web文檔的鏈接,該鏈接報告了Google搜索表單中可能使用的文本過濾列表。儘管這很有趣,但他們沒有提供這個問題的答案。因此,我研究了很多問題,並找到了以下解決方案。
假設您需要對Google搜索進行HTTP調用(例如,通過CRON運行的PHP類,每月一次),以檢索特定字符串查詢的搜索結果,例如,在您的網站(即mywebsite。)中的所有網頁都帶有一些字詞(即「hello」和「world」)。COM),那麼你可以做一個HTTP GET調用到以下地址:
http://www.google.com/search?q=hello+world+site:mywebsite.com
的q
參數可以包含整個搜索查詢,谷歌卻定義的參數假證明名單。
請注意,AND
運算符可以用as_q
參數代替。而一個更緊湊的表示採用as_oq
q=hello+OR+world
:
要獲得頁面的結果與之間的「你好」和「世界」(即和OR)之一,必須改變查詢‘q’參數來作爲參數:
as_oq=hello+world
如果尋找確切的短語 「世界你好」,該q
參數爲:
q="hello+world"
同時,再次,另一個緊湊表示使用as_epq
參數:
as_epq=hello+world
如果一個查找所有不包含單詞「你好」和「世界」的成果,q
參數爲:
q=-hello+-world
同時,再次,另一緊湊的表示使用as_eq
參數:
as_eq=hello+world
當然,as_q
,as_oq
,as_epq
,as_eq
等可以通過像通常一樣組合在唯一的搜索查詢中(即,通過使用&
字符)。因此,例如我可以搜索兩個詞「你好」和「字」加「規劃」之間的一個「碼」爲遵循這裏:
q=hello+world&as_oq=programming+code
人們可以搜索特定的域(再次,MYDOMAIN .COM)如下:
as_sitesearch=mydomain.com
但是,如果要排除特定的域(例如,因爲它是一個垃圾郵件源),您必須對復發的標準符號。例如: -
q=hello+-site:mydomain.com
回報所有不在現場mydomain.com的用字的頁面「你好」。
要獲得特定的文件類型,例如一個pdf,你可以使用as_filetype
:
as_filetype=pdf
更復雜的搜索參數可以使用,如Google support docs提供。例如,要獲得帶有單詞同義詞的結果,只需在單詞前面使用~
算子,例如,
q=~hello
此外,如果你想使用通配符,例如讓所有以「你好」開始,以「世界」結束確切的短語,你應該使用*
操作:
q="hello+*+world"
這可能會返回類似:「你好世界」和「你好甜世界」。
你也可以搜索特定的詞裏面的頁面標題或使用以下關鍵字的頁面URL(讀here有詳細介紹):
- INTITLE
- allintitle
- inurl這樣
- allinurl
例如,下面返回所有頁面sa這兩個詞「你好」和「世界」是在URL:
q=allinurl:hello+world
對於谷歌GUI頁面(不結果的一個),必須插入到查詢字符串的語言字符串的語言(例如英語的en
,法語的fr
,意大利語的it
等)到hl
參數。換句話說,如果一個搜索與英文版本的谷歌,查詢字符串變成如下:
http://www.google.com/search?hl=en&q=hello+world+site:mywebsite.com
要選擇一個特定的語言,例如意大利,用lr
查詢參數:
lr=lang_it
人們也可以通過使用cr
參數公佈在一個特定的地理區域選擇頁面。例如,要查找在意大利出版的所有頁面:
cr=countryIT
我希望大家都知道,沒有使用Web表單和刮結果網頁違反了谷歌使用條款。 – Filburt 2013-04-06 15:01:18
@Filburt謝謝!你記住了我!但是,我的問題涉及如何製作一些東西,不知道這是否違反了Google的條款!我正在測試一個原型。谷歌已經能夠爲我辯護:) – JeanValjean 2013-04-06 15:06:18