有沒有人知道是否有一些參數可用於yahoo上的程序化搜索,從而限制結果,因此只返回特定類型文件的鏈接(例如PDF)? 在GUI中可以這樣做,但是如何通過API來實現呢?如何使用雅虎搜索API搜索特定的文件類型?
我非常感謝Python中的示例代碼,但任何其他解決方案也可能會有所幫助。
有沒有人知道是否有一些參數可用於yahoo上的程序化搜索,從而限制結果,因此只返回特定類型文件的鏈接(例如PDF)? 在GUI中可以這樣做,但是如何通過API來實現呢?如何使用雅虎搜索API搜索特定的文件類型?
我非常感謝Python中的示例代碼,但任何其他解決方案也可能會有所幫助。
謝謝。 我發現自己是這樣的工作確定(文件類型是第一個參數,和查詢是第二個):
格式= sys.argv中[1]
查詢=「」。加入(SYS。的argv [2:])
-RCH = create_search( 「網絡」,APP_ID,查詢=查詢,格式=格式)
這就是我對這樣的事情做。它暴露了更多的參數,因此您可以根據需要調整它。這應該從查詢「resume」中打印出前10個PDF URL [我不是其中之一;]]。無論你喜歡,你都可以下載這些網址。
從查詢返回的json字典有點粗糙,但這應該讓你開始。請注意,在實際代碼中,您需要檢查字典中是否存在某些鍵。當沒有結果時,這段代碼可能會拋出異常。
Tiago提供的鏈接非常適合瞭解「type」參數支持哪些值。
from yos.crawl import rest
APPID="XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
base_url = "http://boss.yahooapis.com/ysearch/%s/v%d/%s?start=%d&count=%d&type=%s" + "&appid=" + APPID
querystr="resume"
start=0
count=10
type="pdf"
search_url = base_url % ("web", 1, querystr, start, count, type)
json_result = rest.load_json(search_url)
for url in [recs['url'] for recs in json_result['ysearchresponse']['resultset_web']]:
print url