0
我在此很新,我試圖找出一種方法來自動查找的網站列表。我有一個非常大的公司名單,基本上我想要算法將公司輸入Google,點擊第一個鏈接(最有可能是公司網站),並確定公司是否與目標行業(冰淇淋分銷商)匹配或與這個行業有什麼關係。我想要檢查的方式是查看主頁是否包含給定詞典中的任何關鍵詞(比如,'巧克力,香草,冰淇淋等')。我非常感謝這方面的幫助 - 非常感謝。生成Web列表查詢
我在此很新,我試圖找出一種方法來自動查找的網站列表。我有一個非常大的公司名單,基本上我想要算法將公司輸入Google,點擊第一個鏈接(最有可能是公司網站),並確定公司是否與目標行業(冰淇淋分銷商)匹配或與這個行業有什麼關係。我想要檢查的方式是查看主頁是否包含給定詞典中的任何關鍵詞(比如,'巧克力,香草,冰淇淋等')。我非常感謝這方面的幫助 - 非常感謝。生成Web列表查詢
我建議使用請求和lxml的組合。要做到這一點,你可以做一些類似的事情。從LXML導入HTML 導入請求 從lxml.cssselect進口CSSSelector
使用requests
或grequests
從所有網頁得到HTML。
queries = ['cats', 'dogs']
queries = [requests.get(x) for x in queries]
data = [x.text for x in queries]
解析HTML與lxml
並提取每頁上的第一個鏈接。
data = [html.document_fromstring(x) for x in data]
sel = CSSSelector('h3.r a')
links = [sel(x)[0] for x in data]
最後從所有第一個結果中抓取html。
pages = [requests.get(a.attrib['href'] for a in links]
這會給你一個html字符串,你想要的每一頁。從那裏你應該能夠簡單地搜索你想要的頁面html中的單詞。你可能會發現一個counter
有幫助。
嘿,這太棒了!謝謝!我只是有一個快速的後續行動 - 如果我有不同語言的網站?有沒有辦法,我可以使用chrome每次翻譯成英文,以便它可以根據我的英文字典進行搜索? – Reasonable 2014-09-30 13:02:56