2011-09-20 22 views
1

我有一個印度歌曲的歌詞集,需要用他們的發行年份來標記他們正在進行的實驗。如何通過在Google上搜索來抓取特定域的鏈接?

有一個網站(lyricsindia.net),有一個詳細的數據庫這些歌詞與年,但不幸的歌詞不能在網站上搜索。相反,當我將歌詞的一部分作爲搜索字符串進行搜索時,lyricsindia.net上的歌曲鏈接總是處於前10名的結果中。

現在,我想知道是否有可能使用scrapy這樣的網絡爬行框架來使用搜索字符串作爲抓取的起點。我遇到的每個Scrapy教程都是從一個起始URL開始的。

回答

0

您的搜索字符串可能是Scrapy的網址的一部分。像google.com?q=my+string

或者,您可以檢索搜索表單,並與你的字符串填充它,像:

return [FormRequest.from_response(response, 
      formdata={'search': 'you\'re search string'}, 
      callback=self.parse)] 

我敢肯定,Scrapy可以做什麼你想做。

相關問題