2014-01-28 57 views
1

我試圖在Python中製作一種機器人,在我選擇的互聯網上掃描一些信息。問題在於,像Facebook和Twitter這樣的一些網站在每次使用時都需要API密鑰。 例如,我怎樣才能找到Twitter的研究結果沒有奇怪的關鍵在Python驗證我的請求?可能嗎 ?獲取API認證和密鑰(如Facebook和Twitter)

回答

1

如果你不想驗證每個API,那麼採取的路線是。基本上,您可以下載HTML格式的twitter search results並解析HTML文件。如果您查看HTML文件(control + U在Firefox),你可以看到推文文字包含在這個元素:

<p class="js-tweet-text tweet-text"> 

您將無法收集儘可能多的數據,但它會大多匿名收集(沒有密鑰/認證)。要收集更多數據,您可以使用抓取使用您在網站HTML中找到的鏈接(即下一頁)。

以下是一些關於python刮擦的閱讀材料:link

除了lxml,BeautifulSoup是一個功能強大且流行的用於抓取和解析HTML的庫。