如果我創建一個函數來獲取網頁。它會在每次執行時在不同的IP上執行它,以便我的抓取請求不會被阻止?亞馬遜lambda適合網頁抓取?
回答
將文件放入S3中或將數據添加到Kinesis或DynamoDB時,會觸發Lambda。這通常是網絡抓取工具需要的東西,儘管像S3這樣的東西可以作爲隊列/作業運行者來執行。
刮在不同的IP上?當然,lambda部署在許多機器上,儘管這實際上並不能幫助你,因爲你無法控制機器或IP。
不控制IP確實有幫助,它正是你想要的 - 每次調用刮擦作業的新IP都是正確的?另外,s3,kinesis和dynamoDb不是運行lambda函數的唯一選項。您可以使用sdk或cli按需調用lambda函數。您可以從SNS/SQS讀取一個程序,用於「抓取作業」,然後調用lambda函數執行抓取。 – nackjicholson 2015-03-20 07:39:01
不控制IP地址意味着您最終可能會遇到來自同一IP的所有查詢,或者來自阻止的IP地址的隨機查詢,並且您無法從池中刪除這些查詢。 @nackjicholson – tedder42 2015-03-20 20:41:24
啊,我明白了。很好地繞過屏幕抓取禁令可能不是亞馬遜試圖用Lambda解決的問題:) – nackjicholson 2015-03-21 23:01:12
凡在左邊你將有JAUNT EC2實例,然後喂URL或HTML頁面轉換成室壁運動流源。 Lambda將執行HTML解析並通過Firehose將所有內容都轉換爲S3或Redshift。 JAUNT可以通過帶有旋轉IP的標準WebProxy服務運行。
- 1. 亞馬遜WAF +亞馬遜API網關
- 2. 亞馬遜網絡服務和非亞馬遜網站
- 3. 使用R刮亞馬遜網頁
- 4. 亞馬遜Lambda調用錯誤
- 5. 在亞馬遜lambda上使用mysql池
- 6. Alexa的距離的NodeJS亞馬遜LAMBDA
- 7. 要亞馬遜或不亞馬遜
- 8. 亞馬遜支付網關
- 9. 亞馬遜網站刮
- 10. 使用亞馬遜API獲取亞馬遜SalesRank
- 11. 亞馬遜dynamodb
- 12. 亞馬遜
- 13. 亞馬遜SimpleDB
- 14. 亞馬遜simpleDB
- 15. 亞馬遜AWS
- 16. 亞馬遜網絡服務:Spark Streaming或Lambda
- 17. 通過亞馬遜API網關和lambda上傳圖片
- 18. 亞馬遜Lambda Java函數返回png到API網關
- 19. 從亞馬遜Lambda解析外部網站
- 20. 亞馬遜網絡服務 - API網關
- 21. Revmob適用於亞馬遜的Unity3D SDK
- 22. CasperJS不適用於亞馬遜iframe
- 23. 適當的亞馬遜AWS S3使用
- 24. 亞馬遜AWS Lambda Alexa HTTP獲取問題
- 25. 獲取lambda亞馬遜Webservice上的文件名觸發器
- 26. 有沒有辦法使用Python來抓取亞馬遜產品列表頁面?
- 27. SignatureDoesNotMatch亞馬遜API
- 28. 與亞馬遜DynamoDB
- 29. 亞馬遜架構
- 30. 亞馬遜s3cmd LS
從刮網站的角度來看,你在做什麼是惡意的。刮擦會給網絡服務器造成破壞性和昂貴的負擔,而你遇到的IP過濾就是防禦。如果你成功繞過防守,你會造成很多錢和惡化。 – philo 2016-10-02 22:15:59