去年,我在一些perl程序中進行了簡單的搜索。我寫的第一件事是一個簡單的腳本,它使用一個網頁,並找出該頁面上的單詞或名稱的次數。我把這稱爲「爬行」是否正確?我想知道如果這是其他語言如PHP和ROR的本地進程。基本上,我想爲沒有公共「API」的站點構建我自己的「API」,並可能從另一個站點的另一個「API」動態傳遞關鍵字(僅用於讀取和組織公開數據)。對不起,我的頭最近剛剛進入雲端的抽象程度很高。「抓取」關鍵字的頁面/網站
0
A
回答
4
你的問題是非常容易理解的,事實上很多人/公司已經做到了,但是你很久以前就沒有做過。鬆散地說,「爬行」通常指的是使用html頁面中的錨標籤作爲節點之間的邊緣的互聯網的寬度或深度首次搜索。
你在perl中做了什麼基本上只是搜索了一個html字符串。
對於您的API,我會建議找到一個DOM解析器,以便您不必打擾解析html字符串和生成的固有錯誤。
幾年前我開始爲馬薩諸塞州的公寓價格區域生成一些數據,所以我寫了一些爬行程序來提取craigslist上的所有公寓列表並將它們扔在數據庫中。
如果有人有興趣,我可以繼續,但它超出了這個答案的範圍。
喔是啊,這是在PHP ...
2
如果我理解正確的話,你想採取一個URL,它傳遞給你的程序,並把它抓取網站尋找用戶提供的關鍵字?
如果這是正確的,那麼不,這不是任何語言的本地進程,你將不得不自己編寫必要的邏輯。每個語言/框架(請注意,ROR不是一種語言,它是一個基於Ruby語言構建的框架)有一些工具可以幫助你(例如,在Ruby中,你應該看看Nokogiri gem解析HTML),但你將不得不提供大部分的邏輯。
這不是一件很難做的事情,但這需要花費一些時間和精力。祝你好運。
相關問題
- 1. 使用動態頁面抓取網站
- 2. 網頁抓取了多個網站
- 3. 從網站抓取多個網頁
- 4. 從網站抓取多個網頁
- 5. 抓取網站的產品頁面以獲取價格信息
- 6. 根據關鍵字檢查頁面排名的網站
- 7. 用於網頁抓取的Customazible管理頁面(網頁界面)
- 8. 從iframe頁面抓取網頁
- 9. scrapy抓取網站
- 10. 如何抓取我內部網站上的所有頁面?
- 11. 如何抓取網站的所有頁面
- 12. 網站頁面內的網站頁面
- 13. 安裝抓取,網站抓取庫
- 14. 網站抓取器每隔幾秒就抓取一次網站
- 15. 網頁抓取/抓取的資源
- 16. 從網頁中提取Meta關鍵字?
- 17. 抓取與rvest網站(改變頁面,點擊鏈接)
- 18. 如何抓取網站並截取每個網頁的截圖?
- 19. 網站抓取問題網站
- 20. 網頁抓取/抓取基於GWT的網頁
- 21. sentence.split提取網站頁面
- 22. Beautifulsoup網頁抓取
- 23. BeautifulSoup網頁抓取
- 24. PHP網頁抓取
- 25. Spyder - 網頁抓取
- 26. 使用多個關鍵字抓取Twitter
- 27. Facebook頁面抓取
- 28. 抓取html頁面
- 29. HTML頁面抓取
- 30. 抓取頁面塊
剛剛看了我的代碼,我用了原生的「DOMDocument」類:http://php.net/DOMDocument – umassthrower 2010-07-14 03:45:33
這裏是我提到的類的txt。 我不記得我是否在寫這篇文章的時候小心謹慎,而且有幾個地方我對硬件進行了硬編碼,但我希望這是一個很好的例子,可以幫助您開始。 http://jeffreyjason.com/Craigslist.class.php.txt http://jeffreyjason.com/HTMLParser.class.php.txt 注意:我沒有在這裏發佈任何數據,嚴格獲取。 – umassthrower 2010-07-14 03:53:57
非常感謝我認爲我現在明白了很多。 – ThomasReggi 2010-07-14 15:12:41