存儲抓取的數據要在我的web應用程序建立一個教育的搜索引擎,所以我決定爬約10使用PHP從我的網頁,網站,並且將數據存儲到我的數據庫供以後搜索。我如何檢索這些數據並將它們存儲在我的數據庫中?我如何從網頁
Q
我如何從網頁
1
A
回答
0
您可以file_get_contents()
功能抓住他們。所以你會有
這個函數返回一個字符串的頁面。
希望這會有所幫助。乾杯
0
構建便於抓取我會做的URL列表以獲得最後讓他們
A.榜上無名
- 定義URL列表抓取
- 添加此URL到要爬行的URL列表(作業列表)
- 定義最大深度
- 解析第一個頁面,獲取所有找到的href,獲取li NK。
- 對於每個鏈接:如果從同一個域或相對的,將其添加到任務列表。
- 如果非空從作業列表從下一個URL的工作列表中刪除當前的URL,
- 重新啓動。
爲此,你可以使用這個類,這使得解析HTML非常簡單: http://simplehtmldom.sourceforge.net/
B.獲取內容
循環所作的陣列上,並獲取內容。的file_get_contents會爲你做到這一點: http://www.php.net/manual/fr/function.file-get-contents.php
這僅僅是一個開始基本有效的,在步驟A,你應該保持已經被解析URL列表,檢查只是其中。查詢字符串也可以是您要查看的內容,以避免使用不同的查詢字符串掃描多個頁面。
相關問題
- 1. 如何從網頁
- 2. 如何從網頁
- 3. 如何從網頁
- 4. 如何從網頁大小
- 5. 如何啓動從網頁
- 6. 如何從使用網頁
- 7. 如何從網頁RDP
- 8. 如何從網頁在Python
- 9. 我如何從一個URL提供網頁頁面?
- 10. Apache:我如何從我的網絡外的計算機訪問我的網頁?
- 11. 如何從網頁中提取網址?
- 12. 如何刪除網頁/從網址(symfony)
- 13. 如何瀏覽網頁,從數據頁?
- 14. 我如何防止從我的網頁的打印屏幕?
- 15. 網站的鏈接,從我的網頁
- 16. 如何從我的網站
- 17. 我瀏覽網頁時如何訪問網頁的資源?
- 18. 如何使用框架在我的網頁中插入網頁
- 19. 如何從asp.net中的其他網頁調用一個網頁
- 20. 如何從硒網頁加載只有網頁的HTML
- 21. 如何從一個網頁切換到其他網頁?
- 22. 如何從網頁的網址中提取網站的網址?
- 23. 如何將我的網站指向我的GitHub網頁庫?
- 24. 如何居中我的網頁
- 25. 如何分割我的網頁?
- 26. 如何將我的網頁插入iframe?
- 27. 如何整理我的網頁內容?
- 28. 如何通過我的所有網頁
- 29. 我如何訪問螞蟻的網頁?
- 30. 我們如何加快Joomla網頁