web-crawler

0熱度

2回答

基本的網絡抓取問題：如何使用PHP創建一個網站上的所有網頁的列表？

我想創建一個使用php的抓取工具，它會給我一個特定域（從主頁：www.example.com開始）的所有頁面的列表。我該如何在php中做到這一點？我不知道如何從特定頁面開始遞歸查找網站上的所有頁面，並排除外部鏈接。

2熱度

2回答

鏈接檢查器（蜘蛛爬行器）

我正在尋找一個鏈接檢查器來蜘蛛我的網站和日誌無效鏈接，問題是我有一個開始登錄頁面是必需的。我想要的是一個鏈接檢查器來運行指令後登錄細節，然後蜘蛛網站的其餘部分。任何想法傢伙將不勝感激。

7熱度

4回答

旅遊搜索引擎和聚合器如何獲取其源數據？

我在折騰旅遊搜索引擎的一些想法，我想知道這些網站如何獲得他們的源數據。他們是否從航空公司主頁颳去所有內容？鑑於航空公司的數量，這似乎是一項巨大的工作。是否有一些API或Web服務標準，每個航空公司也符合？我將不得不協商訪問我想索引的每家航空公司的數據API？

0熱度

1回答

php抓取 - 啓用javascript

Bonjour，有沒有人知道創建一個蜘蛛的方式，就好像它已啓用JavaScript的？ PHP代碼： file_get_contents("http://www.google.co.uk/search?hl=en&q=".$keyword."&start=".($x*10)."&sa=N") 它將檢索頁面的輸出。如果使用， PHP代碼： file_get_contents("http://w

1熱度

2回答

如何使用C＃獲取HTML元素座標？

我打算開發網頁爬蟲，它將從網頁中提取html元素的座標。我發現通過使用「mshtml」程序集可以獲取html元素座標。現在我想知道是否有可能以及如何從網頁獲取必要的信息（html，css），然後通過使用適當的mshtml類獲得正確的所有html元素的座標？謝謝！

0熱度

3回答

解析器/爬蟲算法問題

在針對目標爬蟲/解析器的高級設計過程中。該應用將用於從特定網站提取數據。 Furhtermore，應用程序被設計爲在主/從進程中運行，其中主/服務器端處理要解析的數據包，然後允許系統中的子節點（客戶端服務器）獲取該批數據包解析。（在解析過程中使用Xpath來提取解析網站的每個頁面的數據。）我在這裏發佈，因爲我想知道高效實現以確保應用程序讀取的數據是正確的。我正在考慮實施一個流程，即在目標網站上

5熱度

3回答

剽竊分析儀（對網頁內容進行比較）

大家好世界各地，背景我最後一年的學生計算機科學。我提出了使用Java和MySQL的我的Final Double Module Project，它是一個剽竊分析器。抄襲分析儀：掃描所有上傳文檔的段落。分析從哪個網站複製的每個段落的百分比。僅突出顯示每個段落中完全從哪個網站複製的文字。我的主要目標是開發類似Turnitin的東西，如果可能的話改進。我有不到6個月的時間來開發這個程序。我已

4熱度

4回答

如何使用Python登錄到Facebook/Myspace並抓取內容？

現在，我可以使用urllib2來抓取常規頁面。 request = urllib2.Request('http://stackoverflow.com') request.add_header('User-Agent',random.choice(agents)) response = urllib2.urlopen(request) htmlSource = response.read()

2熱度

1回答

如何使用Python從Heritrix爬蟲中讀取.ARC文件？

我查看了Heritrix文檔網站，他們列出了一個Python .ARC文件閱讀器。但是，當我點擊它時，404沒有找到。 http://crawler.archive.org/articles/developer_manual/arcs.html 其他人是否知道任何使用Python的Heritrix ARC閱讀器？（我之前問過這個問題，但它關閉，由於不準確）

0熱度

3回答

搜索引擎優化（SEO）：除了直接提交給谷歌搜索引擎之外，還可以添加到谷歌 - http://www.enshaeyah.webs.com

除了直接向谷歌提交鏈接之外，還有什麼其他方式可以讓Google搜索您的網站。提交鏈接到雅虎是一件輕而易舉的，被用於抓取一兩天......谷歌雖然需要一段時間... 謝謝...