web-crawler

    0熱度

    2回答

    我想創建一個使用php的抓取工具,它會給我一個特定域(從主頁:www.example.com開始)的所有頁面的列表。 我該如何在php中做到這一點? 我不知道如何從特定頁面開始遞歸查找網站上的所有頁面,並排除外部鏈接。

    2熱度

    2回答

    我正在尋找一個鏈接檢查器來蜘蛛我的網站和日誌無效鏈接,問題是我有一個開始登錄頁面是必需的。我想要的是一個鏈接檢查器來運行指令後登錄細節,然後蜘蛛網站的其餘部分。 任何想法傢伙將不勝感激。

    7熱度

    4回答

    我在折騰旅遊搜索引擎的一些想法,我想知道這些網站如何獲得他們的源數據。他們是否從航空公司主頁颳去所有內容?鑑於航空公司的數量,這似乎是一項巨大的工作。 是否有一些API或Web服務標準,每個航空公司也符合? 我將不得不協商訪問我想索引的每家航空公司的數據API?

    0熱度

    1回答

    Bonjour,有沒有人知道創建一個蜘蛛的方式,就好像它已啓用JavaScript的? PHP代碼: file_get_contents("http://www.google.co.uk/search?hl=en&q=".$keyword."&start=".($x*10)."&sa=N") 它將檢索頁面的輸出。 如果使用, PHP代碼: file_get_contents("http://w

    1熱度

    2回答

    我打算開發網頁爬蟲,它將從網頁中提取html元素的座標。我發現通過使用「mshtml」程序集可以獲取html元素座標。現在我想知道是否有可能以及如何從網頁獲取必要的信息(html,css),然後通過使用適當的mshtml類獲得正確的所有html元素的座標? 謝謝!

    0熱度

    3回答

    在針對目標爬蟲/解析器的高級設計過程中。該應用將用於從特定網站提取數據。 Furhtermore,應用程序被設計爲在主/從進程中運行,其中主/服務器端處理要解析的數據包,然後允許系統中的子節點(客戶端服務器)獲取該批數據包解析。 (在解析過程中使用Xpath來提取解析網站的每個頁面的數據。) 我在這裏發佈,因爲我想知道高效實現以確保應用程序讀取的數據是正確的。我正在考慮實施一個流程,即在目標網站上

    5熱度

    3回答

    大家好世界各地, 背景 我最後一年的學生計算機科學。我提出了使用Java和MySQL的我的Final Double Module Project,它是一個剽竊分析器。 抄襲分析儀: 掃描所有上傳文檔的段落。分析從哪個網站複製的每個段落的百分比。 僅突出顯示每個段落中完全從哪個網站複製的文字。 我的主要目標是開發類似Turnitin的東西,如果可能的話改進。 我有不到6個月的時間來開發這個程序。我已

    4熱度

    4回答

    現在,我可以使用urllib2來抓取常規頁面。 request = urllib2.Request('http://stackoverflow.com') request.add_header('User-Agent',random.choice(agents)) response = urllib2.urlopen(request) htmlSource = response.read()

    2熱度

    1回答

    我查看了Heritrix文檔網站,他們列出了一個Python .ARC文件閱讀器。但是,當我點擊它時,404沒有找到。 http://crawler.archive.org/articles/developer_manual/arcs.html 其他人是否知道任何使用Python的Heritrix ARC閱讀器? (我之前問過這個問題,但它關閉,由於不準確)

    0熱度

    3回答

    除了直接向谷歌提交鏈接之外,還有什麼其他方式可以讓Google搜索您的網站。 提交鏈接到雅虎是一件輕而易舉的,被用於抓取一兩天......谷歌雖然需要一段時間... 謝謝...