2014-04-02 37 views
0

我一直在嘗試抓取和索引內聯網和互聯網。但它根本不起作用,我認爲這是由於代理/安全限制。我得到的索引解析爲true,但內容長度爲-1,因此它什麼都不爬。無論如何,我可以把我在內聯網上的credentiels在開放式搜索服務器上抓取它,知道它只有基本/摘要或NTLM身份驗證嗎?抓取內網證書問題

有沒有辦法在oss上配置代理而不僅僅是在crawler選項卡上的代理? 我已經設置了憑據,但它似乎並不像oss認出公司的代理,所以它不會給我輸入憑證的方框。

+0

有很多的這個問題,將讓人們想解決它的問題。對於初學者來說,1)你試圖索引整個互聯網?你將需要大規模的,數十億美元的數據中心來解決這個問題。 2)「它根本不起作用」 - 什麼是「它」?沒有詳細說明你想要做什麼以及你正在使用什麼工具,在第一句話後面的所有內容都是沒有意義的。我建議描述您正在使用的具體工具和步驟,並描述確切的輸入/輸出。當他們瞭解這個問題時,這裏的人們會很樂意提供幫助。 –

+0

我已經說過工具開放式搜索服務器Mr Fig;),我並沒有試圖抓取所有的互聯網。關於這個問題,這是一個代理問題。 – user3411629

回答