websphinx

    5熱度

    6回答

    我試過WebSphinx應用程序。 我意識到如果我把wikipedia.org作爲起始URL,它將不會進一步爬行。 因此,如何實際抓取整個維基百科?任何人都可以給我一些指導嗎?我是否需要專門去查找這些網址並放置多個起始網址? 任何人都有優秀網站的建議與WebSphinx的API的教程?

    0熱度

    1回答

    我已經下載websphinx做到這一點,但我需要它來問我的用戶名和密碼的網站,然後提交用戶名和密碼到網站和一次驗證它應該開始抓取內部鏈接和子鏈接,並將最終頁面的靜態數據保存到excel文件中。是否有其他方法或爬蟲可以做到這一點,但在Java中只有

    -2熱度

    1回答

    這裏是我的正則表達式匹配代碼工作了網頁: public class RegexTestHarness { public static void main(String[] args) { File aFile = new File("/home/darshan/Desktop/test.txt"); FileInputStream inFile = null;