2014-07-10 18 views

回答

0

如果您想在自己的計算機上獲得離線的Citations,則必須抓取數據並存儲。爲了抓取數據,我建議使用Apache Tika:「Apache Tika™工具包可以從Tika網站Apache Tika中檢測並提取來自各種文檔的元數據和文本內容 - 從PPT到CSV到PDF - 使用現有的解析器庫」。

在大規模談話時,我認爲這是最好的方法,因爲一旦下載完成,它將在您的計算機上執行許多您想要的搜索,而無需等待由於遠程延遲而完成搜索搜索

0

你可以使用Zillabyte的domain_crawler組件:

$ zillabyte execute domain_crawl "example.com" --output_file some_file