具有存儲網絡歷史記錄的Python網絡爬蟲

我正在創建一個能夠瀏覽網絡歷史的Python網絡爬蟲&解析信息並將重要信息存儲在用於取證/學術目的的數據庫中。我瞭解瀏覽網站的功能，但我努力的部分是能夠抓取網絡歷史記錄，我會給出一個場景：具有存儲網絡歷史記錄的Python網絡爬蟲

在法醫調查期間。

您已獲得嫌疑人計算機的完整Forensic圖像，然後您可以找到Google Chrome的AppData文件夾，其中存儲有關嫌疑人的所有信息，包括表單信息，憑證&網絡歷史記錄。

我該如何設置網絡爬蟲只搜索嫌疑人網絡歷史記錄中的數據。

我也有問題訪問存儲在谷歌瀏覽器用戶數據內的信息，以嘗試查看我的個人信息，這裏存儲在這裏作爲開始，我目前正試圖使用數據庫瀏覽器來查看文件，以嘗試查看我自己的網頁歷史，但我沒有太多運氣與此。任何建議

對於那些對我的這個項目感興趣的人，我可以更新這個線程，因爲我可以看到我的網絡爬蟲的進展，最終結果將有能力從公開的網絡歷史和數據&私人網站將重要信息（即姓名，地址，DOB）分類到數據庫中，以便稍後用作生物字典。

我將強調這再次AS這一切都是爲了IN CONTROLLED ENVIROMENT學術宗旨和慣在測試/假帳戶

2015-11-15 BoBBob123

事後（https://github.com/obsidianforensics/hindsight）是用Python編寫的開源工具，可以分析一噸的信息來自/ Google/Chrome/User Data /目錄中的文件。

您可以看看它的靈感來源，或者只是運行該工具並解析其輸出（它可以生成XLSX，JSON或SQLite）到您的抓取工具中。

2015-11-24 21:14:08 Ryan

感謝任何東西在這一點上的幫助，我發現很難得到一個開始 – BoBBob123

回答