我正在尋找一些我不確切知道如何完成的事情。我對爬行,報廢等方面沒有深入的瞭解,但我相信我正在尋找的技術就是這些。數據爬蟲或其他東西
- 我有一個我想要不斷監視的約100個網站的列表。至少每3或4天一次。在這些網站的我會找一些邏輯的比賽,如:
文本中包含「ABC」,並且不包含「BCZ」 或文本包含‘XYZ’,並且不包含‘ATM’ 和如此類推
的工具,就必須考慮這些網站在:
- 網頁
- DOC文件 個
- docx文件
- XLS文件
- XLSX文件
- TXT文件
- RTF文件
- PDF文件
- RAR和ZIP文件
的比賽必須是漸進的(我只想要最近的X天)
最重要的是,在這100個網站中,大約40個需要用戶認證(我已經)。
每當有比賽,我想下載:
- 文件
- 鏈接
- 日期/時間
- 比賽
我的報告我一直在玩像import.io這樣的工具,但我沒有想到了解如何正確地做到這一點!
有誰知道我正在尋找哪種技術?誰(什麼樣的專家,程序員)可以爲我建立這個?對於瞭解數據爬行的程序員來說構建它太難了嗎?
很抱歉的長期職位
嗨加百列!正如Cameron提到的[backstitch](http://docs.backstit.ch)可以幫助你完成你想要做的大部分工作。給我一個留言,我會很高興地告訴你如何建立這個:Email jordan [AT] backstit.ch – jwarzech