2015-08-21 100 views
1

我正在尋找一些我不確切知道如何完成的事情。我對爬行,報廢等方面沒有深入的瞭解,但我相信我正在尋找的技術就是這些。數據爬蟲或其他東西

  1. 我有一個我想要不斷監視的約100個網站的列表。至少每3或4天一次。在這些網站的我會找一些邏輯的比賽,如:

文本中包含「ABC」,並且不包含「BCZ」 或文本包含‘XYZ’,並且不包含‘ATM’ 和如此類推

  • 的工具,就必須考慮這些網站在:

    • 網頁
    • DOC文件
    • docx文件
    • XLS文件
    • XLSX文件
    • TXT文件
    • RTF文件
    • PDF文件
    • RAR和ZIP文件
  • 的比賽必須是漸進的(我只想要最近的X天)

  • 最重要的是,在這100個網站中,大約40個需要用戶認證(我已經)。

  • 每當有比賽,我想下載:

    • 文件
    • 鏈接
    • 日期/時間
    • 比賽
  • 我的報告我一直在玩像import.io這樣的工具,但我沒有想到了解如何正確地做到這一點!

    有誰知道我正在尋找哪種技術?誰(什麼樣的專家,程序員)可以爲我建立這個?對於瞭解數據爬行的程序員來說構建它太難了嗎?

    很抱歉的長期職位

    +1

    嗨加百列!正如Cameron提到的[backstitch](http://docs.backstit.ch)可以幫助你完成你想要做的大部分工作。給我一個留言,我會很高興地告訴你如何建立這個:Email jordan [AT] backstit.ch – jwarzech

    回答

    4

    對於不要求身份驗證的網站60:

    您可以使用像backstitch工具來標記要監控的網站,並得到一個交互式縮略圖飼料內容包含您想要的關鍵字的網頁。 Backstitch支持使用布爾運算符(您所描述的AND/OR功能),並且有一個API,可以允許您以您需要的格式導出結果。

    他們的支持團隊(和首席執行官)在過去非常有幫助,描述了他們的API如何用於自定義搜索案例。祝你好運!

    +0

    感謝參考卡梅隆 - 我認爲這是我們可以幫助加布裏埃爾與至少70%的。 – jwarzech

    +1

    謝謝,卡梅隆!我想它部分涵蓋了我不會的東西。我會和他們談談並試一試! –