luigi

    2熱度

    1回答

    作爲Luigi管道的一部分,我們希望通知使用POST請求等待正在計算的數據的微服務。 到目前爲止,我們使用的是RunAnywayTarget,但如果我們以比數據更改速度快的速度啓動Luigi,則會出現問題。所以我的問題是, 什麼是最好的模式來創建一個任務,在管道中做一些事情,但不會創建任何數據,比如對REST服務執行POST請求,發送消息給Kafka等等...? 我知道我可以創建一個沒有輸出的任務

    1熱度

    1回答

    Luigi執行方法的順序是什麼(run,output,require)。我明白需求是作爲檢查任務DAG的有效性的第一次檢查運行的,但不應該在run()之後運行輸出? 我實際上正在嘗試等待運行中的kafka消息,並基於該消息觸發一堆其他任務並返回LocalTarget。就像這樣: def run(self): for message in self.consumer: self

    1熱度

    1回答

    我的團隊使用Sentry來跟蹤錯誤,所以我寧願不使用Luigi的內置電子郵件功能將所有報告保留在一個地方。 這是怎麼我有它目前成立,它似乎完全跳過哨兵: if __name__ == '__main__': try: luigi.run() except Exception as e: client = Client( *** )

    3熱度

    1回答

    我剛開始使用luigi庫。我經常抓取一個網站並將任何新記錄插入到Postgres數據庫中。由於我試圖重寫部分腳本以使用luigi,因此我不清楚"marker table"應該如何使用。 工作流程: 抽取數據 查詢數據庫,以檢查是否有新的數據從舊的數據不同。 如果是這樣,則將新數據存儲在同一個表中。 但是,使用luigi的postgres.CopyToTable,如果該表已存在,則不會插入新數據。我

    2熱度

    1回答

    sqlalchemy.exc.IntegrityError: (pyodbc.IntegrityError) ('23000', '[23000] [FreeTDS][SQL Server]Cannot insert an explicit value into a timestamp column. Use INSERT with a column list to exclude the tim

    1熱度

    1回答

    我有一些pickle文件,每個日期在2005年到2010年之間。每個文件都包含一個單詞詞典,它們各自的頻率爲該日期。我還有一個「主文件」,包含整個時期的所有獨特詞彙。總共有大約500萬字。 我需要獲取所有數據併爲每個單詞生成一個CSV文件,每個日期將有一個CSV文件。例如,例如文件some_word.txt: 2005-01-01,0.0003 2005-01-02,0.00034 2005-

    2熱度

    1回答

    我目前正在嘗試啓動Luigid,當我的Ubuntu服務器打開時,我已經嘗試了幾種技術,包括rc.local,cronjob(@reboot),暴發戶,systemd和他們都沒有出現正在工作。 我應該指出,如果我手動執行,命令運行良好,我只需要它在啓動時運行。在這一點上我真的沒有我得到它所以這裏工作哪種方式任何擔心都是一些我試過的東西 - 的Cron: 使用 sudo crontab -e 並進

    3熱度

    1回答

    我正在嘗試配置Luigi的重試機制,以便失敗的任務將被重試幾次。然而,雖然任務重試成功,路易吉退出失敗: ===== Luigi Execution Summary ===== Scheduled 3 tasks of which: * 2 ran successfully: - 1 FailOnceThenSucceed(path=/tmp/job-id-18.subtask)

    1熱度

    1回答

    我們有一個Luigi任務,要求從第三方服務中獲取一條信息。我們僅限於每分鐘對該API調用執行的調用請求數量。 有沒有一種方法可以在每個任務的基礎上指定調度程序每單位時間必須運行的這種類型的任務?

    1熱度

    3回答

    我試圖用FakeS3來模擬我的S3端點來測試我的流水線在流浪機裏面的流水線Luigi。對於boto能夠與FakeS3交互的連接必須建立與OrdinaryCallingFormat爲: from boto.s3.connection import S3Connection, OrdinaryCallingFormat conn = S3Connection('XXX', 'XXX', is_sec