Nifi在注入數據時崩潰

我使用ListenHTTP作爲Nifi進程的輸入點。Nifi在注入數據時崩潰

import requests 
import csv 
import pandas as pd 
import json 
import time 

url = 'http://localhost:8085/contentListener' 

df = pd.read_csv('demo_dataset.csv') 

for i in df.index: 
    data = df.iloc[i].to_json() 
    r = requests.post(url, data=data, allow_redirects=True) 
    time.sleep(0.1)

的問題是，Nifi被處理後墜毀約3000項：

我從CSV文件中完全採用100MB左右發送數據。然後我應該重新啓動它（重新啓動之前，我也手動清空日誌和flowfile_repository文件夾）。

Nifi處理器ListenHTTP或Nifi itslef中是否有任何參數可以幫助解決此問題？

來源

2017-10-19 Dinosaurius

這個問題有點不清楚 - Apache NiFi在處理3000個100Mb文件或從單個文件中處理3000行後崩潰了？在第一種情況下，我會想象這是一個存儲/堆問題。你能否提供一個從$NIFI_HOME/logs/nifi-app.log的堆棧跟蹤？

如果您能夠使用NiFi 1.2.0+，我會建議使用record processors來完成您的操作，因爲性能更好，流程更易於設計。您可以將100Mb CSV文件作爲單個操作發送（或使用GetFile），並使各種處理器獨立運行在文件的每一行中。

來源

2017-10-19 18:40:19 Andy

它發生在使用'ListenHTTP'從單個文件發送3000行之後。你會推薦使用'GetFile'嗎？我的目標是通過Nifi處理器傳遞100Mb的數據（大約100萬行）。 – Dinosaurius

此外，'ListenHTTP'可能不是注入100Mb數據的最佳選擇。這個過程需要很長的時間，我有http相關的問題（我應該設置超時和使用time.sleep）。我可以使用'ListFile'->'FetchFile' - > ???爲了逐行讀取我的CSV文件並將每行轉換爲JSON字符串（就像我在Python代碼中那樣）？ – Dinosaurius

從文件系統中讀取文件一定會更好。 HTTP規範不適合大文件傳輸。 'GetFile'或'ListFile' /'FetchFile'會給你更好的性能，然後你可以輕鬆地解析文件的行。 – Andy

Nifi在注入數據時崩潰

回答

相關問題