data-analysis

    0熱度

    1回答

    我有一個用例。我想整合/轉換來自不同/不同來源的數據而不存儲它。數據源是數據庫(oracle,db2等),Webservice(Rest/Soap),平面文件(CSV,XML,JSON),MQ轉儲,大型機系統。我想從這些來源獲取數據,並進行某種智能轉換和集成,並將其提供給我們的客戶。它看起來像典型的ETL場景,但我的情況不同。我不允許存儲絕望來源給出的數據,這就意味着,舉個簡單的例子,我從orac

    -1熱度

    1回答

    我寫關於模式的網絡流量識別的論文。輸入文件包含成千上萬條數據線,每一個都提供信息作爲時間戳,源和目的地IP地址,源和目的地端口,接口,數PF字節和數據包的源和目的地和協議之間交換。數據行中的開始和結束時間總是相同的。 我的問題是,如果有可以將所有IP地址分配給類別,如路由器/服務器/客戶端僅根據提供的信息,或者如果還有其他信息需要以正確地分配所有地址? (使用的端口大約是100-150,並且都是已

    0熱度

    2回答

    我是新來的Python,和我下面這個指南來實現一元線性迴歸 http://nbviewer.jupyter.org/github/jdwittenauer/ipython-notebooks/blob/master/notebooks/ml/ML-Exercise1.ipynb 基本上我在臺階上,我需要建立一個數據集將其導入到Python的 我已創建的文本文件具有兩個列,每列數據由製表符分隔 然而

    0熱度

    1回答

    我得到一個DataFrame dff,它的形狀代表5個項目和4天。我創建了一個EWM ewmm並獲得了EW移動平均線。 當涉及到相關性和協方差時,一個5×5的矩陣就是我所期望的,但結果是整形5×4×4。 我該怎麼做纔對? In[59]: dff Out[59]: 0 1 2 3 0 1 2 3 4 1 4 3 2 1 2 3 1 4 1 3 5 9 2 6 4 1 2 3

    0熱度

    1回答

    我遵循https://www.embarcados.com.br/conectando-bosch-xdk-sensor-ibm-bluemix/提供的關於在Bluemix Watson IOT上獲取我的Bosch XDK 110的json傳感器數據的步驟說明。現在,問題是我想像普通的json文件那樣獲取傳感器的json數據,並將其用於數據分析。 請諮詢,並提前謝謝。 Danial

    0熱度

    1回答

    我試圖在scikit_learn中使用randomforestregressor()來模擬一些數據。處理完我的原始數據後,我應用於randomforestregressor()的數據如下。 以下只是我的數據的一小部分。實際上,大約有6000個數據。 請注意,第一列是我創建的包含所有數據的DataFrame'final_data'的datetimeindex。另外,第4欄中的數據是字符串。我只是通過

    -1熱度

    1回答

    當我解決一些站點問題時,我需要檢查許多指標,如CPU,內存,應用程序指標等。一般情況下,我想自動知道以下項目(無需逐個檢查所有指標): 有多少度量標準在此期間出現峯值。 如果度量X具有與度量Y相同的模式Y 如果度量X具有一些週期性字符。 對於第1項和第2項,我想我可以通過計算一些變化率來得到它。對於第3項,我目前還不知道。 我這裏的問題是: 做我們已經有一些圖書館,可在此使用,語言(去吧,使用Ja

    0熱度

    1回答

    我想在Spark DataFrame中使用Pyspark創建一個新列,它代表基於交替布爾值組的自動增量(或ID)。可以說我有以下數據框: df.show() +-----+------------+-------------+ |id |par_id |is_on | +-----+------------+-------------+ |40002|1 |true | |4

    0熱度

    1回答

    我有一個模型,其中有幾個屬性/屬性是固定的(約15個獨立屬性)。 相同的模型有另一個屬性,這是我最感興趣的屬性。我想最大化該屬性的某個值。 我想找出哪些固定的屬性值影響最有趣的屬性根據我的數據。我認爲這是一個統計問題,但我不確定。 一個現實生活中的例子是具有以下所有固定屬性的抵押貸款數據庫:銀行分行,郵政編碼,就業,薪水,信用評分,關係狀態,子女數量等。然後我有一個屬性是抵押貸款是否違約。 我想找

    0熱度

    1回答

    我正在對5大人格特徵進行迴歸,以及出生順序如何影響這些特質。首先,我試圖根據捕獲這些特徵的調查構建5個變量。我曾想過爲類別(特質)中的每個問題創建假人,然後取平均值,但其中一些問題高度相關,因此重量將錯誤。 我做了一個主成分分析,它給了我一個特徵值超過一個的四個分量。問題是,他們都沒有超過40 pct。方差。 有什麼方法可以將四個合併爲一個變量?它是因變量,所以只能有一個。 否則你是否有另外一個關