data-manipulation

    0熱度

    3回答

    計數的所有端口我有一個包含在每一行的CIDR地址和端口的文件: 192.168.1.0/24 3306 192.168.1.0/24 55982 10.10.10.0/24 5800 10.10.10.0/24 39690 10.10.10.0/24 50112 192.168.1.0/24 3308 192.168.1.0/24 3312 192.168.1.0/24 3316

    -1熱度

    1回答

    我有一個非常簡單的問題,但我無法找到答案:我有這個data.frame: b=c("a","a","a","a","a","b","b","b","b","c") c=c("b","b","b","b","b","c","c","c","c","d") a<-data.frame(b,c) 爲什麼,如果我倒要放在一列中a$b和a$c矢量與此: f<-c(a$b,a$c) 結果不像 >

    0熱度

    1回答

    我有一個關於住戶的觀察數據集;每個家庭內都有個人。每戶人數不同。家庭被標識爲id,並且家庭成員根據他們被訪問的順序被識別。因此,如果家庭1有4個成員,變量id在所有這些變量中都是相同的,但是變量order從1變爲4.我遇到的問題是,對於某些變量,只有第一位成員回答其餘的成員;因此我在我的數據集中混合了長格式和寬格式。 我需要做的是給家庭的通訊員分配第一位成員回答的價值。爲了進一步說明我的數據的結構

    0熱度

    2回答

    我在Group-State-Brand級別擁有長格式的年度時間序列數據。我想應用一個函數來計算每個級別的增長率。 基本上(CurrentValue的/先前的值)-1 查找下面的數據的提取物: Grp Sta Brnd Yr Sls A AL Ben's 2012 29770 A AL Ben's 2013 23357 A AL Ben's 2014 22442 A AL Ben's 2

    0熱度

    1回答

    我索引特定網站的html,並將其下拉到磁盤,所以我有很多平面文件的HTML。然後我採取HTML並從中提取數據並生成包含我需要的數據的json文件。 我最終的結構是這樣的 /pages/website.com/index_date/sectionofsite/afile.html /pages/website.com/index_date/sectionofsite/afile.json 我需要保留

    0熱度

    3回答

    所以,我現在有一個數據幀,看起來像: country continent year lifeExp pop gdpPercap <fctr> <fctr> <int> <dbl> <int> <dbl> 1 Afghanistan Asia 1952 28.801 8425333 779.4453 2 Afghanistan Asia 1957 30.332 924093

    1熱度

    4回答

    我的文本文件將作爲閱讀: 111 111 222 222 222 333 333 我生成的文件看起來像: 1,111 2,111 1,222 2,222 3,222 1,333 2,333 或產生的文件可能或者看起來如下: 1 2 1 2 3 1 2 我已經在這裏指定了一個逗號作爲分隔符,但是無關緊要的是什麼是分隔符---我可以在將來的日期修改它。實

    1熱度

    1回答

    我無法找出這個錯誤。 df.info() <class 'pandas.core.frame.DataFrame'> DatetimeIndex: 1048575 entries, 1966-03-31 to 1994-03-31 Data columns (total 24 columns): gvkey 1048575 non-null int64 tic 1048575 n

    2熱度

    2回答

    我有一個巨大的數據框。我試圖在這裏構建一個類似於它的多索引數據框。我需要根據每個索引和列獲得NaN的數量。 temp = pd.DataFrame({'tic': ['IBM', 'AAPL', 'AAPL', 'IBM', 'AAPL'], 'industry': ['A', 'B', 'B', 'A', 'B'], 'price': [np.nan, 5,

    1熱度

    1回答

    我有一個DF: temp = pd.DataFrame({'Y': ['A', 'B', 'B', 'A', 'B'], 'Z': [10, 5, 6, np.nan, 12], }) 我集合Y爲索引,然後計算數量和尺寸分組方式: temp.sort('Y', inplace=True) temp.set_index('Y', inplace=T