data-science

    0熱度

    1回答

    我是新來的大熊貓,並需要使用大熊貓準備的表格,通過模仿下面的代碼片段進行確切功能: with open(r'D:/DataScience/ml-100k/u.item') as f: temp='' for line in f: fields = line.rstrip('\n').split('|') movieId = int(fields[0])

    2熱度

    1回答

    我試圖在熊貓數據框中設置一個新列(實際上是兩列),數據來自其他數據框。 我有以下兩種dataframes(他們是爲了這個目的爲例,原來dataframes是如此大得多): In [116]: df0 Out[116]: A B C 0 0 1 0 1 2 3 2 2 4 5 4 3 5 5 5 In [118]: df1 Out[118]: A D E 0

    1熱度

    2回答

    我有一個百萬的樣本,有大約1000個功能。但是,每個樣本只能測量一部分特徵。我想執行機器學習來預測基於特徵的結果,但是,我不知道如何處理丟失的數據。由於數據以隨機順序丟失,因此我無法根據丟失的特徵對數據進行分類,因爲類的數量會很大,並且每個類中只有很少的樣本。處理這類問題的最佳解決方案是什麼?

    0熱度

    2回答

    教授給出的指令: 1.使用來自World Atlas數據的continent國家列表,將countries.csv文件加載到pandas DataFrame中,並將該數據集命名爲國家。 2.使用Gapminder上提供的數據,將每人的收入(GDP /人均,PPP $通貨膨脹調整後)作爲熊貓數據框載入,並將此數據集命名爲收入。 3.將數據集轉換爲以行和國家作爲列的年份。加載時顯示該數據集的頭部。 4

    0熱度

    1回答

    我已經使用了Standford NLP來識別給定句子的POS。 我需要從句子中只提取正確的單詞(詞典中定義的單詞)。 對於例如:如果一句話就是「我去紐約的航班6AWDR」 當我使用斯坦福NLP,都寫着「飛行」和「6AWDR」被標記爲PartOfSpeechAnnotation.class的「NNP」。 如何在一個句子中單獨提取適當的英語單詞?

    0熱度

    1回答

    有沒有什麼方法可以直接從xgboost.cv訪問訓練有素的xgboost模型?或者,我是否必須手動循環摺疊並在這種情況下執行合適的操作? xgb.cv(param, dtrain, num_round, nfold = 5, seed = 0, obj = logregobj, feval=evalerror)

    0熱度

    1回答

    我想訓練一個基於給定訓練集的分類器(比如每班有100個樣本的2級問題)。我怎樣才能訓練我的分類器,使得訓練集中的一些樣本(比如說每個類的前20個樣本)比其他樣本更有價值? (由於某些原因,這些樣本與測試集更相似,因此在訓練分類器時應該將其考慮爲更重要) 如果我只複製這些樣本幾次,可以嗎? 我不知道,如果它的事項或沒有,但我的分類包括一個功能選擇步驟(稱爲快速基於相關性過濾器的過濾器爲基礎的方法)和

    3熱度

    2回答

    我有一個場景,其中有新的主題正在測試一系列結果都是字符串分類值的特徵。一旦測試完成,我需要將新數據集與所有主題的主數據集進行比較,並查找給定閾值保持(例如90%)的相似性(匹配)。 因此,我需要能夠做的柱狀(主題明智)在新的數據在主數據集設置爲每列的新課題,加上其他的新數據集的每一個的比較因爲生產數據集有大約50萬列(和增長)和10,000行,所以可能獲得最佳性能。 下面是一些示例代碼: mast

    0熱度

    1回答

    dask.bag.read_text()是否保留行順序?從多個文件中讀取時是否仍然保留? bag = db.read_text('program.log') bag = db.read_text(['program.log', 'program.log.1'])

    0熱度

    2回答

    我只有RDBMS PostgresSQL的經驗但是Im新到Apache Spark和MongoDB。 所以我有以下困惑請我 1)Apache Spark SQL和MongoDB之間有什麼區別? 2)我需要使用SparkSQL或MongoDB或組合方式的地方/場景/域名? 3)Apache Spark取代了像mondoDB,cassandra ...? 4)我在MongoDB中有多個TB的數據,我想