data-science

0熱度

1回答

我是新來的大熊貓，並需要使用大熊貓準備的表格，通過模仿下面的代碼片段進行確切功能： with open(r'D:/DataScience/ml-100k/u.item') as f: temp='' for line in f: fields = line.rstrip('\n').split('|') movieId = int(fields[0])

2熱度

1回答

根據其他數據框向熊貓數據框添加新列

我試圖在熊貓數據框中設置一個新列（實際上是兩列），數據來自其他數據框。我有以下兩種dataframes（他們是爲了這個目的爲例，原來dataframes是如此大得多）： In [116]: df0 Out[116]: A B C 0 0 1 0 1 2 3 2 2 4 5 4 3 5 5 5 In [118]: df1 Out[118]: A D E 0

1熱度

2回答

機器學習與不完整的數據

我有一個百萬的樣本，有大約1000個功能。但是，每個樣本只能測量一部分特徵。我想執行機器學習來預測基於特徵的結果，但是，我不知道如何處理丟失的數據。由於數據以隨機順序丟失，因此我無法根據丟失的特徵對數據進行分類，因爲類的數量會很大，並且每個類中只有很少的樣本。處理這類問題的最佳解決方案是什麼？

0熱度

2回答

從Pandas中的一行中獲取數據

教授給出的指令： 1.使用來自World Atlas數據的continent國家列表，將countries.csv文件加載到pandas DataFrame中，並將該數據集命名爲國家。 2.使用Gapminder上提供的數據，將每人的收入（GDP /人均，PPP $通貨膨脹調整後）作爲熊貓數據框載入，並將此數據集命名爲收入。 3.將數據集轉換爲以行和國家作爲列的年份。加載時顯示該數據集的頭部。 4

0熱度

1回答

NLP從句子提取字典單詞

我已經使用了Standford NLP來識別給定句子的POS。我需要從句子中只提取正確的單詞（詞典中定義的單詞）。對於例如：如果一句話就是「我去紐約的航班6AWDR」當我使用斯坦福NLP，都寫着「飛行」和「6AWDR」被標記爲PartOfSpeechAnnotation.class的「NNP」。如何在一個句子中單獨提取適當的英語單詞？

0熱度

1回答

Xgboost交叉驗證模型訪問

有沒有什麼方法可以直接從xgboost.cv訪問訓練有素的xgboost模型？或者，我是否必須手動循環摺疊並在這種情況下執行合適的操作？ xgb.cv(param, dtrain, num_round, nfold = 5, seed = 0, obj = logregobj, feval=evalerror)

0熱度

1回答

當根據訓練集訓練分類器時，如果某些訓練樣本比其他訓練樣本更值錢（更有價值），我該怎麼辦？

我想訓練一個基於給定訓練集的分類器（比如每班有100個樣本的2級問題）。我怎樣才能訓練我的分類器，使得訓練集中的一些樣本（比如說每個類的前20個樣本）比其他樣本更有價值？（由於某些原因，這些樣本與測試集更相似，因此在訓練分類器時應該將其考慮爲更重要）如果我只複製這些樣本幾次，可以嗎？我不知道，如果它的事項或沒有，但我的分類包括一個功能選擇步驟（稱爲快速基於相關性過濾器的過濾器爲基礎的方法）和

3熱度

2回答

熊貓：將列與數據框的所有其他列進行比較

我有一個場景，其中有新的主題正在測試一系列結果都是字符串分類值的特徵。一旦測試完成，我需要將新數據集與所有主題的主數據集進行比較，並查找給定閾值保持（例如90％）的相似性（匹配）。因此，我需要能夠做的柱狀（主題明智）在新的數據在主數據集設置爲每列的新課題，加上其他的新數據集的每一個的比較因爲生產數據集有大約50萬列（和增長）和10,000行，所以可能獲得最佳性能。下面是一些示例代碼： mast

0熱度

1回答

Dask Bag read_text（）line order

dask.bag.read_text（）是否保留行順序？從多個文件中讀取時是否仍然保留？ bag = db.read_text('program.log') bag = db.read_text(['program.log', 'program.log.1'])

0熱度

2回答

Apache Spark SQL和MongoDB之間的區別？

我只有RDBMS PostgresSQL的經驗但是Im新到Apache Spark和MongoDB。所以我有以下困惑請我 1）Apache Spark SQL和MongoDB之間有什麼區別？ 2）我需要使用SparkSQL或MongoDB或組合方式的地方/場景/域名？ 3）Apache Spark取代了像mondoDB，cassandra ...？ 4）我在MongoDB中有多個TB的數據，我想