machine-learning

3熱度

1回答

在指定「scale-tier STANDARD_1」後，使用REMOTE分佈式命令運行張量流：。批次運行失敗.... 現在，我只能用簡單的單節點運行「規模級= BASIC」 gcloud ml-engine jobs submit training census_20171005_162623 --stream-logs --scale-tier STANDARD_1 --staging-bu

-2熱度

1回答

如何將映射到每個要素的tf-idf值提取回數據框？

我有一個數據幀，它由少數包含字符串值的列組成。在這些列上計算TF-IDF可以返回我可以映射回數據框的數組列表，但現在這些值是數組（有點像多值），這使得進一步的計算變得非常困難。我想得到那些映射到它們的功能列表（有點像擴展數據框），我可以直接放在我的原始數據框中。我該如何做到這一點？的樣本數據： print(d1['Keywords']) 1 APS17P, auditing standard

1熱度

2回答

Python/Numpy中的正常方程實現

我已經編寫了一些初學者代碼來使用正規方程計算簡單線性模型的係數。 # Modules import numpy as np # Loading data set X, y = np.loadtxt('ex1data3.txt', delimiter=',', unpack=True) data = np.genfromtxt('ex1data3.txt', delimiter=',')

0熱度

1回答

用於從PDF中提取數據的自然語言處理

我有許多不同格式的掃描pdf與許多不同的字段。將其視爲已掃描的發票。我需要從掃描的pdf中提取信息並輸出字段和每個字段中的文本。我有一個OCR工具，可以很好地提取原始格式中的所有文本。我以某種方式使用NLP必須能夠從原始文本中提取字段和它們的值。由於發票格式很多，在這種情況下使用OCR不是一種選擇。 NLP如何幫助我解決這個問題？

0熱度

1回答

線性迴歸模型擬合不佳

我想在第1列的一個要素的數據集上擬合模型，在第0列附加一個向量。無論我嘗試什麼，曲線對數據的擬合都很差。這是代碼。 import pandas as pd import matplotlib.pyplot as plt import numpy as np col = ['id','ri','na','mg','al','si','k','ca','ba','fe','glass_typ

-1熱度

1回答

在python中基於動態輸入數據集創建通用模型

我想創建一個基於數據集上傳的通用平臺，我需要找到適合這些數據的機器學習算法。我只獲得預測所需的目標變量和參數值作爲來自UI的輸入。任何人都可以告訴我如何根據數據集動態地找到算法。

0熱度

1回答

LogisticRegression預測概率

我目前在scikit-learn中使用LogisticRegression來解決多類分類問題。我已經決定使用LogisticRegression，因爲我已經閱讀了幾篇文章，將它描述爲一個經過良好校準的算法，並根據它返回的預測概率進行了描述。對於分類器的每個結果，我檢查其預測概率以及分類觀察與具有相同決策等級的訓練集中其餘示例之間的距離。我感到驚訝的是，即使一個類已經被預測具有90％以上的置信度

0熱度

1回答

scikit-learn中的CountVectorizer和CharNGramAnalyzer有什麼不同？

我有CountVectorizer和CharNGramAnalyzer之間的混淆。根據我的理解， CountVectorizer構建一個計數矩陣，其中行是出現計數的不同詞考慮到高維稀疏性。 CharNGramAnalyzer構建一個計數矩陣，其中行是不同字符出現次數的計數。由於它不考慮文字，因此不需要知道單詞之間的分隔，並且適用於英語以外的語言。我對我的理解是否正確？如果不是，我想要一個詳細的解

-1熱度

1回答

K的平均值和平局的情況下，KNN的預計等級是什麼？

在KNN (K nearest neighbour)分類器中，如果選擇K的偶數值，那麼多數投票規則或歐幾里得距離規則中的預測會是什麼。例如，如果有3班說虹膜setosa 虹膜雲芝虹膜弗吉尼亞現在說我們的n_neighbors = 6價值。多數票投票規則有相當多的機會獲得平局結果？在大多數可視化中，這個地區都以白色表示，說不能做出任何決定。但是對於領帶的實際預測是什麼？這個問題很難模擬，相當概

0熱度

1回答

如何使用GridSearchCV獲取每組參數的預測值？

我試圖找到NN迴歸模型採用GridSearchCV與下面的代碼的最佳參數： param_grid = dict(optimizer=optimizer, epochs=epochs, batch_size=batches, init=init grid = GridSearchCV(estimator=model, param_grid=param_grid, scoring='neg_mean