2015-09-29 38 views
0

我正在研究ML文檔分類問題。有沒有人知道如何在Azure ML中對Tfidf特徵提取和sublinear_tf縮放進行n-gram格式化。TfidfVectorizer和Azlinear_tf縮放在Azure中進行特徵提取ML

在過去,我在使用TfidfVectorizer(請參閱下面的示例)中瞭解了這個inSci-Kit的學習內容,但問題是在AzureML中,我無法使用python模塊顯式定義自己的方法或類,並且不會上傳壓縮的代碼。

我是一個python人,但如果有等價物,我可以使用R.市場上有R樣品,但它依賴於unigrams。

TfidfVectorizer(max_df=.67,min_df=.015,lowercase=False ,sublinear_tf=True,norm='l2',tokenizer=AbstractTokenizer()) 

最佳, -Ari

回答

0

歡迎使用AzureML。

對於你定義自己的方法的問題,AzureML是一個可視化的基於流程的ML建模編程工具。它與本地主機上的編程不同。您可以爲不同的數據集過程定義模塊,並通過在兩個模塊之間拖放鏈接來鏈接它們。有關ML Stduio的現有模塊列表,請參閱https://msdn.microsoft.com/en-us/library/azure/dn906033.aspx。你只需要將它們結合起來製作你自己的ML模型。

對於使用Python模塊的問題,AzureML上的Python有一些限制。您不能耗費Python安裝,請參閱https://azure.microsoft.com/en-us/documentation/articles/machine-learning-execute-python-scripts/#limitations的第4項。

但是,對於R語言,您可以導入尚未安裝在ML Studio中的軟件包。請參閱https://azure.microsoft.com/en-us/documentation/articles/machine-learning-extend-your-experiment-with-r/#importing-packages

同時,您也可以在AzureML中創作自定義R模塊。請參閱https://azure.microsoft.com/en-us/documentation/articles/machine-learning-extend-your-experiment-with-r/#importing-packages

所以我認爲你可以通過在API install.packages('<pkgs.zip>', ...)上安裝依賴項「unigrams」運行R樣本。

最好的問候。