supervised-learning

-2熱度

1回答

我想寫一個學習算法，它可以自動創建文章摘要。 e.g，也有一些科幻小說（一類考慮到它作爲一個過濾器）的PDF格式。我想要創建一個自動創建摘要的過程。我們可以提供一些樣本數據來實施監督學習方法。請建議我如何正確執行此操作。我是初學者&上午追求安德魯吳課程，並意識到一些常見的算法（線性reg，logistic，神經網絡）+ Udacity統計課程，並準備更深入地學習NLP，深入學習等，但動機是解

2熱度

1回答

（查詢，文檔相關性）免費數據集構建信息檢索系統

我很想找到一個數據集，如「英語相關性判斷文件列表」： http://trec.nist.gov/data/qrels_eng 此數據集包含一個標記，對查詢和文件。然而，它依賴於非自由文集，名爲「數據 - 英文文檔」： http://trec.nist.gov/data/docs_eng.html 你知道任何免費的數據集（S）類似的這一個？旁註：該數據集將用於建立基於神經網絡的信息檢索系統的研究

0熱度

1回答

R中訓練隱馬爾可夫模型

訓練R中隱馬爾可夫模型是否可能？我有一組觀察及其相應的標籤。我需要訓練HMM以獲得馬爾可夫參數（即轉換概率矩陣，發射概率矩陣和初始分佈）。所以，我可以預測未來的觀察結果。換句話說，我需要與Forward_Backward算法相反。

-1熱度

1回答

如何使用Standford分類器打印到文件

我正在爲我的項目使用Standford Classifier。這個項目需要訓練數據來調整算法，然後測試數據以將文本輸入分類爲類別。所以測試和訓練數據的格式是製表符分隔的文本，這意味着預測器-TAB- input text 該軟件打印輸出到stdout（命令行）。無論如何輸出到一個文本文件？我搜查了javadoc的項目網站，我發現this one http://image.prntscr.c

0熱度

1回答

在循環中訪問與smbinning.gen（）列表中的列表

基本上我試圖自動化評分建模工作流程，並遇到輸入從循環產生的結果從smbinning()的問題，因此記錄在名單。結果本身就是一個列表，所以我列出了一堆列表。當我嘗試將結果（連續變量的存儲區）添加到數據框中時出現問題。我發現無法提供進入列表級別所需的語法。我嘗試通過引用列號來解決此問題，並試圖從循環中傳遞相應的列表名稱。我得到的錯誤是： [.data.frame（df，，col_id）中的錯誤：選擇了

0熱度

1回答

的BP神經網絡

我喜與神經網絡，現在玩。我做了那種本教程的重新實現的： http://www.ai-junkie.com/ann/evolved/nnt5.html，但隨着魚類和食品也有不同的編程語言。但重點是一樣的。我有一堆魚（20）和一堆foos（40）。每條魚都有大腦（神經網絡（我將從現在開始使用ANN））。目前，神經網絡不使用backprop，並通過遺傳alghoritm進行訓練。它工作正常。我想通過使

-1熱度

1回答

如何文件進行分類.TXT到一些其他的.txt類的監督學習

我有大約數千名存放在8個不同的文件夾TXT文本文件被標記爲主題類別（實際上，他們是1,2,3類...）。我還有另外80個尚未分類的txt文檔。我試圖找到將它們分類的最佳方法。我已經完成了文本分割並刪除了英文字母（因爲他們是中國人文本）。什麼我要做什麼？我可以得到具有最高TF-IDF值的單詞，但不知道下一步該怎麼做。似乎我應該將這些文本轉換爲矢量並訓練一個分類器，但我不知道如何。

0熱度

2回答

將數據分解爲SOM中的培訓/測試的原因是什麼？

我正在研究和閱讀一些使用SOM算法的論文。我不明白人們將他們的數據集分解爲SOM的訓練/測試集的邏輯。我的意思是，例如，當使用C4.5決策樹時，經過訓練的結構包括一些新的數據集（測試）來分類數據時應用的規則。但是，系統通過SOM進行培訓後會生成什麼樣的規則或類似的規則？如果我將100％的數據應用於SOM系統，而不是30％先進行培訓，然後再使用70％進行測試，那將會有什麼不同呢？提前感謝您的回答。

1熱度

1回答

如何識別電影或傳記等文檔類別

我目前正在運行將某些文檔分類爲某些預定義類集的任務。爲此，我依賴Multinomial樸素貝葉斯，它適用於大多數類別，如棒球，運動或太空。但是，如何找出某些人的電影或傳記等類別的文章？ MNB主要運用一攬子文字行話的方式。這就是爲什麼很容易檢測到棒球文章，因爲它們將包含大量的棒球術語。但是，電影或傳記文章包含非常少的行話。電影文件只會描述電影，或對其進行審查，並僅針對該電影特定的文字。因此，關於

6熱度

2回答

計算多類的sklearn.roc_auc_score

我想計算我的分類器的AUC，精度和準確度。我正在監督學習：這是我的工作代碼。此代碼適用於二進制類，但不適用於多類。請假設你有一個二進制類一個數據幀： sample_features_dataframe = self._get_sample_features_dataframe() labeled_sample_features_dataframe = retrieve_labeled_s