unsupervised-learning

    3熱度

    1回答

    H2O最近在其API中添加了word2vec。能夠輕鬆地在您自己提供的語料庫上訓練您自己的單詞向量是非常好的。 然而,使用大數據和大型計算機的可能性更大,因爲使用大型數據和大型計算機,類似於Google或H2O.ai等軟件供應商,而不是H2O的許多最終用戶可能有權訪問,因爲網絡帶寬和計算能力限制。 單詞嵌入可以看作是一種無監督學習。因此,通過使用在特定應用中構建在非常大的語料庫上的預訓練詞向量作爲

    1熱度

    1回答

    通常情況下,文本分類可以通過以下兩種方式之一進行:1.如果有足夠的訓練數據,則進行監督學習; 2.當沒有足夠的未預先標記的訓練數據時進行無監督訓練。只有一組只包含texte(評論)的推文,而且每個推文都沒有極性。 我的問題是有沒有任何方法來使用無監督學習對這些數據進行不確定分析? 謝謝你幫我

    0熱度

    1回答

    我是新來的數據挖掘概念,並試圖瞭解有監督學習和無監督學習之間的差異。到目前爲止,我所知道的是監督意味着從標記數據集中獲取信息,而無監督意味着對數據進行聚類,而不給出任何標籤。 我有點了解它們是什麼,但不能真正將它們應用於現實生活中(不能真正將這些概念應用於提出實時問題)。我在其中一個機器學習網絡論壇上發現了下面的示例問題,並且想知道是否有人可以幫助我,所以我可以用它作爲例子來理解這個概念。問題是:

    0熱度

    1回答

    我有一個下面的數據幀df,這是我從sframe URI name text 0 <http://dbpedia.org/resource/Digby_M... Digby Morrell digby morrell born 10 october 1979 i... 1 <http://dbpedia.org/resource/Alfred_... Alfred J

    0熱度

    1回答

    我在尋找遠程監督算法(適用於自然語言處理應用程序)。你能指出一個可應用的算法或方法嗎?

    2熱度

    1回答

    我正在scikit-learn中試驗LatentDirichletAllocation() class,並且evaluate_every參數具有以下說明。 評估困惑的頻率。僅適用於合身方式。將其設置爲0 或負數,以免在訓練中完全評估困惑。 評估困惑可以幫助您在訓練 過程中檢查收斂,但它也會增加總訓練時間。在每次迭代中評估 困惑可能會將培訓時間增加兩倍,最多可達 。 我將此參數設置爲2(默認爲0)並

    0熱度

    1回答

    我有一個自組織地圖創建Som_pak - 3.1在這裏 如果我有三個不同類型的元素,它們是不同的。爲什麼元素不在地圖的不同部分?爲什麼在同一個六邊形中,「A」,「B」和「C」在許多情況下是共同的?爲什麼「B」和「C」在六角形中永遠不會孤單? 提前致謝!

    0熱度

    1回答

    使用學習方法時,我們有培訓和測試數據。 我想確認 1)培訓數據和測試數據是否必須從同一個傳感器捕獲2)如果它們來自不同的傳感器會怎麼樣? 3)如果必須從相同的傳感器捕獲它們,是否有任何方法來統一數據,即使它們不是來自同一傳感器? 謝謝。

    -1熱度

    2回答

    根據元素風格(fontSize,fontWeight,...)從HTML文件中提取標題和段落的最佳數據挖掘策略是什麼。我已經提取了文本和fontSize屬性並將它們放在一個csv文件中,現在我需要知道如何對這些數據進行分類(或分類?),以便它可以給我例如所有fontSize爲20px的元素,公差爲+ - 5px。這些元素將被轉換成h1標籤,等等.. 編輯:我能夠將fontSizes集羣化爲儘可能多

    0熱度

    1回答

    我有一個文件存儲庫。這些文件是由人類創建的純英文文本。每個文件包含幾個段落描述一些事件。 現在,由於每個人都不同,所以可以用不同的文字書寫兩個或更多的事件,並且具有不同的語法。即使是同一個人也可能傾向於用不同的語法用不同的詞語寫出事件。 如何找到並聚集類似的文件在一起?