我尋求最有效和最簡單的方法來將800k +學術文章分類爲與定義的概念空間相關的(1)或不相關的(0)(這裏:learning as it relates to work)。 數據是:標題&抽象(平均= 1300個字符),可以使用 任何方法或甚至組合,包括監督的機器學習和/或通過建立產生一些閾值列入特性,其中其他。 方法可以利用key terms that describe the conceptu
所以我試圖從分佈式LSI的gensim運行演示(你可以找到它here)然而每當我運行代碼,我得到錯誤 AttributeError: module 'Pyro4' has no attribute 'expose' 我已經在這裏檢查了計算器類似的問題,他們通常是通過圖書館的誤操作造成的。 但是我沒有直接使用Pyro4,而是使用由gensim引入的分佈式LSI。因此,有沒有犯錯的餘地就在我身邊(或因
我正嘗試在mahout中運行SVD作業。我有一個矩陣(說A)的大小爲372053 x 21338(文件x的術語)創建(21338沒有唯一的單詞說N,372053文件說M)。所以我的矩陣A的大小(M * N)。我用mahout運行svd,並且得到了清晰的特徵向量(我給出了預期的排名,如200表示R)。現在我有一個由尺寸R * N創建的特徵向量矩陣。 陳述的SVD方程 A = U * S * V '(