我有一個由數百萬個示例組成的數據集,其中每個示例都包含128個以名稱分類的連續值特徵。我試圖找到一個強大的數據庫/索引來用作高維數據的KNN分類器。我試過Weka's IBk classifier,但它扼殺了這麼多的數據,即使這樣它也必須加載到內存中。 Lucene,特別是通過PyLucene接口,會是一個可能的選擇嗎?使用PyLucene作爲K-NN分類器
我發現Lire,它似乎以類似的方式使用Lucene,但在審查代碼後,我不確定它們是如何拉斷它,或者如果它是我試圖的相同的東西做。
我意識到Lucene是作爲文本索引工具而設計的,而不是作爲通用分類器,但可以以這種方式使用嗎?
要處理「數以百萬計的例子」,你應該採取看看apache mahout - 分佈式機器學習框架 - 它似乎有kNN:https://issues.apache.org/jira/browse/MAHOUT-115。 – Skarab 2011-04-06 21:28:04
我找不到Mahout的KNN的任何文檔,除了在Taste組件中對其進行簡要引用外,它明確指出它僅支持布爾特性。 Mahout不能用作通用KNN。 – Cerin 2011-04-07 00:03:07