我需要在一個非常大的表或矩陣上執行計算和操作,它將有大約7500行和30000列。代表一個巨大的矩陣/表
矩陣數據如下所示:
Document ID | word1 |字2 |字3 | ... |字30000 |文檔分類
0032 1 0 0 1 P
換句話說,絕大多數單元格將包含布爾值(0和1)。
即需要做將期運用詞幹或特徵選擇(通過使用減少技術減少字的數量)的計算,以及計算每個類或每個字等
我要記住設計一個用於表示矩陣的OOP模型,然後將對象序列化到磁盤,以便稍後重用它們。例如,我將爲每個行或每列創建一個對象,或者爲另一個類中包含的每個交集創建一個對象。
我想過用XML表示它,但文件大小可能會有問題。
我可能會坐在鍋裏想念我的方法 - 我在正確的道路上,還是會有任何更好的表現方式來操縱這樣的大型數據收集。
這裏的關鍵問題是性能(反應時間等),以及數據的冗餘和完整性,顯然我需要將數據保存在磁盤上。
請不要用「C#」等來標題。這就是標籤的用途。 – 2012-03-22 15:04:17
這是一個7500 x 30000數字的矩陣,還是代表更復雜的東西?對你的問題的任何好的答案取決於有關這個表或矩陣的內容和結構的更多輸入。 – 2012-03-22 15:08:23
29998列將包含1或0,其餘兩列將包含字符串。 – petestar 2012-03-22 15:39:17