2014-02-14 47 views
2

我想通過更改文件的格式來量化我可以獲得的空間節約。選項卡佔用多少空間?

我有一個稀疏矩陣儲存在一個文本文件(30%稀疏)。列由標籤分隔。

idea in an SO answer後,我會將格式更改爲row_id,col_id僅限於非零項。我知道一個浮動需要多少空間,但我的問題是:一個選項卡需要多少空間?

+0

標籤字符在文本文件中使用多少字節取決於字符編碼。 ASCII字符需要一個字節:'\ t'。請注意,編輯器可能會將製表符顯示爲2或4個空格,或者任何配置。 – CouchDeveloper

回答

1

CouchDeveloper在他的評論中是正確的。從您提供的數據中無法分辨出來。
在單字節字符集編碼中,您將爲當前「,」的每個分隔符保存1個字節。
在多字節編碼中,它將取決於每個字符的編碼方式,理論上甚至會失去空間。假設一個標籤被編碼爲4個字節,逗號和空格分別爲1,那麼每個分隔符最多需要2個字節。
除非你有很多分隔符和相對很少的數據,否則我不會擔心這種或那種方式,它會是微觀優化。
如果這樣做,二進制編碼方案可能更相關。

1

1個字節,但如果您使用壓縮(基於它們的平均程度,平均少於一點)會顯着減少。使用壓縮。

+1

並不總是如此。多字節字符集中的選項卡可以使用多個字節進行編碼。 – jwenting