我想通過更改文件的格式來量化我可以獲得的空間節約。選項卡佔用多少空間?
我有一個稀疏矩陣儲存在一個文本文件(30%稀疏)。列由標籤分隔。
繼idea in an SO answer後,我會將格式更改爲row_id,col_id僅限於非零項。我知道一個浮動需要多少空間,但我的問題是:一個選項卡需要多少空間?
我想通過更改文件的格式來量化我可以獲得的空間節約。選項卡佔用多少空間?
我有一個稀疏矩陣儲存在一個文本文件(30%稀疏)。列由標籤分隔。
繼idea in an SO answer後,我會將格式更改爲row_id,col_id僅限於非零項。我知道一個浮動需要多少空間,但我的問題是:一個選項卡需要多少空間?
CouchDeveloper在他的評論中是正確的。從您提供的數據中無法分辨出來。
在單字節字符集編碼中,您將爲當前「,」的每個分隔符保存1個字節。
在多字節編碼中,它將取決於每個字符的編碼方式,理論上甚至會失去空間。假設一個標籤被編碼爲4個字節,逗號和空格分別爲1,那麼每個分隔符最多需要2個字節。
除非你有很多分隔符和相對很少的數據,否則我不會擔心這種或那種方式,它會是微觀優化。
如果這樣做,二進制編碼方案可能更相關。
標籤字符在文本文件中使用多少字節取決於字符編碼。 ASCII字符需要一個字節:'\ t'。請注意,編輯器可能會將製表符顯示爲2或4個空格,或者任何配置。 – CouchDeveloper