2
我加載數據到亨利馬烏0.7 RandomAccessSparseVector
,我不知道如何序列化序列化RandomAccessSparseVector。如果我使用VectorWritable
我可以使用SequenceFile.Writer
像這樣:在亨利馬烏
writer = new SequenceFile.Writer(
fs, conf, new Path("filename"), LongWritable.class,
VectorWritable.class);
沒有RandomAccessSparseVectorWritable
,很遺憾。
一種選擇是完全忘記稀疏矢量和數據加載到VectorWritable
和序列化。我想避免這種情況,因爲手動輸入一個零負載到VectorWritable
並且在序列化時會佔用一堆磁盤空間。 RandomAccessSparseVector
也不能投射到VectorWritable
。
如果它是任何使用的,我給自己定
Configuration conf = new Configuration();
conf.set("io.serializations",
"org.apache.hadoop.io.serializer.WritableSerialization");
,這樣的Hadoop知道如何序列。