Lucene中的索引推文

目前我有很多我想索引的推文，但是每個推文都是小文檔。如果我要將它們聚合成每個文件有100條推文，是否可以使用Lucene索引它們，但同時保持推文ID（ID列存在於文件中）？Lucene中的索引推文

例如，每一行看起來象下面這樣：

TweetID | TweetText

感謝，安迪。

2011-12-10 cherhan

請將它重新格式化爲一個問題。什麼讓你感到困難，其他人怎麼幫助？謝謝。 –

Solr稱這些「多值字段」和他們完成它的方式是通過偏移。基本上，你分配每個推文200字節，然後設置第n個推文的偏移量以200 *偏移量開始。

搜索時，您可以找回匹配推文的偏移量，並從中找出匹配的推文。

2011-12-12 22:30:21 Xodarap

假設我保留TweetID的20位數字和Tweet文本的140個字符= 160字節+其他信息的另外40字節，那是什麼意思？ – cherhan

是的，您可以保留您認爲有必要的金額。 Lucene使用稀疏的存儲格式，因此您可以根據自己喜好設置偏移量，而無需支付存儲費用。 – Xodarap

回答