2011-12-10 124 views
0

目前我有很多我想索引的推文,但是每個推文都是小文檔。如果我要將它們聚合成每個文件有100條推文,是否可以使用Lucene索引它們,但同時保持推文ID(ID列存在於文件中)?Lucene中的索引推文

例如,每一行看起來象下面這樣:

TweetID | TweetText 

感謝, 安迪。

+0

請將它重新格式化爲一個問題。什麼讓你感到困難,其他人怎麼幫助?謝謝。 –

回答

0

Solr稱這些「多值字段」和他們完成它的方式是通過偏移。基本上,你分配每個推文200字節,然後設置第n個推文的偏移量以200 *偏移量開始。

搜索時,您可以找回匹配推文的偏移量,並從中找出匹配的推文。

+0

假設我保留TweetID的20位數字和Tweet文本的140個字符= 160字節+其他信息的另外40字節,那是什麼意思? – cherhan

+0

是的,您可以保留您認爲有必要的金額。 Lucene使用稀疏的存儲格式,因此您可以根據自己喜好設置偏移量,而無需支付存儲費用。 – Xodarap