我在軌道上使用紅寶石黑子。它的工作正常。提供給數據庫的內容來自豐富的文本編輯器,因此它具有HTML標籤。我是否需要去掉這些標籤,並將內容保存在表格中的單獨字段中。使用它會提高搜索引擎的準確性。我需要去掉標籤以改善搜索嗎?
2
A
回答
2
剝離標籤永遠不會傷害;噪音越小越好。
您可以輕鬆地檢索文檔的文本,而無需使用引入nokogiri標籤:
require 'nokogiri'
xml = <<EOT
<xml>
<node>This is some text.</node>
<node>This is more text.</node>
</xml>
EOT
doc = Nokogiri::XML(xml)
puts doc.text
>> :!ruby test.rb
>>
>> This is some text.
>> This is more text.
>>
引入nokogiri有一些選項可以合併相鄰的文本節點,但它很容易做到與普通的Ruby數組和字符串處理過。
0
您還可以使用HTML地帶斷詞之一(schema.xml中配置)的過濾器鏈:
http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.HTMLStripStandardTokenizerFactory
可能比加在引入nokogiri解析步更高效。
相關問題
- 1. 我需要去掉右邊
- 2. 可以對MySQL列編制索引以改善LIKE搜索嗎?
- 3. 需要去掉不需要的文本
- 4. 如何改善我的搜索腳本?
- 5. Nokogiri可以搜索「?xml-stylesheet」標籤嗎?
- 6. Hibernate搜索需要@DocumentId嗎?
- 7. 改善字符串搜索
- 8. 改善搜索功能
- 9. 改善搜索時間
- 10. .htaccess問題:我可以去掉一個主要的問號嗎?
- 11. 這可以改善嗎?清理危險的html標籤
- 12. 我可以用邏輯運算符OR搜索github標籤嗎?
- 13. JSF 2.0去掉需要的HTML5屬性
- 14. 需要去掉excel中的前導零
- 15. 用strip_tags去掉多個標籤()
- 16. 從文本中去掉標籤?
- 17. PHP - 使用用strip_tags來去掉標籤
- 18. 去掉佔位符內的xml標籤
- 19. 用jQuery去掉所有的html標籤?
- 20. Javascript:execCommand(「removeformat」)不去掉h2標籤
- 21. django去掉文本中的img標籤
- 22. Mongodb - 創建索引 - 是否需要,我搜索好嗎?
- 23. 搜索標籤
- 24. 改善MongoDB文本搜索性能
- 25. 改善基於上下文的搜索
- 26. 使用hitcollector改善Lucene搜索速度
- 27. 我需要去掉谷歌快訊網址
- 28. 我需要遊標嗎?
- 29. lua中可搜索的標籤表嗎?
- 30. 幫助需要改善foreach循環
對於它的價值,我已經看到了HTMLStripStandardTokenizerFactory窒息並死於畸形標記。買者自負 :) – 2010-12-22 20:39:00