2010-12-22 69 views
2

我在軌道上使用紅寶石黑子。它的工作正常。提供給數據庫的內容來自豐富的文本編輯器,因此它具有HTML標籤。我是否需要去掉這些標籤,並將內容保存在表格中的單獨字段中。使用它會提高搜索引擎的準確性。我需要去掉標籤以改善搜索嗎?

回答

2

剝離標籤永遠不會傷害;噪音越小越好。

您可以輕鬆地檢索文檔的文本,而無需使用引入nokogiri標籤:

require 'nokogiri' 

xml = <<EOT 
<xml> 
    <node>This is some text.</node> 
    <node>This is more text.</node> 
</xml> 
EOT 

doc = Nokogiri::XML(xml) 
puts doc.text 

>> :!ruby test.rb 
>> 
>> This is some text. 
>> This is more text. 
>> 

引入nokogiri有一些選項可以合併相鄰的文本節點,但它很容易做到與普通的Ruby數組和字符串處理過。