2010-04-12 68 views
1

我將下載(爲了將來的語言處理目的)幾千個網頁。現在我在想,我應該保存哪些元數據。我探討了這一點,但我不會忽視重要的事情。下載網頁時我應該保存哪些元數據?

<title> 
<link> 
<publish_date> 
<date_downloaded> 
<source> // to this page 
<keyword> // for Solr indexing 
<text> // cleaned body of page 

有什麼重要的事情我可以錯過未來嗎?

回答

1

有一些別人認爲你可能會感興趣:

  • 文檔類型(是文章,宣傳,着陸頁等)
  • 字幕/標題/摘要
  • 圖像位置(圖像的URL,如果你想在你的web應用中顯示)
  • 作者
  • 科(所以你可以使用FQ在Solr的查詢結果限制爲特定部分)
相關問題