1
我將下載(爲了將來的語言處理目的)幾千個網頁。現在我在想,我應該保存哪些元數據。我探討了這一點,但我不會忽視重要的事情。下載網頁時我應該保存哪些元數據?
<title>
<link>
<publish_date>
<date_downloaded>
<source> // to this page
<keyword> // for Solr indexing
<text> // cleaned body of page
有什麼重要的事情我可以錯過未來嗎?