2015-05-29 64 views
0

paperBoat格式聲稱爲機器學習例程提供更好的數據集表示。我想了解其優化的性質。我知道使用模型屬性的整數表示意味着更快的數據集處理,還有哪些其他改進。造紙船格式在ML性能優化中的優勢是什麼?

另外,如何調整ML算法來處理這種文件格式。

+0

'最佳數據集表示'?現在這是一個大膽的說法。對我來說,這聽起來更像是http://xkcd.com/927/ – cel

+0

來捕捉你的評論,我改變了最佳狀態。 PS:鏈接很有表現力,但是,我希望看到更客觀的分析:) – MedAli

回答

1

我不知道這種格式是否真的提供了更好的表示,但我可以推測爲什麼它可以更高效。

首先,由於它們在格式描述中表述爲「具有相同精度的數據連續使能硬件向量化」。也可以考慮wikipedia:「向量處理技術已被添加到幾乎所有現代CPU設計」。其次,它們的格式允許您混合稀疏和非稀疏特徵,但由於所有稀疏特徵因此被放置,所以可以很容易地將它們作爲sparse matrix並優化像共軛梯度一樣學習的方法。

如何調整ML算法以使用此文件格式?

ML算法調整是什麼意思?學習算法不知道也不需要知道關於數據集文件格式的任何信息;如果您知道文件格式,則無法提高或降低準確性。從理論上講,如果你可以依賴數據的某些屬性(我猜Ismion PaperBoat可以做到這一點),你可以加速具體的優化算法(如梯度下降),但我認爲你不能自己調整它。

+0

感謝您的解釋。關於「調整ML算法」我想問,例如,如果我有一個線性迴歸模型,其特徵是(銷售,時間,天氣,位置),使用這種數據格式,似乎我將不得不代表我的特徵向量不同,我的問題是如何從第一個表示到用這種數據格式的特徵向量的新表示。 – MedAli

+1

在您提供的頁面中有詳細描述;如果你的格式不是列出的4格式,你應該閱讀文件格式規範(http://ismion.net/documentation/paperboat/file_formats.html#ismion-file-specification),並相應地寫下你的特性 –