2014-06-13 35 views
-1

有誰知道誰在谷歌的bigquery表上運行文本聚類?我試圖在一些小數據集(2k行,單列)上使用nltk,但它似乎需要永久使用(在一個quadcore,8GB機器,Linux上99%的CPU)。Bigquery - 文本聚類

謝謝!

+1

nltk.what? 99%的CPU爲1毫秒,5毫秒,幾個小時?你的問題是極其低估(我很驚訝它吸引了一個答案) –

回答

2

由於您已經在使用Google雲工具,因此有必要查看Google Prediction API。我個人沒有使用它,但是我已經聽到了它可以處理的數據集大小的好消息。

由於您提到了一個Python庫 - 另一個選項(也可能受限於數據集的大小),是使用PyData工具,其中包括用於導入數據的Pandas(請參閱Pandas.io.read_bq)和Scikit-learn軟件包以運行你的聚類算法。對於內置的速度有很多優化。

+0

謝謝!我會試一試,讓你知道它是怎麼回事.. – garamirez