Bigquery - 文本聚類

-1

有誰知道誰在谷歌的bigquery表上運行文本聚類？我試圖在一些小數據集（2k行，單列）上使用nltk，但它似乎需要永久使用（在一個quadcore，8GB機器，Linux上99％的CPU）。Bigquery - 文本聚類

謝謝！

2014-06-13 garamirez

nltk.what？ 99％的CPU爲1毫秒，5毫秒，幾個小時？你的問題是極其低估（我很驚訝它吸引了一個答案） –

由於您已經在使用Google雲工具，因此有必要查看Google Prediction API。我個人沒有使用它，但是我已經聽到了它可以處理的數據集大小的好消息。

由於您提到了一個Python庫 - 另一個選項（也可能受限於數據集的大小），是使用PyData工具，其中包括用於導入數據的Pandas（請參閱Pandas.io.read_bq）和Scikit-learn軟件包以運行你的聚類算法。對於內置的速度有很多優化。

2014-06-13 21:46:52 Rohit

謝謝！我會試一試，讓你知道它是怎麼回事.. – garamirez

回答