有誰知道誰在谷歌的bigquery表上運行文本聚類?我試圖在一些小數據集(2k行,單列)上使用nltk,但它似乎需要永久使用(在一個quadcore,8GB機器,Linux上99%的CPU)。Bigquery - 文本聚類
謝謝!
有誰知道誰在谷歌的bigquery表上運行文本聚類?我試圖在一些小數據集(2k行,單列)上使用nltk,但它似乎需要永久使用(在一個quadcore,8GB機器,Linux上99%的CPU)。Bigquery - 文本聚類
謝謝!
由於您已經在使用Google雲工具,因此有必要查看Google Prediction API。我個人沒有使用它,但是我已經聽到了它可以處理的數據集大小的好消息。
由於您提到了一個Python庫 - 另一個選項(也可能受限於數據集的大小),是使用PyData工具,其中包括用於導入數據的Pandas(請參閱Pandas.io.read_bq
)和Scikit-learn軟件包以運行你的聚類算法。對於內置的速度有很多優化。
謝謝!我會試一試,讓你知道它是怎麼回事.. – garamirez
nltk.what? 99%的CPU爲1毫秒,5毫秒,幾個小時?你的問題是極其低估(我很驚訝它吸引了一個答案) –