2016-09-06 39 views
-1

我想用scikit-learn的TfidfVectorizer和最近鄰居算法做一些文本分類。我應該使用什麼數據結構來處理大量的文本數據?

我需要找到兩個數據集之間的相似性度量,每個數據集包含18000個條目。我不確定哪些數據結構最適合用來計算我認爲應該是18000 * 18000相似性指標的數據結構。

我到目前爲止只考慮過DataFrame。

+0

試試你的數據的一部分,看看哪一個最適合你。如果容器的語義使你的代碼易於閱讀,那將會很好。 scikit-learn示例使用什麼? – wwii

+0

scikit-learn使用了大量的稀疏矩陣和數據框。我認爲列表或DataFrames可以爲我工作。 – boltthrower

回答

0

如果您不需要任何中間數據進行進一步分析,您可以使用生成器來保存數據點,然後通過生成器調用運行算法。否則,你可能會想要一個列表。

相關問題