Q

我應該使用什麼數據結構來處理大量的文本數據？

2016-09-06 39 views -1 likes

-1

我想用scikit-learn的TfidfVectorizer和最近鄰居算法做一些文本分類。我應該使用什麼數據結構來處理大量的文本數據？

我需要找到兩個數據集之間的相似性度量，每個數據集包含18000個條目。我不確定哪些數據結構最適合用來計算我認爲應該是18000 * 18000相似性指標的數據結構。

我到目前爲止只考慮過DataFrame。

2016-09-06 boltthrower

+0

試試你的數據的一部分，看看哪一個最適合你。如果容器的語義使你的代碼易於閱讀，那將會很好。 scikit-learn示例使用什麼？ – wwii

+0

scikit-learn使用了大量的稀疏矩陣和數據框。我認爲列表或DataFrames可以爲我工作。 – boltthrower

A

回答

0

如果您不需要任何中間數據進行進一步分析，您可以使用生成器來保存數據點，然後通過生成器調用運行算法。否則，你可能會想要一個列表。

2016-09-06 02:29:29

相關問題