Python分類 - 數據結構

我正在嘗試爲文檔開發分類器。我對python比較陌生，我試圖找出創建存儲結構的最佳/標準方法。我正在尋找將數據集引入機器學習算法。Python分類 - 數據結構

我正在攝取txt文件，我想有一列保存整個文檔內容，第二列保存類（0-1）在我的情況。我最初嘗試創建列表清單 - 例如列表["the skye is blue",1]["the sky is grey",1]["the sky is red",0]。

我也試圖創建一個熊貓數據框，因爲我認爲它的結構可能更適合數據操作。

來源

2015-11-21 OAK

嵌套列表有什麼問題？ –

@RouvenB問題是，我開發了這樣的內容，第一部分是內容，第二部分是[「天空是藍色的」，1]。我不可能按照我的理解來訓練這個數據集，因爲沒有辦法選擇第一個列表（類）的第二個對象。我錯了嗎？如果我期望監督學習這種結構，我認爲這是有問題的。 – OAK

我還試圖創建一個熊貓數據框，因爲我認爲它的結構可能更適合數據操作。

我會去那。鑑於目標是構建和訓練分類器，您將需要從文件的文本中提取/計算某些功能。當您決定這麼做時，輕鬆生成和向數據框添加新變量的功能將派上用場。

但是，它也取決於您將要處理的數據的大小。如果你將有大量的數據，你應該研究不同的概念和框架（例如TensorFlow）

來源

2015-11-21 14:43:37 rll

我見過的大多數例子都是攝入一個由「空白」分隔的CSV文件或txt文件。在我看來，在進行數據挖掘時，用'空格'來劃分一個txt文件並不是一種可行的方式，因爲你可以丟失有價值的信息，因爲單詞和雙元素的標記化並不像打開文件'到一個變量然後tokenise。 – OAK

我不確定我是否收到了您的評論，但是關於OP中的上述評論，您說>沒有辦法選擇第一個列表（該類）的第二個對象。好吧，這是你可以通過遵循一些python教程爲初學者學習的東西，嘗試一下，如果你發現麻煩轉發。無論如何，我發現使用Pandas處理和計算數據更容易，儘管您仍然需要了解Python中與數據結構相同的基礎知識。 – rll

我一直在讀熊貓等的教程。我仍然在努力與以下，我不能讓我的頭靠近它。我正在for循環中使用以下命令讀取純文本文件的目錄：'pd.read_csv（'// filedirectory'+ i，sep =「\ t」，quoting = csv.QUOTE_NONE，header = None，names = ['message'，'class'）'到'list_'中。結果是多個列表等於目錄中文件的數量。每個列表包含X行數量的行，將每個文件分解爲多個行。我想要一個Dataframe，其中一行保存整個消息。有任何想法嗎？ ' – OAK

Python分類 - 數據結構

回答

相關問題