我正在嘗試爲文檔開發分類器。我對python比較陌生,我試圖找出創建存儲結構的最佳/標準方法。我正在尋找將數據集引入機器學習算法。Python分類 - 數據結構
我正在攝取txt文件,我想有一列保存整個文檔內容,第二列保存類(0-1)在我的情況。我最初嘗試創建列表清單 - 例如列表["the skye is blue",1]["the sky is grey",1]["the sky is red",0]
。
我也試圖創建一個熊貓數據框,因爲我認爲它的結構可能更適合數據操作。
我正在嘗試爲文檔開發分類器。我對python比較陌生,我試圖找出創建存儲結構的最佳/標準方法。我正在尋找將數據集引入機器學習算法。Python分類 - 數據結構
我正在攝取txt文件,我想有一列保存整個文檔內容,第二列保存類(0-1)在我的情況。我最初嘗試創建列表清單 - 例如列表["the skye is blue",1]["the sky is grey",1]["the sky is red",0]
。
我也試圖創建一個熊貓數據框,因爲我認爲它的結構可能更適合數據操作。
我還試圖創建一個熊貓數據框,因爲我認爲它的結構可能更適合數據操作。
我會去那。鑑於目標是構建和訓練分類器,您將需要從文件的文本中提取/計算某些功能。當您決定這麼做時,輕鬆生成和向數據框添加新變量的功能將派上用場。
但是,它也取決於您將要處理的數據的大小。如果你將有大量的數據,你應該研究不同的概念和框架(例如TensorFlow)
我見過的大多數例子都是攝入一個由「空白」分隔的CSV文件或txt文件。在我看來,在進行數據挖掘時,用'空格'來劃分一個txt文件並不是一種可行的方式,因爲你可以丟失有價值的信息,因爲單詞和雙元素的標記化並不像打開文件'到一個變量然後tokenise。 – OAK
我不確定我是否收到了您的評論,但是關於OP中的上述評論,您說>沒有辦法選擇第一個列表(該類)的第二個對象。好吧,這是你可以通過遵循一些python教程爲初學者學習的東西,嘗試一下,如果你發現麻煩轉發。無論如何,我發現使用Pandas處理和計算數據更容易,儘管您仍然需要了解Python中與數據結構相同的基礎知識。 – rll
我一直在讀熊貓等的教程。我仍然在努力與以下,我不能讓我的頭靠近它。我正在for循環中使用以下命令讀取純文本文件的目錄:'pd.read_csv('// filedirectory'+ i,sep =「\ t」,quoting = csv.QUOTE_NONE,header = None,names = ['message','class')'到'list_'中。結果是多個列表等於目錄中文件的數量。每個列表包含X行數量的行,將每個文件分解爲多個行。我想要一個Dataframe,其中一行保存整個消息。有任何想法嗎? ' – OAK
嵌套列表有什麼問題? –
@RouvenB問題是,我開發了這樣的內容,第一部分是內容,第二部分是[「天空是藍色的」,1]。我不可能按照我的理解來訓練這個數據集,因爲沒有辦法選擇第一個列表(類)的第二個對象。我錯了嗎?如果我期望監督學習這種結構,我認爲這是有問題的。 – OAK