如何獲取列表中隨機選擇的行的索引（Python）

好吧，我不知道我說的是不是很糟糕，或者其他什麼，但我似乎無法在我的問題中找到類似的東西。如何獲取列表中隨機選擇的行的索引（Python）

所以我有一個2D列表，每行代表一個案例，每列代表一個功能（用於機器學習）。另外，我有一個單獨的列表（列）作爲標籤。

我想從2D列表中隨機選擇行來訓練一個分類器，同時使用其餘的來測試精度。因此，我希望能夠知道所有用於訓練的行的索引以避免重複。

我覺得有兩個部分的問題： 1）如何隨機選擇 2）如何獲得指數

再次我不知道爲什麼我不能通過搜索在這裏找到良好的信息（也許我只是吸）

對不起，我還是新來的社區，所以我可能犯了很多格式錯誤。如果您有任何建議，請告訴我。

下面是我使用來獲取2D名單

#273 = number of cases 
feature_list=[[0]*len(mega_list)]*273 
#create counters to use for index later 
link_count=0 
feature_count=0 
#print len(mega_list) 
for link in url_list[:-1]: 

    #setup the url 
    samp_url='http://www.mtsamples.com'+link 
    samp_url = "%20".join(samp_url.split()) 

    #soup it for keywords 
    samp_soup=BeautifulSoup(urllib2.urlopen(samp_url).read()) 
    keywords=samp_soup.find('meta')['content'] 
    keywords=keywords.split(',') 

    for keys in keywords: 
     #print 'megalist: '+ str(mega_list.index(keys)) 
     if keys in mega_list: 
      feature_list[link_count][mega_list.index(keys)]=1

mega_list的部分代碼：二維表，在mega_list任何話，那具體的：所有的關鍵字

feature_list列表單元格被設置爲1，否則爲0

來源

2015-02-24 JChao

我將數據存儲在一個大熊貓數據幀，替代二維名單。如果我理解你的數據正確，你可以是這樣做的：

import pandas as pd 

df = pd.DataFrame(feature_list, columns = mega_list)

我沒有看到一個因變量的任何提及，但我假設你有一個，因爲你提到的分類算法。如果您的因變量被稱爲「Y」並且列表格式的索引與您的功能對齊，那麼此代碼將爲您工作：

from sklearn import cross_validation 

x_train, x_test, y_train, y_test = cross_validation.train_test_split(
    df, Y, test_size=0.8, random_state=0)

來源

2015-02-24 21:31:47

嘿！是的，我確實有一個因變量，只是在我提供的代碼中沒有提到。我想我會嘗試這個算法！將回報哈哈。謝謝！ – JChao 2015-02-24 22:22:01

好的，仔細看後，可能不需要。我使用樸素貝葉斯多標稱配合，它似乎是 {CLF = MultinomialNB（） >>> clf.fit（X，Y） MultinomialNB（阿爾法= 1.0，class_prior =無，fit_prior =真） } 將完成這項工作（這是來自網站的示例）。我不太確定，但我覺得這個線程開始偏離原來的主題lol – JChao 2015-02-24 23:15:42

據我所知，問題是，您有一個列表，您想要對列表進行採樣並保存索引以供將來使用。請參閱：https://docs.python.org/2/library/random.html

你可以做一個random.sample（xrange（sizeoflist），sizeofsample），它將返回樣本的索引。然後，您可以使用該樣本進行訓練並跳過它們（或者花點心思做一組差異）以進行驗證。

希望這有助於

來源

2015-02-24 21:30:38

謝謝，這解決了這個問題。雖然現在更多的問題出現了......另一個線程我去！ – JChao 2015-02-25 00:54:21

如何獲取列表中隨機選擇的行的索引（Python）

回答

相關問題