2014-01-09 197 views
0

我試圖做一個包含表使用熊貓和新語言,我超級困惑。我正在處理Facebook數據。創建一個包含表

這裏的數據樣本,我有:

以下是用戶的集合與所有他們喜歡

id pageid1 pageid2 pageid3  
10 123   456  789 
11 478   166  356 ... 
12 984   456  789 
13 166   356  123 
       ... 

頁的我也有最流行的喜歡列表pages so

pop_page1: 123 
pop_page2: 456 
pop_page3: 789 
    ... 

所以「pop_page1」是我的數據集中用戶喜歡的最受歡迎的頁面。

時,我都做過,我希望它看起來像這樣

individual pop_page1  pop_page2 pop_page3  (etc) 
10    True   True   True 
12    False   True   True 
13    False   False   True 
(etc) 

基本上我想看看是否每一個用戶喜歡的最熱門的網頁,我不知道該怎麼做,在熊貓(或者本身在Python不會弄亂數據)

+1

什麼是「夾雜物表」?你可以修改你的問題,包括你已經嘗試過的複製/可移植版本嗎?最後,你能解釋'pop_pageN'與'pageidX'的關係嗎? (很清楚,'id'映射到'individual',但我也會清除它)。 –

回答

1

你想用DataFrame.isin()

In [12]: df 
Out[12]: 
    pageid1 pageid2 pageid3 
id       
10  123  456  789 
11  478  166  356 
12  984  456  789 
13  166  356  123 

[4 rows x 3 columns] 

In [13]: pages 
Out[13]: [123, 456, 789] 

In [14]: df.isin(pages) 
Out[14]: 
    pageid1 pageid2 pageid3 
id       
10 True True True 
11 False False False 
12 False True True 
13 False False True 

[4 rows x 3 columns] 

在你的問題是不清楚的熱門網頁的存儲方式。我只是將它列入清單,但如果它是dict,則可以使用.values()方法獲取它們。

+0

哇,這正是我所需要的。我想我只是沒有在文檔中看到。 他們被存儲在一個列表中。 非常感謝! – jbarney