確定高頻區間

我試圖擴展一個我寫的函數來查找「足夠接近」字典的前3個值也都低於閾值（這裏N = 70）。：確定高頻區間

d = { 
1: {0: 222, 2:44, 18: 44, 20: 22, 21:72, 105:22, 107:9, 115: 66}, 
2: {0: 61.0, 993: 65.0, 1133: 84.0, 1069: 48.0, 105:22, 107:9, 115: 24, 214:22, 206:9,  225: 241,412: 83.0, 364: 68.0, 682: 64.0, 172: 58.0} 
}#nested dictionary 

def ff(d): 
    G = [] 
    for k,v in sorted(d.iteritems()): 
     G.append((k,v)) 
     #print G 
    for i in range(len(G)-2): 
     if (G[i+2][0] - G[i][0] < 20) & (G[i][1] <= 70) & (G[i+1][1] <=70) & (G[i+2][1]<=70): 
      return i, G[i], G[i+1], G[i+2] 

for idnum, ds in sorted(d.iteritems()): 
    print ff(ds)

輸出：

[(0, 222), (2, 44), (18, 44), (20, 22), (21, 72), (105, 22), (107, 9), (115, 66)] 
(1, (2, 44), (18, 44), (20, 22)) 
[(0, 61.0), (105, 22), (107, 9), (115, 24), (172, 58.0), (206, 9), (214, 22), (225, 241),  (364, 68.0), (412, 83.0), (682, 64.0), (993, 65.0), (1069, 48.0), (1133, 84.0)] 
(1, (105, 22), (107, 9), (115, 24)) #first interval fitting criteria

我想怎麼辦，實際上是找到長度爲20的所有窗口，並跟蹤它有多少價值有< = 70。任何關於如何開始的想法都會很棒。我似乎不能用「我」要弄清楚如何從狀態移動：

if (G[i+2][0] - G[i][0] < 20) & (G[i][1] <= 70) & (G[i+1][1] <=70) & (G[i+2][1]<=70):

的東西基於長度20，而不是索引？

最終，而不是「前三個」我想保持所有較高頻率的軌道其最小值爲「按順序值< = 70至少3個，連續*和長度爲20間隔」。

期望輸出繼電器：

如果我們有

d[3] = {0: 61.0, 993: 65.0, 1133: 84.0, 1069: 48.0, 105:22, 107:9, 115: 24, 117:22, 200:100, 225: 241,412: 83.0, 420: 68.0, 423: 64.0, 430: 58.0}

會導致輸出：

[(105, 22), (107, 9), (115, 24),(117,22)], [(420, 68.0),(423,63),(430,58)] 
# These can be of any length as long as the overall interval of the list is <=20.

來源

2012-03-10 Lillian Milagros Carrasquillo

可以跳過一個大於70的值嗎？所以，如果不是'（0,222）'你有'（9,222）'，那麼'（2,44），（18,44），（20,22）'仍然是正確的嗎？ – 2012-03-10 17:36:57

好問題。不，我需要他們**連續**。 – 2012-03-10 19:00:32

如果有重疊的候選窗口怎麼辦？（0,55），（1,55），（2,55），（3,55）：前三位，後三位和四位一起似乎都滿足條件。在這種情況下應該發生什麼？ – DSM 2012-03-10 19:09:30

這裏的東西這可能會幫助你開始。它是基於循環的，甚至不使用壓縮，但希望將意義（更itertools.takewhile！）：

def find_windows(d, min_elements=3,upper_length=20,max_value=70): 
    G = sorted(d.items()) 
    for start_index in range(len(G)): 
     for width in range(min_elements, len(G)-start_index+1): 
      window = G[start_index:start_index+width] 
      if not all(v <= max_value for k,v in window): 
       break 
      if not window[-1][0] - window[0][0] < upper_length: 
       break 
      yield window

我用「破發」，因爲只要我們有任何值> MAX_VALUE或我們> = upper_length從start_index開始沒有更多可能的窗口。

如果您之前沒有看過yield，它會將該功能變爲生成器功能;它就像是一個return函數發回（yield）的值，然後可以繼續而不是停止。（見的答案this question以獲取更多信息。）

>>> Ds = { 
...  1: {0: 222, 2:44, 18: 44, 20: 22, 21:72, 105:22, 107:9, 115: 66}, 
...  2: {0: 61.0, 993: 65.0, 1133: 84.0, 1069: 48.0, 105:22, 107:9, 115: 24, 214:22, 206:9, 225: 241,412: 83.0, 364: 68.0, 682: 64.0, 172: 58.0} 
...  } 
>>> 
>>> for idnum, d in sorted(Ds.items()): 
...  print idnum, list(find_windows(d)) 
... 
1 [[(2, 44), (18, 44), (20, 22)], [(105, 22), (107, 9), (115, 66)]] 
2 [[(105, 22), (107, 9), (115, 24)]] 
>>> mydict = dict([(0,55),(1,55),(2,55),(3,55)]) 
>>> 
>>> for window in find_windows(mydict): 
...  print window 
... 
[(0, 55), (1, 55), (2, 55)] 
[(0, 55), (1, 55), (2, 55), (3, 55)] 
[(1, 55), (2, 55), (3, 55)] 
>>> list(find_windows(mydict)) 
[[(0, 55), (1, 55), (2, 55)], [(0, 55), (1, 55), (2, 55), (3, 55)], [(1, 55), (2, 55), (3, 55)]]

它仍然是不完全清楚，我要與重疊窗口做什麼，但目前發現所有這些，你可以在函數中或決定後處理你想如何處理。

將代碼修改爲而不是測試所有值是否爲< = max_value並對它們進行計數應該是微不足道的，所以我將保留這一點。

來源

2012-03-10 19:54:09 DSM

謝謝你的「收益」信息，我還沒有使用過。當我嘗試構建這個功能時，我會研究它。我編輯了上面所需的輸出。基本上，我想要有20個長度的間隔。這些間隔可以具有所需的所有值，以捕獲在該間隔中記錄的y值<= 70的所有x值。我希望這是有道理的... – 2012-03-10 23:33:28

我把問題分成兩部分。這第一個生成器將ds這樣的詞典分解爲有序的(key, value)列表，使得每個列表的值不超過70個。同時，我放棄其中少於3個項目的塊。正如你看到的，我只得到儘可能大的窗口

from bisect import bisect_right 

def ff(d): 
    for chunk in split_iter(d): 
     last_end_i = 0 
     for i, (k, v) in enumerate(chunk): 
      end_i = bisect_right(chunk, (k + 20, 0)) 
      if end_i - i < 3: 
       continue 
      if last_end_i != end_i: 
       yield chunk[i:end_i] 
       last_end_i = end_i 
      if end_i == len(chunk): 
       break

：現在

def split_iter(d, limit=70): 
    G = list(sorted(d.iteritems())) 
    start = 0 
    for i, (k, v) in enumerate(G): 
     if v > limit: 
      if i - start >= 3: 
       yield G[start:i] 
      start = i + 1 
    G_tail = G[start:] 
    if len(G_tail) >= 3: 
     yield G_tail

我會連同bisect_right使用從bisect模塊快速找到開始與每個項目的最大可能的窗口。現在我們把它放在一起，像這樣：

for idnum, ds in sorted(d.iteritems()): 
    for r in ff(ds): 
     print idnum, repr(r)

希望我說得對。輸出是這樣的：

1 [(2, 44), (18, 44), (20, 22)] 
1 [(105, 22), (107, 9), (115, 66)] 
2 [(105, 22), (107, 9), (115, 24)]

來源

2012-03-10 20:56:11

這是一個稍微不同的方式比我想的但很有用。感謝您使用Bisect，這對我來說是一項新功能，我很高興現在知道它。順便說一句，你的解釋非常好。 – 2012-03-10 23:53:39

確定高頻區間

回答

相關問題