我有一個類似下面的表格,其中每個聚類(第1列)包含具有開始(第2列)和結束(第3列)座標的小區域中不同元素(第4列)的註釋。對於每個條目,我想添加一個對應於距離該集羣中最近的其他元素的距離的列。但我想排除羣集中的一對元素具有相同的開始/結束座標或重疊區域的情況。我怎樣才能爲這樣的數據框產生這樣的額外nearest_distance
列?如何找到距離最近的非重疊元素的距離?
cluster-47593-walk-0125 252 306 AR
cluster-47593-walk-0125 6 23 ZNF148
cluster-47593-walk-0125 357 381 CEBPA
cluster-47593-walk-0125 263 276 CEBPB
cluster-47593-walk-0125 246 324 NR3C1
cluster-47593-walk-0125 139 170 HMGA1
cluster-47593-walk-0125 139 170 HMGA2
cluster-47593-walk-0125 207 227 IRF8
cluster-47593-walk-0125 207 227 IRF1
cluster-47593-walk-0125 207 245 IRF2
cluster-47593-walk-0125 207 227 IRF3
cluster-47593-walk-0125 207 227 IRF4
cluster-47593-walk-0125 207 227 IRF5
cluster-47593-walk-0125 207 227 IRF6
cluster-47593-walk-0125 204 245 IRF7
cluster-47593-walk-0125 13 36 PATZ1
cluster-47593-walk-0125 14 143 PAX4
cluster-47593-walk-0125 4 25 RREB1
cluster-47593-walk-0125 73 87 SMAD1
cluster-47593-walk-0125 73 87 SMAD2
cluster-47593-walk-0125 73 87 SMAD3
cluster-47593-walk-0125 71 89 SMAD4
cluster-47593-walk-0125 11 40 SP1
cluster-47593-walk-0125 11 38 SP2
cluster-47593-walk-0125 7 38 SP3
cluster-47593-walk-0125 11 38 SP4
cluster-47593-walk-0125 13 33 GTF2I
cluster-47593-walk-0125 281 352 YY1
cluster-47586-walk-0222 252 306 AR
cluster-47586-walk-0222 6 23 ZNF148
[...]
如果可以保證列2 <=欄3總是,那麼至少可以減少問題檢查符合標準'MAX(數據[條目,3 ]) data [i,3]))'。然後,可能會尋找'哪(min(data [i,2] - selected_data [,3])'等等。 – 2012-07-16 15:27:50