2013-09-23 40 views
5

我正在使用最佳匹配算法在TraMineR中進行序列分析。不幸的是,由於右刪失數據,我的序列長度不等。我的序列的最小長度是5,最大長度是11.長度的變化對於我感興趣的序列之間的差異性沒有意義。因此,我想保持不等長度對序列之間總體差異的影響,儘可能小。不等長序列的可變插入成本

我在Stovel和Bolan(2004(1))中讀到了這個問題的一個可能的解決方案,他使用變量indel成本,這取決於序列長度是否相等。因此,對於相等的長度的序列,他們使用固定INDEL費用和不等長度他們使用降低的成本,這是「固定的成本的大約四分之一」

我的問題是: 通常,應該如何在TraMineR中編寫錯誤代碼?作爲void元素還是應該在字母表中包含缺失狀態? Stovel和Bolan引入的TraMineR中是否有一個應用變量indel成本的選項?如果是的話,這怎麼能來完成


(1)Stovel,兆和Marc柏蘭2004「住宅軌跡:?使用最佳對準至R eveal住宅流動的結構「。社會學方法&研究32(4):559-598。

回答

4

目前,不可能使用變量indel成本(取決於序列長度是否相等)。我對這種方法頗爲懷疑,因爲如果我理解得很好,距離度量的定義會根據所涉及的序列而變化(因爲indel費用會發生變化)。出於這個原因,三角不等式不受尊重。從概念的角度來看,我認爲我們應該總是使用相同的比較標準,並因此使用相同的距離定義。

+0

這是什麼意思,三角不等式不被尊重?爲什麼這是個問題? – histelheim