我有兩個字符向量描述相同的對象,它們由兩個不同的註釋程序產生。我需要確保註釋是相同的,但描述不一定採用相同的方式。我相信我需要手動完成大部分工作,但是我想知道是否有一個R函數可以計算出來,例如,兩個向量的每個值之間有多少單詞相等。或者可能會產生某種類型的身份評分。通過這種方式,我至少可以通過相似性得分進行排序。下面是一個小例子的數據集:函數來評估字符串之間的身份
Annotation <- data.frame(Annotation.A = c("PREDICTED: similar to endonuclease domain containing 1 Coiled-coil domain-containing protein 58", "G protein pathway suppressor 2", "adducin 3a"), Annotation.B = c("PREDICTED: endonuclease domain-containing 1 protein-like [Xiphophorus maculatus] coiled-coil domain-containing protein 58 [Salmo salar]", "PREDICTED: G protein pathway suppressor 2-like [Takifugu rubripes]", "PREDICTED: gamma-adducin-like isoform X7 [Maylandia zebra]"))
任何幫助,將不勝感激!謝謝
@ BondedDust - 非常感謝您的回答,這爲以前的解決方案增添了非常好的觀點。我認爲沒有必要冒犯,但我提出SOF問題的原因是爲了讓人們喜歡自己的理由來解決問題,那是因爲我是新手R用戶,不是因爲我很懶,而是因爲我很懶希望你們爲我加2 + 2。我的「生物學」問題是爲了驗證對於40多個基因的兩個不同的註釋,並且我正在尋找最好的方法來做到這一點。就這樣。我沒有看到你怎麼會認爲我想讓你做我的功課。 – ChristianD
你參加了冒險嗎?什麼?如果這是一個家庭作業問題,那麼你不應該告訴我們嗎?如果您在技術論壇中提出技術問題,則應該包含儘可能多的相關領域特定問題以獲得最佳答案。 –
我可能誤解了你的句子。 :-) 無論如何,我已將您的方法適用於我的整個數據集,並添加了更多功能來清理我的註釋並創建「生物學豐富」術語。工作得很好! – ChristianD