2017-01-29 72 views
1

我有來自100個不同作者的數千個小文檔。使用quanteda包,我計算了作者與他們自己之間的餘弦相似度。例如,作者x有100個文本,所以我提出了100 x 100的相似度矩陣。作者有50個文本,所以我想出了一個50×50的相似度矩陣。文檔相似性selfplagiarism

現在我想比較這兩位作者。換句話說,哪位作者更多地複製自己?如果我取平均值的列或行,然後再平均的方法向量,我到達一個數字,所以我可以比較這兩種方法的手段,但我不確定這些過程是否正確。我希望我明確自己。

回答

1

我認爲答案取決於您的興趣量。如果這是作者文檔相互之間相似程度的單一概述,那麼在作者內部對文檔相似性的一些分佈可能是您比較作者之間這種數量的最佳方法。

例如,除了使用均值來概括此分佈的策略之外,您還可以將作者文檔中的餘弦相似度保存並繪製爲密度。爲了捕獲差異,我還要表徵這種相似性的標準偏差。

我認爲把作者內的餘弦相似度稱爲「自我抄襲」是謹慎的。餘弦相似度計算跨越詞袋的矢量表示的距離度量,並且不被視爲識別「抄襲」的方​​法。此外,「剽竊」這個詞的含義非常貶義,這意味着別人的想法不合時宜地代表你自己的想法。 (我甚至不相信術語「自我抄襲」有道理可言,但後來我有學界同仁誰不同意。)

補充:

考慮textreuse package爲R,它是專爲您正在尋找的重複使用的文本分析而設計。

我不認爲Levenshtein距離是你在找什麼。如Wikipedia page指出,小貓坐在之間的LD是3,但這意味着它們的語義關係在實質上沒有任何含義,或者一個是另一個的「重用」的例子。可以提出基於的LD可能顯示重用,但這不是多數算法的例子,例如, http://turnitin.com實施抄襲檢測。

+1

非常感謝。我的一些同事也不同意我可以使用自剽竊這個詞,我可能不會在論文的最終版本中使用它。我正在分析刑事案件中的司法判決。一些法官的生產率很高,因此他們可以像其他人一樣決定三次案件。我的假設是,生產力與法官自己的決定之間的相似率正相關,因爲他們可能會使用他們以前關於新案件的決定的案文,而不仔細審查。你認爲我可以在這種情況下使用Levenshtein距離嗎? –