2014-01-29 37 views
1

我發現了一些關於Length Normalization的信息。我發現它只在搜索引擎的環境中提到。有人用它來達到不同的文本目的嗎? (請原諒我的無知,我真的在尋找其他用途,但谷歌一直把「標準化」與「縮放」混淆......)。長度歸一化有什麼用途?

回答

0

您在問題中提供的鏈接已經提到了使用長度歸一化的一個原因:避免在文檔向量中具有較高的術語頻率計數。這大大影響了文檔排名。當然,這是一個直接應用,基於查詢的文檔檢索。

還有其他算法特定的應用程序。例如,如果要使用向量之間的餘弦相似性對文檔進行聚類:簡單聚類算法(如k-means)可能不會收斂,除非向量全部位於球體上,即所有向量具有相同的長度。

+0

謝謝@Chthonic項目。我想知道,如果應用程序需要使用長度標準化,而不是頁面排名,例如文本分類和類似的東西......再次感謝! :-) – Cheshie

+0

不客氣。我給出的例子通常被稱爲* spherical * k-means(出於顯而易見的原因)......只是想我會補充一點,以防您想要搜索更多關於它的信息。如果我的回答是令人滿意的,請接受/ upvote :-) –

+0

如果您在評論(關於文本分類)中恰好有關於我的問題的答案,我將非常感謝您的回覆。再次感謝@Chthonic項目 – Cheshie