我有一些獨特的代碼,從我的應用程序的各個獨立組件中的字符串(例如:網站主機名)生成。更好的算法縮短英文單詞
這些代碼僅供機器使用,因此我希望儘可能縮短它們。
以下算法將應用於字符串中的每個單詞。輸出字將與短劃線連接以生成唯一代碼。
The current algorithm I have used:
- Skip word if length is less than 6
- Leave first character as is
- Remove every wowel in the word from the second character onwards
- 建築消化歐盟=> archtctrl-DGST歐盟
- 亞利桑那山麓雜誌=> arzn-fthlls,鎂鋅
有沒有更好的辦法來縮短英語單詞離開它儘可能識別人類讀者?
輸出應該是確定性的,並且只要它在同一輸入上運行,就會生成相同的縮短版本。
一個好的算法也應該儘量減少類似拼寫單詞的衝突次數。
感謝您的回覆。壓縮是一個不錯的選擇,但不可讀,也不需要反轉代碼。同意語音方法非常重要。需要找到一箇中間立場。 :)同樣值得注意的是,當多個單詞出現時,衝突的可能性會降低。 – Rohit