2012-10-24 41 views
2

我正在開發一次性轉換工具,以將數十萬個用戶文件從一個託管環境遷移到另一個託管環境。作爲遷移的一部分,我正在清理文件名以使其具有URL安全性。我的PHP腳本這樣做(不能說它是最優雅的,正確的或優化的代碼,但它做我需要的)。文件擴展名是分開處理的,所以它們在這裏不是問題。將URL安全文件名的PHP腳本轉換爲JavaScript?

<?php 
$fileName = $_POST['name']; 
$swap_chars = array('%20'=>'-', '&'=>'and', '@'=>'at', '='=>'eq', '#'=>'num', '%'=>'pct', '+'=>'-', ' '=>'-', ','=>'-', '/'=>'-', ':'=>'-', ';'=>'-', '\\'=>'-', '|'=>'-', '~'=>'-', 'Š'=>'S', 'š'=>'s', 'Ð'=>'Dj', 'Ž'=>'Z', 'ž'=>'z', 'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A', 'Ä'=>'A', 'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E', 'Ê'=>'E', 'Ë'=>'E', 'Ì'=>'I', 'Í'=>'I', 'Î'=>'I', 'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O', 'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U', 'Ú'=>'U', 'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y', 'Þ'=>'B', 'ß'=>'ss', 'à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a', 'å'=>'a', 'æ'=>'a', 'ç'=>'c', 'è'=>'e', 'é'=>'e', 'ê'=>'e', 'ë'=>'e', 'ì'=>'i', 'í'=>'i', 'î'=>'i', 'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o', 'ô'=>'o', 'õ'=>'o', 'ö'=>'o', 'ø'=>'o', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'ü'=>'u', '†'=>'t', '°'=>'deg', '¢'=>'c', '£'=>'L', '§'=>'S', '•'=>'o', '¶'=>'P', '®'=>'R', '©'=>'C', '™'=>'TM', 'ý'=>'y', 'ý'=>'y', 'þ'=>'b', 'ÿ'=>'y', 'ƒ'=>'f'); 
$fileName = str_replace('\\\'', '', $fileName);    // strip escaped apostrophes 
$fileName = str_replace('\\"', '', $fileName);    // strip escaped quotes 
$fileName = strtr($fileName, $swap_chars);     // swap special characters 
$fileName = preg_replace("/[^0-9a-zA-Z._-]/","",$fileName); // strip remaining bad characters 
$fileName = preg_replace("/--+/","-",$fileName);   // trim repeating dashes 
$fileName = preg_replace("/\.\.+/",".",$fileName);   // trim repeating periods 
$fileName = preg_replace("/__+/","_",$fileName);   // trim repeating underscores 
$fileName = trim($fileName, '.-_');       // remove leading or trailing punctuation 
$fileName = substr($fileName, 0, 62);      // truncate long filenames 
echo $fileName; 
?> 

該工具的大塊也在JavaScript中,如果可能,我想在那裏進行清理。我想我可以使用text.replace(old,new)複製str_replace()preg_replace() PHP函數。但是,PHP的strtr()trim()函數做了一些非常酷的東西(strtr可以使用關聯數組進行匹配/替換;修剪多個指定字符),我還沒有找到任何JS等價物。

那麼,有沒有一種更簡單的方式來做到這一點,我忽略了,還是應該在挖掘和編寫我自己的功能?或者,PHP.js是一個可行的選擇?

UPDATE W /解決方案:

使用來自@馬特溫克勒的非常快,有用的答案,我已經成功地改寫在JavaScript我清理代碼。以下工作(至少在我的用例中)與下面接受的答案中提供的代碼一起使用,以及基於上面的PHP數組的JavaScript對象「swapchars」。

function cleanname(name) { 
    name = name.replace('\'', '');    // strip escaped apostrophes 
    name = name.replace('\"', '');    // strip escaped quotes 
    name = name.replace('%20', '-');   // replace encoded spaces 
    name = strtr(name, swapchars);    // swap special characters 
    name = name.replace(/[^0-9a-z_\.\-]/gi,''); // strip remaining bad characters 
    name = name.replace(/-+/g,'-');    // trim repeating dashes 
    name = name.replace(/\.+/g,'.');   // trim repeating periods 
    name = name.replace(/_+/g,'_');    // trim repeating underscores 
    name = trim(name, '.-_');     // remove leading or trailing punctuation 
    name = name.substr(0, 62);     // truncate long names 
    return name; 
} 
+2

在PHP中,有'urlencode',而在JS中有'encodeURI'和'encodeURIComponent'。這些可能是你需要的... – lonesomeday

+0

謝謝@lonesomeday。我的目標是具有簡化的,人類可讀的文件名,不需要編碼。我認爲文件名中的編碼字符會增加手動輸入名稱(即手動編碼)時出現用戶錯誤的可能性。 – michaelg

+0

我無法想象我最後一次手動輸入網址超出域名或可能是頂級目錄名稱。大多數網址都是點擊鏈接,當然,任何超過幾個字的內容都不會被手動輸入。 – Spudley

回答

0

應該不會太難替換Javasript的trimstrtr功能;這裏有一對夫婦的功能,我認爲幾乎適合該法案:

function strtr(str, swapChars) { 
    var ret = ''; 
    for (var i = 0; i < str.length; i++) { 
     ret += swapChars[str[i]] || str[i]; 
    } 
    return ret; 
} 

function trim(str, chars) { 
    var lowerIndex = 0; 
    for (var i = 0; i < str.length; i++) { 
     if (chars.indexOf(str[i]) === -1) { 
      lowerIndex = i; 
      break; 
     } 
    } 
    for (var i = str.length - 1; i > -1; i--) { 
     if (chars.indexOf(str[i]) === -1) { 
      return str.substring(lowerIndex,i+1); 
     } 
    } 
    return ''; 
} 

例子:

alert(trim('edcbabcde', 'cde'])); // 'bab' 
alert(strtr('edcbabcde', {'e': 'E', 'd': 'D', 'c': 'C'})); // 'EDCbabCDE' 

需要說明的是,strtr爲實現上述僅適用於單個字符,因此,「%20」替換將不會被捕獲。如果你只有一個或兩個多字符替換,那麼我個人只是做一個正常替換那些,然後運行strtr,否則你可以重寫strtr函數迭代通過一系列的替換,而不是逐字符 - 焦炭。

+0

這些工作非常好,謝謝!剛剛完成將其納入我的遷移工具和測試。你的警告是指「修剪」功能還是「strtr」(或兩者)?我最終使用正常替換「%20」,這很好。 – michaelg

+0

正如所寫,他們兩人一次只能比較一個角色,但我實際上是想強調'strtr'中的缺點(現在編輯了我的錯字)。 –