2013-01-11 84 views
0

我正在開發一個項目,在該項目中,我們爲另一個國家/地區設計了現有站點(用英語撰寫)的本地化版本這不是講英語的)。而且業務要求是「對所有可能和不可能的情況,沒有英文文本」。一個工具,用於檢查本地版本的站點是否已完全翻譯(用於持續集成)

有誰知道是否有一個檢查軟件/服務,可以檢查一個網站是否完全翻譯,這是檢查,其中沒有英文文本。

我有新的網站檢查中斷鏈接,html有效性等,我需要類似http://validator.w3.org/checklink但檢查在網站的所有網頁上沒有英文文本。

我覺得需要這樣的原因是:
1.有很多的代碼是常見的(無論在後端和前端)所有國家
2.如果有人提交任何通用代碼我需要確保這不會導致本地化版本中的英文文本問題。
3.從商業角度來看,網站不支持某些功能,比顯示英文文本(法律事項)
4.前端和後端上的代碼變化很大
5.有一個很多影響客戶端屏幕上文本的文件。不幸的是,不只是一封郵件。並且一些消息來自後端,但其中大部分都在前端
6.由於所有這些事實,目前有人手動填寫所有表單並親眼觀看,並且在每次部署之前...

+0

什麼構成「英文文本」? –

+0

我想用垃圾文本替換英文資源。那麼,如果你回收垃圾以外的任何東西,那麼這是一個已經本地化的資源。是否正確定位是另一個問題。 –

+0

那麼,這個問題其實不僅僅是扼殺它而且忘記了,問題在於我們需要確保在「持續集成」的過程中。這就是說,如果另一位開發人員更改了代碼中常見部分的某些內容,那麼在部署本地化版本之前,我們可以確定不會出現英文文本。 – Bogdan

回答

1

我認爲你正在從錯誤的方向接近問題。你正在尋找一種算法或webcrawler,可以檢測任何文字是英文或不是?我不知道,但我懷疑甚至存在這樣的事情。

如果您已翻譯該網站,您可以完全訪問代碼庫和/或翻譯文本,對不對?難道你不能只在像Notepad ++這樣的比較工具中打開英文和非英文字符串文件(.resx或你正在使用的任何文件)來檢查差異,看看是否有任何缺失的字符串?並檢查源代碼並驗證可以輸出用戶可顯示文本的所有部分都使用meta:resourceKey屬性(或您正在使用的任何內容)。

+1

將翻譯與原文進行比較可能是最好的方式 - 比抓取網頁更好,因爲抓取工具不會找到所有錯誤情況(不可能的情況)。 –

+0

這很難,s.a. FE在drupal上,後端在.net上。 FE在某些情況下只是顯示BE的反應。而且他們倆對每個國家都有特殊的邏輯,還有一些特殊的邏輯。並且有些情況下,有人在代碼的常見部分添加了某些內容,並且出現了波蘭語版本的英文文本。除了沒有人認爲非英語國家從一開始就是這種情況。加上項目的大小......無論如何感謝你 – Bogdan

+0

是的,網絡爬蟲通常不會執行javascripts,所以他們不會找到所有的東西。但我知道一個可以在網站上填寫表格的斷開鏈接檢查程序的例子,這比沒有任何更好 – Bogdan

1

如果你想要去爬行的方式,我不知道現有的爬蟲,做這一點,但它聽起來像是兩個簡單的問題組合:

  1. 查找現有的開放源代碼對於網絡爬蟲應該是死的簡單
  2. 確定通過n元分析語是平凡的,如果有語言數量有限的文本可以英寸

唯一困難的部分將是確保分析儀總是有一個正派的文本塊與...合作。你可以逐段提取東西。對於表單,您可能必須組合幾個表單標籤的文本。

+0

是的,可以這樣做。我已經爲此需求創建了一個開源項目:https://github.com/bogdartysh/languagechecker-crawler。它遠非生產準備,但可以嘗試自由地改進和使用,謝謝 – Bogdan

相關問題