2012-07-19 75 views
8

有些語言可以接受拉丁字母的拼寫,如印地語,俄語或日語。例如,用梵文腳本寫的'The man is eating'的印地語是'आदमीखारहाहै。'。音譯,它會是'Aadmi kha raha hai'。 (或類似的東西。這種方法經常在網上使用,特別是如果人們沒有訪問印地文鍵盤)使用lang屬性和語音發音的正確方法是什麼(如果有的話)?

在這種情況下,我們使用的拉丁字母,但仍然在寫印地文,所以這將是可接受的使用lang屬性標記任一變化:

<span lang="hi">आदमी खा रहा है।</span><span lang="hi">Aadmi kha raha hai.</span>

那麼我的問題是關於一般都是用拉丁字母自己的語言,但可能有非講話拼音指南/學習者 - 無論是IPA還是臨時發音 - 是否有最好的實踐鈰在賦予它的語義意義?

例如,在愛爾蘭如果我說:「那人是吃」,我會說:「TA的恐懼AG i將」。我可以標記這件事爲:

<span lang="ga">Tá an fear ag ithe.</span>

如果我給了非講話發音指導,我可能會說「比都在遠如IH-他」。這句話不是毫無意義的,(如'lorem ipsum'文本),但英語或愛爾蘭語句子都不是。

什麼是在這種情況下,正確使用HTML語言相關的屬性,或者是這種使用情況只是沒有被規範目前覆蓋?

+0

饒有興趣的看着愛爾蘭對SO :) – 2014-11-12 16:47:52

+1

@Darragh思想爲什麼不能用一個例子離家很近:) – anotherdave 2014-11-12 16:53:13

回答

5

短版:如果你想特別說這是寫在拉丁字母,去爲「HI-LATN」或「GA-LATN」你給的例子。

龍版本:

The W3C spec for the lang attribute沒有明確提到這一點 - 它表明,依賴於拼寫的一些這方面的用途(如爲了使所用字符的高品質版本使用的話),但有些那不(例如搜索引擎)。

RFC1766,它指定了語言標籤的格式,表明可以使用標籤專業化來表示「腳本變體,如az-arabic和az-cyrillic」。關於腳本子標籤in this article on the W3C site的更多信息,請參閱the later RFC5646。那一個指向ISO standard list of script names,在那個列表中你想要的腳本是「Latn」,因爲它們是其他腳本的羅馬化形式。

(這不包括之類的東西指定你是怎麼做到的音譯,不過,對於可能有一個以上的標準如中國在使用威妥瑪拼音與拉丁文字語言。)

+0

謝謝,這在'-Latn'後綴上很有趣。儘管我試圖對印地語進行區分的原因是愛爾蘭人默認是拉丁語:因此,在翻譯印地語時,它在新的腳本中拼寫爲拼音,仍然被認爲是「印地語」。語言已經用拉丁語拼寫,如愛爾蘭語(或法語/德語等)會呈現出一些不能被視爲任何語言的東西。感謝您的鏈接,但我有一些新的作業可以閱讀:) – anotherdave 2012-07-19 12:39:14

+1

作爲獎勵:我不確定您給愛爾蘭文本的語音拼寫的標準是多少,但http://www.iana。 org/assignments/language-subtag-registry具有您可以在IPA(ga-fonipa)或X-SAMPA(ga-fonxsamp)中使用的變體標籤。 – bouteillebleu 2012-07-19 12:58:38

+0

完全,100%不標準:)哇,這很有趣,因爲我使用IPA標準,這將是完美的。我也從該頁面看到有'Zyyy'和'Zzzz'變體(分別爲'未確定腳本'和'未編碼腳本'),這些變體也可用於非標準變體。 – anotherdave 2012-07-19 13:56:27

0

您可能想要考慮將其標記爲<ruby>

例如:

<ruby lang="hi">आदमी<rt>Aadmi</rt> खा<rt>kha</rt> रहा<rt>raha</rt> है।<rt>hai</rt></ruby> 
+2

誠然,我不是專家,但這個貌似答案。請問downvoter請評論? (也許它只是形式 - 我同意這個答案可以提供更多的細節,而不僅僅是一個鏈接) – 2012-07-19 12:05:34

+0

答案無關與問題,這是關於語言標記。 – 2012-07-19 12:06:13

+1

@Jukka但不是' * *關於*語言標記/發音指南? – 2012-07-19 12:06:40

3

從最實用的目的,也不要緊,因爲瀏覽器,搜索引擎和其他相關程序通常忽略lang屬性。這些屬性可能會影響字體的選擇,但僅當頁面本身不建議字體時(這很少見)。某些語音瀏覽器會識別lang的一些值並相應地調整其功能。如果您在MS Word中打開HTML文檔,它將識別lang標記並應用特定於語言的拼寫工具。但是,這一切都是相當有限的,而且很少。而且,在這些情況下,只識別最簡單的語言代碼。

原則,就可以指示書寫系統(「腳本」),如拉丁美洲與梵文,並已使用音譯或轉錄系統。這已在BCP 47中描述。但大多數情況下,這是實現者的指導原則,而不是您現在可以使用的東西。

例如,你可以寫<span lang="hi-Latn">Aadmi kha raha hai.</span>,指示內容是在印地文,但用拉丁文寫的信件。原則上至少有一種方法可以表明哪個競爭的羅馬化系統已被使用。我不認爲任何網絡相關的軟件可以識別lang="hi-Latn";程序甚至可能無法識別它,即使它們識別出lang="hi"

所以,你可以使用詳細值lang,但它是沒有多大用處。使用簡單的標記像lang="hi"爲另一種語言的任何主要片段(比方說,一個句子或更多)是很好的做法,雖然不是更多。在花費太多時間之前,請考慮您可以預期的實際好處。例如,如果您考慮使用像hyphenate.js這樣的客戶端連字符,那麼lang標記就變得至關重要;但那麼你需要檢查該軟件的期望值,而不僅僅是一般的規格。

一句警告:使用lang="ru"俄羅斯用拉丁文寫的信時,我已經看到了奇怪的結果。原因是瀏覽器可能會轉向他們的「俄羅斯字體」的想法,導致混合的字體。但簡單的補救措施是爲所有文本製作一些一致的字體設置,在這種情況下覆蓋瀏覽器默認設置。

字符串,如「比都在遠如IH-他」不能有意義列爲一些語言之中。如果使用語言標記,則使用lang=""(以空字符串作爲值),因爲這是明確指示語言未被指示的已定義方式!

+0

謝謝,我不知道你可以提供一個空lang屬性!關於搜索引擎忽略lang屬性的事實 - 你有鏈接嗎?我一直認爲Google等人使用它來進行高級設置(以法語顯示結果等) – anotherdave 2012-07-19 12:43:40

+0

通常說搜索引擎使用'lang'屬性,但是沒有證據。測試表明它們沒有效果。來自搜索引擎相關人員的非官方聲明表示,「lang」屬性太不可靠了,通常很明顯,例如,因爲有些創作系統在不詢問作者的情況下發出「lang =」en「」。搜索引擎可以很好地從內容中猜出語言,而且他們也可以。 – 2012-07-19 12:55:16

+0

lang屬性對可訪問性很重要,並且是WCAG 2.0的一項要求。屏幕閱讀器使用lang屬性的值來確定播放期間使用的正確語音和語音引擎。 – charlieb 2016-08-03 15:41:06

相關問題