summaryrefslogtreecommitdiffstats
path: root/intl/icu/source/data/translit/es_FONIPA_zh.txt
diff options
context:
space:
mode:
Diffstat (limited to 'intl/icu/source/data/translit/es_FONIPA_zh.txt')
-rw-r--r--intl/icu/source/data/translit/es_FONIPA_zh.txt529
1 files changed, 529 insertions, 0 deletions
diff --git a/intl/icu/source/data/translit/es_FONIPA_zh.txt b/intl/icu/source/data/translit/es_FONIPA_zh.txt
new file mode 100644
index 0000000000..3c99ce7086
--- /dev/null
+++ b/intl/icu/source/data/translit/es_FONIPA_zh.txt
@@ -0,0 +1,529 @@
+# © 2016 and later: Unicode, Inc. and others.
+# License & terms of use: http://www.unicode.org/copyright.html
+# Generated using tools/cldr/cldr-to-icu/build-icu-data.xml
+#
+# File: es_FONIPA_zh.txt
+# Generated from CLDR
+#
+
+# Transforms Spanish to Mandarin Chinese. The input Spanish string must be in
+# phonemic IPA transcription (es_FONIPA); the output is in Simplified Chinese.
+$word_boundary = [-\ $];
+$vowel = [aeijouw]; # Vowels and glides
+$not_vowel = [^$vowel];
+# First pass: Collapse phonetic distinctions not preserved in Mandarin.
+ð → | d;
+ɣ → | g;
+ŋ → | n;
+θ → | s;
+ɾ → | r;
+ff → f ;
+kk → k ;
+mm → m ;
+nn → n ;
+pp → p ;
+tt → t ;
+tʧ → ʧ ;
+aa → a ;
+oi\u032F → oi ;
+oo → o ;
+uu → u ;
+[^dgktx] { ei\u032F → e ;
+[^-\ .$] { eu\u032F → eu ;
+[^-\ .$] { ou\u032F → o;
+[^j] { ui → wi ;
+[^$word_boundary] { m } [bp] → n; # GB/T 17693.5-2009, 5.3.2
+s[θs] → s; # GB/T 17693.5-2009, 5.3.4
+[^ʧ] { jo → io; # GB/T 17693.5-2009 表 1, 注 7
+::Null;
+j } an $not_vowel → i ; # GB/T 17693.5-2009 表 1, 注 8
+# GB/T 17693.5-2009 表 1, 注 8 also says that <uai> should be treated as if
+# it was <u> plus <ai>. This is not borne out by the observed data, which
+# suggests that <ua> plus <i> is the more appropriate choice in some
+# situations.
+[g.$] { wai\u032F → wai ;
+wai\u032F → uai\u032F ;
+[g.$] { wau\u032F → wau ;
+wau\u032F → uau\u032F ;
+jau\u032F → iau\u032F ;
+# Even though "ao" is not a diphthong in Spanish, Mandarin treats it as one.
+[^jw] { ao } [^n] → au\u032F ;
+[^jw] { ao } n $vowel → au\u032F ;
+# Main pass: Phoneme to Hanzi conversion.
+# This generally follows GB/T 17693.5-2009 表 1, unless otherwise noted.
+::Null;
+'.' → ;
+ai\u032F → 艾 ;
+an } $not_vowel → 安 ;
+au\u032F → 奥 ;
+a → 阿 ;
+bai\u032F → 拜 ;
+ban } $not_vowel → 班 ;
+bau\u032F → 包 ;
+ba → 巴 ;
+ben } $not_vowel → 本 ;
+be → 贝 ;
+bin } $not_vowel → 宾 ;
+bi → 比 ;
+bja → 比亚 ;
+bjen } $not_vowel → 比恩 ;
+bje → 别 ;
+bju → 比乌 ;
+bon } $not_vowel → 邦 ;
+bo → 博 ;
+bun } $not_vowel → 本 ;
+bu → 布 ;
+bwan } $not_vowel → 布安 ;
+bwa → 布阿 ;
+bwen } $not_vowel → 布恩 ; # Should be be 本, per GB/T 17693.5-2009 表 1.
+bwe → 布埃 ;
+bwin } $not_vowel → 布因 ; # Nonstandard, but fits observed data.
+bwi → 布伊 ;
+bwo → 博 ;
+b → 布 ;
+βai\u032F → 瓦伊 ;
+βan } $not_vowel → 万 ;
+βau\u032F → 沃 ;
+βa → 瓦 ;
+βen } $not_vowel → 文 ;
+βe → 韦 ;
+βin } $not_vowel → 温 ;
+βi → 维 ;
+βja → 维亚 ;
+βjen } $not_vowel → 维恩 ;
+βje → 维耶 ;
+βju → 维乌 ;
+βon } $not_vowel → 翁 ;
+βo → 沃 ;
+βun } $not_vowel → 文 ;
+βu → 武 ;
+βwan } $not_vowel → 万 ;
+βwa → 瓦 ;
+βwen } $not_vowel → 文 ;
+βwe → 武埃 ;
+βwi → 维 ;
+βwo → 沃 ;
+β → 夫 ;
+dai\u032F → 代 ;
+dan } $not_vowel → 丹 ;
+dau\u032F → 道 ;
+da → 达 ;
+dei\u032F → 代 ;
+den } $not_vowel → 登 ;
+de → 德 ;
+din } $not_vowel → 丁 ;
+di → 迪 ;
+dja → 迪亚 ;
+djen } $not_vowel → 迪恩 ;
+dje → 迭 ;
+dju → 迪乌 ;
+don } $not_vowel → 东 ;
+do → 多 ;
+dun } $not_vowel → 敦 ;
+du → 杜 ;
+dwan } $not_vowel → 端 ;
+dwa → 杜阿 ;
+dwen } $not_vowel → 敦 ;
+dwe → 杜埃 ;
+dwi → 杜伊 ;
+dwo → 多 ;
+d } $word_boundary → ;
+d → 德 ;
+ei\u032F → 埃 ;
+en } $not_vowel → 恩 ;
+eu\u032F → 欧 ;
+e → 埃 ;
+fai\u032F → 法伊 ;
+fan } $not_vowel → 凡 ;
+fau\u032F → 福 ;
+fa → 法 ;
+fe → 费 ;
+fin } $not_vowel → 芬 ;
+fi → 菲 ;
+fja → 菲亚 ;
+fjen } $not_vowel → 菲恩 ;
+fje → 菲耶 ;
+fju → 菲乌 ;
+fon } $not_vowel → 丰 ;
+fo → 福 ;
+fun } $not_vowel → 丰 ;
+fu → 富 ;
+fwan } $not_vowel → 富安 ;
+fwa → 富阿 ;
+fwen } $not_vowel → 丰 ;
+fwe → 富埃 ;
+fwi → 富伊 ;
+fwo → 福 ;
+# The choice of 弗 vs. 夫 sounds simple according to the GB/T standard, but the
+# data suggest otherwise. Ideally, 弗 should occur at the beginning of a
+# morpheme (e.g. in "villafranca" 比利亚弗兰卡) and 夫 everywhere else. Since
+# we don't have morpheme boundaries, we'll fudge it by writing 夫 at the end of
+# a word and 弗 everywhere else.
+f } $word_boundary → 夫 ;
+f → 弗 ;
+gai\u032F → 盖 ;
+gan } $not_vowel → 甘 ;
+gau\u032F → 高 ;
+ga → 加 ;
+gei\u032F → 盖 ;
+gen } $not_vowel → 根 ;
+ge → 格 ;
+gin } $not_vowel → 金 ;
+gi → 吉 ;
+gja → 吉亚 ;
+gjen } $not_vowel → 吉恩 ;
+gje → 吉耶 ;
+gju → 吉乌 ;
+gon } $not_vowel → 贡 ;
+go → 戈 ;
+gun } $not_vowel → 贡 ;
+gu → 古 ;
+gwan } [$] → 古安 ; # Nonstandard, but fits observed data.
+gwan } $not_vowel → 关 ;
+gwa → 瓜 ;
+gwen } $not_vowel → 古恩 ;
+gwe → 圭 ;
+gwi → 圭 ;
+gwo → 果 ;
+g → 格 ;
+in } $not_vowel → 因 ;
+i → 伊 ;
+ʝai\u032F → 亚伊 ;
+ʝan } $not_vowel → 扬 ;
+ʝau\u032F → 尧 ;
+ʝa → 亚 ;
+ʝen } $not_vowel → 延 ;
+ʝe → 耶 ;
+ʝin } $not_vowel → 因 ;
+ʝi → 伊 ;
+ʝon } $not_vowel → 永 ;
+ʝo → 约 ;
+ʝun } $not_vowel → 云 ;
+ʝu → 尤 ;
+ʝwan } $not_vowel → 元 ;
+ʝwa → 尤阿 ;
+ʝwen } $not_vowel → 云 ;
+ʝwe → 尤埃 ;
+ʝwi → 尤伊 ;
+ʝwo → 约 ;
+ʝ → 伊 ;
+kai\u032F → 凯 ;
+kan } $not_vowel → 坎 ;
+kau\u032F → 考 ;
+ka → 卡 ;
+kei\u032F → 凯 ;
+ken } $not_vowel → 肯 ;
+ke → 克 ;
+kin } $not_vowel → 金 ;
+ki → 基 ;
+kja → 基亚 ;
+kjen } $not_vowel → 基恩 ;
+kje → 基耶 ;
+kju → 基乌 ;
+kon } $not_vowel → 孔 ;
+ko → 科 ;
+kun } $not_vowel → 昆 ;
+ku → 库 ;
+kwan } $not_vowel → 宽 ;
+kwa → 夸 ;
+kwen } $not_vowel → 昆 ;
+kwe → 库埃 ;
+kwin } $not_vowel → 昆 ;
+kwi → 奎 ;
+kwo → 阔 ;
+k → 克 ;
+lae } [^n] → 莱 ;
+lai\u032F → 莱 ;
+lan } $not_vowel → 兰 ;
+lau\u032F → 劳 ;
+la → 拉 ;
+len } $not_vowel → 伦 ;
+le → 莱 ;
+lin } $not_vowel → 林 ;
+li → 利 ;
+lja → 利亚 ;
+ljen } $not_vowel → 连 ;
+lje → 列 ;
+lju → 柳 ;
+lon } $not_vowel → 隆 ;
+lo → 洛 ;
+lun } $not_vowel → 伦 ;
+lu → 卢 ;
+lwan } $not_vowel → 卢安 ;
+lwa → 卢阿 ;
+lwen } $not_vowel → 伦 ;
+lwe → 卢埃 ;
+lwi → 卢伊 ;
+lwo → 洛 ;
+l → 尔 ;
+ʎan } $not_vowel → 良 ;
+ʎau\u032F → 廖 ;
+ʎa → 利亚 ;
+ʎen } $not_vowel → 连 ;
+ʎe → 列 ;
+ʎin } $not_vowel → 林 ;
+ʎi → 利 ;
+ʎon } $not_vowel → 利翁 ;
+ʎo → 略 ;
+ʎu → 柳 ;
+ʎwan } $not_vowel → 柳安 ;
+ʎwa → 柳阿 ;
+ʎwen } $not_vowel → 柳恩 ;
+ʎwe → 柳埃 ;
+ʎwi → 柳伊 ;
+ʎwo → 略 ;
+ʎ → 尔 ;
+mai\u032F → 迈 ;
+man } $not_vowel → 曼 ;
+martin → 马丁 ;
+mau\u032F → 毛 ;
+ma → 马 ;
+men } $not_vowel → 门 ;
+me → 梅 ;
+min } $not_vowel → 明 ;
+mi → 米 ;
+mja → 米亚 ;
+mjen } $not_vowel → 缅 ;
+mje → 米耶 ;
+mju → 缪 ;
+mon } $not_vowel → 蒙 ;
+mo → 莫 ;
+mun } $not_vowel → 蒙 ;
+mu → 穆 ;
+mwan } $not_vowel → 穆安 ;
+mwa → 穆阿 ;
+mwen } $not_vowel → 门 ;
+mwe → 穆埃 ;
+mwin } $not_vowel → 穆因 ; # Nonstandard, but fits observed data.
+mwi → 穆伊 ;
+mwo → 莫 ;
+m → 姆 ;
+nai\u032F → 奈 ;
+nan } $not_vowel → 南 ;
+nau\u032F → 瑙 ;
+na → 纳 ;
+nen } $not_vowel → 嫩 ;
+ne → 内 ;
+nin } $not_vowel → 宁 ;
+ni → 尼 ;
+nja → 尼亚 ;
+njen } $not_vowel → 年 ;
+nje → 涅 ;
+nju → 纽 ;
+non } $not_vowel → 农 ;
+no → 诺 ;
+nun } $not_vowel → 嫩 ;
+nu → 努 ;
+nwan } $not_vowel → 努安 ;
+nwa → 努阿 ;
+nwen } $not_vowel → 农 ;
+nwe → 努埃 ;
+nwi → 努伊 ;
+nwo → 诺 ;
+n → 恩 ;
+ɲan } $not_vowel → 尼扬 ;
+ɲau\u032F → 尼奥 ;
+ɲa → 尼亚 ;
+ɲen } $not_vowel → 年 ;
+ɲe → 涅 ;
+ɲin } $not_vowel → 宁 ;
+ɲi → 尼 ;
+ɲon } $not_vowel → 尼翁 ;
+ɲo → 尼奥 ;
+ɲu → 纽 ;
+ɲwan } $not_vowel → 纽安 ;
+ɲwa → 纽阿 ;
+ɲwen } $not_vowel → 纽恩 ;
+ɲwe → 纽埃 ;
+ɲwi → 纽伊 ;
+ɲwo → 尼奥 ;
+on } $not_vowel → 翁 ;
+ou\u032F → 欧 ;
+o → 奥 ;
+pai\u032F → 派 ;
+pan } $not_vowel → 潘 ;
+pau\u032F → 保 ;
+pa → 帕 ;
+pen } $not_vowel → 彭 ;
+pe → 佩 ;
+pin } $not_vowel → 平 ;
+pi → 皮 ;
+pja → 皮亚 ;
+pjen } $not_vowel → 皮恩 ;
+pje → 彼 ;
+pju → 皮乌 ;
+pon } $not_vowel → 蓬 ;
+po → 波 ;
+pun } $not_vowel → 蓬 ;
+pu → 普 ;
+pwan } $not_vowel → 普安 ;
+pwa → 普阿 ;
+pwen } $not_vowel → 蓬 ;
+pwe → 普埃 ;
+pwi → 普伊 ;
+pwo → 波 ;
+p → 普 ;
+rai\u032F → 赖 ;
+ran } $not_vowel → 兰 ;
+rau\u032F → 劳 ;
+ra → 拉 ;
+ren } $not_vowel → 伦 ;
+re → 雷 ;
+rin } $not_vowel → 林 ;
+ri → 里 ;
+rja → 里亚 ;
+rjen } $not_vowel → 连 ;
+rje → 列 ;
+rju → 留 ;
+ron } $not_vowel → 龙 ;
+ro → 罗 ;
+run } $not_vowel → 伦 ;
+ru → 鲁 ;
+rwan } $not_vowel → 鲁安 ;
+rwa → 鲁阿 ;
+rwen } $not_vowel → 伦 ;
+rwe → 鲁埃 ;
+rwi → 鲁伊 ;
+rwo → 罗 ;
+r → R ;
+sai\u032F → 赛 ;
+san } $not_vowel → 桑 ;
+sau\u032F → 绍 ;
+sa → 萨 ;
+sen } $not_vowel → 森 ;
+se → 塞 ;
+sin } $not_vowel → 辛 ;
+si → 西 ;
+sja → 西亚 ;
+sjen } $not_vowel → 先 ;
+sje → 谢 ;
+sju → 休 ;
+son } $not_vowel → 松 ;
+so → 索 ;
+sun } $not_vowel → 孙 ;
+su → 苏 ;
+swan } $not_vowel → 苏安 ;
+swa → 苏阿 ;
+swen } $not_vowel → 孙 ;
+swe → 苏埃 ;
+swi → 绥 ;
+swo → 索 ;
+s → 斯 ;
+tai\u032F → 泰 ;
+tan } $not_vowel → 坦 ;
+tau\u032F → 陶 ;
+ta → 塔 ;
+tei\u032F → 泰 ;
+ten } $not_vowel → 滕 ;
+te → 特 ;
+tin } $not_vowel → 廷 ;
+ti → 蒂 ;
+tja → 蒂亚 ;
+tjen } $not_vowel → 蒂恩 ;
+tje → 铁 ;
+tju → 蒂乌 ;
+ton } $not_vowel → 通 ;
+to → 托 ;
+# The rules for /ts/ (tz in the orthography) are nonstandard and derived
+# entirely from the observed data. They apply mostly to native toponyms
+# in Mexico.
+tsa → 察 ;
+tsen } $not_vowel → 岑 ;
+tse → 采 ;
+tsin } $not_vowel → 钦 ;
+tsi → 齐 ;
+tso → 措 ;
+tsun } $not_vowel → 聪 ;
+tsu → 楚 ;
+ts → 茨 ;
+tun } $not_vowel → 通 ;
+tu → 图 ;
+twan } $not_vowel → 图安 ;
+twa → 图阿 ;
+twen } $not_vowel → 通 ;
+twe → 图埃 ;
+twi → 图伊 ;
+two → 托 ;
+t → 特 ;
+ʧai\u032F → 柴 ;
+ʧan } $not_vowel → 钱 ;
+ʧau\u032F → 乔 ;
+ʧa → 查 ;
+ʧen } $not_vowel → 琴 ;
+ʧe → 切 ;
+ʧin } $not_vowel → 钦 ;
+ʧi → 奇 ;
+ʧjan } $not_vowel → 钱 ;
+ʧja → 恰 ;
+ʧjen } $not_vowel → 钱 ;
+ʧje → 切 ;
+ʧjon } $not_vowel → 琼 ;
+ʧju → 丘 ;
+ʧon } $not_vowel → 琼 ;
+ʧo → 乔 ;
+ʧun } $not_vowel → 琼 ; # Should be 春, per GB/T 17693.5-2009 表 1.
+ʧu → 丘 ;
+ʧwan } $not_vowel → 丘安 ;
+ʧwa → 丘阿 ;
+ʧwen } $not_vowel → 琼 ;
+ʧwe → 丘埃 ;
+ʧwi → 崔 ;
+ʧwo → 乔 ;
+ʧ → 奇 ;
+un } $not_vowel → 温 ;
+u → 乌 ;
+wan } $not_vowel → 万 ;
+wa → 瓦 ;
+wen } $not_vowel → 温 ;
+we → 韦 ;
+win } $not_vowel → 温 ;
+wi → 维 ;
+won } $not_vowel → 翁 ; # Unseen.
+wo → 沃 ;
+xai\u032F → 海 ;
+xan } $not_vowel → 汉 ;
+xau\u032F → 豪 ;
+xa → 哈 ;
+xei\u032F → 黑 ;
+xen } $not_vowel → 亨 ;
+xe → 赫 ;
+xin } $not_vowel → 欣 ;
+xi → 希 ;
+xja → 希亚 ;
+xjen } $not_vowel → 希恩 ;
+xje → 希耶 ;
+xju → 休 ;
+xon } $not_vowel → 洪 ;
+xo → 霍 ;
+xun } $not_vowel → 洪 ;
+xu → 胡 ;
+xwan } $not_vowel → 胡安 ;
+xwa → 华 ;
+xwen } $not_vowel → 洪 ;
+xwe → 胡埃 ;
+xwi → 惠 ;
+xwo → 霍 ;
+x → 赫 ;
+# 尔 simplification pass. The idea is to drop most occurrences of 尔
+# corresponding to <r> (not to <l> or <ll>) from a word if there is another /l/
+# sound nearby. There is a vague pattern like this in the data, but the details
+# remain to be determined. At the moment, this does nothing, it just puts 尔 in
+# for every <r> in a syllable coda.
+::Null;
+$r = [R利拉];
+#
+#
+# R } . $r → ;
+# R } .. $r → ;
+# R } ... $r → ;
+# R } .... $r → ;
+R → 尔 ;
+# Dong-nan-xi-hai pass. Per GB/T 17693.5-2009 表 1, 注 4, replace confusing
+# characters at the beginning and end of a word.
+::Null;
+$word_boundary { 东 → 栋 ;
+$word_boundary { 南 → 楠 ;
+$word_boundary { 西 → 锡 ;
+海 } $word_boundary → 亥 ;
+::NFC;
+