Google Translate добавляет поддержку 110 новых языков, включая кантонский диалект
Google благодарит свою большую языковую модель PaLM 2 (с 2023 года до Gemini) за то, что это стало возможным:
PaLM 2 — важная часть головоломки, помогающая Translate более эффективно изучать близкородственные языки, включая языки, близкие к хинди, такие как авадхи и марвади, а также креольские языки, такие как французский, сейшельский креольский и маврикийский креольский.
Эти дополнения приносят пользу более чем 614 миллионам человек, таким образом «открытие перевода примерно для 8% населения мира» . Это крупнейшее на сегодняшний день расширение Google для африканских языков, на которое приходится четверть дополнительных опций.
Некоторые из основных языков мира с более чем 100 миллионами носителей. На других языках говорят небольшие коренные общины. На небольшом количестве языков носители языка почти не говорят, но они активно возрождаются.
- Афар — тональный язык, на котором говорят в Джибути, Эритрее и Эфиопии. Среди всех языков в этом запуске, у афара больше всего вкладов добровольцев.
- Кантонский диалект уже давно является одним из самых востребованных языков для Google Translate. Поскольку кантонский диалект часто пересекается с мандаринским в письменной форме, сложно найти данные и обучить модели.
- Мэнский — кельтский язык острова Мэн. Он почти вымер после смерти последнего коренного жителя в 1974 году. Но благодаря общеостровному движению за возрождение, сейчас на нем говорят тысячи людей.
- НКо — стандартизированная форма западноафриканских языков мандинг, объединяющая множество диалектов в общий язык. Уникальный алфавит НКо был изобретен в 1949 году, и сегодня существует активное исследовательское сообщество, разрабатывающее ресурсы и технологии для него.
- Пенджаби (шахмукхи) — разновидность пенджабского языка, использующая персидско-арабскую графику (шахмукхи), и являющаяся самым распространённым языком в Пакистане.
- Тамазайт (амазиг) — берберский язык, на котором говорят по всей Северной Африке. Хотя диалектов много, форма письма в целом схожа. Он написан латиницей и шрифтом Тифинаг, оба из которых поддерживаются Google Translate.
- Ток-писин — креольский язык на основе английского языка и лингва-франка Папуа — Новой Гвинеи. Если вы говорите по-английски, попробуйте перевести на ток-писин — возможно, вы поймете значение!
В будущем Google хочет «с течением времени поддерживать более широкий спектр языков и правил правописания» . Более широкая цель – «создать модели ИИ, поддерживающие 1000 наиболее используемых языков во всем мире» .
Дэвид Пак
Обновление от 28 июня 2024 г.