Google Translate добавляет поддержку 110 новых языков, включая кантонский диалект

Google благодарит свою большую языковую модель PaLM 2 (с 2023 года до Gemini) за то, что это стало возможным:

PaLM 2 — важная часть головоломки, помогающая Translate более эффективно изучать близкородственные языки, включая языки, близкие к хинди, такие как авадхи и марвади, а также креольские языки, такие как французский, сейшельский креольский и маврикийский креольский.

Google Translate добавляет поддержку 110 новых языков, включая кантонский. Изображение 1

Эти дополнения приносят пользу более чем 614 миллионам человек, таким образом «открытие перевода примерно для 8% населения мира» . Это крупнейшее на сегодняшний день расширение Google для африканских языков, на которое приходится четверть дополнительных опций.

Некоторые из основных языков мира с более чем 100 миллионами носителей. На других языках говорят небольшие коренные общины. На небольшом количестве языков носители языка почти не говорят, но они активно возрождаются.

  1. Афар — тональный язык, на котором говорят в Джибути, Эритрее и Эфиопии. Среди всех языков в этом запуске, у афара больше всего вкладов добровольцев.
  2. Кантонский диалект уже давно является одним из самых востребованных языков для Google Translate. Поскольку кантонский диалект часто пересекается с мандаринским в письменной форме, сложно найти данные и обучить модели.
  3. Мэнский — кельтский язык острова Мэн. Он почти вымер после смерти последнего коренного жителя в 1974 году. Но благодаря общеостровному движению за возрождение, сейчас на нем говорят тысячи людей.
  4. НКо — стандартизированная форма западноафриканских языков мандинг, объединяющая множество диалектов в общий язык. Уникальный алфавит НКо был изобретен в 1949 году, и сегодня существует активное исследовательское сообщество, разрабатывающее ресурсы и технологии для него.
  5. Пенджаби (шахмукхи) — разновидность пенджабского языка, использующая персидско-арабскую графику (шахмукхи), и являющаяся самым распространённым языком в Пакистане.
  6. Тамазайт (амазиг) — берберский язык, на котором говорят по всей Северной Африке. Хотя диалектов много, форма письма в целом схожа. Он написан латиницей и шрифтом Тифинаг, оба из которых поддерживаются Google Translate.
  7. Ток-писин — креольский язык на основе английского языка и лингва-франка Папуа — Новой Гвинеи. Если вы говорите по-английски, попробуйте перевести на ток-писин — возможно, вы поймете значение!

В будущем Google хочет «с течением времени поддерживать более широкий спектр языков и правил правописания» . Более широкая цель – «создать модели ИИ, поддерживающие 1000 наиболее используемых языков во всем мире» .

Дэвид ПакДэвид Пак

Обновление от 28 июня 2024 г.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *