
Google Translate сегодня расширяется — добавляется 110 новых языков, что является «самым масштабным расширением за всю историю».
Google приписывает возможность этого своей большой языковой модели PaLM 2 (выпущенной в 2023 году до Gemini):
PaLM 2 стала ключевым элементом, помогая Translate более эффективно изучать языки, тесно связанные друг с другом, включая языки, близкие к хинди, такие как авахский и марвари, а также французские креольские языки, такие как сейшельский и маврикийский креольский.
Эти добавления охватывают более 614 миллионов носителей языка, «открывая переводы для примерно 8% населения мира». Это самое масштабное расширение поддержки африканских языков Google на сегодняшний день: четверть сегодняшних дополнений приходится на Африку.
Некоторые из них — крупные мировые языки, на которых говорят более 100 миллионов человек. Другие используются небольшими общинами коренных народов, а на некоторых почти не осталось носителей, но активно ведется работа по их возрождению.
- Афарский язык — тональный язык, на котором говорят в Джибути, Эритрее и Эфиопии. Из всех языков, добавленных в этот раз, афарский язык получил наибольшее количество вкладов от сообщества волонтеров.
- Кантонский диалект — один из наиболее запрашиваемых языков для Google Translate. Поскольку письменный кантонский диалект часто совпадает с письменным мандаринским, найти данные и обучить модели сложно.
- Мэнский язык — кельтский язык острова Мэн. Он почти вымер со смертью последнего носителя языка в 1974 году. Но благодаря общеостровному движению за возрождение теперь на нем говорят тысячи людей.
- Нко — стандартизированная форма западноафриканских языков манде, объединяющая многие диалекты в общий язык. Его уникальный алфавит был изобретен в 1949 году, и сегодня существует активное исследовательское сообщество, разрабатывающее для него ресурсы и технологии.
- Панджаби (Шахмукхи) — вариант панджаби, написанный в персидско-арабском письме (Шахмукхи), и является наиболее распространенным языком в Пакистане.
- Тамазигхт (Амазиг) — берберский язык, на котором говорят по всей Северной Африке. Хотя существует множество диалектов, письменная форма, как правило, взаимно понятна. Он пишется латиницей и тифинагским письмом, оба из которых поддерживает Google Translate.
- Ток-писин — креольский язык на основе английского, являющийся лингва франка Папуа — Новой Гвинеи. Если вы говорите по-английски, попробуйте перевести на ток-писин — возможно, вы сможете уловить смысл!
В будущем Google стремится «со временем поддерживать еще больше языковых вариаций и вариантов написания». Более широкая цель — «создать модели ИИ, которые будут поддерживать 1000 самых распространенных языков по всему миру».