четверг, 29 марта 2012 г.

Новости Компьюлента: Предложен новый метод машинного перевода — с помощью похожих языков

Новости Компьюлента
Новости Компьюлента
Предложен новый метод машинного перевода — с помощью похожих языков
Mar 29th 2012, 11:48

Луис Лейва и Висент Алабау из Политехнического университета Валенсии (Испания) предложили новый подход к машинному переводу, вдохновлённый «ситиспиком» из фильма «Бегущий по лезвию».

Как вы, конечно, помните, на улицах Лос-Анджелеса в 2019 году принято изъясняться на смеси японского, испанского, немецкого, венгерского, китайского, французского, корейского и чёрт знает какого. Так вот, наши герои разработали систему Culturally Influenced Interlanguage (CI2), которая, по сути, изобретает новые языки. Она не переводит в традиционном смысле этого слова, просто делает фразу понятной. Итог почти никогда не бывает грамматически и синтаксически правильным, зато понятен.

Фото <noindex><a target=Arjen Stilklik.">
Фото Arjen Stilklik.

Зачем это всё? По одной простой причине: хотя машинным переводом охвачено уже солидное количество языков, в стороне остаются тысячи, которые ничем не хуже, просто у них не очень много носителей или же они не играют большой роли в современном межкультурном общении.

Например, представьте, что испанский — язык меньшинства, и его носитель хочет прочитать вот такое сообщение, выдаваемое операционной системой компьютера по-английски: «Another label with the same name already exists» («Ярлык с таким названием уже существует»). Поскольку испанский в нашем примере — язык меньшинства, он не охвачен создателями автоматических переводчиков. Зато они уже уделили внимание языкам, похожим на испанский, — итальянскому, португальскому и французскому. CI2 выбирает наиболее подходящие эквиваленты из этих языков, и получается следующее: «Un'altra étiquette con mesmo nome existe déjà». Конечно, это не испанский, но испанец должен понять, что имеется в виду.

Слова отбираются по количеству совпадающих букв. Так, в итальянском и испанском есть слово «con» (предлог «с»), поэтому оно получает коэффициент 1, а итальянское слово «nome» («название») оценивается лишь в 0,79, так как в испанском оно звучит как «nombre». Но лучше ничего нет.

Систему протестировали на 17 испанцах, которые читали предложения на шведском, «переведённые» с помощью итальянских, португальских и французских слов. Кроме того, им были предложены переводы на эти языки. Добровольцам было проще понять версию CI2, чем итальянский и французский переводы. Хорошо шёл также португальский — из-за большого сходства с испанским.

Теперь авторы собираются испытать разработку на носителях какого-нибудь маленького языка. Возможно, именно это спасёт «малышей», которым сегодня угрожает новая напасть — Интернет.

Проект анонсируют на Конференции по вопросам человеческого фактора в компьютерных системах, которая пройдёт в мае в Остине (США).

Подготовлено по материалам NewScientist.

P. S. Индустрия машинного перевода активно развивается. Среди новаторов замечена латвийская фирма Tilde, онлайновая система которой называется LetsMT!. В её основе тот же принцип, которым славится и Google Translate, — сравнение большого количества документов на разных языках. Не устраивает «Гугл»? Загружайте документы самостоятельно и создавайте собственный переводчик! Мировая премьера ожидается на апрельской конференции World Wide Web во французском Лионе.

И вы, конечно, уже читали восторженный отзыв нашего «КТ»-коллеги о фантастических наработках ABBYY...

Каждый день слушайте итоговый подкаст Свободного Радио «Компьюлента»!
Tweet
Please enable JavaScript to view the comments powered by Disqus. blog comments powered by Disqus

Источник: feedproxy.google.com, получено с помощью rss-farm.ru

Media files:
science.669878.mp3
You are receiving this email because you subscribed to this feed at blogtrottr.com.

If you no longer wish to receive these emails, you can unsubscribe from this feed, or manage all your subscriptions

Комментариев нет:

Отправить комментарий