Google представила новую экспериментальную нейросеть Translatotron, способную напрямую переводить речь на другой язык, не используя ее текстовое представление, и сохранять голосовые данные и темп речи говорящего, сообщается в блоге компании, передает Toppress со ссылкой на Hinews.
Система с долгой краткосрочной памятью способна принимать голосовой ввод и обрабатывать его как спектрограмму, а затем генерировать на этой основе новую спектограмму на целевом языке.
Translatotron — это первая сквозная модель, которая может напрямую переводить речь с одного языка на речь на другом языке, сохраняя исходные особенности речи источника, — сообщает компания в своем официальном блоге.
В Google отмечают, что большинство современных систем машинного перевода речи построены на принципе каскадного метода, когда задача разделяется на несколько более простых задач. В рамках первой происходит автоматическое распознавание речи. Затем осуществляется машинный перевод с одного языка на другой, а после этого готовый переведенный текст превращается обратно в речь, которая практически всегда отличается голосом от исходного носителя.
Каскадная система доказала свою эффективность и практичность, и используется в большинстве систем перевода, включая Google. Однако специалисты Google в области ИИ считают, что данная система не идеальна. На каждом этапе решения проблемы могут возникать ошибки, что в целом снижает качество готового результата. В Google уверены, что сквозная модель перевода может превзойти каскадную, удалив среднюю часть зачади, где речь сначала переводится в текст.
Как поясняют в Google, каскадный принцип перевода совсем не похож на то, как люди, знающие несколько языков, мысленно осуществляют перевод речи с одного языка на другой. Как именно это работает — описать довольно сложно, однако переводчики вряд ли согласятся с тем, что они сначала разбивают текст в голове, затем его мысленно визуализируют, переводя его на язык перевода, а затем просто засчитывают готовый перевод.
Имитация когнитивных способностей человека является одним из принципов машинного обучения. Одно из преимуществ сквозного метода перевода заключается в том, что несмотря на свою сложность, этот процесс одностадийный, а не многошаговый. Таким образом, при наличии достаточной вычислительной мощности Translatotron способен выполнять перевод быстрее. Но еще более важно то, что система сохраняет характер и особенности исходной речи в переводе, голосовые данные и темп речи говорящего, а не воспроизводит перевод нейтральным синтетическим голосом.
Разработчики Translatotron признаются, что по части точности перевода система еще не опередила традиционные каскадные системы, но, как и любая модель машинного обучения, со временем она может улучшиться.
Учитывая преимущество сохранения оригинального голоса говорящего даже в переведенной речи, дальнейшие исследования в этой области могут оказаться полезными для будущих систем перевода Google на базе AI.