Видео «БелГазеты»
Опрос онлайн
Ожидается, что декрет об обеспечительном депозите позволит бизнесменам не опасаться за свою свободу,если они выйдут за правовые рамки. Нужно просто заблаговременно положить не менее BYN50 тыс. на счет в Беларусбанке. От чего еще можно обезопасить граждан?
от призыва в армию
от бедных родственников
от оплаты коммунальных услуг
от вредных привычек
от прохождения флюрографии
№47 (668) 24 ноября 2008 г. Портмоне

Протокол без прокола

24.11.2008
 

Кирилл НЕЖДАНСКИЙ

Дистанция между устной речью руководителя и протоколом совещания (бумажным или электронным) пока значительная. Секретари и стенографистки в ближайшее время вряд ли останутся без работы. Но уже сегодня существует оборудование и ПО, способные существенно облегчить их труд. О трудностях работы с речевым потоком, его распознавании, трансформации, синтезе корреспонденту «БелГазеты» рассказал директор компании «Речевые технологии» Виталий КИСЕЛЕВ.

- Какова степень автоматизации при распознавании и трансформации речи?

- Этот процесс может быть полностью автоматическим (разговорная речь преобразуется в текстовый файл) либо автоматизированным (записанная стенограмма разбивается на части и распределяется между операторами и стенографистами, которые с помощью средств распределения, остановки, перемотки и т.п. преобразуют речь в текстовой файл).

- Основные проблемы распознавания и преобразования устной речи связаны с техникой или с самой речью?

- В большей степени с самой речью. Существует слитное преобразование речевого потока и преобразование по командам: «открыть», «закрыть», «выйти», «войти»; последнее ориентировано на работу с ОС или сервисами типа голосовой почты.

Преобразование слитной речи является столь сложной задачей, что на сегодня для русского языка идеальных готовых решений не существует. Даже у испанцев и латиноамериканцев, гораздо четче артикулирующих произносимое при довольно жестком порядке слов, доля распознавания устной речи составляет, по данным годичной давности, около 82-85%. Подобные системы работают в США. Для русского языка наша компания и наши партнеры из петербургского Центра речевых технологий рассчитывают создать нечто подобное к концу следующего года. Пока наши разработки касаются отдельных областей, например IT или журналистики.

- Препятствием является не только артикуляция, но и терминология, профессиональный сленг и т.п.?

- Да, технология распознавания, основанного на предварительном обучении, привязана к акустическому словарю - тематической базе, формируемой текстами и дикторами. Система выслушивает - и обучается.

Что касается артикуляции, то проблема в том, что любая технология строится на четкой последовательности алгоритмов, а разговорная речь по сравнению с письменной гораздо менее упорядочена.

- Как тогда быть с протоколированием больших совещаний, на которых много выступающих?

- Наши автоматизированные комплексы, предназначенные для органов госуправления и крупных частных компаний, позволяют разбить между стенографистами или группами стенографистов отдельные участки выступлений, закрепить каждого диктора за определенной группой стенографистов и т.п. Это существенно облегчает протоколирование, и к концу работы совещания можно уже получить на руки готовый текстовый файл-стенограмму.

- Между речевым потоком и текстовым файлом все равно остается человеческое звено?

- Пока - да. Однако можно применить не только систему преобразования голоса в речь, но и систему идентификации дикторов. И тогда система, настроенная на индивидуальный голос участника совещания, еще более уменьшит нагрузку на стенографистов. Как правило, большие совещания проходят в довольно благоприятной с технологической точки зрения обстановке. Предварительно можно записать и идентифицировать голоса всех участников, и тогда определение говорящего будет происходить автоматически.

- Какое решение является оптимальным для совещаний с небольшим количеством участников?

- Есть системы транскрибирования для высшего и среднего звена управленцев, состоящие из цифрового профессионального диктофона и специального ПО. При необходимости можем задействовать наши многоканальные (минимум четыре канала) платы звукозаписи и ПО для обработки звукового файла.

- Кто уже использует ваши разработки на практике?

- С ними работают руководители, часто проводящие большие совещания или выезжающие на объекты (например, руководители облисполкомов, начальники дистанций БЖД), работающие с населением в органах госуправления, на транспортных узлах, в организациях здравоохранения, соцобеспечения, оказания населению услуг и т.п.

- Что еще порекомендуете управленцам, озаботившимся протоколированием и документированием совещаний?

- После Нового года в Беларуси должен поступить в продажу наш видеодиктофон, позволяющий в избранном пользователем режиме осуществлять аудио- и видеозапись на съемный флэш-носитель. Из технологий выделил бы наши разработки по синтезу речи - звуковому аппаратному воспроизведению письменного сообщения. Для служб безопасности актуальна такая наша разработка, как разграничение прав доступа, проще говоря - верификация по голосу.

- Ваш прогноз: когда ожидается переход от бумажного или электронного документооборота к электронно-звуковому?

- Предполагаю, что для этого нужно примерно пять лет. Препятствия носят скорее языковой, чем технический характер, и думаю, что мы их преодолеем.
Добавить комментарий
Проверочный код