Видео «БелГазеты»
Опрос онлайн
Что должен сделать глава МВД Игорь Шуневич, чтобы вернуть веру общественности в милицию?
лично пройти испытание на детекторе лжи и опубликовать результаты в СМИ
снять с ОМОНа функции обеспечения правопорядка
инициировать неучастие милиционеров в суде в ранге свидетелей
расформировать ГАИ по украинскому опыту
уволить сотрудников, замешанных в громких скандалах
Шуневича спасёт только отставка
№47 (668) 24 ноября 2008 г. Портмоне

Протокол без прокола

24.11.2008
 

Кирилл НЕЖДАНСКИЙ

Дистанция между устной речью руководителя и протоколом совещания (бумажным или электронным) пока значительная. Секретари и стенографистки в ближайшее время вряд ли останутся без работы. Но уже сегодня существует оборудование и ПО, способные существенно облегчить их труд. О трудностях работы с речевым потоком, его распознавании, трансформации, синтезе корреспонденту «БелГазеты» рассказал директор компании «Речевые технологии» Виталий КИСЕЛЕВ.

- Какова степень автоматизации при распознавании и трансформации речи?

- Этот процесс может быть полностью автоматическим (разговорная речь преобразуется в текстовый файл) либо автоматизированным (записанная стенограмма разбивается на части и распределяется между операторами и стенографистами, которые с помощью средств распределения, остановки, перемотки и т.п. преобразуют речь в текстовой файл).

- Основные проблемы распознавания и преобразования устной речи связаны с техникой или с самой речью?

- В большей степени с самой речью. Существует слитное преобразование речевого потока и преобразование по командам: «открыть», «закрыть», «выйти», «войти»; последнее ориентировано на работу с ОС или сервисами типа голосовой почты.

Преобразование слитной речи является столь сложной задачей, что на сегодня для русского языка идеальных готовых решений не существует. Даже у испанцев и латиноамериканцев, гораздо четче артикулирующих произносимое при довольно жестком порядке слов, доля распознавания устной речи составляет, по данным годичной давности, около 82-85%. Подобные системы работают в США. Для русского языка наша компания и наши партнеры из петербургского Центра речевых технологий рассчитывают создать нечто подобное к концу следующего года. Пока наши разработки касаются отдельных областей, например IT или журналистики.

- Препятствием является не только артикуляция, но и терминология, профессиональный сленг и т.п.?

- Да, технология распознавания, основанного на предварительном обучении, привязана к акустическому словарю - тематической базе, формируемой текстами и дикторами. Система выслушивает - и обучается.

Что касается артикуляции, то проблема в том, что любая технология строится на четкой последовательности алгоритмов, а разговорная речь по сравнению с письменной гораздо менее упорядочена.

- Как тогда быть с протоколированием больших совещаний, на которых много выступающих?

- Наши автоматизированные комплексы, предназначенные для органов госуправления и крупных частных компаний, позволяют разбить между стенографистами или группами стенографистов отдельные участки выступлений, закрепить каждого диктора за определенной группой стенографистов и т.п. Это существенно облегчает протоколирование, и к концу работы совещания можно уже получить на руки готовый текстовый файл-стенограмму.

- Между речевым потоком и текстовым файлом все равно остается человеческое звено?

- Пока - да. Однако можно применить не только систему преобразования голоса в речь, но и систему идентификации дикторов. И тогда система, настроенная на индивидуальный голос участника совещания, еще более уменьшит нагрузку на стенографистов. Как правило, большие совещания проходят в довольно благоприятной с технологической точки зрения обстановке. Предварительно можно записать и идентифицировать голоса всех участников, и тогда определение говорящего будет происходить автоматически.

- Какое решение является оптимальным для совещаний с небольшим количеством участников?

- Есть системы транскрибирования для высшего и среднего звена управленцев, состоящие из цифрового профессионального диктофона и специального ПО. При необходимости можем задействовать наши многоканальные (минимум четыре канала) платы звукозаписи и ПО для обработки звукового файла.

- Кто уже использует ваши разработки на практике?

- С ними работают руководители, часто проводящие большие совещания или выезжающие на объекты (например, руководители облисполкомов, начальники дистанций БЖД), работающие с населением в органах госуправления, на транспортных узлах, в организациях здравоохранения, соцобеспечения, оказания населению услуг и т.п.

- Что еще порекомендуете управленцам, озаботившимся протоколированием и документированием совещаний?

- После Нового года в Беларуси должен поступить в продажу наш видеодиктофон, позволяющий в избранном пользователем режиме осуществлять аудио- и видеозапись на съемный флэш-носитель. Из технологий выделил бы наши разработки по синтезу речи - звуковому аппаратному воспроизведению письменного сообщения. Для служб безопасности актуальна такая наша разработка, как разграничение прав доступа, проще говоря - верификация по голосу.

- Ваш прогноз: когда ожидается переход от бумажного или электронного документооборота к электронно-звуковому?

- Предполагаю, что для этого нужно примерно пять лет. Препятствия носят скорее языковой, чем технический характер, и думаю, что мы их преодолеем.
Добавить комментарий
Проверочный код