» » » » Компьютерра - Журнал "Компьютерра" №729


Авторские права

Компьютерра - Журнал "Компьютерра" №729

Здесь можно скачать бесплатно " Компьютерра - Журнал "Компьютерра" №729" в формате fb2, epub, txt, doc, pdf. Жанр: Прочая околокомпьтерная литература. Так же Вы можете читать книгу онлайн без регистрации и SMS на сайте LibFox.Ru (ЛибФокс) или прочесть описание и ознакомиться с отзывами.
 Компьютерра - Журнал
Рейтинг:
Название:
Журнал "Компьютерра" №729
Издательство:
неизвестно
Год:
неизвестен
ISBN:
нет данных
Скачать:

99Пожалуйста дождитесь своей очереди, идёт подготовка вашей ссылки для скачивания...

Скачивание начинается... Если скачивание не началось автоматически, пожалуйста нажмите на эту ссылку.

Вы автор?
Жалоба
Все книги на сайте размещаются его пользователями. Приносим свои глубочайшие извинения, если Ваша книга была опубликована без Вашего на то согласия.
Напишите нам, и мы в срочном порядке примем меры.

Как получить книгу?
Оплатили, но не знаете что делать дальше? Инструкция.

Описание книги "Журнал "Компьютерра" №729"

Описание и краткое содержание "Журнал "Компьютерра" №729" читать бесплатно онлайн.








Формальным поводом для этой статьи послужило заявление питерского Центра речевых технологий (ЦРТ) о завершении работы над технологией распознавания слитной русской речи. Такая новость воспринимается не иначе, как первоапрельская шутка, особенно при воспоминании о весьма неуклюжих "российских" разработках типа "Горыныч" ["Горыныч" - адаптация под русский язык системы распознавания Dragon Naturally Speaking от компании Nuance. Она создавалась для английского языка - совершенно иначе организованного, если сравнивать его с русским]. Еще более забавной кажется идея того же ЦРТ подготовить к Олимпиаде в Сочи, ни много ни мало, карманный переводчик устной речи.

Центр речевых технологий был образован в 1990 году небольшой группой инженеров, часть которых работала в НИИ "Дальняя связь", где была своя речевая лаборатория. Впрочем, заниматься чистой наукой в ЦРТ не получилось, компании были нужны проекты, способные быстро себя окупить.

"Сейчас у нас работает около двухсот человек, - говорит Алексей Хитров, аналитик ЦРТ. - В основном мы специализируемся на системах профессиональной записи звука, включая многоканальную запись. Мы разработали профессиональный диктофон "Гном", у нас есть также системы протоколирования и стенографирования".

Весьма недешевый - больше 1000 долларов - цифровой диктофон "Гном 2М" отмечен экспертами МВД РФ как прибор, записывающий человеческую речь с качеством, позволяющим проводить идентификацию голоса. Кроме того, ЦРТ сам занимается криминалистической фоноскопической экспертизой: по словам Хитрова, доля компании в этом бизнесе составляет около 25% по всему миру.[В основном такая работа ведется в развивающихся странах]

О работе ЦРТ над распознаванием речи и, главное, о сложностях этой проблемы рассказала Марина Татарникова, математик по образованию, руководящая группой исследователей Центра.

"Сначала у нас было реализовано дикторозависимое распознавание изолированных команд как целостных образов, для небольших словарей, - рассказывает Татарникова. - Процедура распознавания в этом случае требует хранения нескольких эталонов для каждой команды. Потом были разработаны алгоритмы построения акустических моделей аллофонов [Аллофон(а) (от греч. бllos - иной, другой, и phфnз - звук), вариант, разновидность фонемы, обусловленная данным фонетическим окружением (БСЭ). Например, в словах "первое" и "апреля" звук "п" находится в разном окружении, и, соответственно, будут разные аллофоны.  и на основе этого - пофонемное [Фонема (от греч. phonema - звук), основная единица звукового строя языка, предельный элемент, выделяемый линейным членением речи (БСЭ)] распознавание команд и поиск ключевых слов, независимые от диктора и словаря".

Для распознавания же слитной речи необходимы огромные речевые базы, нужны специалисты-алгоритмисты и вычислительные мощности. Поначалу проблема казалась слишком трудной и многогранной, если не сказать - безграничной.

Моделирование

Система распознавания слитной речи представляет собой взаимодействие акустических моделей, лексикона, языковой модели и декодера. Если акустические модели выполняют оценку вероятностей распознавания отдельных аллофонов, то языковые модели оценивают вероятность следования слов друг за другом. Лексикон содержит все возможные варианты произнесения слов, которые будут распознаваться в процессе работы системы. Декодер определяет лучшую гипотезу в сети распознавания. Это программа, оперирующая большими объемами данных, которая в максимально сжатые сроки должна принять решение о распознанном тексте. Для успешной работы программы требуется разработка особых алгоритмов, ускоряющих процесс и уменьшающих число ошибок.

"Сложностей хватает, - признает Марина Татарникова. - Вот вы и я произносим звуки и понимаем друг друга.

С точки же зрения машины мы произносим одно и то же слово совершенно по-разному". По этой причине при создании систем дикторонезависимого пофонемного распознавания используется статистический подход. Для реализации такого подхода нужны большие базы с образцами речи разных людей для накопления параметров вероятностных моделей. Если база данных содержит достаточное количество образцов, оказывается возможным создать модель речевого процесса, отражающую вариативность естественной речи.

Акустические модели, - поясняет Татарникова, - это статистические модели, основанные либо на аппарате скрытых марковских моделей, либо на нейронных сетях. Обучение моделей происходит на размеченных речевых базах". В ЦРТ обучали собственные акустические модели на двухстах пятидесяти дикторах, половина из которых - мужчины, а половина - женщины. Все дикторы проживают в европейской части России.[Запись речевой базы частично велась ЦРТ, а частично приобреталась на стороне.]Таким образом, на решение задачи сразу накладывалось некоторое ограничение, ведь русская речь от региона к региону меняется очень сильно и звучит по-разному. Вся база данных составляла около тридцати часов речи. Текст для дикторов подбирался так, чтобы в нем присутствовали все аллофоны русского языка во всех окружениях. Часть записей лингвисты вручную разбивали на сегменты (фоны), для чего есть специальные программы (речь после записи отображается в графическом виде, и на картинке специалист ставит метки на границах сегментов). После того как часть материала была сегментирована, строились начальные акустические модели, а затем, по определенным алгоритмам, на компьютере обрабатывалась остальная часть базы, при этом сегментация проводилась уже автоматически. В процессе обработки параметры акустических моделей переопределялись. Обучение моделей на шести вычислительных машинах заняло около двух суток.

Великий и могучий

Для создания языковой модели в ЦРТ применяется N граммный подход, при этом чаще всего используются би граммы и три граммы. Для тренировки языковых моделей используются текстовые базы данных. В Интернете были собраны аудиозаписи новостей, которым присущ один и тот же стиль речи. В этой базе сейчас около 35 млн. слов. Для оценки параметров языковых моделей требуются огромные объемы данных, и, как правило, этих объемов не достаточно. Всегда существуют n граммы, которые не встретились в языковой модели. В этом случае используют сложные техники сглаживания и отката для оценки вероятностей так называемых unseen n грамм.

Все это более или менее хорошо работает в английском языке и ему подобных, где есть жесткая последовательность слов в предложении. С русским языком у специалистов возникают немалые трудности. "В области акустики наибольшую проблему для распознавания русской речи представляет необычайно сильная количественная и качественная редукция гласных безударных слогов, - объясняет Марина Татарникова, - частично обусловленная свободным характером словесного ударения". Вместе с низкой артикуляторной напряженностью русской речи это приводит к нейтрализации и "размазыванию" акустических свойств сегментов, особенно в спонтанной разговорной речи.

С точки зрения грамматики и синтаксиса русский язык относится к синтетическим языкам со свободным порядком слов. "Богатая словоизменительная парадигма нашего языка существенно затрудняет языковое моделирование на основе "классической" n граммной модели, - говорит Марина Татарникова, - поскольку требует использования чрезвычайно больших речевых корпусов для получения приемлемого числа реализаций всех входящих в словарь словоформ". Приходится ученым экспериментировать, использовать другие подходы при построении языковой модели, например морфемную или классовую. В морфемной модели словари строятся отдельно для основ и флексий, при этом n граммные модели считаются для основ и флексий отдельно. В классовой модели n граммы строятся не для слов, а для так называемых классов. Существует два основных подхода к построению классов: статистический и частеречный (от "часть речи"). Здесь улучшение достигается не при изолированном использовании классовой модели, а при интерполяции ее с базовой. Выбор того или иного подхода для русского языка требует исследований. Чем сейчас и занимаются в ЦРТ.


Убийственный нюанс

Увы, языковая модель, построенная на текстах новостной базы, не может быть применена в создании, например, языковой модели для распознавания спортивных трансляций (и наоборот).

"Общая модель языка, - говорит Татарникова, - в принципе, вряд ли интересна: каждый приобретающий систему распознавания будет использовать ее в своих целях, подразумевающих определенный стиль речи. И за рубежом так же".

Татарникова приводит как доказательство от противного довольно известную разработку Dragon, принадлежащую фирме Nuance. Продаваемая этой компанией система диктовки для любого текста и любого пользователя требует перед началом работы адаптации языковых моделей и расширения словаря. Адаптация языковых моделей производится путем загрузки в систему типичных для работы пользователя текстов и последующей корректировки статистических языковых моделей. Расширение словаря - задача пользователя. Насколько успешно он с ней справится, настолько успешно будет работать система. Любая система распознавания знает только те слова, что есть в ее словаре.


На Facebook В Твиттере В Instagram В Одноклассниках Мы Вконтакте
Подписывайтесь на наши страницы в социальных сетях.
Будьте в курсе последних книжных новинок, комментируйте, обсуждайте. Мы ждём Вас!

Похожие книги на "Журнал "Компьютерра" №729"

Книги похожие на "Журнал "Компьютерра" №729" читать онлайн или скачать бесплатно полные версии.


Понравилась книга? Оставьте Ваш комментарий, поделитесь впечатлениями или расскажите друзьям

Все книги автора Компьютерра

Компьютерра - все книги автора в одном месте на сайте онлайн библиотеки LibFox.

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.

Отзывы о " Компьютерра - Журнал "Компьютерра" №729"

Отзывы читателей о книге "Журнал "Компьютерра" №729", комментарии и мнения людей о произведении.

А что Вы думаете о книге? Оставьте Ваш отзыв.