Выбор длины отрезка речевого сигнала при кратковременном анализе звуков речи
Секция: Технические науки
XL Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»
Выбор длины отрезка речевого сигнала при кратковременном анализе звуков речи
В работе рассматривается вопрос выбора длины «окна» (длительности анализируемого отрезка) при кратковременном анализе звуков речи. Данный вопрос актуален в задачах обработки речи, требующих анализа характеристик конкретных отдельных звуков, например, в задачах распознавания.
Звуки речи образуются речевым аппаратом человека. Речевой аппарат – это совокупность и взаимодействие органов человека, необходимых для производства речи. Он состоит из двух отделов: центрального и периферического. Центральный отдел – это головной мозг с его корой, подкорковыми узлами, проводящими путями и ядрами соответствующих нервов. Переферический отдел – это вся совокупность исполнительных органов речи (глотка, ротовая полость с языком, лёгкие, носовая полость, губы, зубы), включающая в себя кости, хрящи, мышцы и связоки, а также периферические чувственные и двигательные нервы, при помощи которых осуществляется управление работой указанных органов [1; 3].
В зависимости от работы речевого аппарата звуки речи подразделяются на шумы и тоны: тоны в речи возникают в результате колебания голосовых складок; шумы образуются в результате непериодических колебаний выходящей из лёгких струи воздуха. Тонами являются обычно гласные; почти же все глухие согласные относятся к шумам. Звонкие согласные образуются путём слияния шумов и тонов.
Звуки речи человека генерируются, как правило, артикуляционным аппаратом. В общем его математическую модель можно представить в виде возбуждающих генераторов тонового и белого шума и группы фильтров, модуляторов и ключей (рот, нос, язык, губы), обеспечивающих фильтрацию и формирование определённого ощущения звука.
Речевой аппарат человека при генерации речи использует следующие физические принципы для получения различных типов звуков:
· гласный – в этом случае голосовая щель генерирует звуковые импульсы;
· шипящий согласный – в этом случае голосовая щель отключена и артикуляционный аппарат формирует шумовой сигнал;
· смешанные шипяще-тоновые звуки типа [з] [ж], где одновременно присутствует шумовая составляющая модулированная голосовой щелью, или типа [р], где модулируется тоновый сигнал;
· сонорные звуки типа [л] [м] [н];
· взрывной согласный – генерация звука основана на перекрытии потока воздуха артикуляционными органами и последующем акустическом ударе;
· пауза – отсутствие звука, длина паузы влияет на ощущение следующего за ней звука;
· изменение параметров артикуляции в процессе генерации (их динамика) также создаёт ощущение определённого звука (дифтонги);
· интонация – относительное изменение основного тона [2].
Шумы и тоны исследуются по их высоте, тембру, силе и многим другим характеристикам. Важнейшей характеристикой является частотный состав звука. Не маловажной характеристикой речевого сигнала является так же основной тон. Эта характеристика представляет собой низко-частотную модуляцию сигнала, параметры которой легко измеряются (установлено, что частота основного тона разных людей (мужчин, женщин, детей) находится в диапазоне 50 - 450 Гц.).
Ключевым вопросом при исследовании характеристик звуков речи является вопрос выбора длительности анализируемого отрезка. Речь - это нестационарный случайный процесс. Характеристики реального сигнала изменяются во времени, но на малых интервалах речевой сигнал имеет квази-периодический характер на протяжении генерации одного звука, т.е. на малых интервалах ее можно рассматривать как локально стационарный случайный процесс.
При выборе длительности анализируемого отрезка, необходимо руководствоваться следующими соображениями: 1) длительность не может быть меньше периода основного тона, наиболее низкочастотной составляющей спектра сигнала, 2) нежелательно, чтобы на отрезке анализа нарушалась квази-периодичность, т.е. в анализируемый отрезок “попало” больше, чем один звук.
В данной работе рассмотрена задача оптимального выбора длительности окна анализа характеристик речевого сигнала.
На первом этапе исследования были измерены длительности различных звуков в записаном фрагменте речевого сигнала. Результат измерения показан в таблице 1.
Таблица 1.
Результат измерения длительности речевого звука
Слово |
Звук |
Начало |
Конец |
Длительность, мс |
я |
я |
0:00.260 |
0:00.605 |
345 |
вас |
в |
0:00.631 |
0:00.695 |
64 |
а |
0:00.695 |
0:00.895 |
200 |
|
с |
0:00.895 |
0:01.000 |
105 |
|
любил |
л |
0:01.025 |
0:01.150 |
125 |
ю |
0:01.150 |
0:01.393 |
243 |
|
б |
0:01.393 |
0:01.480 |
87 |
|
и |
0:01.480 |
0:01.684 |
204 |
|
л |
0:01.684 |
0:01.825 |
141 |
|
так |
т |
0:01.840 |
0:01.901 |
56 |
а |
0:01.901 |
0:02.020 |
119 |
|
к |
0:02.020 |
0:02.120 |
100 |
|
искренно |
и |
0:02.141 |
0:02.322 |
181 |
с |
0:02.322 |
0:02.423 |
101 |
|
к |
0:02.423 |
0:02.526 |
103 |
|
р |
0:02.526 |
0:02.654 |
128 |
|
е |
0:02.654 |
0:02.803 |
149 |
|
н |
0:02.803 |
0:02.874 |
71 |
|
н |
0:02.874 |
0:02.949 |
75 |
|
о |
0:02.949 |
0:03.099 |
150 |
|
так |
т |
0:03.122 |
0:03.179 |
57 |
а |
0:03.179 |
0:03.303 |
124 |
|
к |
0:03.303 |
0:03.408 |
105 |
|
нежно |
н |
0:03.442 |
0:03.597 |
155 |
е |
0:03.597 |
0:03.853 |
256 |
|
ж |
0:03.853 |
0:04.107 |
254 |
|
н |
0:04.107 |
0:04.192 |
85 |
|
о |
0:04.192 |
0:04.337 |
145 |
Далее звуки были сгруппированы в соответствии с классификацией: группа 1 - гласные составленные вокализованные; группа 2 - взрывные согласные; группа 3 - гласные составленные простые вокализованные; группа 4 - сонорные; группа 5 - смешанные шипяще-тоновые (таблица 2).
Таблица 2.
Результат группирования речевого звука
Группа |
Звук |
Длительность, мс |
Интервал времени, мс |
Среднее значение длительности, мс |
Группа 1 |
я |
345 |
149 - 345 |
248 |
ю |
243 |
|||
е1 |
149 |
|||
е2 |
256 |
|||
Группа 2 |
в |
64 |
56 - 105 |
82 |
к1 |
100 |
|||
к2 |
103 |
|||
к3 |
105 |
|||
б1 |
87 |
|||
т1 |
56 |
|||
т2 |
57 |
|||
Группа 3 |
а1 |
200 |
119 - 200 |
160 |
а2 |
119 |
|||
а3 |
124 |
|||
и1 |
204 |
|||
и2 |
181 |
|||
о1 |
150 |
|||
о2 |
145 |
|||
Группа 4 |
л1 |
125 |
71 - 155 |
109 |
л2 |
141 |
|||
н1 |
71 |
|||
н2 |
75 |
|||
н3 |
155 |
|||
н4 |
85 |
|||
Группа 5 |
р |
128 |
101 - 254 |
147 |
ж |
254 |
|||
с1 |
105 |
|||
с2 |
101 |
Из таблиц видно, что наименьшее среднее значение длительности у звуков группы 2, а наибольшее - у звуков группы 1. Представляется правильным, при анализе звуков речи, выбирать наименьшую длину окна анализа, для ислючения попадания разных звуков в одно окно в максимальном количестве случаев.
На рисунке 1 показаны фрагмент речевого сигнала (звук “в”, T = 64 мс), выбранный “в ручную” и при автоматическом выборе, при различных значениях длины окна анализа (T = 82 мс (значение, полученное в таблице 2), T = 41 мс (в два раза меньше), T = 164 мс (в два раза больше)).
Рисунок 1. Фрагмент звука речи
Для каждого из случаев автоматического выбора была рассчитна корреляция с фрагменом, выбранным “в ручную”, т.е. случаем оптимального попадания “окна” в границы анализируемого звука.
Коэффициент корреляции рассчитывается по формуле:
,
где Х - отсчеты сигнала выбранного “вручную”; У - отсчеты сигнала, выбранного автоматически.
Получены следующие результаты:
- при T = 64 мс: K0 = 1.0000;
- при T = 82 мс: K1 = 0.7680;
- при T = 41 мс: K2 = 0.8607;
- при T = 164 мс: K3 = 0.4114.
Таким образом, максимальная корреляция достигается при Т = 41 мс, то есть минимальном отрезке из выбранных для исследования.
Аналогичные действия были выполнены для звука “а” (T = 200 мс) и получены следующие результаты:
- при T = 200 мс: K0 = 1.0000;
- при T = 160 мс: K1 = 0.9413;
- при T = 80 мс: K2 = 0.4555;
- при T = 320 мс: K3 = 0.4012.
В данном случае, максимальное значение коэффициента корреляции получено при Т = 160 мс, которое не является минимальным, а получено из таблицы 1.
Но в обоих случаях при увеличении длины окна анализа коэффицент корреляции существенно уменьшался. Таким образом, для задач, в которых требуется анализ характеристик конкретного звука (например, задач распознавания), длина окна анализа не должна превышать 200 мс при автоматическом кратковременном анализе.