Читаем без скачивания Утоли моя печали - Лев Копелев
Шрифт:
Интервал:
Закладка:
А в семидесятых годах пути разошлись. Но это уже другая тема. И время для нее еще не приспело.)
* * *
Солженицын разрабатывал теорию и методику артикуляционных испытаний телефонных каналов в разных режимах. А я читал и конспектировал книги и статьи по языкознанию, по фонетике, по акустике и электроакустике, по теории связи, по психологии речи, книги Сосюра, Щербы, Бодуэна, Марра, издания Пражского лингвистического кружка, статьи Габора, Эшби, Ликлайдера, Бекеши, американские, английские, французские, немецкие журналы.
Но читал я главным образом вечерами. А днем больше возился со звуковидами, торчал у АС, наговаривал тексты на магнитофонную ленту, потом натягивал ее на диск анализатора, получал звуковиды и рассматривал их, измерял, сравнивал...
Мне были поставлены отчетливые задачи: исследовать, в какой степени разборчивость речи и узнаваемость голоса в телефонах различного типа зависят от точности воспроизведения определенных параметров звуковых колебаний (частоты, энергии, соотношения частоты и энергии в разных - и каких именно - диапазонах частоты).
Во всех рассуждениях и спорах, которые возникали вокруг наших фонетико-акустических работ и захватывали почти всех, кто разрабатывал новые телефонные системы и отдельные узлы, были примерно такие главные темы:
- Сколько можно "сэкономить" (сократить) в диапазоне частоты? (При обычном разговоре "от рта к уху" на расстоянии одного-двух метров мы воспринимаем звуковые колебания с частотой от 60 до 15 тысяч герц. Обычный телефон передает ограниченную полосу от 100 до двух с половиной тысяч герц. Но и при передаче по более "узким" каналам речь все еще сохраняет некоторую разборчивость.) До каких пределов можно сократить канал? Что лучше срезать - верхние или нижние частоты?
- Если необходимо (в целях шифрации) передавать речь, разделяя ее фильтрами на отдельные частотные полосы, то какое именно деление наиболее благоприятно для разборчивости и узнаваемости?
- Как влияют на разборчивость речи, на узнавание говорящего различия в энергии, то есть амплитуды звуковых колебаний? До каких пределов можно их сокращать? До какой степени точно нужно воспроизводить различия между амплитудами в отдельных диапазонах частоты?
Такие конкретные, непосредственно технические вопросы были неотделимы от некоторых общетеоретических проблем:
- Что имеет решающее значение при восприятии речи: дискретные отдельные звуки или некие целостные "блоки" - слоги, слова, фразы - единицы смыслов?
- Чем отличается восприятие написанного текста от восприятия речи?
- Что быстрее и точнее? Можно ли эти различия измерять?
Звуковиды - то есть спектрограммы звуковых колебаний - позволяют увидеть распределение энергии по частоте в диапазоне примерно от 20 до 3000 герц. Те звуковиды, которые получали на АС-2 и АС-3, прорисовывали этот диапазон несколькими сотнями тончайших линий. Сергей сделал приспособление, позволяющее делать рисунок то более густым, то более редким. Степень резкости, потемнения отдельных участков каждой линии выражала более или менее высокую энергию (амплитуду) звуковых колебаний данной частоты и в данное мгновение (доли секунды). Такие спектрограммы позволяли добраться до тайников, которые раньше были недоступны ни лингвистам, ни акустикам, ни отоларингологам, ни логопедам...
На первых порах в звуковидах и в параллельно снятых осциллограммах я находил подтверждения тех, так сказать, "корпускулярных" теорий речи, которые представляли ее сложной конструкцией из четко раздельных кирпичиков - фонем.
Позднее я все больше убеждался, что этого недостаточно. И письменный текст, если его лишить знаков препинания и прописных букв, существенно обедняется, может даже по существу измениться. Однако "написанное пером не вырубишь топором" - его можно перечитывать не раз, чтобы лучше уразуметь. А прозвучавшее слово "вылетело и не поймаешь".
Сопоставляя возможности слуха и зрения, я становился "ухо-патриотом", пытался доказывать, что слепорожденные или рано ослепшие люди, как правило, значительно способнее, интеллигентнее, чем рожденные глухими или рано оглохшие. Потому что глухота - и связанная с нею немота - неумолимо подавляют разум, сознание, в значительно большей степени, чем слабость или полная утрата зрения. Вспоминал Гомера и московского математика Льва Понтрягина и не мог вспомнить ни одного глухого или глухонемого гения.
Но в то же самое время я все больше убеждался, что восприятие речи нельзя рассматривать как такую работу некоего сверхскоростного ухо-мозгового приемника, при которой стремительно анализируется поток фонем, раздельных, как звуки морзянки.
Одно время я стал было приверженцем "волновой" теории речи. Но потом пришел к новой и уже окончательной уверенности, что мы воспринимаем речь как некое переменное единство (переменное и во времени и по относительным значениям разных составляющих его элементов). Это единство охватывает и дискретные единицы - отдельные звуки, и непрерывные, транзиторные, т.е. переходные, процессы, и создаваемые теми и другими целостные "блоки" информации: слова, интонации, фразы.
В конце концов я разработал, частью сопоставляя и компилируя вычитанное и выученное, частью заново обдумывая то, что наблюдал сам, такую систему фонетико-физических представлений, которая, как мне казалось, лучше других могла помочь работе моих товарищей - инженеров и техников. Назвал я эту систему "речевые знаки русского языка".
1) ЧАСТОТНО-ЭНЕРГЕТИЧЕСКИЕ дискретные речевые знаки или фонемы. Их физические выражения - образующие, т.е. форманты.
2) ЧАСТОТНО-ВРЕМЕННЫЕ и АМПЛИТУДНО-ВРЕМЕННЫЕ транзиторные знаки "речевого лада", т.е. ударения, интонации, выразительные колебания громкости или мелодии речи. Их выражения - амплитуды звуковых колебаний, переходы основного тона.
3) ВРЕМЕННЫЕ ЗНАКИ: выразительные паузы, ускорения или замедления.
4) ЗРИМЫЕ речевые знаки: мимика, жесты. Увлеченно, в иные часы и вовсе забывая обо всем вокруг, я изобретал велосипеды и открывал Америки либо строил собственные фантастические умозрительные схемы.
Звуковиды представляли речь прежде всего в двух измерениях: по времени (горизонтальная ось) и по частоте (вертикальная). Третье измерение энергия (амплитуда) выражалась только в степени потемнения отдельных участков.
Сергей сделал приспособление, позволяющее получать точечные - подобно картинам пуантелистов - спектрограммы, с тем чтобы по числу точек определять количество энергии, т.е. высоту соответствующей амплитуды. Но ему все не удавалось получить достаточно объективные и действительно измеримые показатели. Чем больше энергии, тем больше точек, и они сливались в пятна. Он разработал прибор, анализировавший спектр по частоте и амплитуде. Получались звуковиды мгновенных (не дольше ста миллисекунд) долек отдельных звуков речи. По горизонтали частота, по вертикали амплитуды.
Я стал мечтать о трехмерном изображении речи. И Сергей сделал несколько моделей. Десятка два "профильных" частотно-амплитудных спектрограмм выстраивались в ряд по оси времени и так создавали кусочек причудливого горного ландшафта. Но прочесть "трехмерное" слово оказывалось едва ли не труднее, чем по двухмерному звуковиду, а строить подобные модели было и хлопотно и трудоемко.
К тому же не было уверенности в достаточно точном объективном изображении амплитуд. Они ведь более всего зависели от частотных характеристик микрофонов (телефонов). Эти характеристики сравнительно мало влияли на разборчивость, но различались даже у аппаратов, сходных между собой по всем прочим качествам.
Когда я стал подробнее выискивать, исследовать физические параметры индивидуального своеобразия голоса, то пришел к убеждению, что именно трехмерное - рельефное - изображение спектра речи позволяет наиболее достоверно установить индивидуальные особенности голоса и произношения.
Однако таким исследованием нам не пришлось заняться. Сергею поручили другую работу, потом снова другую... Никто больше этим не интересовался, да никто не мог бы заменить Сергея. Он был инженер-конструктор божьей милостью, "быстрый разумом", находчивый, изобретательный, выдумщик, фантазер и мастер золотые руки. Он придумывал все новые и новые приспособления к анализаторам спектра, а для "встречной проверки" насколько мы правильно толкуем звуковиды - создал аппарат искусственной речи - АИР.
10 фотоэлементов, соответствующих частотным фильтрам, управляли динамиком-громкоговорителем. На длинной и широкой полосе белой бумаги мы с Сергеем на 10 "строках" густой черной тушью наносили образующие (форманты). Аппарат протягивал этот рукотворный звуковид со скоростью речи; фотоэлементы "читали" его, и сиповатый, механически монотонный голос произносил: ЖИРНЫЕ САЗАНЫ УШЛИ ПОД ПАЛУБУ. (Эту фразу мы сочинили еще в первые дни существования акустической лаборатории. Она включила "крайние" по расположению образующих звуки: самые "низкие" У, Б, П; самые "высокие" И, Ш, Ж, С, 3, а также "центральные" А, Ы, Л, Н.