Читаем без скачивания Звуки и знаки - Александр Кондратов
Шрифт:
Интервал:
Закладка:
В теории вероятностей известны десятки законов распределения случайной величины. Задача статистической лингвистики — выбрать тот закон, который лучше всего отражает именно реалии языка, а не какие-либо иные закономерности.
Вот характерный пример, заимствованный нами из учебника «Математическая лингвистика», написанного Р. Г. Пиотровским, К. Б. Бектаевым и А. А. Пиотровской. И наше обычное поведение, и функционирование техники, и порождение речи — в той или иной степени вероятностны. Садясь в самолет или автомобиль, мы уверены, что все будет хорошо. Составляя словарь для перевода русских текстов по математике, мы не станем включать в него слово дядя или словосочетание бубновый туз.
И все-таки несчастные случаи, увы, бывают, какова бы ни была их вероятность. В книгах по математике можно найти и бубнового туза и даже дядю (так, в труде «Теория вероятностей» Е. С. Вентцель читатель может обнаружить цитату из начала «Евгения Онегина», знаменитое «Мой дядя самых честных правил…»). Так что же, отменить автомобили и не летать на самолетах? А в математические словари наряду со словом дядя включать еще и тетю, и бабушку, и названия игральных карт и вообще все сотни тысяч русских слов? Разумеется, нет.
Если сравнить астрономически большое число полетов и автомобильных пробегов с числом несчастных случаев, станет ясно, насколько мала их вероятность. И вероятность всех этих дядей и бубновых тузов в математических трактатах мала — хотя авторы их могут и процитировать Пушкина, и воспользоваться известными всем игральными картами, иллюстрируя пример случайного выбора или комбинаторных сочетаний.
Студент сдает экзамен. Из ста предложений, данных ему для перевода, в шести он напутал с синтаксисом. Пятерки такой студент не заслужил, но зачет ему поставит любой здравомыслящий преподаватель, даже не знакомый с теорией вероятностей. Ибо понимает, что с помощью словаря такой студент сумеет перевести любой взятый наугад текст. Но если такое же число ошибок сделает машина-переводчик, ее программа зачета не получит. Студент умеет пользоваться словарем, при переводе опирается на смысл фразы, и небольшие помехи с синтаксисом ему не слишком повредят. А ЭВМ свои ошибки в синтаксисе не искупит ни лексикой, ни смыслом, ей недоступным. Прощать мы должны не шесть, а скажем, одну ошибку на сто фраз.
Что же касается техники, тут дело и вовсе серьезное. Вот почему так строго к нарушениям наше ГАИ и так тщательно проверяют готовность самолета работники Аэрофлота. Ибо тут, когда речь идет о людях, случайность должна быть сведена до минимума: не одну ошибку на сотню случаев, а даже одну ошибку на сто тысяч нельзя допускать!
Инженерная лингвистика
Связь техники, статистики и языкознания наметилась давно. Ведь даже на простой, но очень важный вопрос: как удобнее расположить клавиши на пишущей машинке? — нельзя ответить одному только технику или лингвисту. Нужно знать частоты употребления различных букв и сочетаний этих букв. Нужно знать конструкцию машинки (вот почему редкие буквы расположены на периферии, а частые — в центре клавиатуры, причем на основании статистики спарены т и ь, п и р и т. д.).
Изобретение телеграфа, телефона, других средств связи вызвало сближение инженерии, математики и лингвистики. Их союз помогает решать задачи кодирования слов и букв языка в электрические сигналы, сокращения «избыточных» частей текста при передаче телеграмм.
Однако подлинный союз техники, лингвистики и статистики в изучении языка начался с появлением электронных вычислительных машин. Если раньше необходимые подсчеты требовали многих лет труда и большого коллектива сотрудников, то теперь с помощью ЭВМ они могут быть произведены очень быстро и экономично.
Мы упоминали частотный словарь немецкого языка, составленный Кедингом на основании одиннадцати миллионов слов. Разумеется, один человек такую работу проделать не мог: не хватило бы всей его жизни. В составлении словаря Кедингу помогали сотрудники. Как вы думаете, сколько их было? Десяток, сотня, две сотни? Нет, гораздо больше — тысяча человек!
В течение нескольких лет вел кропотливую работу над составлением «Словаря языка Пушкина» коллектив сотрудников Института русского языка Академии наук СССР. Четверть века вели свою работу над частотным словарем английского языка Торндайк и Лордж…
В наши дни составление этих словарей поручено электронным вычислительным машинам. Именно они являются соавторами всех больших частотных словарей, появившихся в последние годы, включая «Частотный словарь русского языка».
С помощью ЭВМ в наши дни осуществляется издание монументального, в пятнадцати томах, словаря французского языка. Он охватывает почти шестьсот произведений авторов XVIII–XX столетий, общим объемом в семьдесят миллионов (!) слов. Каждому из семидесяти тысяч слов, вошедших в словарь, дается толкование, приводится общая частота его употребления, а также частоты, с которыми оно употреблялось в том или ином веке. Нет сомнения в том, что и для других языков появятся столь же нужные словари. Конечно, без машины составление их вряд ли было бы возможно: вспомните Кединга и его тысячу помощников.
ЭВМ помогают и в составлении частотных словарей отдельных «подъязыков», охватывающих ту или иную область науки и техники: электронику, терапию, строительные материалы, автомобилестроение, геологию нефти и газа и т. п. В нашей стране составлено более десятка таких словарей для английского, немецкого, французского и других языков. Осуществляет это важное и жизненно необходимое для практики дело группа «Статистика речи».
Правда, объем текстов, взятых для словаря, сравнительно невелик: выборка состоит, как правило, из двухсот тысяч слов. Но на это есть свои причины. Вы помните, что львиная доля текста покрывается самыми частыми словами, первой их тысячью. Вторая тысяча частых слов даст незначительный прирост, третья — еще меньший и т. д. Чем больший объем текста мы возьмем, тем больше разных слов в нем будет, но прирост этот будет замедляться. Вот что показывают расчеты. В словаре английского языка, составленном Г. Кучерой на основе машинной обработки миллиона слов, встретилось около пятидесяти тысяч различных слов. Если увеличить выборку в десять раз, то есть до десяти миллионов, число разных слов возросло бы не в десять, а примерно в два с половиной раза. Если довести выборку до ста миллионов слов, число разных слов увеличилось бы не в сто, а лишь в четыре раза.
Еще меньший прирост дают тексты по отдельным подъязыкам и областям знания. Вот какая картина рисуется нам, если мы попробуем применить ЭВМ для составления полного частотного словаря английских текстов по электронике. Двести тысяч слов, обработанных на машине, дали около десяти тысяч различных слов. Если увеличить выборку в пять раз, до миллиона слов, то число разных слов даже не удвоится. Увеличь мы выборку в пятьдесят раз, число разных слов возрастет только в три раза; увеличение в пятьсот раз, до ста миллионов слов, даст прирост в четыре раза. И если мы доведем выборку до фантастической величины в десять миллиардов, то есть в пятьдесят тысяч раз, то число разных слов возрастет лишь шестикратно. Наш словарь охватит лишь шестьдесят тысяч разных слов, между тем терминология электроники гораздо богаче, эти слова ее не исчерпывают, хотя мы обработали бы на ЭВМ около тридцати миллионов страниц текстов!
Вот почему ученые находят более рациональное применение вычислительной технике. С помощью машин выявляются не все слова в той или иной области науки и техники (где употребляются сотни тысяч различных терминов), а наиболее употребительные, а также самые частые словосочетания. Ведь они, например, в отраслевых англо-русских словарях, занимают почти три четверти объема словаря. Выявить же эти сочетания, одновременно подсчитывая их частоту вручную, практически невозможно: лишь ЭВМ способна проделать столь утомительную и однообразную работу.
Но не только электронные вычислительные машины оказывают помощь лингвистике. В свою очередь, помощь современного языкознания оказалась крайне необходимой для вычислительной техники. С рождением кибернетики появляется и проблема «разговора» человека и робота. ЭВМ понимают только строго формализованный, однозначный язык чисел и логических команд. Можно ли перевести на него наш обычный человеческий язык?
Машинный перевод с одного языка на другой, машинный перевод устной речи в письменную и письменной в устную, наконец, разговор с машиною «по-человечески», то есть ввод и вывод информации в машину посредством устной речи — все эти задачи несколько десятков лет назад относились к области научной фантастики. А ныне они стали реальными и важными проблемами практики. И решать эти проблемы можно лишь в тесном содружестве математиков, техников и языковедов.