Читаем без скачивания Эксперт № 16 (2014) - Эксперт Эксперт
Шрифт:
Интервал:
Закладка:
Будущее систем анализа текста в гибридных подходах: можно либо в статистические системы добавлять алгоритмы анализа морфологии и синтаксиса, либо усложнять и детализировать модель языка, в том числе методами статистического анализа.
В поисках смысла
Компания ABBYY началась в 1989 году с создания электронного словаря, следующей освоенной технологией стало распознавание — перевод печатного или рукописного текста в электронный. Напрашивался следующий шаг — создание системы машинного перевода.
ABBYY попыталась реализовать полный синтаксический и семантический разбор текста, решив те проблемы, на которые у компьютерных лингвистов сорок лет назад не хватило сил и вычислительных мощностей. В результате появилась Compreno — система понимания, анализа и перевода текстов на естественных языках. Она включает в себя описание глубинной структуры языка — соотношение используемых в нем смыслов и взаимосвязи между ними. Глубинная структура универсальна для всех языков, поскольку во всех культурах люди используют примерно одни и те же предметы и совершают одни и те же действия. Ее можно представить в виде дерева, толстые ветви которого — общие понятия, а тонкие — понятия более специфические. Например, понятие «стол» относится к родительской категории «мебель», оно может сочетаться с понятиями «собрать», «сидеть за», «быть зачатым на», «дубовый», «дешевый» и т. д. Фактически ABBYY создала универсальный синтетический язык, на который можно перевести текст с любого естественного, а также решить обратную задачу, что необходимо для перевода текстов с одного естественного языка на другой.
На универсальную семантическую модель языка накладываются уникальные для каждого языка морфология и синтаксис. Система анализирует текст и выстраивает дерево связей, с его помощью понимая смысл каждого слова с учетом контекста. Например, наличие в тексте «стола» придает «стулу» совсем другое значение, отсылающее к той же родительской категории, чем контекст медицинских терминов. А отличия в смысле выражений «знать всех местных» и «вся местная знать» невозможно понять без анализа морфологии.
Полнота описания семантики, морфологии и синтаксиса проверяется на внутренней системе статистического анализа. ABBYY собрала гигантский объем корпусов — специальным образом размеченных текстов, на которых осуществляются проверка и обучение системы.
Сейчас в Compreno включено уже 110 тыс. универсальных понятий. По словам Татьяны Даниэлян , заместителя директора по разработке технологий, отвечающей в ABBYY за создание Compreno, такой подход к системам уникален — ей не известно о попытках разработки подобных полноценных систем семантического анализа конкурентами. Пока платформа работает только с английским и русским языками; планируется в будущем добавить немецкий, испанский, французский и китайский.
Задача оказалась куда сложнее, чем виделось изначально. К нынешнему моменту общие трудозатраты составили уже около 2000 человеко-лет. Создание Compreno потребовало от ABBYY 19 лет, 80 млн долларов собственных средств и 14 млн долларов гранта Сколково. Сейчас над проектом трудятся около 350 человек.
«Когда мы начинали проект Compreno в 1995-м, то планировали, что три года уйдет на исследования, а затем за четыре года за счет привлечения дополнительных лингвистов мы заполним систему понятиями и выпустим коммерческий продукт, — рассказывает Татьяна Даниэлян. — Но задача оказалась сложнее, чем представлялось изначально. Кроме того, появившиеся в 2000-х годах онлайновые переводчики, пусть не очень качественные, но бесплатные, заставили нас изменить стратегию коммерциализации». Google Translate занял нишу быстрого понимания: люди, которым время от времени нужно понять примерный смысл иноязычного текста, не готовы платить за это, и бесплатный статистический перевод является сильным конкурентом. Из наиболее понятных для коммерциализации остались ниши профессионального перевода и интеллектуального поиска. Технологически поиск проще перевода, а его рынок достаточно емкий и растущий. Именно поэтому поиск был выбран первым проектом для реализации.
По оценкам компании IDC, объем мирового рынка корпоративного поиска в 2014 году составит 2 млрд долларов, а появление более эффективных инструментов может значительно увеличить его размер. Кроме того, вывод новой технологии на уже сформировавшийся и понятный рынок дает время на то, чтобы доработать технологию, прежде чем предлагать пользователям более непривычные для них решения.
Сейчас рынок корпоративного поиска поделен между тремя основными игроками: Google, HP и Microsoft, которые в сумме занимают долю около 80%. «Наши первые тесты говорят, что мы показываем преимущество по точности и полноте результатов поиска», — уверяет Антон Тюрин , директор департамента продуктов Compreno. В менее официальных комментариях сотрудники говорят, что «рвут конкурентов».
Татьяна тут же на примере показывает работу поиска. Специально для нас она проиндексировала 15 тыс. новостных заметок на русском языке. На первой странице Intelligent Search автоматически выскакивают фасеты — наиболее важные и часто встречающиеся категории: упомянутые персоны, географические объекты и даты. На запрос «отделение» система уточняет, какое из множества значений «отделения» имелось в виду, и легко различает в выдаче: «отделение» в смысле организации (отделения банков) или «отделение» — как выделение части из целого. Любая система неидеальна — я быстро нахожу, что Intelligent Search воспринимает «и. о.» и «исполняющий обязанности» как разные понятия. Татьяна тут же заходит в сервис рекламаций и отправляет лингвистам заявку на дополнение словаря. Поиск от ABBYY легко уточняется и масштабируется на новые предметные области, так как смысл многих понятий в словаре общей лексики и, например, медицинском весьма разнится. Дерево понятий поражает дотошностью. Так, класс Beautiful person включает в себя в русском варианте «богиню», «королеву», «кралю», «красаву», «няшку», «пупсика» и еще множество слов, не сразу приходящих на ум при описании кого-либо прекрасного.
Intelligent Tagger позволяет автоматически вычленять факты и связи между объектами. По запросу «Сноуден» система рисует легкочитаемую инфографику, отображающую ключевые факты: родился, учился, работал; разбивку событий по годам, ключевых лиц, с которыми он был связан, причем их система вычленяет из новостной базы не только по именам, но и по социальным ролям, например girlfriend.
Количество возможных применений Compreno ограничено лишь фантазией заказчика. Например, можно настроить анализ корпоративной переписки на поиск любых эвфемизмов для «откат» и «вознаграждение» или негативных отзывов о руководителе, причем система поймает не только прямые упоминания «Иван Иваныч» или «генеральный», но и «дражайший», «сам» и «наш козел».
Интеллектуальный поиск может работать не только с корпоративными документами. Запустив робота на индексацию интернета, можно отыскать все упоминания о каких-либо событиях, фактах или персонах в определенных контекстах и взаимосвязях. Например, можно использовать систему для поиска взаимосвязей между сотрудниками вашего отдела снабжения и руководителями поставщиков, и вполне возможно, что кто-то из них родственники или учился в одном классе. Сейчас министерство внутренней безопасности США публикует длинный перечень ключевых слов, по которым осуществляется мониторинг интернета: от «Аль-Каиды» и «теракта» до «исламистов» и «свинины». Использование поисковых решений на основе Compreno позволит более изощренно и эффективно подходить к контролю интернета, чем уже заинтересовались компетентные службы.
Как признался нам генеральный директор ABBYY Сергей Андреев , компания мечтала бы сосредоточиться на лицензировании технологий сторонним разработчикам. Но как стало очевидно на примере нынешней «дойной коровы» ABBYY — решений в области распознавания текстов и потокового ввода данных, только непосредственная работа с конечным потребителем дает понимание его нужд и возможность совершенствовать под них технологию.
Цены на Intelligent Search и Intelligent Tagger не называются, поскольку формируются в зависимости от объема задач в каждом конкретном случае и числа используемых процессоров. Но, по словам Антона Тюрина, средняя цена установки корпоративного поиска на рынке — 62,5 тыс. долларов, и решения ABBYY будут вполне конкурентоспособны по цене. Ключевой рынок, на который нацелена ABBYY, — Соединенные Штаты.
Плоды понимания
Однако поисковые решения — лишь первый шаг. Compreno — базовая технология, которая может быть использована в десятках различных приложений, предназначенных для работы с текстом. Уже на этапе финальной доработки находится eDiscovery — поиск информации в документах в рамках юридических разбирательств, аудита и расследований в США, Великобритании и других государствах. В них требуется обработка огромных массивов корпоративной информации для дальнейшего поиска и выявления фактов и доказательств.