Читаем без скачивания Электронные издания - Владимир Вуль
Шрифт:
Интервал:
Закладка:
Таким образом, сеть понятий действительно представляет идеальное описание текста – информация в ней отражает все присутствующие смысловые связи, т. е. обеспечивает полноту смыслового портрета анализируемого документа. Однако для большинства из нас более привычны направленные графы информационного представления документов, в которых связи ориентированы в направлении от главного к второстепенному. Этому представлению соответствует так называемая тематическая структура рассматриваемого документа. Тематическая структура описывает содержание анализируемых текстов в виде иерархии связанных тем и подтем. Все темы и подтемы выражены в терминах исходного текста и соответствуют узлам сети понятий. Однако, в данном случае, связи между понятиями односторонние и направлены от главного понятия к подчиненным.
Таким образом, тематической структуре соответствует иерархическое представление – от каждой темы раскрываются связи только к ее собственным подтемам, от них – к подтемам следующего уровня и т. д. Тематическая структура имеет вид дерева, в корне которого стоят главные темы, в ветвях – их подтемы. Общий вид тематической структуры отражает смысловую организацию анализируемого документа. Если вся информация в документе подчинена единой теме, структура будет иметь вид дерева с единственным корнем. Если же его содержание отражает несколько тематических направлений, не связанных друг с другом, то дерево распадается на несколько независимых кустов, корни которых представляют главные темы, не связанные друг с другом.Рис. 8.10. Интерфейс программы TextAnalyst 2.01 с загруженным текстовым документом и результатами анализа тематической структуры этого документа
Для просмотра тематической структуры следует активизировать в окне 1 закладку "Тематическая структура", нажав вторую кнопку слева в этом окне. На рис. 8.10 тематическая структура представляется в окне 1 в виде дерева понятий – названий тем, некоторые из которых имеют раскрывающиеся списки связей с подтемами. Понятия в корне дерева представляют список главных тем текстов, а связанные с ними элементы в списках последующих уровней – списки подтем. Программа TextAnalyst дает возможность регулировать степень связности тематического дерева. Для этого следует изменять порог по весу связей в сети понятий. Выбирая определенный уровень в качестве порогового значения связей, мы изменяем вид дерева, разбивая его на большее или меньшее количество тематических кустов. В результате появляется возможность взглянуть на структуру текста в различных срезах, на разных уровнях глубины материала. С точки зрения интерфейса, анализ тематической структуры документа аналогичен работе с семантической сетью. Анализ тематической структуры также иллюстрирует тот факт, что в программе осуществляется морфологический анализ слов с группированием однокоренных.
8.4. Автоматизация пополнения информацией специализированных модулей атрибутивной базы данных
Для успешного планирования издательской деятельности необходимо регулярно следить за текущим уровнем развития науки и техники в тех ее областях, которые соответствуют выпускаемым в свет этим издательством книгам. Следовательно, в базе данных должен быть предусмотрен специальный модуль "Последние издания", где представлены новинки других издательств в определенной области или областях. Перед заключением договора с автором или авторами очень важна информация относительно области научно-практических интересов авторов и их достижениях в этой области. Таким образом, в базе данных следует предусмотреть раздел "Персоналии", где сосредоточена информация о публикациях сотрудничающих с издательством авторов, включая библиографические данные, отзывы, аннотации, списки рубрикаций и, иногда, тексты самих этих изданий.
Наконец, для проведения правильной издательской политики необходимо ориентироваться в том, какие книги уже изданы или намечены к изданию другими издательствами в той тематической области, в которой предполагается выпустить в свет книгу в данном издательстве. Кстати, исчерпывающая информация по данному вопросу помогает заблаговременно определить, не предлагают ли авторы свои произведения одновременно нескольким издательствам, не являются ли новые предложения попыткой переизданий с небольшими изменениями ранее изданных работ и так далее. Таким образом, и с этих позиций очевидна необходимость модуля "Последние издания" различных издательств.
Чтобы принятие решений руководством издательства производилось в условиях полного обеспечения нужной информацией, база данных должна систематически пополняться сведениями в тех двух направлениях, которые были указаны выше. Известно, что в настоящее время основным источником для быстрого получения исчерпывающей информации по самым различным вопросам стала Всемирная сеть Интернет. Именно оттуда следует пытаться с наименьшими затратами, включая рабочее время работников издательства, извлечь нужные данные. Заполнение этой части издательской БД может производиться вручную, силами специально выделенных сотрудников издательства, но гораздо лучше разработать механизмы для автоматического поиска и извлечения нужной информации из сети Интернет и последующего занесения этой информации в БД.
В связи с этим встает ряд проблем, касающихся того, как эффективно организовать поиск и извлечение требуемой информации. Это относится и к оптимизации построения запросов на поиск, и к оценке релевантности извлекаемых из сети документов, и к информационной структуре модулей, в которые заносится извлекаемая из сети Интернет информация. Рассмотрению всех изложенных выше прикладных задач посвящается текущий раздел.
8.4.1. Основы организации современных информационно-поисковых систем
Рассмотрим типовую схему информационно-поисковой системы для сети Интернет, которая представлена на рис. 8.11. Браузер , как уже говорилось ранее, это программа просмотра конкретного информационного ресурса, являющегося объектом поиска информационно-поисковой системы (ИПС). Под интерфейсом пользователя ИПС понимается способ общения пользователя с поисковым аппаратом системы, т. е. с системой формирования запросов и просмотра результатов поиска. Поисковая машина служит для трансляции запроса пользователя, который подготавливается на информационно-поисковом языке (ИПЯ), в формальный запрос системы, а также поиска ссылок на информационные ресурсы сети и выдачи результатов этого поиска пользователю. Индекс ссылок – это основной массив данных информационно-поисковой системы. Он размещается на поисковом сервере и служит для поиска адреса (URL) информационного ресурса. Архитектура индекса должна строиться таким образом, чтобы можно было бы оценить релевантность каждой из найденных ссылок на информационные ресурсы. Запросы пользователя целесообразно сохранять в его личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно хранить запросы, на которые система дает хорошие ответы. Робот-индексировщик – это программа автоматического сканирования сети Интернет и поддержки индекса ссылок на поисковом сервере в актуальном состоянии. Наконец, под Web-сайтами подразумеваются просматриваемые информационные ресурсы глобальной сети.
ИПС гораздо старше систем управления базами данных. Они продолжают успешно развиваться в своей нише, оказывая влияние и на ресурсы глобальных сетей. Эти системы имеют строго определенную структуру документа хранения, которая наиболее полно описана в стандарте для разработчиков распределенных ИПС – Z.3950. К слову, этот стандарт по своим потенциальным возможностям столь обширен, что ни одна из существующих систем не реализует его в полной мере. Сам поиск обычно строится на основе преобразования предложений информационно-поискового языка в запросы информационной системы. Язык может основываться на терминах, словоформах или устойчивых словосочетаниях, всю совокупность которых обычно называют словарем системы.
Рис. 8.11. Типовая схема информационно-поисковой системы для глобальной сети
В современных ИПС чаще используется векторная модель поиска и представления документа. В ней можно выделить несколько основных понятий: словарь, документ, поток и процедуры поиска и коррекции запросов. Под словарем понимают упорядоченное множество терминов, мощность которого обозначают как D. Документ – это двоичный вектор размерности D. Если термин входит в документ, то в соответствующем разряде этого двоичного вектора присутствует 1, в противном же случае – 0. Информационный поток или массив L представляют в виде матрицы размерности N × D, где в качестве строк выступают поисковые образы N документов. При таком рассмотрении можно сформулировать процедуру обращения к информационной системе следующим образом:
L × q = r, (8.3)