ChemNet
 

[На предыдущую главу]

Программно-технологические средства информационной системы –
генератора проблемно-ориентированного ресурса

В соответствии с блок-схемой рис. 3 работы [1] на входе системы мониторинг мировых информационных ресурсов издательств, патентных организаций, информационных центров организаций и ведомств, библиотек, интернет-сайтов и др. заключается в проведении систематизированного поиска-отбора и регистрации документов из всех доступных потоков информации по мембранным технологиям (срезы: материалы – свойства и получение, характеристики мембран и процессов, расчетные модели и проектирование модулей и мембранных процессов, применение и экономические характеристики и т.д.), включая:

  • публикации и патенты в бумажных изданиях (патенты, периодика, отдельные издания, монографии и др.);
  • электронные версии бумажных публикаций и патентов (библиографическое описание-содержание, резюме, цитируемая литература, полные тексты);
  • научно-технические отчеты;
  • электронные журналы – CD/Интернет (библиографическое описание-содержание, резюме, цитируемая литература, полные тексты);
  • нормативно-правовая и справочная документация (бумажные и/или электронные версии);
  • рекламно-коммерческие публикации (бумажные и электронные обзоры, проспекты, каталоги и др.);
  • веб-страницы на специализированных сайтах в Интернете.

Результатом такого мониторинга на “ВХОДЕ” АСИО является формирование метабанка проблемно-ориентированных информационных ресурсов/URL (Uniform Resource Locator). В Приложении в контексте мембранных технологий дано продолжение начатого ранее [1] обзора соответствующих URL для доступа к интернет-ресурсам.

Отбор и регистрация документов на “ВХОДЕ” служит основанием для их “ИМПОРТА” в АСИО, при этом метабанк рассматривается как систематизированный ресурс информационных запросов, обеспечивающий полноту и целостность импортируемых данных.

В ходе импорта, с одной стороны, в рамках операционно-технологической БД (ОТБД) решаются задачи подготовки массивов документов для их последующей переработки (реферирования, индексирования, редактирования, экстракции и формализации фактографических данных). С другой стороны, идет формирование ресурса (хранилища/библиотеки) перерабатываемых документов. При этом бумажные документы в рамках технологического цикла загрузки могут быть:

  • унифицированы до электронных документов (оцифрованы, распознаны с выделением текстовых компонентов и связанных графических объектов-рисунков);
  • связаны с соответствующими известными документальными данными, например, с библиографическим описанием и/или резюме из внешней БД метабанка информационных ресурсов;
  • непосредственно использоваться для ввода релевантных данных в ОТБД.

Метабанк и архив-хранилище перерабатываемых документов являются важными ресурсами, готовыми для непосредственного использования в системе информационного обеспечения научно-практических разработок в области химии и химической технологии. Естественно, что степень информационной обработки (реферирования, индексирования, экстракции, формализации и унификации фактографии) для многих исходных документов из отбираемых проблемно-ориентированных массивов не всегда бывает достаточной для организации как их хранения в виде первичного информационного ресурса, так и тем более для генерации вторичных информационных ресурсов (печатных и электронных изданий, информационно-программных продуктов, регистрационных, документально-библиографических и фактографических БД). Немаловажное значение имеют и различные формы представления реферативно-аналитической информации на национальных языках. В рамках АСИО необходимый уровень переработки исходных документов достигается с использованием ОТБД и соответствующих автоматизированных рабочих мест (АРМ):

“Регистрация” – для проведения работ по загрузке и регистрации-индексации в БД материалов входного потока информации.

“Экстракция– для проведения работ по разборке и экстракции информации из индексированных документов в соответствии со списками определенных в БД элементов данных, соответствующими регистрируемым формам представления обрабатываемых документов (одной или нескольким локальным формам для каждого из документов).

“Формализация документов” – для проведения работ по переработке информации, соответствующей элементам данных различных, в том числе и промежуточных форм представления обрабатываемых документов:

  • “Текст” – распознавание/импорт/редактирование/набивка записей элементов данных обрабатываемых документов в форматах “ASCII”, “ANSI”, “Word” и/или “EXCEL”;
  • “Графика” – импорт/редактирование графики элементов данных обрабатываемых документов;
  • “Объекты” – импорт/редактирование элементов данных, соответствующих объектам (“молекулярным данным”, “графическим данным” и др.), внедренным в обрабатываемые документы;
  • “Структурированный документ” – импорт/редактирование/набивка записей элементов данных обрабатываемых документов по устанавливаемому соответствию “метки элементов структуры документа – метки элементов данных БД” формы представления структурированного документа в БД.

“Анализ и переработка” – для проведения работ по углубленной формализации и унификации информации, связанных с выявлением и регистрацией фактографических данных:

  • “Библиография” – перевод названий документов, формализация и унификация записей элементов библиографического описания обрабатываемых документов в соответствии с релевантными таблицами указателей (авторы, города, страны, названия источников данных и др.);
  • “Реферат-текст” перевод резюме и/или набивка текста реферата;
  • “Реферат-названия химико-технологических объектов (ХТО)” восстановление/набивка систематических названий и синонимов ХТО (химических соединений, смесей, композитных материалов, реакций, процессов и аппаратов), релевантных обрабатываемым документам;
  • “Реферат-ХТО” – восстановление/импорт/набивка структурных представлений (определений) ХТО, релевантных обрабатываемым документам;
  • “Реферат-ХТО-элементы категорированных фактографических данных” – установление/регистрация связи ХТО, релевантных обрабатываемым документам, с определенными качественными характеристиками (классами свойств, термами активности, категориями опасности и др.);
  • “Реферат-ХТО-элементы количественных фактографических данных” – идентификация/определение элементов количественных данных и формирование соответствующих записей их значений и размерностей для ХТО, релевантных обрабатываемым документам;
  • “Реферат-обобщенная формализация ХТО” – ввод и первичный анализ структурной и релевантной фактографической информации по ХТО и их классам, задаваемым обобщенными представлениями (например, для химических соединений – формулами Маркуша, для технологических схем – преставлением в виде помеченных графов).

“Статистика и моделирование” – для проведения унификации, информационно-статистического анализа и прогноза/расчета фактографии по ХТО:

  • “Унификация” – для проведения работ по унификации определений категорированных данных и размерностей количественных данных по ХТО;
  • “Кластеризация” – для проведения факторного и кластерного анализа данных;
  • “Байес” – для байесовской классификации/прогноза категорированных данных для ХТО;
  • “Моделирование связи данных” – для нахождения моделей (реляционных, регрессионных, сходства, алгебраических, дифференциальных уравнений) данных и прогнозирования/заполнения “пропущенных данных” по ХТО;
  • “Математические методы” – библиотека прикладных программ общего назначения (статистические методы, стандартные методы вычислительной математики, методы оптимизации).

“Технология” – рабочее место эксперта-администратора технологической БД для проблемно-ориентированного анализа, обобщения, реструктуризации, унификации, перевода и сборки новых баз данных по химии и информационных продуктов по химии и химической технологии.

На рис. 1 и 2 приведена схема ОТБД. ОТБД и АРМ (пользовательский интерфейс) обеспечивают импорт и обработку документов с электронных носителей. При этом элементы данных документов могут включать:

  • полные электронные копии (сканы) страниц бумажных документов;
  • электронные копии (сканы) определенных разделов бумажных документов (первой страницы/библиографии/содержания, резюме, списка литературы, рисунков и др.);
  • текстовые компоненты документа (полный текст, библиографическое описание, резюме, ключевые слова и др.);
  • электронные документы (PDF, Word, XML и др.);
  • внедренные объекты электронных документов (рисунки, графика, молекулярные данные, модели и др.);
  • документальные данные – формализованное библиографическое описание, реферат, ключевые слова документа;
  • фактографические данные – характеристики, свойства и модели данных формализованных объектов документа.

Каждому типу документа (см. рис. 1) соответствует как минимум одна индексируемая форма (1, 3) его представления в БД. Допускаются как составные (по нескольким формам) документы, так и выборочные формы документов для хранения промежуточных результатов обработки первоисточников. Определение (индексация) элементов данных (3, 2) предполагает включение основного и нескольких коротких названий (меток) поля, соответствующих наиболее распространенным форматам хранения информации. Записи самих элементов данных документов в БД хранятся в таблицах (4), релевантных (6) зарегистрированным формам представления документов. При этом записи элементов данных индексируются с помощью соответствующих таблиц определений (6, 5), например, указателей авторов, изданий, городов, стран, ключевых слов и др. Специально выделяются индексируемые записи элементов данных по ХТО (7), категорированным (9) и количественным (11) данным с таблицами индексных указателей 8 (указатели названий ХТО), 10 (указатели категорированных данных (классов ХТО, термов свойств, эффектов, воздействий и др.)) и 12 (таблицы количественных данных), соответственно.

Реорганизация записей элементов данных с количественными данными по ХТО (11) в таблицы количественных данных (12) проводится с использованием пополняемых таблиц определений размерностей величин количественных данных (15). Это же относится и к моделям количественных соотношений данных для ХТО (16). В целом, модели данных по ХТО (14, 16) формализуются как специальные элементы данных (6) обрабатываемых документов (рис. 1, 2). В качестве атрибутов определения моделей и правил классификации и категорирования ХТО байесовской классификации и прогноза свойств (14) и количественных соотношений данных для ХТО выступают соответствующие атрибуты определения данных в указателях категорированных (10) и количественных данных (13). Зарегистрированные в ОТБД модели доступны для прогноза/восстановления данных для ХТО (7, 8). По мере накопления фактографии по ХТО зарегистрированные в БД модели обновляются, а при необходимости и по мере возможности генерируюся новые.

Программно-технологические средства ИС реализованы на основе СУБД MS SQL 7.0.

[На следующую главу] [На Содержание]

Copyright ©


Для того, чтобы мы могли качественно предоставить Вам информацию, мы используем cookies, которые сохраняются на Вашем компьютере (сведения о местоположении; ip-адрес; тип, язык, версия ОС и браузера; тип устройства и разрешение его экрана; источник, откуда пришел на сайт пользователь; какие страницы открывает и на какие кнопки нажимает пользователь; эта же информация используется для обработки статистических данных использования сайта посредством интернет-сервисов Google Analytics и Яндекс.Метрика). Нажимая кнопку «СОГЛАСЕН», Вы подтверждаете то, что Вы проинформированы об использовании cookies на нашем сайте. Отключить cookies Вы можете в настройках своего браузера.

Сервер создается при поддержке Российского фонда фундаментальных исследований
Не разрешается  копирование материалов и размещение на других Web-сайтах
Вебдизайн: Copyright (C) И. Миняйлова и В. Миняйлов
Copyright (C) Химический факультет МГУ
Написать письмо редактору