ChemNet
 

Назад в поисковую систему

О поисковой системе

Основой настоящей информационной поисковой системы является известная программа HTDig. После модификации кода этой программы и дополнения ее другими модулями поисковая система позволяет:

  • проводить полнотекстовый поиск документов по ключевым словам, при необходимости используя логические выражения с операторами AND, OR, NOT и точный поиск фразы. При этом поиск производится не только в стандартных html-файлах, но и в pdf-файлах;
  • поиск производится с полным морфологическим расширением ключевых слов, вводимых пользователем, которое осуществляется с помощью словаря, содержащего более 107 тысяч базовых слов и свыше 1,160 тысяч словоформ. Этот словарь содержит, кроме общеупотребительных слов, большое число специальных терминов, используемых в физике, химии, биологии, геологии, медицине, технике;
  • система использует современную схему расчета релевантности документа (векторная модель tf.idf с учетом длины файла и расстояния между словами), которая существенно лучше алгоритма, используемого в исходной программе, и обеспечивает более эффективный поиск интересующей пользователя (релевантной) информации.

При построении информационных поисковых систем, работающих с русскоязычными текстами, принято расширять ключевые слова, указываемые в запросе, с учетом правил морфологии русского языка (правил склонения и спряжения), что позволяет находить искомые слова в документах независимо от контекста их употребления. Традиционным способом решения этой задачи является использование в системе орфографических словарей для ispell, которые обычно кроме орфографии частично содержат и морфологическую информацию. Советы по настройке одной из старых версий HTDig для работы с русскоязычными документами даны в статье, написанной Алексеем Тутубалиным. В этой статье для морфологического анализа запросов предлагалось использовать свободно распространяемый орфографический словарь русского языка для ispell.

В настоящей системе для морфологического анализа запросов используется оригинальный полный морфологический словарь, формат которого использует расширенный синтаксис ispell. Это позволяет без существенного изменения исходного кода HTDig выйти за пределы ограничений, накладываемых форматом словарей ispell, и обеспечить поддержку таких словоизменений в русском и английском языках как

идти -- шел -- шла -- идут -- ... ; отобрать -- отобрал -- отберу -- ...

be -- am -- are -- is -- was -- were -- being -- been ; choose -- chooses -- choosing -- chose -- chosen

В рамках стандартного формата ispell поддержка такого словоизменения оказывается просто невозможной. В настоящее время начата работа над словарем английского языка аналогичного формата.

Для поддержки нового синтаксиса в исходный код программы HTDig были внесены соответствующие изменения. Кроме того, были исправлены некоторые ошибки в алгоритмах поиска, переделан алгоритм расчета релевантности, который сейчас использует векторную модель tf.idf с поправкой на длину документа.

Александр Лебедев

Назад в поисковую систему


Для того, чтобы мы могли качественно предоставить Вам информацию, мы используем cookies, которые сохраняются на Вашем компьютере (сведения о местоположении; ip-адрес; тип, язык, версия ОС и браузера; тип устройства и разрешение его экрана; источник, откуда пришел на сайт пользователь; какие страницы открывает и на какие кнопки нажимает пользователь; эта же информация используется для обработки статистических данных использования сайта посредством интернет-сервисов Google Analytics и Яндекс.Метрика). Нажимая кнопку «СОГЛАСЕН», Вы подтверждаете то, что Вы проинформированы об использовании cookies на нашем сайте. Отключить cookies Вы можете в настройках своего браузера.

Сервер создается при поддержке Российского фонда фундаментальных исследований
Не разрешается  копирование материалов и размещение на других Web-сайтах
Вебдизайн: Copyright (C) И. Миняйлова и В. Миняйлов
Copyright (C) Химический факультет МГУ
Написать письмо редактору