Помощничек
Главная | Обратная связь


Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Информационно – поисковый язык

Тема: Виды информационно – поисковых систем

ИПС – это информационная система с единым хранилищем единичных элементов данных и с развитым инструментарием их поиска и отбора.

По виду единичных элементов данных ИПС делятся на:

1. Фактографические

2. Документальные

Фактографические ПС – это системы в которых единичным элементом данных является запись, образуемая конечной совокупностью полей – атрибутов (в базе данных это столбцы).

Недостатки фактографических ПС:

· Требуются изначально структурированные данные

· Дополнительное время

Документальные ПС – это системы в которых единичным элементом данных является документ, не структурированный на более мелкие элементы. Это могут быть текстовые, звуковые, графические файлы. Основная задача документальных ИПС – это предоставление пользователю документов, которые соответствуют его информационным потребностям.

Информационная потребность – это осознанное понимание различия индивидуального знания от знаний, накопленных обществом.

Пертинентность – это соответствие найденных документов информационным потребностям пользователя.

Особенности реализации хранилища документов и механизмов поиска

В зависимости от этих особенностей ИПС делятся:

1. Системы на основе индексирования

2. Семантически – навигационные системы

В семантически – навигационных системах создаются навигационные конструкции, соответствующие смысловым связям между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют семантическую семантическую сеть в базе документов. Поиск осуществляется путем явной навигации по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС (пример www).

В системы на основе индексирования исходные документы помещаются в базу без дополнительного преобразования, но смысловое содержание каждого документа отображается в некоторое поисковое пространство.

Процесс индексирования заключается в присвоении каждому документу некоторого индекса координаты в поисковом пространстве.

Индексирование – описание содержания документа посредством формализованного информационного языка.

Поисковым образом документа ПОД называется формализованное описание индекса документа.

Поисковым образом запроса ПОЗ к базе документа называется выражение пользователем своих информационных потребностей средствами и языком поискового пространства.

На примере поисковых системе в интернете ПОД и ПОЗ это поиск по ключевым словам. ИПС в интернете с помощью специальных программ – роботов просматривают весь интеренет и по каждому сайту (документу) собирает множество ключевых слов. Это и есть индексирование интернета. ПОД – это ключевые слова и адреса соответствующих сайтов. Внутри ИПС типа Рамблер или Яндекс хранится множество этих ПОД – это и есть поисковое пространство.

Пользователь обычно пишет несколько ключевых слов – это и есть поисковый образ запроса ПОЗ. В поисковом пространстве документа ПОД ищутся соответствующие запросу ПОЗ полностью или частично. Степень этого соответствия и есть релевантность. Релевантностью называется соответствие найденных документов запросу пользователя.

10.09.2012

Информационное оповещение

Поисковый профиль пользователя ППП – это отображение в поисковом пространстве информационных потребностей пользователя.

ИПС по мере поступление и индексирования новых документов сравнивает их ПОД с имеющимся ППП и принимает решение о соответствующем оповещении.

Информационно – поисковый язык

Поисковое пространство, отображающее ПОД и реализующее механизмы поиска документов, строится на основе языков баз данных называемых информационно поисковыми языками т.е. ИПЯ.

 

Информационно – поисковый каталог
Генеральный показатель
Составляющие ИПЯ
Реляционные
Предикатные
Семантические языки
Дескрипторные языки
Тезаурус
Поисковая (манипуляционная)
Структурна

 

Информационно – поисковые каталоги представляют собой классификационную систему знаний по определенной предметной области. Индексирование документа заключается в присвоении документу специального кода соответствующего по содержанию класса каталога и создания на этой основе специального индексного указателя.

Тезаурусы представляют собой специальным образом организованную совокупность лексических единиц (понятий) предметной области (словаря терминов) и описания отношений между ними.

Генеральный указатель (глобальный словарь – индекс или конкорданс) в общем виде является перечислением всех слов (словоформ), имеющихся в документах хранилища, с указанием (отсылками) координатного местонахождения каждого слова ( № документа - № абзаца - № предложения - № слова).

В дескрипторных языках документы и запросы представляются наборами лексических единиц (слов, словосочетаний, терминов) – дескрипторов, не имеющих между собой связей.

Каждый документ или запрос представлен набором дескрипторов. Поиск осуществляется путем определения документов с подходящим набором дескрипторов выступают либо элементы словаря ключевых слов, либо элементы генерального указателя (глобального словаря всех словоформ).

Из – за отсутствия связей между дескрипторами такие языки применяются, прежде всего, в полнотекстовых системах.

Семантические языки содержат грамматические и семантические конструкции для выражения (описания) смыслового содержания документов и запросов. Все многообразие семантических языков подразделяется на 2 большие группы:

· Предикатные языки

· Реляционные языки

В предикатных языках в качестве элементарной осмысленной конструкции высказывания выступает предикат, представляющий собой многоместное отношение некоторой совокупности грамматических элементов.

Предикат – это логическая функция с одним или несколькими документами.

В реляционных языках лексические единицы высказываний могут вступать лишь в бинарные (друг с другом) отношения.

В качестве лексических единиц семантических языков выступают функциональные классы естественного языка, важнейшие из них даны в таблице:

Классы Комментарий
Понятия - классы Общее определение совокупности однородных элементов реального мира, обладающих некоторым набором характерных свойств, позволяющих одни понятии – классы отделять от других
Понятия - действия Лексический элемент, выражающий динамику реального мира, содержит уникальный набор признаков, включающий субъект действия, объект действия, время действия, место действия, инструмент действия, цель и т.д.
Понятия - состояния Лексические элементы, фиксирующие состояние объектов
Имена Лексические элементы, идентифицирующие понятия - классы
Отношения Лексические элементы, служащие для установления связей на множестве понятий и имен
Квантификаторы Всеобщности, существования и т.д.

 

17.09.2012

Классификационные системы поиска документов:

ü Библиотечные алфавитно – предметные каталоги

ü Автоматизированные информационно – поисковые каталоги

ü Информационно – поисковые тезаурусы

Для поиска в классификационных системах поиска документов осуществляется индексирование документов.

Виды индексирования представлены в таблице:

 

 


Перечислительная классификация:

Первоначальные подходы к классификации документов основывались на формировании спичка заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно – цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали предметы документа. Такие подходы получили название перечислительной классификации.

Основной недостаток перечислительной классификации: отсутствие систематизированных связей и отношений между предметными рубриками.

Иерархическая классификация:

Фасетная классификация:

Классификация, дающая возможность классифицировать объекты одновременно по нескольким различным признакам.

Основное достоинство: Небольшим перечнем фасетных рубрик возможно сконструировать огромное количество узких специализированных рубрик, точно и полно проиндексировав содержание документа.

Недостаток: влияние на эффективность поиска документов порядка следования рубрик фасет.

 




Поиск по сайту:

©2015-2020 studopedya.ru Все права принадлежат авторам размещенных материалов.