Помощничек
Главная | Обратная связь


Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Оформление результатов

Семинары

Лабораторная работа № 1

Поисковые информационные системы. Исследование эффективности поиска

Цель работы

Получить основные навыки поиска информации в Интернет, изучить популярные поисковые системы, определить (сформулировать) критерии эффективности поиска в них и определить наиболее эффективную поисковую систему в Интернет.

Необходимые программные и технические средства

1. Персональный компьютер, подключенный к сети Интернет, web-браузер.

2. Типы операционной системы и web-браузера не регламентируются, могут использоваться любые доступные продукты.

Общие сведения

Информационный поиск

Информационный поиск – это отрасль знания, которая занимается представлением, хранением и доступом к информационным ресурсам.

Информационный ресурс – это любой материальный объект, который фиксирует или подтверждает какие-либо знания и может быть включен в определенное собрание. Наряду с информационным ресурсом, в информационном поиске также используется понятие «документ». Под документом чаще всего понимается содержательно законченный текстовый информационный ресурс, который можно каким-либо образом уникально идентифицировать.

Информационно-поисковая система (ИПС) представляет собой комплекс программных и аппаратных средств, который обеспечивает отбор и представление электронных документов по заданным критериям.

ИПС работают с множествами документов, которые называются также коллекциями документов. Примерами таких множеств могут служить электронная библиотека, русскоязычная часть Интернета, энциклопедия на лазерном диске.

Информационная потребность пользователя

В определенный момент времени у пользователя возникает информационная потребность в документах по той или иной нужной ему тематике, которая обычно достаточно узка.

В начальный момент эта потребность часто не может быть точно выражена словами. При этом любая поисковая система требует достаточно четких запросов. Следовательно, пользователь должен представить свою информационную потребность в виде некоторого выражения, которое может быть воспринято поисковой системой.

Выделяют четыре этапа представления информационной потребности:

1). реальная информационная потребность – это неосознанная истинная информационная потребность пользователя (потребность в некоторой новой информации при решении стоящей перед пользователем задачи);

2). осознанная информационная потребность – появляется после осознания пользователем стоящей перед ним проблемы (осознанная потребность отличается от реальной, более того, пользователь может понимать имеющуюся проблему неправильно);

3). выраженная информационная потребность – результат описания осознанной информационной потребности с помощью естественного языка;

4). формализованная информационная потребность – это результат представления выраженной потребности средствами формального поискового языка ИПС.

Информационная потребность, сформулированная на информационно-поисковом языке, называется запросом. Запрос поступает в ИПС, и система возвращает некоторый ответ. Степень соответствия ответов поисковой системы запросу пользователя, а значит, и его информационной потребности, называется релевантностью.

Релевантность

Релевантность – это фундаментальное понятие теории информационного поиска. Наиболее часто используются следующие виды релевантности:

1). Когнитивная релевантность, или пертинентность – характеризует степень соответствия информации из документа и реальной информационной потребности пользователя. Это истинная и наиболее трудноопределимая релевантность. Все остальные виды релевантности являются ее приближениями.

2). Тематическая (предметная) релевантность – характеризует степень близости предмета (тематики) информационной потребности и найденного документа. Под тематикой здесь понимается область интересов пользователя, в пределах которой существует его информационная потребность.

3). Ситуационная релевантность – определяет полезность информационного ресурса для задачи, решаемой пользователем, с точки зрения временных затрат, способа взаимодействия пользователя с системой и т. п.

4). Системная (алгоритмическая) релевантность – характеризует степень близости между формализованной информационной потребностью (запросом) и найденным поисковой системой документом.

Теоретически релевантность можно измерить некоторым числом в интервале от нуля (полностью непертинентный документ) до единицы (полностью пертинентный документ). На практике же релевантность в основном определяется при оценке просматриваемых документов – подходит ли данный документ пользователю или не подходит. Таким образом, релевантность обычно характеризуется бинарным значением.

Существуют также методы оценки релевантности по многозначной шкале. В этом случае коллектив экспертов просматривает доступные документы и присваивает каждому из них некоторое значение релевантности, которое определяется для каждого запроса. Такая методика используется главным образом при сравнении эффективности нескольких поисковых систем.

Один и тот же документ может быть релевантным согласно одному определению релевантности и нерелевантным согласно другому. Так, документ, релевантный алгоритмически, может оказаться непертинентным. Например, если в неспециализированной ИПС искать информацию о компьютерных манипуляторах типа "мышь" и использовать для этого запрос, состоящий из слова "мышь", то велика вероятность получения ряда непертинентных документов из области зоологии и географии, описывающих мышей-грызунов. При этом найденные непертинентные документы формально будут соответствовать запросу, так как в их тексте содержится термин запроса – "мышь".

Качество поиска в информационно-поисковых системах обычно характеризуется двумя критериями – полнотой и точностью. Полнота поиска определяется общим количеством найденных документов, а точность – соотношением между найденными релевантными и нерелевантными документами. Из-за многозначности определения релевантности абсолютного критерия точности поиска не существует, и в результатах любого поиска всегда присутствуют как релевантные, так и нерелевантные документы.

Нерелевантные документы, которые сравниваются с релевантными, иногда называются шумом, по аналогии с теорией передачи информации К. Шеннона. Релевантные документы в таком случае можно называть сигналом, а эффективность поиска оценивать по соотношению "сигнал - шум".

Поиск в Интернет

Для поиска нужной информации в Интернете существует отдельный вид сетевых сервисов – поисковые серверы, или поисковые машины.

Среди поисковых серверов принято различать поисковые индексы и каталоги.

Серверы-индексы работают следующим образом: регулярно прочитывают содержание большинства веб-страниц сети ("индексируют" их), и помещают их полностью или частично в общую базу данных. Пользователи поискового сервера имеют возможность осуществлять поиск по этой базе данных, используя ключевые слова, относящиеся к интересующей их теме. Выдача результатов поиска обычно состоит из выдержек рекомендуемых вниманию пользователя страниц и их адресов (URL), оформленных в виде гиперссылок. Работать с поисковыми серверами этого типа удобно в том случае, если имеется четкое представление о предмете поиска.

Серверы-каталоги представляют собой многоуровневую классификацию ссылок, построенную по принципу "от общего к частному". Иногда ссылки сопровождаются кратким описанием ресурса. Как правило, возможен поиск в названиях рубрик (категориях) и описаниях ресурсов по ключевым словам. Каталогами пользуются тогда, когда не вполне четко знают, что именно ищут. Переходя от самых общих категорий к более частным, можно определить, с каким именно ресурсом сети следует ознакомиться.

Современные поисковые серверы предлагают и полнотекстовый поиск, и поиск по категориям, сочетая в себе, достоинства индексирующего сервера и сервера-каталога.

Работа с поисковыми серверами состоит в следующем. В адресной строке браузера набираете его адрес, в строке запроса набираете на нужном языке ключевые слова или фразу, соответствующие ресурсу или ресурсам сети, которые вы хотите найти. Затем нажимаете мышью на кнопку "Поиск" и в рабочее окно браузера загружается первая страница с результатами поиска. Обычно поисковый сервер выдает результаты поиска небольшими порциями, например, по 10 на одну страницу выдачи. Под списком рекомендуемых ссылок будет находиться ссылка, предлагающая перейти к следующей "порции" результатов поиска.

Формирование запросов является ключевым моментом при работе с поисковым сервером. С первого раза удачно задать вопрос поисковому серверу получается не всегда. Если запрос короткий и в нем присутствуют только часто употребляемые слова, может быть найдено очень много документов. Наоборот, если запрос окажется слишком детализированным или в нем будут использованы очень редкие слова, вы увидите сообщение о том, что ресурсов, отвечающих вашему запросу, в базе сервера не найдено. Постепенное сужение или расширение фокуса поиска через увеличение или уменьшение списка ключевых слов, замена неудачных поисковых терминов на более удачные помогут улучшить результаты поиска.

Ключевые слова, составляющие поисковый запрос, обычно просто разделяются пробелами. Необходимо помнить, что различные поисковые сервера по-разному интерпретируют это. Некоторые из них отбирают по такому запросу только документы, содержащие все ключевые слова, то есть воспринимают пробел в запросе как логическую связку "и". Некоторые интерпретируют пробел как логическое "или" и ищут документы, содержащие хотя бы одно из ключевых слов. При формировании поискового запроса большинство серверов позволяют в явном виде указать логические связки, объединяющие ключевые слова, и задать некоторые другие параметры поиска. Логические связки обычно обозначаются с помощью английских слов "AND", "OR", "NOT". На разных поисковых серверах при формировании расширенного поискового запроса используется разный синтаксис – так называемый язык запросов. С помощью языка запроса вы можете указать, какие слова обязательно должны встретиться в документе, каких быть не должно, какие желательны.

Как правило, современные поисковые машины используют при поиске все возможные словоформы использованных слов. Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы: например, если задан запрос 'идти', то в результате поиска будут найдены ссылки на документы, содержащие слова 'идти', 'идет', 'шел', 'шла' и т.д.

Обычно на титульной странице поискового сервера присутствует ссылка "Помощь" (англ. "Help"), обратившись по которой пользователь может ознакомится с правилами поиска и языком запросов, используемых на данном сервере.

Дополнительные сведения можно найти в следующих источниках (доступны в базе данных электронной библиотеки ТГТУ):

1). Введение в информационно-поисковые системы: метод. указания по изучению дисциплины "Мировые информ. ресурсы" для студентов спец. "Прикл. информатика (в эконом.)" и "Информ. сист. и технол.". Ч. 1 / Иванов, В.К., Иванов, К.В. - Тверь: ТГТУ, 2005. - 36 с.

2). Введение в информационно-поисковые системы: метод. указания по изучению дисциплины "Мировые информ. ресурсы" для студентов спец. "Прикл. информатика (в экономике)" и "Информ. сист. и технол.". Ч. 2 / Иванов, В.К., Иванов, К.В. - Тверь: ТГТУ, 2005. - 36 с.

3). Быстро и легко осваиваем работу в сети Интернет: Практ.пособие / Под ред.Резникова Ф.А. - М.: Лучшие книги, 2000. - 349с.

4). Соломенчук В. Интернет. Краткий курс: Пособие для ускор.обучения / В. Соломенчук. - СПб. и др.: Питер, 2000. - 280с.

5). Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1979. 560 с.

Порядок выполнения

1. Ознакомиться с общими сведениями о предмете лабораторной работы (см. выше в описании данной работы) и рекомендуемыми дополнительными материалами.

2. Уяснить цель работы.

3. Подготовить необходимые программные и технические средства (см. выше в описании данной работы).

4. Приступить к выполнению работы:

4.1. Изучить возможности следующих поисковых систем Интернет:

1). http://search.aport.ru/

2). http://www.google.com

3). http://www.rambler.ru

4). http://www.yahoo.com

5). http://www.yandex.ru

Примечание: список исследуемых поисковых систем может быть расширен.

При изучении функций и возможностей исследуемых поисковых систем следует использовать доступную документацию и интерактивные справочные системы.

4.2. Принять список критериев оценки эффективности поисковых систем.

Предлагаются следующие критерии:

1). Полнота поиска.

2). Точность поиска.

Перечень критериев оценки эффективности поисковых систем может быть изменен и/или расширен.

4.3. Назначить весовые коэффициенты (веса) принятым критериям. Весовой коэффициент - параметр, отражающий значимость, относительную важность, «вес» данного критерия в сравнении с другими критериями. Например, для точности поиска весовой коэффициент принимаем равным 0.8, для полноты поиска – 0.2 (Т.е. точность «весомее» или важнее, чем полнота, потому, что 0,8 больше, чем 0,2). Сумма всех весов должна быть равной 1 (0,8 + 0,2 =1, а может быть 0,6 + 0,4=1, если критерия выбрано три, то например, 0,3+0,2+0,5=1).

4.4. Принять список тем запросов для оценки эффективности поисковых систем.

Предлагаются следующие темы:

1). Информационные системы.

2). Вычислительная техника.

3). Информационные технологии.

4). Бизнес-информатика.

5). Кибернетика.

6). Электроника.

7). Охрана природы.

8). Образование.

9). Менеджмент и управление.

10). Экспертные системы.

11). Информационная безопасность.

12). Искусственный интеллект.

13). Мультимедийные технологии.

14). Нано-технологии.

15). Телекоммуникации.

Перечень тем запросов может быть изменен и/или расширен.

4.5. Сформулировать запросы по каждой теме. Запрос должен включать в себя несколько (не менее двух) ключевых слов и относиться к данной теме. Примеры запросов: "сетевые технологии", "защита информации", "виртуальная реальность в социальной сфере" и т.п.

4.6. Выполнить каждый запрос в каждой исследуемой поисковой системе.

Если результаты поиска в какой-либо поисковой системе Вас не удовлетворили, сформируйте более точный запрос (изменив или добавив ключевые слова), позволяющий найти исчерпывающую информацию об объекте. Повторите поиск в каждой поисковой системе.

4.7. Из полученных списков результатов выбрать следующую информацию:

1). Общее количество найденных документов (Д).

2). Количество релевантных документов различной ценности (РД)

При определении количества релевантных документов должно быть использовано понятие "когнитивная релевантность" или "пертинентность" (см. выше в разд. "Общие сведения" описания работы). Количество релевантных документов оценивается при просмотре текста первых 10 найденных документов. При этом определяется ценность найденной информации (степень удовлетворения найденном документом Ваших информационных потребностей). Ценность информации определяется по 3-бальной шкале: 2 - имеет ценность, 1 - имеет частичную ценность, 0 - не имеет ценности.

Результаты выполнения запросов свести в табл. 1.

Таблица 1.Лабораторная работа №1. Результаты выполнения запросов

Тема Aport Google Mail.ru Rambler Yahoo! Yandex
Д РД Д РД Д РД Д РД Д РД Д РД
Информационные системы.                                                
Вычислительная техника.                                                
Информационные технологии.                                                
Бизнес-информатика.                                                
Кибернетика.                                                
Электроника.                                                
Охрана природы.                                                
Образование.                                                
Менеджмент и управление.                                                
Экспертные системы.                                                
Информационная безопасность.                                                
Искусственный интеллект.                                                
Мультимедийные технологии                                                
Нано-технологии.                                                
Телекоммуникации.                                                

 

4.8. Выполнить первичную обработку результатов, сведя их в табл. .2:

4.8.1. Вычислить средние арифметические значения показателей Д, РД(2), РД(1) и РД(0) для каждой поисковой системы.

4.8.2. Определить место каждой поисковой системы по критерию "Полнота поиска". Для определения места использовать среднее количество найденных документов Д. Система, которая нашла больше документов, считается лучшей. Самой лучшей системе присваивается место 1, самой худшей – место N (N – количество исследуемых систем).

4.8.3. Для каждой поисковой системы ЭБ определить коэффициент точности поиска P для каждой системы по следующей формуле:

где

a – число релевантных документов, выданных поисковой системой в ответ на запрос,

a = РД(2) + 0.5 * РД(1);

b - число нерелевантных документов, выданных поисковой системой в ответ на запрос, b = РД(0).

4.8.4. Определить место каждой поисковой системы по критерию "Точность поиска". Система, имеющая большее значение коэффициента точности поиска P, считается лучшей. Самой лучшей системе присваивается место 1, самой худшей – место N (N – количество исследуемых систем).

4.8.5. Вычислить коэффициент поискового шума S по следующей формуле:

4.9. Вычислить сумму мест каждой исследуемой системы R по следующей формуле:

где

m - количество критериев оценки,

i - номер критерия оценки поисковой системы,

- весовой коэффициент для критерия оценки i,

- место поисковой системы по критерию оценки i.

N - количество исследуемых систем.

4.10. Определить лучшую поисковую систему Интернет из исследуемых.

5. Оформить результаты работы по предлагаемой форме.

Оформление результатов

В качестве предварительной информации привести заполненную таблицу1.

Основные результаты работы оформить в виде табл. 2.

Таблица 2.Лабораторная работа №1. Результаты сравнительного анализа поисковых систем Интернет

Критерий Aport Google Mail.ru Rambler Yahoo! Yandex
Полнота поиска (вес - …) - среднее количество найденных документов (Д)            
Место (полнота поиска)            
Среднее количество пертинентных документов (РД2)            
Среднее количество частично пертинентных документов (РД1)            
Среднее количество непертинентных документов (РД0)            
Коэффициент точности поиска P (вес - …)            
Место (точность поиска)            
Коэффициент поискового шума (S)            
Сумма мест (R)

 

Формулировка выводов

1. Достигнута ли цель работы?

2. Приемлема ли точность значений количественных и качественных характеристик, полученных в ходе выполнения работы?

3. Предложения по повышению точности результатов.

4. Предложения по расширению (изменению) состава сравниваемых характеристик.




©2015 studopedya.ru Все права принадлежат авторам размещенных материалов.