Помощничек
Главная | Обратная связь


Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Язык запросов поисковых систем rambler.ru, yandex.ru

Поисковые системы и каталоги

Пойди туда — не знаю куда, принеси то — не знаю что.

Русская сказка

Объем хранящейся в Интернете информации чрезвычайно велик и оценивает­ся десятками терабайт. На серверах сети хранится более 2 миллиардов Web-стра­ниц. Пользователи разыскивают в Интернете не только текстовые документы, но­вости, но и фото-, аудио-, видеоматериалы, товары, услуги, вакантные места ра­боты.

Поиск информации в сети можно вести с помощью поисковых систем (ПС) и каталогов. Мощные поисковые системы и каталоги являются сложными техниче­скими комплексами, содержащими десятки быстродействующих компьютеров, обслуживание которых ведут сотни специалистов. Вначале рассмотрим принцип действия ПС, а затем — каталогов.

Поисковые системы иначе называют: поисковыми средствами, поисковыми машинами, автоматическими индексами. Эквивалентными иностранными терми­нами являются: английский — Search Engines, немецкий — Suchmaschinen, фран­цузский — Le systeme de prospection. На жаргоне сети ПС иногда называют искалками, поисковиками.

Работа ПС основывается на формировании запроса, по которому происходит отбор нужных документов из распределенной базы данных, хранящейся на серве­рах в Интернете. Запрос формируется с помощью ключевых слов (одного или не­скольких). Результаты поиска выдаются пользователю в виде списка адресов (ги­перссылок) и краткой аннотации к ним.

Ключевое слово— это лексическая единица, являющаяся существительным, прилагательным, глаголом, числительным, наречием или местоимением естествен­ного языка, которая в наибольшей степени отражает содержание всего искомого документа. При формировании запроса могут использоваться не только отдельные ключевые слова, но и словосочетания, состоящие из нескольких ключевых слов.

Запрос— это набор соединенных операторами ключевых слов, с помощью ко­торых поисковая система автоматически ведет поиск и отбор необходимых доку­ментов. Другими словами, запрос — это инструкция (команда) для ПС на поиск нужных документов.

Запросы бывают двух типов: простые и сложные (или расширенные, advanced).

Простые запросы состоят из отдельных ключевых слов или словосочетаний. Сложные запросы, кроме ключевых слов, содержат логические и другие операторы.

Поиск— это процедура отбора нужных документов, хранящихся в сети.

Поиск осуществляется либо автоматически с помощью ключевых слов, вводи­мых в ПС, либо путем последовательного ручного прохода по рубрикам в каталогах.

Поиск с помощью ключевых слов сводится к их вводу (формированию запро­са) в специальное поле Поиски последующему нажатию кнопки Найти.Кнопка Найтив разных ПС может называться Search, Find, Go, Go Get it, Suchen.

На рисунке приведены фрагменты трех поисковых систем с изображением по­лей для ввода запросов и командных кнопок.

Для ускорения процедуры поиска ПС производит обработку хранящихся в сети документов — индексацию.

Индексация— это процедура автоматического создания базы данных, в кото­рой хранятся ключевые слова, аннотации документов и доменные адреса, по которым размещены эти документы. В базе данных каждому документу ставится в соответствие свой набор ключевых слов и доменных адресов.

Рис. 9.6

 

Когда идет обслуживание конкретного запроса на поиск нужной информации, то ПС сравнивает ключевые слова, введенные пользователем, с ключевыми слова­ми, полученными в процессе индексации и хранящимися в базе данных ПС. При совпадении этих слов пользователю выдается доменный адрес данного документа, т. е. указывается место его хранения в сети.

Процедура поиска по ключевым словам очень напоминает работу с обычной книгой, в которой есть алфавитный указатель. Читатель с помощью алфавитного указателя определяет номера страниц книги, на которых присутствует нужное ключевое слово. Этим ускоряется поиск нужной информации. В данном случае номер страницы книги — это как бы доменный адрес Web-страницы.

Индексация документов, размещенных на различных серверах, производится поисковыми системами автоматически с помощью специальных программ — ро­ботов (Robots). Другие названия этих программ — пауки (Spiders) или черви (Worms).

Робот (паук, червь) — программа, которая автоматически периодически «посе­щает» сайты и индексирует их (т. е. собирает сведения о их содержимом и место­положении).

Назначение роботов очевидно: эти программы постоянно «осматривают», ска­нируют сеть, запоминают, что где лежит, чтобы в нужный момент времени показать пользователю точное место хранения документа (т. е. его доменный адрес). Этим объясняется потрясающе высокая скорость поиска нужной информации. Фактиче­ски роботы начинают поиск задолго до обслуживания конкретного запроса.

Тенденция развития ПС такова, что наиболее быстродействующие ПС стремятся произвести индексацию всего документа, а не только его названия и первых предложений текста. Наиболее совершенные роботы при индексации ска­нируют не только главную (домашнюю) страницу, но и по гиперссылкам заходят вглубь сайта (узла). Ограничивается такая идеалистическая картина индексации лишь низкой скоростью работы современных ПС и общим быстродействием всей сети.

Предварительная индексация хранящихся в сети документов позволяет впоследствии за несколько секунд обслуживания запроса обработать (отсортиро­вать) гигабайты разнообразной информации.

С помощью механизма предварительной индексации можно получить хороший результат поиска в случаях, когда удается точно сформировать запрос с помощью небольшого числа ключевых слов. В иных случаях пользователь либо получит бо­льшое число ссылок (иногда говорят, линков, т. е. связей), которые являются лишь «информационным шумом», либо вовсе не удастся найти необходимый до­кумент.

Значительно повышают избирательность поиска фильтры,которыми снабжа­ются поисковые системы. Фильтры позволяют:

— ограничить список отбираемых документов с помощью логических операто­ров (выполнить так называемый сложный поиск);

— ограничить пространство поиска типом протокола, с помощью которого был создан документ (поиск на Web-сайтах или в телеконференциях);

— ограничить отбираемый материал временным отрезком, определенными да­тами создания разыскиваемого документа (например, между 31 июля 2002 г. и 19апреля 2003 г.);

— отобрать документы, составленные только на определенном языке (русский, английский);

 

— ограничить отбор документов территорией размещения серверов (например, только Европа);

— ограничить поиск определенной частью документа (заголовок, доменный адрес);

— отобрать документы, которые содержат фразу с заданным порядком распо­ложения ключевых слов.

Поиск русских документов в сети дополнительно осложняется особенностями национальной грамматики. В русском языке (в отличие от английского языка) не­обходимо учитывать падежные окончания ключевых слов.

Наибольшей популярностью в русскоязычной части Интернета пользуются по­исковые системы Rambler (произносится Ремблер, а переводится как бродяга, праздношатающийся, его адрес www.rambler.ru), Апорт (www.aport.ru) и Япdex (www.yandex.ru).

Русскоязычные ПС позволяют отбрасывать окончания ключевых слов и заме­нять их метасимволами «*» и «?». При этом на запрос «самар*» будут найдены до­кументы, содержащие слова: Самара, Самары, самарский, самарская и т. п.

Поисковая система Aport использует принципы искусственного интеллекта. Она обрабатывает запрос таким образом, что подбирает синонимы введенным ключевым словам и автоматически решает проблему падежных окончаний.

При поиске информации ПС может делать две ошибки: пропускать (не отби­рать) нужные пользователю документы и, наоборот, отбирать (присылать) посто­ронние документы (мусор, информационный шум). Эти ошибки, совершаемые автоматическими ПС, описываются терминами «избирательность» и «чувствитель­ность».

Заметим, что в приведенной фразе есть некоторая терминологическая неточность: ПС отбирают не документы, а лишь гиперссылки на них. С помощью полученных ссылок пользователь просматривает или загружает на собственный компьютер понравившийся ему документ. Однако методически удобнее говорить о несоответствии запросу документа, а не гиперссылки.

Избирательность— способность ПС отбирать документы, соответствующие за­просу, не включая лишних документов. Качество избирательности характеризует­ся числом ошибок первого рода— число отобранных документов, не соответствую­щих запросу. Чем выше избирательность, тем меньше посторонних документов попадает к пользователю.

Избирательность можно изменять (регулировать) с помощью логических опе­раторов (фильтров).

Чувствительность— способность ПС отбирать документы, соответствующие за­просу, не пропуская нужных документов. Чувствительность характеризуется чис­лом ошибок второго рода— числом пропусков нужных документов. Чем выше чув­ствительность, тем меньше вероятность пропуска нужного документа.

Релевантность— степень (мера) соответствия (адекватности) найденного в про­цессе поиска документа сделанному запросу.

Уточнить запрос (говорят: отфильтровать информацию) позволяют логические операторы OR, AND, NOT.

Использование логического оператора AND (И) приводит к отбору докумен­тов, которые обязательно содержат все перечисленные в запросе ключевые слова, соединенные этим оператором.

Оператор NOT (НЕТ) позволяет исключить документы, которые содержат ключевое слово, указанное после этого оператора.

С помощью оператора NEAR (вблизи, рядом) пользователь может отбирать до­кументы, в которых ключевые слова, соединенные этим оператором, будут нахо­диться поблизости друг от друга, а не в разных концах документа.

Оператор FOLLOWED BY позволяет отбирать документы, в которых ключевые слова следуют друг за другом в заданном порядке.

Оператор ADJ отбирает документы, в которых ключевые слова являются смеж­ными (следуют одно за другим).

К сожалению, каждая ПС имеет собственный синтаксис запросов. Поэтому пе­ред формированием расширенных запросов необходимо уточнить правила испо­льзования логических и других операторов.

В настоящее время ведутся работы по унификации приемов работы на различ­ных ПС. В 1999 г. началась разработка проекта SESP(Search Engine Standards Project), который призван стандартизировать работу поисковых служб.

Современные ПС становятся интеллектуальными. Используя принципы искус­ственного интеллекта, они ранжируют (располагают) выводимый список докумен­тов (ссылок на них) в зависимости от степени их релевантности. При этом ПС анализируют положение найденных ключевых слов в документе (заголовок или текст), число повторений ключевых слов, их взаимное расположение в документе. Наиболее точно отобранные документы располагаются в начале списка найден­ных в процессе поиска документов.

Для ранжирования найденных документов используют следующие показатели.

Положение ключевого слова на странице(keyword prominence) — показатель, определяющий, как близко к началу документа находится заданное ключевое сло­во. Как правило, чем ближе к началу страницы располагается ключевое слово, тем точнее документ соответствует запросу.

Частота ключевого слова(keyword frequency) — показатель, учитывающий абсо­лютную частоту использования ключевых слов (т. е. сколько раз встречается дан­ное ключевое слово на странице).

Наибольший «вес» при ранжировании документов имеют слова, расположен­ные в заголовке Web-страницы (так называемый титул). Именно этот заголовок отображается в строке заголовка браузера при просмотре страницы, и приведен­ные там слова имеют наибольшую ценность для ПС.

Некоторые поисковые системы при ранжировании учитывают индекс цитирова­ния(link popularity) — количество сайтов, которые ссылаются на данный сайт.

Не всякий запрос можно четко сформулировать с помощью небольшого числа ключевых слов. Поэтому, кроме индексного механизма, используются и другие механизмы поиска и хранения информации в сети.

Как отмечалось ранее, поиск информации в Интернете можно производить с помощью поисковых систем и каталогов.Другое нередко используемое название поисковых средств, построенных с помощью каталогов, — иерархическиеПС.

Термин «иерархия» означает: расположение частей или элементов целого в по­рядке от высшего к низшему. В данном случае правильнее говорить: иерархия — это уточнение содержания документа от его общих характеристик к частным ха­рактеристикам.

Синонимами термина «каталог» являются слова: директория, справочник, ка­тегория, рубрикатор. Каталоги представляют собой тематически подобранные се­тевые адреса, которые сопровождаются краткими комментариями (аннотациями).

Каталоги появились самым естественным путем: пользователи отбирали для себя ссылки на любимые места в Интернете и составляли упорядоченные темати­ческие списки с детализацией каждого раздела (рубрики). Именно так возник все­мирно известный каталог Yahoo!, созданный студентами Стэндфордского универ­ситета Дэвидом Фило и Джерри Янгом.

В каталогах размещение информации ведется с помощью многоуровневой руб­рикации, причем на каждом уровне происходит все большая детализация (уточне­ние) сведений об искомом (хранящемся) документе. При этом каждая последую­щая рубрика не исключает свойств документа, определенных предыдущей рубри­кой, а лишь уточняет их. Иначе говорят: рубрики находятся в отношении соподчинения, иерархии. Еще говорят: используется принцип последовательного уточнения.

Важным термином, характеризующим работу каталогов, является рубрикация.

Рубрикация— помещение документа в соответствующий раздел (подраздел, рубрику), которое, как правило, производится вручную специалистами (модерато­рами, аналитиками) или авторами разработанных документов. Разработчиков Web-страниц иногда называют владельцами ресурсов или Web-дизайнерами.

Процедура рубрикации достаточно субъективна и осуществляется на основа­нии индивидуальных представлений людей о данной предметной области. Авторы при размещении своих страниц порой руководствуются не соображением точного соответствия документа названию рубрики, а другими соображениями. Например, с целью увеличения посещаемости своих страниц их помещают в рубрики, наибо­лее популярные в данный момент времени. Документ, содержащий разнообраз­ную информацию на Web-странице, порой помещают в несколько рубрик.

На следующем рисунке показан фрагмент каталога. Указанные рубрики содер­жат в себе другие рубрики, в которые еще в большей степени уточняют содержи­мое хранящегося документа.

 

Перечислим доменные адреса некоторых отечественных каталогов:

http://www.mail.ru/, http://www.km.ru/url/,

http://www.ru/, http://www.ulitka.ru/

http://www.susanin.net/, http://students.informika.ru,

http://www.stars.ru/, http://yp.piter.com/.

В Интернете, кроме иерархических каталогов, встречаются и другие типы ката­логов — неиерархические,в которых нет соподчинения, например каталоги, испо­льзующие алфавитно-предметную классификацию. В качестве примера можно на­звать энциклопедии, музыкальные сайты, телефонные справочники и др.

 

Таким образом, поисковые системы и тема­тические каталоги имеют свои достоинства и недостатки, взаимно дополняют друг друга. По­исковые системы «осматривают» большое число сайтов, однако автоматический отбор искомых документов сопровождается достаточно боль­шим числом ошибок. База данных каталога хра­нится на одном сервере и содержит меньший объем информации, чем ПС. Тем не менее резу­льтаты поиска с помощью каталогов имеют бо­льшую релевантность по сравнению с поиском с помощью ПС.

Естественным путем образовались комбинированные(гибридные) ПС, которые позволяют вести поиск как с помощью ключевых слов, так и с помощью катало­гов. Мощные поисковые системы, которые позволяют вести поиск по ключевым словам и с помощью каталогов, а также содержат страницы различных тематиче­ских направлений, называют порталами.

Результаты поиска с помощью различных ПС будут отличаться друг от друга. Это объясняется тем, что в каждой ПС проиндексировано различное число доку­ментов и эти документы совсем не обязательно одинаковые. Кроме того, алгорит­мы индексации на каждой ПС имеют свои особенности.

Существуют национальные ПС, которые в первую очередь обрабатывают ин­формацию, составленную на родном языке, например русскоязычная региональ­ная ПС Rambler.

Периодичность обновления информации с помощью роботов также различна, и она определяется быстродействием конкретной ПС (частотой посещения сай­тов). Для расширения просматриваемого в сети пространства рекомендуют испо­льзовать несколько ПС.

Метапоисковая системапозволяет вести автоматический поиск по сделанному запросу с использованием сразу нескольких поисковых машин. Укажем адреса не­которых метапоисковых систем: www.metacrawler.com, www.metor.com, www.info-zoid.com, www.accufhd.com.

Кроме ПС общего назначения существуют специализированные ПС. Они пред­назначены для поиска музыкальных файлов (www.midi.ru), произведений искусств (www.artplanet.com), рисунков (www.graphsearch.com), книг (http://bukinist.agava.ru/), кулинарные рецептов (www.cooking.ru/search.html).

В заключение перечислим ПС, предназначенные для поиска файлов:

http://www.lycos.com/computers/downloads/, http://www.filesearch.ru/, http://www.files.ru/, http://www.freeware.ru/.

При использовании перечисленных систем поиск происходит не с помощью ключевых слов, а по известным именам файлов.

Примечание.

Ежедневно поисковая система Google обрабатывает более 150 миллионов за­просов (март 2003 года).

 

 

Язык запросов поисковых систем rambler.ru, yandex.ru

 

В поле ввода поисковой системы вводят ключевое слово или несколько слов, между которыми можно вставлять следующие символы:

 

· пробел или & – логическое И (в пределах предложения);

· && – логическое И (в пределах документа);

· | – логическое ИЛИ;

· ( ) – группирование слов;

· ~ – бинарный оператор И НЕ (в пределах предложения);

· ~~ – бинарный оператор И НЕ (в пределах документа);

· “ “ – поиск фразы;

· + – наличие в тексте слова обязательно;

· – – исключить документы, где встречается данное слово. Между словом и знаком плюс-минус не должно быть пробела.

 

 




©2015 studopedya.ru Все права принадлежат авторам размещенных материалов.