Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Информационно-поисковые системы

⇐ ПредыдущаяСтр 2 из 2

Информационные системы (ИС) в настоящее время могут быть реализованы в самых разных вариантах. Еще в недавнем прошлом ИС реализовывались в виде специальных картотек. Однако размер хранимых современных массивов данных полностью исключает ручную работу с ними. Для выхода из создавшегося положения были разработаны и внедрены автоматизированные информационные системы (АИС). По характеру представления и логической организации хранимой информации АИС разделяются на фактографические, документальные и геоинформационные.

Фактографические АИС накапливают и хранят данные в виде множества экземпляров одного или нескольких типов структурных элементов (информационных объектов). Каждый из таких экземпляров структурных элементов или некоторая их совокупность отражают сведения по какому-либо факту, событию и т. д., отделенному (вычлененному) от всех прочих сведений и фактов. Структура каждого типа информационного объекта состоит из конечного набора реквизитов, отражающих основные аспекты и характеристики сведений для объектов данной предметной области. К примеру, фактографическая АИС, накапливающая сведения по лицам, каждому конкретному лицу в базе данных ставит в соответствие запись, состоящую из определенного набора таких реквизитов, как фамилия, имя, отчество, год рождения, место работы, образование и т. д. Комплектование информационной базы в фактографических АИС включает, как правило, обязательный процесс структуризации входной информации из документального источника. Структуризация при этом осуществляется через определение (выделение, вычленение) экземпляров информационных объектов определенного типа, информация о которых имеется в документе, и заполнение их реквизитов.

В документальных АИС единичным элементом информации является нерасчлененный на более мелкие элементы документ и информация при вводе (входной документ), как правило, не структурируется, или структурируется в ограниченном виде. Для вводимого документа могут устанавливаться некоторые формализованные позиции – дата изготовления, исполнитель, тематика и т. д. Некоторые виды документальных АИС обеспечивают установление логической взаимосвязи вводимых документов – соподчиненность по смысловому содержанию, взаимные отсылки по каким-либо критериям и т. п. Определение и установление такой взаимосвязи представляет собой сложную многокритериальную и многоаспектную аналитическую задачу, которая не может в полной мере быть формализована.

В геоинформационных АИС данные организованы в виде отдельных информационных объектов (с определенным набором реквизитов), привязанных к общей электронной топографической основе. Геоинформационные системы применяются для информационного обеспечения в тех предметных областях, структура информационных объектов и процессов в которых имеет пространственно-географический компонент, например маршруты транспорта, коммунальное хозяйство и т. п.

Разработка и проектирование информационной системы начинаются с построения концептуальной модели ее использования. Концептуальная модель использования информационной системы определяет, прежде всего, круг конкретных задач и функций, обеспечиваемых созданием и эксплуатацией информационной системы, а также систему сбора, накопления и выдачи информации.

Поэтому другим критерием классификации АИС являются функции и решаемые задачи, основными из которых могут являться:

справочные.

поисковые,

расчетные,

технологические.

Справочные функции являются наиболее распространенным типом функций информационных систем и заключаются в предоставлении абонентам системы возможностей получения установочных данных на определенные классы объектов (Лица, Организации, Телефоны, Адреса и т. п.) с жестко или произвольно заданным набором сведений. Видами информационных систем, реализующих чисто справочные функции, являются всевозможные электронные справочники, картотеки, программные или аппаратные «электронные записные книжки» и их более развитые аналоги в виде т.н. персональных информационных систем.

Системы, реализующие поисковые функции, являются наиболее широко распространенным классом информационных систем, которые чаще всего называют информационно-поисковыми системами (ИПС). ИПС в общем виде можно рассматривать как некое информационное пространство, задаваемое в терминах информационно-логического описания предметной области – «информационные объекты», «информационные связи». Пользователям ИПС предоставляется возможность поиска и получения сведений по различным поисковым образам в таком информационном пространстве. Особо широкое распространение в настоящее время получили распределенные ИПС, использующие всемирную систему передачи данных Интернет. Такой современной ИПС является WWW (Word Wide Web) или «Всемирная паутина». Она представляет собой технологию создания и использования распределенных информационных систем на базе Интернет. Данная технология разработана в Швейцарии в 1989 году (в ядерном исследовательском центре CERN).

Главными достоинствами «Всемирной паутины» являются:

расширяемая гиперсреда (за счет различных видов информации),

распределенная система хранения информации и ресурсов.

Основным элементом структуры ИПС в Интернете являются поисковые машины, или поисковики. Разных поисковиков очень много, но среди них есть главные, наиболее известные и посещаемые. В мировом Интернете сейчас доминирует Google. В российском же, а точнее, в русскоязычном Интернете (Рунете), высокую популярность удерживает поисковик Яндекс. Почему именно поисковики заняли в Интернете самое важное место?

Потому что они упорядочивают хаос. Ведь сайты и их страницы “разбросаны в Интернете без какого-либо порядка, без первой или последней страницы, без способа перехода к следующей странице.

В Интернете используются нижеперечисленные способы для поиска нужной страницы, просто они автоматизированы и выполняются специальными программами. Это – оглавление, ссылки и предметный указатель.

Первый, самый естественный способ поиска нужной страницы – это оглавление книги. Читатель книги просматривает ее оглавление, находит нужную ему главу, видит номер нужной страницы и открывает ее, пролистав книгу до нужного номера страницы.

Этому способу поиска в Интернете соответствуют каталоги.

В них страницы (сайты Интернета) разложены по рубрикам, так что пользователь может, последовательно просматривая оглавление каталога, выбрать нужную рубрику, просмотреть сайты, относящиеся к ней, а затем перейти на нужный сайт или страницу.

Сначала именно каталоги были основным способом упорядочения Интернета (в середине 1990-х годов), но потом постепенно уступили первенство поисковикам – и на то было много причин.

Второй привычный способ поиска – это ссылки в тексте на нужные страницы книги, например “подробнее об этом см. на стр. 254”. Чтобы найти нужный текст, читатель книги должен открыть указанную страницу 254 и найти в ее тексте интересующий фрагмент.

В Интернете идею отсылок читателя со страницы на страницу превратили в автоматические ссылки на страницы, на которых пользователь просто щелкает мышкой. Ссылки в Интернете называются гипертекстовыми ссылками (“гипер” – потому, что ссылка уводит за пределы текста, на другую страницу).

Ссылки – это основной, “корневой” принцип Интернета, а ведь по сути это старая идея, просто автоматизированная текстовая ссылка.

Ссылки в каталогах и на обычных сайтах чаще всего расставляют вручную – вебмастер размечает специальными пометками фрагмент текста и присоединяет к нему адрес соответствующей страницы. Конечно, часто ссылки расставляются и автоматически при формировании веб-страницы.

Третий способ поиска нужной страницы – это алфавитный список важных терминов в конце книги, так называемый предметный указатель, или индекс. Вот как может выглядеть фрагмент типичного индекса:

В индексе перечислены важные для данной книги термины (ключевые слова) и номера страниц, на которых эти термины встречаются. Если читатель книги не может найти нужную страницу по оглавлению, он может предположить, какие слова могут встречаться на ней, и заглянуть в индекс.

Именно эта идея поиска нужной страницы по ключевым словам в индексе и стала основной идеей, на которой созданы интернет-поисковики. Составление и использование поискового индекса в Интернете автоматизированы.

Фактически, когда пользователь вводит поисковый запрос в поисковую машину, он обращается к предметному указателю Интернета, или индексу, – списку всех ключевых слов Интернета с указанием страниц, на каких они встречаются.

Поисковая машина составляет и хранит предметный указатель Интернета, а также находит в нем заданные ключевые слова. Для этого программа составляет так называемый индекс.

Основные этапы процесса составления индекса и поиска по нему.

Сбор адресов страниц в Интернете

Чтобы составить индекс по страницам, сначала нужно решить, какие страницы нам нужны. Таким образом, нужно сначала составить список страниц – набор адресов тех страниц, по которым будет составляться индекс.

Поскольку сайты и их страницы беспорядочно разбросаны в Интернете, поисковой машине нужно с чего-то начать. Обычно разработчики поисковой машины загружают в нее какой-то начальный список адресов страниц сайтов (взяв его, например, из какого-нибудь каталога). Затем поисковая машина (ее составная часть - так называемый поисковый робот) собирает все гипертекстовые ссылки с каждой из заданных страниц на другие страницы и добавляет все найденные в ссылках адреса к своему первоначальному набору адресов.

Таким образом, первоначальный набор адресов страниц быстро увеличивается за счет ссылок на другие сайты и страницы и постепенно становится очень большим. Сейчас поисковики обходят и индексируют миллиарды веб-страниц.

Выкачивание страниц

Чтобы поработать с текстом страницы и составить из него индекс, поисковик должен получить этот текст.

Для этого поисковик должен выкачать этот текст, т.е. запросить у сайта заданную страницу. Выкачивает страницы специальный модуль поисковой машины, называемый поисковым “пауком” (по-английски crawler), или поисковым роботом. Поисковый робот обходит заданный на предыдущем этапе список страниц, выкачивает гигантский объем сырого текстового материала, хранит его на дисках своих компьютеров и передает на индексирование индексному роботу.

Составление индекса, или индексирование

Чтобы составить индекс, индексный робот поисковой машины должен выбрать все слова из всех выкачанных текстов и расположить их в алфавитном порядке, вместе с номерами страниц и разной служебной информацией о каждой странице.

Для этого индексный робот перебирает все выкачанные страницы, нумерует их (а как же, ведь нужно как-то пометить страницы, чтобы потом находить их), удаляет из текста страниц всякий ненужный, нетекстовый “мусор” (например, разметку языка HTML), затем извлекает из текста слова и помещает их в индекс. При этом слова снабжаются информацией о страницах, с которых они были взяты.

Все описанные предыдущие шаги незаметны для пользователя поисковой машины, они выполняются в поисковой машине. А вот сам поиск – это и есть то, что видит пользователь. Пользователь вводит в поисковую строку свой запрос (слово или словосочетание), и поисковая машина выдает список ссылок на страницы в Интернете.

Когда пользователь вводит какое-нибудь слово в строку запроса поисковика, поисковая машина обращается к индексу, находит запись о заданном слове, извлекает все номера страниц, относящиеся к заданному слову, и показывает пользователю результаты поиска, т.е. список страниц.

В списке результатов обычно отображается заголовок страницы (так называемый титул), дата создания страницы, ее адрес, цитата из текста страницы с подсвеченным искомым словом. Если же в запросе было несколько слов, то поисковая машина сравнивает списки ссылок на страницы для каждого слова и выбирает только те страницы, номера которых повторяются, т.е. встречаются в каждом списке страниц для каждого слова. Таким образом, выбираются только те страницы, на которых одновременно встречаются все слова запроса.

Здесь изложена самая суть механизма поиска по индексу, его основной принцип, а в реальности разработчики поисковиков используют множество разнообразных ухищрений.

Поисковик тем лучше, чем более “правильные” страницы он показывает пользователю в ответ на запрос. “Правильные” страницы называются релевантными (т.е. относящимися к делу, уместными).

Чтобы понимать, как поисковику удается находить наиболее релевантные страницы, нужно разобраться в том, как устроен индекс поисковой машины.

Поисковая машина для создания индекса из выкачанных веб-страниц выполняет следующие шаги.

Конверсия в чистый текст

Для начала текст индексируемой страницы нужно очистить от всяких нетекстовых элементов – графики, разметки (тегов) языка HTML и т.д. В результате получается чистый текст, с которым дальше работает индексный робот.

Выборка слов

Все слова нужно выбрать из текста, чтобы затем расположить их по алфавиту. Для этого поисковик должен знать, что именно считается словом – последовательность букв (и какого именно алфавита), числа, буквенно-цифровые последовательности, слова с дефисом и т.п., а также, что словом не считается и пропускается (пробелы, знаки препинания и пр.). У каждого поисковика есть свое определение того, что считать словом в тексте (стандарта здесь не существует).

Лингвистическая обработка

В большинстве поисковых машин слова не заносятся в индекс в том виде, в котором они приведены в тексте.

Обычно на этапе выборки слов из текстов веб-страниц поисковая машина применяет какой-то свой алгоритм лингвистической обработки слов, а именно, приведения слов к их начальным грамматическим формам, или основам. Этот алгоритм называется машинной морфологией

Составление индекса

Собранные вместе основы всех слов из всех текстов сводятся в индекс – свое-образный словарь, в котором основы упорядочены по алфавиту, а при каждой основе записано, с какой страницы она взята (номер страницы) и на каком месте на этой странице данная основа стояла (номер вхождения). Основы в словаре упорядочиваются по алфавиту для удобства поиска по ним.

В реальности для экономии места и повышения скорости использования индекса его структуру всячески оптимизируют и усложняют. Например, вместо основ в индексе хранят их номера, а основы хранят отдельно; номера страниц пишут не всякий раз, а только единожды для всех вхождений с данной страницы, и т.д. Затем индекс упаковывают для экономии места, еще раз индексируют для ускорения доступа и т.д.

Но общая идея индексной записи именно такова, как описано выше.

“Координатный” индекс

Первые интернет-поисковики (середины 1990-х годов) не запоминали местоположение слова на странице. В индекс записывался только список страниц, на которых встретилось данное слово. Это делалось для экономии места и для того, чтобы получить более простую структуру индекса, другими словами, для более быстрого доступа к индексу.

Однако это ограничение не позволяло достаточно точно определить релевантность страницы при поиске словосочетаний. Ведь поисковик не мог различить компактное вхождение слов запроса, когда они стоят рядом, в одной фразе, от разнесенного вхождения, когда одно слово запроса, скажем, находится в правом верхнем углу страницы, а второе – в левом нижнем.

В результате для многословных запросов релевантность была практически нулевой. Так, например, был устроен поисковик Рамблера вплоть до 1999 года.

С ростом числа многословных запросов (а их доля все время растет по мере роста числа опытных пользователей) и по мере развития поисковых технологий большинство популярных поисковиков перешли на индекс, учитывающий координату слова на странице. Такой индекс называется координатным.

Учет компактных вхождений слов запроса в координатном индексе позволяет не только более аккуратно “взвешивать” релевантность страницы, но и показывать наиболее подходящую цитату из текста страницы.

Индекс представляет собой обращенную, вывернутую “наизнанку” копию всех страниц Интернета. Если в обычном тексте мы идем от страницы к словам, то в индексе поисковая машина идет от слов к страницам. Поэтому индекс поисковой машины называется инвертированным или инверсным, т.е. обращенным, перевернутым.

Для показа цитат хранить еще и второй индекс, так называемый прямой. Этот прямой индекс есть, по сути, сжатая текстовая копия всего Интернета.

Прямой индекс

Чтобы показывать при найденных страницах цитаты с выделенными (подсвеченными) словами запроса, поисковые машины хранят все тексты всех проиндексированных страниц. Хранят, конечно, в сжатом, упакованном виде, без HTML-разметки, графики и прочего “мусора”, в чисто текстовом виде. Но в любом случае поисковая машина хранит у себя на серверах копию всего Интернета, выкачанного ее индексным “пауком”.

Для хранения текстовой копии страниц инверсный индекс не подходит – слишком долго каждый раз при отображении цитаты восстанавливать порядок слов в тексте. Гораздо проще хранить второй индекс, на жаргоне разработчиков называемый прямым. Он представляет собой тексты веб-страниц, очищенные от всех не-текстовых элементов, сжатые и упакованные, и является текстовой копией всего Интернета.

Например, Google имеет у себя текстовую копию всего мирового Интернета (в том объеме, до какого смог добраться его “паук”), а Яндекс – копию всего Рунета.

Именно наличие этой текстовой копии позволяет поисковым машинам не только показывать релевантные цитаты в результатах поиска, но и иметь функцию “восстановить текст страницы”, которой удобно пользоваться, если сама нужная страница в данный момент недоступна или вообще уже удалена с сайта.

Изначально целью поисковиков было проиндексировать веб-страницы, т.е. тексты в формате HTML, выложенные на сайт и отображаемые веб-сервером по протоколу HTTP. Позже обнаружилось, что много полезной информации выложено в Интернете в виде статей, прейскурантов, документации, руководств и т.п. в разных “офисных” форматах. Поэтому большинство поисковиков 2-3 года назад начали индексировать выложенные на сайт документы в форматах MS Word, PDF и MS Excel. Широкое распространение динамических страниц в формате Flash заставило поисковики индексировать и тексты, скрытые в этом формате файлов.

Однако не стоит рассчитывать на индексацию вашей информации в этих экзотических для Интернета форматах, поскольку нет гарантии, что поисковик заиндексирует их хорошо. Если есть возможность, всегда следует дублировать на сайте любые важные тексты в формате HTML.

Протокол HTTP (HyperText Transfer Protocol) методика передачи веб страниц по сети Интернет.

Например, нужно всегда иметь прейскурант в виде обычной веб-страницы, потому что до прейскуранта в формате Excel поисковик может не добраться, а если и доберется, то индексация, поиск и показ его в результатах поиска будут обязательно хромать, поскольку поисковики не умеют разбирать структуру Excel-файлов так же хорошо, как HTML-страниц.

Заметим, что поисковики не индексируют тексты, которые выводятся на экран пользователя динамически разными программными средствами наподобие сценариев на языке JavaScript.

Теоретически глубина и объем индексации ограничений нет, однако на практике поисковик не станет выкачивать с вашего сайта миллионы страниц (если они там есть). Ведь у поисковика в очереди на индексацию кроме вашего сайта стоят миллионы других сайтов, поэтому он старается за один раз, за один проход взять с каждого сайта некоторое разумное количество страниц. На следующем цикле индексации поисковик может взять еще какое-то количество ваших страниц и т.д. Чтобы не брать каждый раз слишком много, поисковик старается не погружаться слишком глубоко по ссылкам внутрь вашего сайта.

Это означает, что даже при большом количестве страниц сайт должен быть разумно организован, скажем, не должно быть страниц, до которых можно добраться только по цепочке из десяти ссылок.

Очень часто сайты с большим объемом данных хранят свои страницы в какой-либо базе данных (например, MySQL или Microsoft SQL Server). Это гораздо удобнее для хранения и обновления сайта, поскольку база данных позволяет легко добавлять, модифицировать и удалять информацию.

Как поисковики обращаются с такими сайтами, могут ли они их индексировать?

Ответ тут простой: если страницы сайта выдаются из базы данных при переходе по ссылкам внутри сайта, то поисковику в принципе все равно, откуда они берутся при подобном переходе. Находится ли страница на сайте или генерируется динамически при переходе по ссылке – для индексации неважно. А вот если для получения страницы пользователь должен обязательно ввести какой- то запрос к базе данных, то поисковик таких страниц просто “не видит”.

Таким образом, при создании сайта нужно помнить, что поисковик индексирует на вашем сайте только то, на что есть гипертекстовая ссылка. Большие базы данных с единственным способом доступа к их содержимому в виде окна поиска – для поисковика невидимы. Таких баз в Интернете много, именно поэтому говорят о “глубинном Интернете”, который невидим поисковикам и который больше видимого в десятки или даже сотни раз.

Как часто поисковая машина обходит Интернет

Более точно этот вопрос можно сформулировать так: как быстро новые страницы появляются в индексе поисковика и как часто поисковик их потом обновляет?

Безусловно, идеальный поисковик должен иметь всякую страницу в своём индексе сразу же, как только она появилась. И существующие поисковики к этому стремятся. Однако огромный объем Интернета ставит здесь свои препятствия и ограничения.

От обхода раз в месяц в начале текущего века Яндекс и Рамблер к настоящему времени добрались до еженедельной индексации. Однако, поскольку есть такие типы информации (новости, цены, курсы валют), для которых обновление раз в неделю – это чрезвычайно медленно, поисковики имеют специального “быстрого робота”, который может обходить быстро изменяющиеся сайты по нескольку раз в день.

Каким образом сайты попадают в списки такого быстрого робота – отдельный разговор. Поисковик имеет механизмы “самообучения” быстрого робота. Если ваш сайт уже достаточно авторитетен (имеет высокий ссылочный ранг) и при этом имеет много страниц, которые часто изменяются, у него довольно много шансов быть замеченным “быстрым роботом”.

Как правило, у любой поисковой машины есть возможность так называемого расширенного поиска. Расширенным он называется потому, что имеет расширенные возможности задания запроса. В первую очередь это касается возможности использовать при поиске логические операторы наподобие И, ИЛИ и НЕ, чтобы задать, например, поиск кондиционера или очистителя воздуха в Москве, но не в Петербурге. Также широко распространен оператор буквального поиска заданного словосочетания – обычно для этого искомую фразу заключают в кавычки.

Правила употребления этих и других поисковых операторов и называются языком запросов. Язык запросов, как правило, значительно отличается в разных поисковых машинах – по способам записи операторов, алгоритмам их применения в поиске и т.п.

Обычно при описании поисковой машины в научной литературе или компьютерной периодике считается хорошим тоном посвятить одну-две страницы ее языку запросов и показать, какой он мощный.

Мы здесь этого делать не будем по одной очень простой причине – это не имеет практического смысла для владельца сайта, желающего продвинуть свой сайт в поисковых машинах.

Дело в том, что, несмотря на богатые возможности языка запросов современных поисковых машин, пользуются им на практике 1-2% наиболее опытных и технически грамотных пользователей. Следовательно, какой бы ни был язык запросов у Яндекса, это практически никак не повлияет на посещаемость вашего сайта.

Более того, согласно статистике самих же поисковых машин, обычный пользователь по мере получения опыта в Интернете движется не в сторону овладения языком запросов, а в сторону использования естественного языка, т.е. более длинных словосочетаний и фраз в запросе. По сути, язык запросов – это анахронизм, оставшийся от тех времен, когда пользователями Интернета были в основном люди с техническим образованием, инженеры и математики, готовые программировать и отлаживать свои запросы для достижения наилучшего результата.

В отношении поисковых машин очень часто можно слышать качественные оценки. Обычно синонимом качества поиска считается его релевантность.

В отношении поисковых машин слово релевантный – чуть ли не главный термин. Релевантная выдача, релевантные результаты, у поисковика X релевантность выше, чем у поисковика Y, – такие выражения можно слышать постоянно.

Как уже говорилось выше, релевантный – значит относящийся к делу. Релевантность результатов поиска поисковой машины означает, что эти результаты содержат страницы, относящиеся к делу, т.е. к смыслу поискового запроса.

Это определение релевантности выглядит очень просто. Казалось бы, из него следует, что если мы введем поисковый запрос и если среди первых результатов поиска окажутся только релевантные сайты, то выдача поисковой машины будет релевантна. Однако это не совсем так. Давайте разберемся с этим вопросом подробнее.

Не существует релевантности вообще, в вакууме. Ведь кто-то должен определить, действительно ли сайты соответствуют тому, что предполагалось в запросе. Кто? Очевидно, лучше всего это может сделать сам автор запроса, который ввел его в поисковую машину.

И вот здесь возникает несколько проблем. Ведь не очень интересно обсуждать запросы выдуманные, введенные для эксперимента. В Яндексе, Рамблере, Google есть десятки миллионов популярных, реальных запросов, которые ежедневно вводят реальные пользователи. А с ними далеко не все так ясно.

Во-первых, большинство запросов – одно- или двухсловные, т.е. очень лаконичные. Ясно, что далеко не всегда они полностью задают смысл искомой страницы. Значит, какие-то условия поиска всегда остаются недосказанными, в уме пользователя. Во-вторых, ни поисковик, ни мы с вами не можем знать, что происходит в уме реального пользователя, вводящего конкретный запрос. Итак, молено сформулировать следующее утверждение: сам но себе поисковый запрос принципиально неполон. Почти для каждого запроса существует не высказанное пользователем явно, но важное для него условие релевантности запроса.

Условие релевантности – это не входящее в запрос предположение пользователя о том, какие страницы будут релевантным ответом на запрос. Фактически – это скрытая постановка задачи поиска в уме пользователя.

Условие релевантности в уме пользователя прямо зависит от его намерений, от цели запроса, от того, что вообще хочет сделать пользователь с найденными по запросу сайтами.

Пользователи в Интернете все очень разные, и приходят они в Интернет с совершенно разными целями. Поэтому запросы, которые вводят пользователи в поисковые машины, также отличаются по своим целям. Заранее знать и понимать эти цели довольно важно как для поисковой машины, так и для тех, кто хочет привлекать посетителей на свой сайт.

Ниже описаны основные типы запросов в поисковики.

Почему пользователи ведут себя так – вопрос сложный. Во-первых, они зачастую не осознают того обстоятельства, что запрос может иметь не один смысл. Во-вторых, экономят Для большинства популярных запросов такая экономная тактика себя оправдывает.

Навигационные запросы – это один из самых распространенных видов запросов. Такие запросы вводят пользователи, которые хотят найти конкретное место в Сети – сайт нужной им компании, ссылку на блог интересной персоны и т.п.

Аудитория, которая приходит на ваш сайт по навигационным запросам, скорее всего, уже знает ваш бренд, сайт, услугу, либо зашла к вам по ошибке.

Конечно, точную цель запроса знает только пользователь, который ввел этот запрос. К сожалению, подавляющее большинство пользователей не очень опытны в обращении с поисковиками и не знают, как именно формулировать запросы, чтобы получить наилучший результат. Поэтому не исключено, что конкретный запрос Аэрофлот представляет собой не очень удачную попытку получить расписание рейсов или желание купить билет. Тогда это информационный или транзакционный запрос.

Информационный запрос вводят, когда хотят найти какие-то сведения, информацию в Сети, причем пользователю все равно, где именно она находится.

Ясно, что пользователи, сделавшие информационные запросы, наиболее интересны тем владельцам сайтов, которые делают ставку на показ посетителям какого-то интересного им содержания, справочной информации или уникальных сведений.

Массовому пользователю свойственно вводить неопределенные, нечеткие, самые общие запросы, так что поисковику из формальных соображений трудно отличить, что имеется в виду, когда введен, например, запрос пластиковые окна.

Этим запросом пользователь, скорее всего, выражает желание выбрать и установить окна у себя в квартире, так что это – не информационный, а другой вид запроса – транзакционный.

Транзакционным является такой запрос, который вводит пользователь, желающий совершить какое-то действие в Интернете – транзакцию (т.е. купить, заказать, скачать, подписаться или заплатить). Например: антивирус скачать, установка кондиционеров, летний лагерь под Москвой и тому подобные конкретные, “деловые” запросы.

Ясно, что транзакционные запросы наиболее интересны для тех владельцев сайтов, у которых уже есть готовая структура для продажи товаров или услуг через Интернет.

Есть огромная “серая зона”, обширная категория нечетких, слишком общих запросов, которые вводят в поисковиках неопытные или ленивые пользователи. С одной стороны, нечеткие, т.е. самые общие, запросы наподобие билеты, квартира, кондиционер, окна, как правило, кажутся наиболее привлекательными владельцам сайтов. Очень часто директор фирмы желает видеть свой сайт на первом месте в поисковиках именно по этим запросам. Если фирма строит бассейны, ее генеральный директор обычно хочет быть первым в Яндексе и Рамблере по запросу бассейны. А директор агентства недвижимости – по запросу квартира.

Именно поэтому по самым общим запросам обычно имеется наиболее высокая конкуренция, как в продвижении сайтов, так и в контекстной рекламе.

С другой стороны, аудитория такого запроса может быть очень неоднородной, смешанной, потому что в таком общем запросе могут быть смешаны самые разные цели и типы запросов.

Для того, чтобы обслужить посетителей сайта более качественно, необходимо знать вид запросов. Например, если посетитель зашел к вам на сайт по информационному запросу, не стоит пытаться сразу же заставить его купить товар – он просто уйдет со страницы в раздражении. Напротив, нужно сначала предложить ему искомую информацию (и чем более полной она будет, тем выше вероятность удержать посетителя на сайте) и только затем предложить ему соответствующую услугу или товар.

И наоборот, посетитель, сделавший транзакционный запрос, больше всего будет интересоваться условиями транзакции – ценой, сроками, доставкой, скидкой и т.п. И он будет рассчитывать сразу же найти эти условия на странице, окинув ее одним взглядом.

Заметим, что все поисковые машины по-разному работают с разными типами запросов. Поскольку без чтения мыслей пользователя поисковик не может точно установить цель, т.е. тип запроса, то на качество обработки разных типов запросов влияют скорее общие особенности поисковых алгоритмов каждого поисковика.

Извне оценить эти отличия можно только приблизительно, статистически. Например, известно, что Google лучше всего справляется с навигационными запросами, это его конек. А Яндекс более силен в обработке информационных запросов.

Для оценки качества работы поисковика с запросами применяются понятия, традиционные для задач поиска информации, – полнота и точность.

Полнота поиска – это мера того, нашел ли поисковик все нужные веб-страницы, которые есть в Сети. Проще всего вычислить полноту в процентах от всех релевантных запросов страниц. Заметим, что из данного, вполне жизненного примера видно, что полнота поиска не очень-то интересна обычному пользователю интернет-поисковика. Ведь в Сети всегда слишком много данных! Все равно невозможно просмотреть что 100 тысяч страниц, что 65 тысяч...

А ведь поисковик показывает данные постранично – первые десять найденных страниц, потом еще десять и т.д. Большинство обычных пользователей не заглядывают дальше первой-второй страницы результатов поиска, просматривая только первые 10-20 результатов. Поэтому не очень важно, сколько там релевантных результатов (десять тысяч, сто тысяч или миллион) осталось за пределами первых страниц результатов поиска или вообще осталось не найденными в Сети..

Поэтому основным показателем работы интернет-поисковика является его точность.

Не полнота, а разнообразие

На самом деле полнота поиска – очень важна, если понимать ее не как требование найти все, а как требование разнообразия "верхней" части выдачи, т.е. требование найти и показать все варианты, все типы ответов на запрос.

Например, если по запросу “дизайн” поисковик находит только релевантные документы, но все – только про дизайн сайтов, то полнота поиска явно низкая. Желательно, чтобы были также найдены страницы про другие виды дизайна – дизайн квартир, ландшафтный дизайн, полиграфический дизайн и пр. Таким образом, если поисковик находит много, но по одной теме, то пользователь получает однообразную информацию.

В последнее время, увы, это довольно обычная ситуация в поисковиках. Сегодня по большинству “коммерческих” запросов невозможно получить "некоммерческие” страницы вверху списка результатов поиска – все первые десятки и даже сотни результатов поиска занимает только коммерческая выдача. Например, если спросить у Яндекса или Google “цветы”, то, скорее всего, вся поисковая выдача будет забита страницами с предложениями доставки цветов, причем в основном по Москве. Налицо очень малое разнообразие выдачи. Ни страницы про семена цветов, ни сведения о разведении цветов в выдачу не попадают.

Точность – это мера качества выданных результатов. Точность вычисляется как количество релевантных страниц в общем объеме того, что выдал нам поисковик.

Если, допустим, нам выдано всего 1000 страниц по запросу очистители воздуха, а на самом деле отношение к очистителям воздуха имеют только 850 из них, то точность поиска будет равна 85%. Однако из данного примера видно, что на самом деле нет смысла вычислять точность по всему объему найденных страниц. Гораздо важнее порядок выдачи. А что если все 150 нерелевантных страниц из 1000 окажутся в начале выдачи? Ясно, что средний пользователь, просматривающий две первые страницы результатов поиска (это максимум 20-30 первых результатов), сочтет такую выдачу абсолютно нерелевантной и будет прав.

Таким образом, важно не только обеспечить достаточную точность поиска, или релевантность всего объема найденных по запросу страниц, но и правильно расположить релевантные результаты в выдаче, т.е. обеспечить правильный порядок, или ранжирование, результатов поиска.

Ранжированием называется упорядочивание результатов поиска по их релевантности. Каждая поисковая машина имеют свою “формулу релевантности” для веб-страниц.

В нее входит учет наличия искомых слов на странице, учет плотности этих слов по отношению к остальным словам, наличие компактных вхождений искомого словосочетания, искомых слов в особых текстовых элементах повышенной важности (например, в заголовках) и т.д.

Кроме упомянутых сведений о составе и релевантности текста на самой странице, поисковики анализируют также позицию страницы в общем пространстве Интернета, а именно – авторитетность страницы, которую они вычисляют по количеству ссылок на нее с других сайтов.

Что такое ссылочное ранжирование (PageRank)

Как уже говорилось выше, поисковые машины анализируют структуру ссылок веб-страниц друг на друга. Таким образом выясняется авторитет отдельных страниц (и сайтов в целом) среди сетевого сообщества, среди тех, кто создает сайты и делает на них ссылки на другие сайты.

Опять-таки сама по себе эта идея не новая – она представляет собой автоматизацию довольно старой идеи индекса цитируемости, который используется в научном мире для вычисления авторитета ученого. Идея проста – кого больше цитируют и на кого чаще ссылаются, тот авторитетен, а его работы, очевидно, больше нужны человечеству. Тот же, кого цитируют меньше, человечеству менее интересен.

Поэтому к обычной “текстовой релевантности”, основанной на соответствии самого текста страницы запросу, можно добавить “авторитетность” страницы среди других страниц.

Впервые эту идею применили в публичной поисковой машине в конце 1990-х годов создатели Google – Брин и Пейдж, аспиранты Станфордского университета. Для них, конечно, идея научного индекса цитирования была естественной и давно известной.

Именно ссылочный ранг страницы стал основным принципом ранжирования результатов поиска в Google, что привело к резкому отрыву от конкурентов по качеству поиска и стало одной из основных причин доминирования Google в мировом Интернете. Они назвали этот ссылочный ранг PageRank (ранг страницы), включив заодно в название также и фамилию одного из двух авторов идеи – Ларри Пейджа (Larry Page).

Как определяется ранг страницы

Теоретически идея автоматического использования ссылок для вычисления авторитета страницы выглядит просто: возьмем матрицу всех ссылок всех страниц Интернета друг на друга, т.е. фактически “Интернет в квадрате". Получится матрица гигантских размеров – скажем, двадцать миллиардов на двадцать миллиардов.

Теперь начнем учитывать ссылки страниц друг на друга. Сначала присвоим всем страницам равный вес (ранг). Затем, начиная с какого-нибудь угла этой огромной матрицы, начнем пересчитывать вес страниц и ссылок примерно таким образом: если на страницу ссылается много страниц (т.е. у нее много “входящих” ссылок), то ранг страницы повышается (по некоторой относительно простой формуле).

Будем также учитывать и ранг ссылок. Если на вас сослался президент в своей ежегодной речи, то это более ценно, чем если бы вас вчера упомянул во дворе дворник.

Итак, при расчете ранга страницы нужно учесть вес каждой "входящей” ссылки.

Наоборот, если со страницы с неким рангом “уходит” несколько ссылок, разделим ранг страницы между всеми ссылками. Действительно, если президент в своей речи сослался исключительно на вас одного – это серьезное событие. Если же он зачитал список из двухсот имен, среди которых было и ваше, то это тоже почетно, но в меньшей степени.

Таким образом, если на страницу ссылается очень авторитетный ресурс, то и ранг самой страницы повышается. Правда, если этот авторитетный ресурс ссылается еще на тысячи других страниц (скажем, это каталог Yahoo), то авторитет каталога “размажется” по всем тысячам ссылок и нам от него достанется немного (другими словами, ранг нашей страницы повысится незначительно). Заметим, что после первого цикла пересчета матрицы связей Интернета нам придется вернуться к началу и пересчитать все ранги еще раз, так как ранги страниц, ссылающихся на самые первые страницы (с которых мы начинали), уже изменились. И так придется сделать много повторов пересчета, так называемых итераций.

В ходе разработки алгоритма создателям Google пришлось доказать эргодическую теорему о том, что процесс пересчета матрицы сойдется, как говорят математики. Получается, что на самом деле достаточно пересчитать матрицу всего несколько раз, чтобы ранги страниц уже были более-менее стабильны и ими можно было пользоваться в поисковике для расчета релевантности.

Для расчета авторитетности сайта нужно пересчитывать гигантские таблицы ссылок с длиной, равной количеству всех страниц в Интернете. Естественно, технически задача такого пересчета гигантских матриц очень сложна. Именно поэтому даже спустя шесть-семь лет после запуска Google пересчитывает свой индекс не так уж часто, далеко не каждый день, поскольку для пересчета матрицы связей требуются огромные вычислительные мощности.

Зато и выигрыш в релевантности поиска в Google был значительным. Сейчас, спустя шесть лет, уже все поисковые машины (Яндекс и Рамблер в том числе) применяют расчет авторитетности страницы и ссылочный ранг в том или ином виде для расчета релевантности результатов поиска.

В дальнейшем поисковики усовершенствовали идею вычисления авторитетности страницы за счет учета текста на ссылках. Действительно, почти каждая ссылка в Интернете представляет собой какой-то текст (под который и “подложен”, собственно, адрес страницы, на которую ссылаются). Естественно учитывать этот текст при расчете ранга той страницы, на которую ведет ссылка. Так возникает ссылочный ранг страницы – ранг, учитывающий тему ссылок.

Для вебмастера понятие ранга страницы чрезвычайно важно, ибо с помощью управления ссылками, ведущими на сайт и уходящими с сайта, можно влиять на свой ссылочный ранг и, значит, на свое положение в поисковых машинах.

Поисковые машины отличаются друг от друга набором своих возможностей, функциональностью, удобством. Большинство из них – Google, Yahoo, MSN, Яндекс и Рамблер – уже перешагнули границу между простым поисковиком и порталом, они занялись созданием большого количества самых разнообразных сервисов, призванных удовлетворить все потребности любого пользователя и удержать его на портале.

Здесь заложен некий идеологический конфликт между моделью поисковика (когда нужно добиться, чтобы пользователь как можно быстрее ушел с сайта, сразу найдя нужное) и моделью портала, когда хочется удержать пользователя как можно дольше, но, похоже, выбор в пользу “портальности” в мировом масштабе уже сделан.

Даже Google, долгое время сохранявший узкофокусированную модель бизнеса лучшего поисковика в мире и щеголявший строгим дизайном (одна поисковая строка на странице), начал двигаться в сторону “портальности”, выпуская множество сервисов в год.

Сейчас практически все поисковики кроме поиска показывают каталог сайтов, погоду, курсы валют, карты, ТВ-программы, киноафишу и пр. В этом смысле сравнивать поисковики между собой совершенно бессмысленно – каждый пользователь выбирает наиболее удобный набор сервисов, и здесь нет товарищей на вкус и цвет.

Что касается собственно поисковых машин в составе этих порталов, то они также могут значительно отличаться количеством документов в базе, возможностями поиска в дополнительных базах – картинках, блогах, новостях, энциклопедиях, частотой обновления данных и т.д.

Что лучше? Это в значительной степени зависит от задач пользователя. Тут тоже так много параметров и различных возможностей, что выбор поисковика по душе очень зависит от разных социальных факторов: известности бренда, объема рекламы, удобства и т.п. Другими словами, от того, сколько сил и средств владельцы поисковика вложили в маркетинг, удобство и дизайн.

Вопросы для самоконтроля:

1. Перечислите классические и современные модели представления данных.

2. Охарактеризуйте иерархическую модель данных.

3. Укажите достоинства и недостатки иерархической модели данных

4. Охарактеризуйте сетевую модель данных.

5. Укажите достоинства и недостатки сетевой модели данных

5. Охарактеризуйте реляционную модель данных.

6. Укажите достоинства и недостатки реляционной модели данных.

7. Охарактеризуйте современные модели представления данных.

8. Проведите сравнение реляционной и постреляционной модели данных.

9. Дайте определение принципов инкапсуляции, полиморфизма и наследования применительно к объектно-ориентированным базам данных.

10. Охарактеризуйте типы данных, используемые в современных СУБД.

11. Дайте определение базы данных, банка данных и системы управления базами данных.

12. Какие компоненты входят в состав банка данных.

13. Охарактеризуйте логическую и физическую организацию данных.

14. Представьте схему прохождения запроса к БД.

15. Охарактеризуйте основные этапы жизненного цикла БД.

16. Охарактеризуйте участников реализации стадий и этапов, жизненного цикла БД.

17. Перечислите основные виды АИС.

18. Что представляет собой поисковая машина в структуре ИПС?

19. Что представляет собой вычислительная система?

20. Опишите принципы работы поискового робота.

Литература

1. Алексеев Ю.М. Быстро и легко создаём, программируем, шлифуем и раскручиваем Web-сайт. (Серия «Быстро и легко»). 2006 М.: Лучшие книги.

2. Артанов Б. Web-мастеринг без посторенней помощи. Учебное пособие. (Серия «Без посторонней помощи»). 2006 М.: 100 книг .

3. Ашманов И.С., Иванов А.А. Продвижение сайта в поисковых системах. (Серия «Практика реального бизнеса»). 2007 М.: Издательский дом «Вильямс»

4. Давид М. Крёнке Теория и практика построения баз данных. 9-е изд. (Серия «Классика Computer Science»). Пер. с англ. 2005 СПб.: Питер

5. Крис Дж. Дейт Введение в системы баз данных. 8-е изд. Пер. с англ. 2005 М.: Издательский дом «Вильямс».

6. Кузнецов С.Д. Основы баз данных. Учебное пособие. 2-е изд., испр. (Серия «Основы информационных технологий»). 2007 М.: ООО «ИНТУИТ.ру»; Бином, Лаборатория знаний.

7. Хомоненко А.Д., Цыганков В.М., Мальцев М.Г. Базы данных. Учебник для вузов. 6-е изд.,2007, СПб: КОРОНА-принт.

⇐ Предыдущая 12

Поиск по сайту: