Помощничек
Главная | Обратная связь


Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Search engine results engine (система выдачи результатов)

Поисковая машина

Поисковая машина — комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой системы. Основными критериями качества работы поисковой машины являются релевантность, полнота индекса, учёт морфологии языка.

Поисковые машины: (spiders, crawlers) постоянно исследуют Сеть с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Примером может быть поисковая система Altavista.
Для поисковых систем довольно важна конструкция каждого документа. Большое значение имеют title, meta-таги и содержимое страницы.

Поисковая машина состоит из программы-паука, которая просматривает сайты Интернета и базы данных (индекса), в которой находится информация о просмотренных сайтах.

Spider(паук)

 

Поисковая машина состоит из программы-паука, которая просматривает сайты Интернета и базы данных (индекса), в которой находится информация о просмотренных сайтах.

По заявке веб-мастера робот-паук заходит на сайт и просматривает страницы сайта, занося в индекс поисковой машины информацию о страницах сайта. Поисковая машина может сама найти сайт, даже если его веб-мастер и не подавал заявку на регистрацию. Если ссылка на сайт попадется где-либо на пути поисковой машины (на другом сайте, например), то она сайт тут же проиндексирует.

Паук не копирует страницы сайта в индекс поисковой машины, а сохраняет информацию о структуре каждой страницы сайта - например, какие слова встречаются в документе и в каком порядке, адреса гиперссылок страницы сайта, размер документа в килобайтах, дата его создания и многое другое. Поэтому индекс поисковой машины в несколько раз меньше, чем объем проиндексированной информации.

Crawler (краулер, «путешествующий» паук)

 

Программа, которая автоматически проходит по всем ссылкам, найденным на странице. Crawler выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

 

Indexer (индексатор)

Программа, которая анализирует веб-страницы, скаченные пауками. Indexer разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д.

Database (база данных)

Хранилище скачанных и обработанных страниц. Database - это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.

Search engine results engine (система выдачи результатов)

Извлекает результаты поиска из базы данных. Search Engine Results Engine занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы рассмотрим отдельные факторы, влияющие на ранжирование результатов.

 

  • Полнота

Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

  • Точность

Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

  • Актуальность

Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день

· Скорость поиска

Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

· Наглядность

 

Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска. Подробные пояснения по странице результатов поиска

 

· Ранжирование – определение порядка согласно рангу, авторитету, респектабельности или релевантности. Ранжирование – это процесс, результат которого пользователь видит, получая ответ поисковой системы на свой вопрос. Система получает и обрабатывает запрос, сортирует все, имеющиеся в своей базе данные, то есть производит ранжирование, и выдает результат. Выдача, как известно, представляет собой страницу или несколько, где в определенном порядке расположены ссылки, отвечающие на вопрос. Расположение всех сайтов в соответствующую цепочку и есть ранжирование.

Примеры

Поисковые машины Рунета (в индексе находятся сайты на русском языке)

1.Яндекс
2.Рамблер
3.Апорт
4.Mail.ru
5.Punto
6.Goоgle

 

 




©2015 studopedya.ru Все права принадлежат авторам размещенных материалов.