Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Структура довідково-пошукових систем мережі інтернет

Стр 1 из 3Следующая ⇒

Зміст

Введення

Структура довідково-пошукових систем мережі Інтернет

1.1 Як працюють механізми пошуку
2. Порівняльний огляд довідково-пошукових систем
2.1 Gopher
2.2 WAIS
2.3 WWW
2.4 AltaVista
2.5 Yahoo
2.6 OpenText
2.7 Infoseek

Пошукові роботи

Найбільш популярні російськомовні довідково-пошукові системи в Інтернет

4.1 Rambler
4.2 Yandex
4.3 Aport

Найбільш популярні зарубіжні пошуковики для російськомовного користувача

Googlе

5.2 AltaVista
5.3 Yahoo
Список літератури

Вступ

У Мережі існує велика кількість сервісів. Нас надалі буде цікавити WWW або просто Web (Word-Wide Web-всесвітня павутина). Це найпопулярніший сервіс Мережі та зручний спосіб роботи з інформацією.
Основні протоколи, використовувані в Інтернет (надалі також Мережа) не забезпечені достатніми вбудованими функціями пошуку, не кажучи вже промільйони серверах, що знаходяться в ній. Протокол HTTP, який використовується в Інтернет, хороший лише щодо навігації, що розглядається лише як засіб перегляду сторінок, але не їх пошуку. Те ж саме відноситься і до протоколу FTP, який навіть більш примітивна, ніж HTTP. Через швидке зростання інформації, доступної в Мережі, навігаційні методи перегляду швидко досягають межі їх функціональних можливостей, не кажучи вже про межу їх ефективності. Не вказуючи конкретних цифр, можна сказати, що потрібну інформацію вже не представляється можливим отримати одразу, так як в Мережі зараз є мільярди документів і всі вони в розпорядженні користувачів Інтернет, до того ж сьогодні їх кількість зростає відповідно до експоненційної залежності. Кількість змін, яким ця інформація піддана, величезне і, найголовніше, вони відбулися за дуже короткий період часу. Основна проблема полягає в тому, що єдиної повної функціональної системи оновлення та занесення подібного обсягу інформації, одночасно доступного всім користувачам Інтернет у всьому світі, ніколи не було. Для того, щоб структурувати інформацію, накопичену в мережі Інтернет, і забезпечити її користувачів зручними засобами пошуку необхідних їм даних, були створені пошукові системи.

Структура довідково-пошукових систем мережі інтернет

Пошукові Системи зазвичай складаються з трьох компонентів:
· Агент (павук або кроулер), який переміщається по Мережі і збирає інформацію;
· База даних, яка містить всю інформацію, що збирається павуками;
· Пошуковий механізм, який люди використовують як інтерфейс для взаємодії з базою даних.
1.1 Як працюють механізми пошуку
Засоби пошуку і структурування, іноді звані пошуковими механізмами, використовуються для того, щоб допомогти людям знайти інформацію, якої вони потребують. Засоби пошуку типу агентів, павуків, кроулер і роботів використовуються для збору інформації про документи, що знаходяться в Мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в Мережі, витягають гіпертекстові посилання на цих сторінках і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожен пошуковий механізм має власний набір правил, що визначають, як знаходити і обробляти документи. Деякі йдуть за кожною посиланням на кожній знайденій сторінці і потім, у свою чергу, досліджують кожну посилання на кожній з нових сторінок, і так далі. Деякі ігнорують посилання, які ведуть до графічних і звукових файлів, файлів мультиплікації; інші ігнорують Посилання до ресурсів типу баз даних WAIS, інші проінструктовані, що потрібно переглядати насамперед найбільш популярні сторінки.
· Агенти - найбільш "інтелектуальні" з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати навіть транзакції від Вашого імені. Вже зараз вони можуть шукати Сайти специфічної тематики та повертати списки cайтов, відсортованих за їх відвідуваності. Агенти можуть обробляти зміст документів, знаходити і індексувати інші види ресурсів, не лише сторінки. Вони можуть також бути запрограмовані для вилучення інформації з уже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад базі даних пошукового механізму.
· Загальний пошук інформації в Мережі здійснюють програми, відомі як павуки. Павуки повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Також вони переглядають заголовки, деякі посилання і посилають проіндексовану інформацію базі даних пошукового механізму.
· Кроулери переглядають заголовки і вирощує тільки перше посилання.
· Роботи можуть бути запрограмовані так, щоб переходити з різних Посилання різної глибини вкладеності, виконувати індексацію і навіть перевіряти посилання в документі. Через їх природи вони можуть застрявати в циклах, тому, проходячи по посиланнях, їм потрібні значні ресурси Мережі. Проте, є методи, призначені для того, щоб заборонити роботам пошук по сайтах, власники яких не бажають, щоб вони були проіндексовані.
Агенти витягують і індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у встречающемся документі, в той час як інші індексують лише найбільш важливих 100 слів у кожному, індексують розмір документа і кількість слів у ньому, назва, заголовки і підзаголовки і так далі. Вид побудованого індексу визначає, який пошук може бути зроблений пошукових механізмом і як отримана інформація буде інтерпретована.
Агенти можуть також переміщатися по Інтернету та знаходити інформацію, після чого поміщати її в базу даних пошукового механізму. Адміністратори пошукових систем можуть визначити, які сайти або типи сайтів агенти повинні відвідати і проіндексувати. Проіндексована інформація відсилається базі даних пошукового механізму так само, як було описано вище.
Люди можуть розміщувати інформацію прямо в індекс, заповнюючи особливу форму для того розділу, в який вони хотіли б розмістити свою інформацію. Ці дані передаються базі даних.
Коли хто-небудь хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує інформацію, яка йому необхідна. Тут можуть використовуватися ключові слова, дати та інші критерії. Критерії у формі пошуку повинні відповідати критеріям, використовуваним агентами при індексації інформації, яку вони знайшли при переміщенні по Мережі.
База даних відшукує предмет запиту, заснований на інформації, зазначеної в заповненій формі, і виводить відповідні документи, підготовлені базою даних. Щоб визначити порядок, в якому список документів буде показаний, база даних застосовує алгоритм ранжирування. В ідеальному випадку, документи, найбільш релевантні запиту користувача будуть поміщені першими в списку. Різні пошукові системи використовують різні алгоритми ранжирування, проте основні принципи визначення релевантності наступні:
1. Кількість слів запиту в текстовому вмісті документа (тобто в html-коді).
2. Теги, в яких ці слова розташовуються.
3. Розташування шуканих слів у документі.
4. Питома вага слів, стосовно яких визначається релевантність, в загальній кількості слів документа.
Ці принципи застосовуються всіма пошуковими системами. А представлені нижче використовуються деякими, але досить відомими (на кшталт AltaVista, HotBot).
5. Час - як довго сторінка знаходиться в базі пошукового сервера. Спочатку здається, що це досить безглуздий принцип. Але, якщо задуматися, як багато існує в Інтернеті сайтів, які живуть максимум місяць! Якщо ж сайт існує досить довго, це означає, що власник дуже досвідчений у даній темі і користувачеві більше підійде сайт, який пару років віщає світові про правила поведінки за столом, ніж той, який з'явився тиждень тому з цією ж темою.
6. Індекс цитування - як багато посилань на дану сторінку веде з інших сторінок, зареєстрованих в базі пошукача.
База даних виводить ранжируваний подібним чином список документів з HTML і повертає його людині, яка зробила запит. Різні пошукові механізми також вибирають різні способи показу отриманого списку - деякі показують тільки посилання; інші виводять Посилання c першими кількома пропозиціями, що містяться в документі або заголовок документа разом з ccилкой.
Коли Ви клацаєте на посиланні до одного з документів, який вас цікавить, цей документ вимагається того сервера, на якому він знаходиться.

2. Порівняльний огляд довідково-пошукових систем
2.1 Gopher
Gopher - був широко поширений в інтернеті і був попередником World Wide Web. За деякими даними, до 1995 року Gopher був найбільш динамічно розвивається технологією інтернету. Темпи зростання числа відповідних серверів випереджали темпи зростання серверів всіх інших типів. У 1993 році в світі було понад півтори тисячі gopher-серверів.
Gopher фактично був системою розподіленого пошуку і передачі документів одночасно. Причому ці можливості реалізовувалися не як додаткові сервіси-надбудови, подібно до сучасних пошукових машин, а були вбудовані в систему як її базові функції.
З допомогу спеціальної програми Veronica безпосередньо в системі Gopher здійснювався пошук з використанням спеціальної мови запитів, побудованого на ключових словах. Ця система працювала не тільки задовго до появи GOPHER (RFC-1436) являє собою систему для пошуку і доставки документів, що зберігаються в розподілених сховищах-депозитаріях. Система була розроблена в університеті штату Міннесота (на гербі цього штату зображений хом'як, по-англійськи gopher). Програма Gopher пропонує користувачеві послідовність меню, з яких він може вибрати потрібну йому тему чи статтю. Об'єктом пошуку може бути текст або двійковий файл (у багатьох депозитаріях навіть текстові файли зберігаються в архивированном, а отже, двійковому вигляді), графічний або звуковий образ. Gopher крім того пропонує шлюзи в інші пошукові системи WWW, Wais, Archie, Whois, а також в мережеві утиліти типу telnet або FTP. Gopher може запропонувати більше зручностей для роботи зі змістом файлів (directory), ніж FTP. Для доступу в глобальну мережу Gopher використовує модель клієнт-сервер. Система Gopher в даний час застаріла, багато її сервери інтегровані в мережу WEB. Але gopher став прототипом сучасних інтерфейсів WWW і саме робить його цікавим.
2.2 WAIS
WAIS є однією з найбільш витончених пошукових систем Internet. У ній не реалізований лише пошук за нечіткими множинам та імовірнісний пошук. На відміну від багатьох пошукових машин, система дозволяє будувати не лише вкладені булеві запити, вважати формальну релевантність за різним заходам близькості, зважувати терміни запиту та документа, але й здійснювати корекцію запиту за релевантністю. Система також дозволяє використовувати усікання термінів, розбиття документів на поля і ведення розподілених індексів. Не випадково саме ця система була обрана в якості основної пошукової машини для реалізації енциклопедії "Британіка" на Internet.
Розподілена інформаційна система WAIS була задумана як мережевий аналог традиційних інформаційно-пошукових систем (ІПР), що дозволяє користувачам мережі здійснювати пошук в повнотекстових базах даних з використанням традиційного для ІПС інформаційно-пошукової мови, пошукові настанови якого будуються на основі ключових слів та / або їх усічення , пов'язаних між собою логічними операторами 0R або AND.
Спочатку система WAIS розроблялася чотирма фірмами: Dow Jones й Со. (Ділові бази даних); Think Machines Corporation (інформаційно-пошукові системи); Apple Computer (інтерфейс користувача) і KPMG Peat Maverick (робота з великим числом користувачів). Перший прототип WAIS був напівкомерційний полуісследовательской системою з великими обмеженнями щодо використання як з боку користувачів, так і з боку адміністраторів баз даних. Прототип WAIS непогано розумів природний англійська мова та перекладав його в пошукові приписи системи. Реально WAIS стала широко застосовуватися тільки з появою версії FreeWAIS для операційних систем UNIX. Сьогодні існує велика кількість реалізацій WAIS, головним чином комерційних, а система стала своєріднимстандартом інформаційно-пошукової машини на мережі Internet.
При роботі з WAIS користувачам не потрібно витрачати багато часу, щоб знайти необхідні їм матеріали.
У мережі Internet існує більше 300 WAIS - бібліотек. Але оскільки інформація представляється переважно співробітниками академічних організацій на добровільних засадах, більша частина матеріалів відноситься до області досліджень і комп'ютерних наук.
2.3 WWW
WWW - система для роботи з гіпертекстом. Потенційно вона є найбільш потужним засобом пошуку. Гіпертекст з'єднує різні документи на основі заздалегідь заданого набору слів. Наприклад, коли в тексті зустрічається нове слово або поняття, система, що працює з гіпертекстом, дає можливість перейти до іншого документу, у якому це слово або поняття розглядається більш докладно.
WWW часто використовується в якості інтерфейсу до баз даних WAIS, але відсутність гіпертекстових зв'язків обмежує можливості WWW до простого перегляду в Gopher.
Користувач зі своєї сторони може задіяти можливість WWW працювати з гіпертекстом для зв'язку між своїми даними і даними WAIS і WWW таким чином, щоб власні записи користувача як би інтегрувалися в інформацію для загального доступу. Насправді цього, звичайно, не відбувається, але сприймається саме так.
2.4 AltaVista
Індексування в цій системі здійснюється за допомогою робота. При цьому робот має такі пріоритети:
· Слова містяться в тезі <title> мають вищий пріоритет; ключові фрази в <Meta> тегах;
· Ключові фрази, що знаходяться на початку сторінки;
· Ключові фрази в ALT - посиланнях
· Ключові фрази за кількістю входжень \ присутності слів \ фраз;
Якщо тегів на сторінці немає, використовує перші 30 слів, які індексує і показує замість опису (tag description)
Найбільш цікава можливість AltaVista - це розширений пошук. Тут варто відразу обмовитися, що, на відміну від багатьох інших систем AltaVista підтримує одномісний оператор NOT. Крім цього, є ще й оператор NEAR, який реалізує можливість контекстного пошуку, коли терміни повинні розташовуватися поруч у тексті документа. AltaVista дозволяє пошук за ключовими фразами, при цьому вона має досить великий фразеологічний словник. Крім усього іншого, при пошуку у AltaVista можна задати ім'я поля, де має зустрітися слово: гіпертекстове посилання, applet, назва образу, заголовок і ряд інших полів. На жаль, докладно процедура ранжирування в документації по системі не описана, але видно, що ранжування застосовується як при простому пошуку, так і при розширеному запиті. Реально цю систему можна віднести до системи з розширеним булевим пошуком.

2.5 Yahoo
Дана система з'явилася в Мережі однією з перших, і сьогодні Yahoo співпрацює з багатьма виробниками засобів інформаційного пошуку, а на різних її серверах використовується різне програмне забезпечення. Мова Yahoo досить простий: всі слова слід вводити через пробіл, вони з'єднуються зв'язкою AND або OR. При видачі не вказується ступінь відповідності документа запиту, а тільки підкреслюються слова з запиту, які зустрілися в документі. При цьому не проводиться нормалізація лексики і не проводиться аналіз на "загальні" слова. Хороші результати пошуку виходять тільки тоді, коли користувач знає, що в базі даних Yahoo інформація є напевно. Ранжування проводиться за кількістю термінів запиту в документі. Yahoo відноситься до класу простих традиційних систем з обмеженими можливостями пошуку.
2.6 OpenText
Інформаційна система OpenText являє собою самий комерціалізованої інформаційний продукт у Мережі. Всі описи більше схожі на рекламу, ніж наінформативний посібник по роботі. Система дозволяє провести пошук з використанням логічних конекторів, однак розмір запиту обмежений трьома термінами або фразами. У даному випадку мова йде про розширеному пошуку. При видачі результатів повідомляється ступінь відповідності документа запиту та розмір документа. Система дозволяє також поліпшити результати пошуку в стилі традиційного булевого пошуку. OpenText можна було б віднести до розряду традиційних інформаційно-пошукових систем, якщо б не механізм ранжування.

2.7 Infoseek.
У цій системі індекс створює робот, але він індексує не весь сайт, а лише вказану сторінку. При цьому робот має такі пріоритети:
· Слова в заголовку <title> мають найвищий пріоритет;
· Слова в теге keywords, description і частота входжень \ повторень у самому тексті;
· При повторенні однакових слів поруч викидає з індексу
· Допускає до 1024 символів для тега keywords, 200 символів для тега description;
· Якщо теги не використовувалися, індексує перші 200 слів на сторінці і використовує як опис;
Система Infoseek має досить розвиненим інформаційно-пошуковим мовою, що дозволяє не просто вказувати, які терміни повинні зустрічатися в документах, але й своєрідно зважувати їх. Досягається це за допомогою спеціальних знаків "+" - термін зобов'язаний бути в документі, і "-" - термін повинен відображатися в документі. Крім цього, Infoseek дозволяє проводити те, що називається контекстним пошуком. Це означає, що використовуючи спеціальну форму запиту, можна зажадати послідовної спільної зустрічальності слів. Також можна вказати, що деякі слова мають спільно зустрічатися не тільки в одному документі, а навіть в окремому параграфі або заголовку. Є можливість вказівки ключових фраз, що становлять єдине ціле, аж до порядку слів. Ранжування при видачі здійснюється за кількістю термінів запиту в документі, за кількістю фраз запиту за вирахуванням загальних слів. Всі ці фактори використовуються як вкладені процедури. Підводячи коротке резюме, можна сказати, що Infoseek належить до традиційних систем з елементом зважування термінів при пошуку.

Пошукові роботи

За останні роки Всесвітня павутина стала настільки популярною, що зараз доступ до Інтернету є одним з основних засобів публікації інформації. Коли розмір Мережі виріс з декількох серверів і невеликого числа документів до величезних меж, стало ясно, що ручна навігація по значній частині структури гіпертекстових посилань більше не є можливою, не кажучи вже про ефективне методі дослідження ресурсів.
Ця проблема спонукала дослідників Інтернет на проведення експериментів з автоматизованою навігацією по Мережі, названої "роботами". Веб-робот - це програма, яка переміщається по гіпертекстовій структурі Мережі, запитує документ і рекурсивно повертає всі документи, на які даний документ посилається. Ці програми також інколи називають "павуками", "мандруєте", або "хробаками" і ці назви, можливо, більш привабливі, однак, можуть ввести в оману, оскільки термін "павук" і "мандрівник" створена помилкове уявлення, що робот сам переміщається , а термін "хробак" міг би мати на увазі, що робот ще і розмножується подібно інтернетівському вірусу-хробака. У дійсності, роботи реалізовані як проста програмна система, яка запитує інформацію з віддалених ділянок Інтернет, використовуючи стандартні Мережеві протоколи.

12 3 Следующая ⇒

Поиск по сайту: