Антивирусные программы США
Краткие характеристики ЛИ ПС Internet
Москва 2005
Проверил преподаватель
Мировые информационные ресурсы и сети
По курсу
Отчет о лабораторной работе
Им. Г. В. ПЛЕХАНОВА
ИНСТИТУТ ИНФОРМАТИКИ
«Информационно-поисковые системы Internet»
Выполнил ст.___________
AltaVista (http://www.altavista.com/)
По количеству индексированных Web-страниц Alta Vista — одна из крупнейших (но не самая крупная, как это иногда считается) поисковых систем мира. Огромный объем охвата Web-пространства и мощный набор поисковых команд делают эту систему излюбленным средством поиска для большинства пользователей. Система была запущена в эксплуатацию в декабре 1995 г. и долгое время считалась молодой, но бурно развивающейся. Для начинающих система имеет упрощенную службу, которая называется Ask Alta Vista. В своей работе эта служба привлекает другую поисковую службу — Ask Jeeves. Несмотря на то, что сегодня Alta Vista уже не является самым удобным средством поиска и владеет не самым большим индексом, ее популярность по-прежнему выше, чем у служб, которые превзошли ее по многим показателям, что связано с устоявшимися привычками миллионов пользователей.
Rambler (http://www.rambler.ru)
По статистике 2/3 посетителей Rambler пользуются лишь его поисковыми возможностями. По качеству поиска Rambler пока несколько уступает порталу «Япёех», который постоянно совершенствует свою систему.
Вариант № | Тематика поиска | ИПС 1 ИПС 2 |
Антивирусные программы, США, 2001 г. | Rambler AltaVista |
В ИПС 1 запрос будет выглядеть следующим образом:
Дата документа начиная с 01.01.2001 по 31.12.2001 Исключить документы, содержащие хотя бы одно из следующих слов: 2002
В ИПС 2 соответственно:
all of these words: США
this exact phrase: антивирусные программы by date range: 1 January 2001 - 31 December 2001 and none of these words: 2002.
Результаты поиска: А = 99, В = 55, А п В = 12.
Проиндексировано страниц в Rambler — более 2 млн, Altavista — более 50 млн страниц (D= 50 ООО ООО).
Оценим значения мер близости:
• мера Танимото:
Л' = = -Т-^Б—F = 12/(" + 55 " 12) * °'0845;
\А vj В\ А + В - С
• корреляционный коэффициент:
д \С\\Р\-\А\\В\
2 M\b\\D-A\\D-B\ = (12 ■ 50 ООО ООО - 99 ■ 55)/(99 -55 -49 999 901 х х 49 999 945)|/2 « 0,163.
Выводы
Проблема поиска информации, опубликованной в Internet (представленной в виде документов на естественном языке), все больше выходит за рамки узкокоммерческих проблем и становится общечеловеческой проблемой. Развитие высокотехнологичного общества во многом сдерживается принципиальными недостатками существующих распространенных методов доступа к информации, один из важнейших компонентов которой — поиск — совершенно неадекватен характеру и гигантскому объему доступной информации.
Огромные размеры и гетерогенная структура сети Internet приводят к тому, что традиционные технологии нахождения документов перестают быть эффективными. Несмотря на это, основным способом поиска информации в сети до сих пор остается «булевский» полнотекстовый поиск с использованием выделенных словных индексов, поскольку исторически только он мог обеспечить приемлемую производительность систем массового уровня, не требующих специальной подготовки от пользователя.
Рассмотренные две системы поиска Rambler и Altavista между собой слабо связаны, о чем свидетельствует коэффициент корреляции, который меньше 0,2. Мера Танимото показывает близость терминов, которая не учитывает корреляционные связи между признаками.
Оглавление
Введение ................................................................................... 3
Глава 1. КОМПЬЮТЕРНЫЕ СЕТИ
И ТЕЛЕКОММУНИКАЦИОННЫЕ ТЕХНОЛОГИИ: ОСНОВНЫЕ ПОНЯТИЯ, ЭЛЕМЕНТЫ И СТРУКТУРЫ ........................................................................................... 8
1.1. Системы «терминал — хост».............................................. 9
1.2. Системы «клиент — сервер» ......................................................... 10