Основы Интернета
5.04.2004
22.03.2004
БД это совокупность структурно взаимосвязанных данных, предназначенных для обеспечения информационных запросов в определенной предметной области.
Просопографическая БД это важный класс исторических БД, каждая такая БД содержит динамические сведения о биографии членов определенной социальной группы(полит.элита, группа единомышленников и т.д.).
Концептуальная модель БД:
Ее основное понятие – понятие сущностей, объектов реального мира, обладающих набором атрибутов.
Признаки = атрибуты.
Ключевой атрибут: среди атрибутов объекта обязательно должен быть уникальный, т.е. однозначно определяющим объект. Он называется идентификатором или ключевым атрибутом.
Название фирмы может быть ключевым атрибутом.
Ключевой атрибут необходим для работы в реляционной базе данных с несколькими таблицами.
Реляционные БД – все данные в БД представляются в виде таблиц, в строках которых располагаются записи, различающиеся значениями уникального ключа (идентификатора), а в столбцах элементы, снабженные именами. Все операции не относятся к отдельным элементам, а к строкам и таблицам в целом.
Свойства реляционной таблицы.
1) Все столбцы однородны, т.е. все элементы имеют одинаковую природу.
2) Столбцам присвоены уникальные имена.
3) Все строки имеют одну и ту же структуру, т.е. одно и то же количество атрибутов с соответственно одинаковыми именами.
4) Нет одинаковых строк – каждая строка имеет уник. Идентификатор.
5) В операциях с таблицей ее строки и столбцы могут просматриваться в любом порядке и любой последовательности безотносительно к их информационному содержанию и смыслу.
6) Все атрибуты должны быть «атомарными»
Основные функции БД.
ü Хранить данные этой БД
ü Производить поиск в БД
Создание БД(для исторического исследования).
1. определить круг источников.
2. определить структуру БД.
3. ввести данные.
Язык запросов – специальная программа для удобного и эффективного поиска информации.
Булева алгебра-операция and(перенесение), or(объединение), not(разности).
При проведении запросов в поле запроса вводятся только те таблицы, к которым будет обращен запрос.
Групповые запросы – особый тип запросов по критериям.
АИПС – комплекс программных и лингвистических средств, обеспечивающих отбор по заданным признакам документов, хранящихся на машиночитаемых носителях, обычно в виде БД.
Классификация:
1. Документографические (документальные ИПС). Полнотекстовая (первичные документы) или реферативная, справочная информация (вторичные документы).
2. Фактографические ИПС. Хранятся не документы, а факты, относящиеся к какой-либо предметной области.
Документальный поиск.
1. поиск конкретного документа(по реквизитам).
2. поиск информации в комплексе документов по ключевым словам.
3. аналитический информационный поиск с использованием формализованных параметров текста, например,его статистических характеристик.
Методы извлечения информации.
1. поиск по реквизитам.
2. контекстовый поиск.
3. индексирование(создание текст.и полнотекст.БД)
4. использование гипертекста.
Структура электронного текста.
ü Формальная структура.
Текст – как линейная последовательность символов, исп.направление от первого к последнему.
ü Содержательная структура.
Текст подчиняется той или иной степени логики естественного языка с проблемами его интерпретации.
Виды документальных ИПС.
ü Одноконтурные
ü Двухконтурные (адрес в виде гиперссылки)
Дескрипторные системы.
Дескриптор – слово или словосочетание, тесно связанное с содержанием документа. Совокупность дескрипторов определяет группу дескрипторов со сходным содержанием.
Индексирование документов.
Цель – принять некоторое количество индексов-дескрипторов, отражающих его содержание. Процесс индексирования требует анализа информации с выделением смысловых аспектов.
***
Обеспечение целостности данных- целостность данных БД означает проверку совместимости номеров объектов в разных таблицах БД.
16.04.2004 Интернет – глобальная сеть.
Сетевые БД позволяют работать в режиме online.
Основное направление Интернета – создание тематических ресурсов.
Первой возникла ARPANET – компьютерная сеть, разработанная Министерством обороны США в 1969 г. для телекоммуникационной связи разработчиков.
К концу 80-х она получила название INTERNET(International Network). К этому же времени относиться начало его коммерческого использования. Всеобщее распространение – нач.90-х.
В России использование Интернета активизировалось после августовского путча.
Интернет отличают высокие темпы развития. Сейчас Интернетом пользуется более одного миллиарда людей.
Кол-во пользователей – неравномерно.
Больше всего в:
- Скандинавия(Финляндия, Швеция, Норвегия, Дания)
- США
- Канада
- Япония
- Сингапур
Интернет – самое заметное явление после появления ПК.
2 направления активности историков в работе с Интернетом.
ü Историк – потребитель информации
ü Критическое осмысление нового вида источниковой информации – компьютерное источниковедение
Азбука Интернета.
Интернет – совокупность компьютеров, соединенных между собой линиями связи.
ü Серверы – здесь располагаются ресурсы Интернета
ü Пользовательские компьютеры
Интернет – распределенная информационная система.
Программы для связи называются протоколами:
ü TCP (transition control protocol – обеспечивает установление надежного соединения между двумя компьютерами)
ü IP(internet protocol – обеспечивает доставку по адресу сетевых пакетов - маршрутизацию)
DNS (Domain Name System) – система имен ресурсов, расположенных в интернете.
Работа в интернете устроена по принципу «клиент-сервер». На компьютере работает программа «клиент», которая обращается за услугой к серверу, используя соответствующий язык протокола.
HTTP (Hyper Text Transfer Protocol) – гипертекстовый протокол передачи данных.
Гипертекст это такая структура электронного текста, при которой текст встроен в гиперссылки на другие фрагменты того же текста.
Расширение гипертекста→гипермедиа – ссылки идут не только на текстовые фрагменты, но и на другие виды информации.
URL (Uniform Resource Located) – единый определитель местоположения ресурса.
Website – место в Интернет-сети, на которой расположен нужный ресурс. Более мелкие части – веб-страницы.
Webportal – узел, который представляет из себя тематический сайт с разветвленной структурой, содержание которого должно обеспечивать информацией ресурсы по соответствующей тематической области, включая и сеть ссылок на соответствующие ресурсы всего Интернета.
Хостинг – это сервер, который используется для платного или бесплатного предоставления памяти разработчикам сайтов.
Browser – программа, которая обеспечивает просмотр и загрузку сетевого содержания, отображает гипермедиа документы (MS Internet Explorer, Netscape Navigator, Mozilla, Opera).
HTML (Hyper Text Mark-Up Language) – это специальный язык для разметки документов, которые должны иметь гипертекстовую структуру.
ИПС (Информационно-поисковые системы) – специальные программы, позволяющие последовательно оптимально находить нужные ресурсы.
Поисковые машины и каталоги (Yahoo.com, Google.com, Yandex.ru, Rambler.ru, Aport.ru)
Механизмы поиска:
Spider – прощупывает каждое слово на сайте.
Crawler- более поверхностно, просматривает только индексированные слова и заголовки.