Тема 5. Методы кластеризации
Тема 4. Методы ассоциация
Тема 3. Методы предподготовки данных
Тема 2. Основные понятия математической статистики
Тема 1. Введение в анализ данных
С ОБЕСПЕЧИВАЕМЫМИ ДИСЦИПЛИНАМИ
ОБЪЁМ ДИСЦИПЛИНЫ И ВИДЫ УЧЕБНОЙ РАБОТЫ
Общая трудоёмкость дисциплины составляет 4 зачётных единиц.
Вид промежуточной аттестации – тестирование
Вид итоговой аттестации - зачет.
| Вид учебной работы | Часы | Семестры |
| Общая трудоёмкость дисциплины | ||
| Аудиторные занятия | ||
| Лекции (Л) | ||
| Практические занятия (ПЗ) | ||
| Самостоятельная работа | ||
| В семестре | ||
| В сессию |
МЕЖДИСЦИПЛИНАРНЫЕ СВЯЗИ РАЗДЕЛОВ И ТЕМ ДИСЦИПЛИНЫ
| №п/п | Наименование обеспечиваемых (последующих) дисциплин базовой части | Номера разделов данной дисциплины, необходимых для изучения обеспечиваемых (последующих) дисциплин базовой части | ||||
| Математика | * | * | * | * | * | |
| Теория вероятностей и математическая статистика | * | * | * | * | ||
| Эконометрика | * | * | * |
СТРУКТУРА ДИСЦИПЛИНЫ (ТЕМАТИЧЕСКИЙ ПЛАН)
| № п/п | Наименование раздела и темы дисциплины | Трудоёмкость в часах | ||||
| Всего часов | Аудиторная работа | Внеауди-торная (самостоя-тельная) работа | ||||
| Общая | Лек-ции | Семинары и/или практичес- кие занятия | Общая | |||
| Введение в анализ данных | ||||||
| Основные понятия математической статистики. | ||||||
| Методы предподготовки данных | ||||||
| Методы ассоциация | ||||||
| Методы кластеризации | ||||||
| Методы классификации и регрессии | ||||||
| Анализ и прогнозирование временных рядов | ||||||
| Ансамбли моделей | ||||||
| Всего |
СОДЕРЖАНИЕ ДИСЦИПЛИНЫ
Введение в анализ данных. Проблема обработки данных. Матрица данных. Гипотезы компактности и скрытых факторов. Структура матрицы данных и задачи обработки. Матрица объект-объект и признак-признак. Расстояние и близость. Измерение признаков. Отношения и их представление. Основные проблемы измерений. Основные типы шкал. Проблема адекватности. Основные задачи анализа и интерпретации данных
Основные понятия теории вероятности. Понятие случайной величины. Распределения. Выборочный метод. Оценка параметров распределения. Проверка статистических гипотез.
Оценка качества данных. Технологии и методы оценки качества данных. Очистка и предобработка. Фильтрация данных. Обработка дубликатов и противоречий. Выявление аномальных значений. Восстановление пропущенных значений. Введение в сокращение размерности. Сокращение числа признаков.
Ассоциативные правила. Алгоритм Apriori. Иерархические ассоциативные правила. Последовательные шаблоны. Примеры применения методов ассоциации в анализе бизнес-информации.
Кластеризация. Алгорим кластеризации k-means. Сети Кохонена. Карты Кохонена. Проблемы алгоритмов кластеризации. Примеры применения методов кластеризации в анализе бизнес-информации.
Тема 6. Методы классификации и регрессии
Введение в классификацию и регрессию. Статистические методы. Линейная регрессионная модель. Множественная регрессия. Логистическая регрессия. Деревья решений. Алгоритм ID3, C4.5, CART. Нейронные сети. Алгоритмы обучения нейронных сетей. Алгоритм обратного распространения ошибки. Примеры применения методов классификации в анализе бизнес-информации. Примеры применения методов регрессии в анализе бизнес-информации.