Какая математика нужна для Data Science?
Сложные математические дисциплины не кажутся такими далекими и не применимыми на практике, когда речь идёт об анализе данных. Data Science изучают и интерпретируют данные, систематизируют огромные объемы информации. В этом им и помогают знания некоторых разделов математики. Теория, аксиомы, графики и формы — всё это находит применение в работе. Tutortop решил выяснить, какая именно математика важна для анализа данных и что из специальной литературы можно почитать.
Среди разделов математики, важных для Data Science выделяют:
- теорию вероятности и статистику;
- линейную алгебру;
- математический анализ и оптимизацию;
- дискретную математику.
Знания математики прежде всего важны для понимания внутренних процессов. При помощи этой науки возможно понять, как корректно проанализировать данные и на их основе выстроить модель для обучения алгоритма.
Теория вероятности и статистика
Data Scientists должны иметь общее представление о теории вероятности и статистике, знать основные понятия. Сама по себе статистика была задумана в качестве науки о данных: исследования, проводившиеся в этой области помогали выявить определенные закономерности. Она хорошо помогает, когда нужно найти зависимость между двумя или более входными данными. Например, понять, в какой из дней чаще всего пользователи покупали товар. И теория вероятности, и статистика выручают, когда речь идёт о большом массиве данных с конечным результатом. Представьте, что нужно вычислить закономерность или понять, случайно или нет пользователи закрывают всплывающее окно: здесь поможет теория вероятности.
Помимо этого аналитики данных пользуются статистикой и теорией вероятности для проверки гипотез. Они следят за колебаниями, отслеживают реакцию пользователей и выявляют тенденцию в их выборе.
Линейная алгебра
Большой и значимый раздел математики, необходимый для понимания того, как алгоритмы вступают в связь с потоком данных. В ней есть векторы, матрицы и наборы матриц. Даже самую сложно структурированную или обширную информацию можно представить в виде матрицы. Допустим, вам выдали таблицу погашения кредита с расчетами на каждый месяц. Целиком её можно назвать набором матриц, один месяц содержит массив цифр или считается просто матрицей, а цифры внутри таблицы — векторы. Более приближенный к этой сфере пример — набор приложений с разным функционалом. Каждое из них содержит совершенно разную информацию, но имеет какие-то общие входные данные. Если есть цель, провести комплексный анализ: о пользователях, их предпочтениях, количествах кликов, регистрации и других показателях, то важна вся информация. Набор данных по каждому приложению — это вектор. А собранная информация по всем приложениям — матрица.
Алгоритмы нейросети применяют линейную алгебру для анализа сетевых структур. Её также используют при создании рекомендательных систем. При хорошем понимании понятия “матрица” и “набор матриц” аналитику данных легче разобраться в работе инструментов для работы.
Математический анализ и оптимизация
Математический анализ кажется прям-таки университетской дисциплиной, которая ну вряд ли пригодится в работе. Без него не получится изучить deep learning (так называют вид машинного самообучения при помощи нейронных сетей, в нем используется большой набор данных). Этот раздел включает в себя интегралы и дифференциалы. В анализе данных они нужны в большинстве случаев для оптимизации: при её помощи легче подобрать параметры для каждой функции. Ещё одна задача оптимизации — свести к минимуму количество ошибок и найти более подходящий вариант для поддержания задачи “на плаву”. Минимизация рисков нужна в любой из сфер: например, уменьшить расходы на аренду помещения, доставку товара, топливо.
Дискретная математика
В основе вычислительных систем, важных для анализа данных, лежат как раз основы дискретной математики. Эти знания помогут применять алгоритмы и структурировать данные для дальнейшей работы. Лучше всего начать с изучения основ индуктивной и дедуктивной логики, а также функции роста и других счетных функции. Чаще всего знания из дискретной математики используются аналитиками данных при поиске наиболее быстрого алгоритма.
Что из математики могут спросить на собеседовании
Разброс вопросов большой: перед собеседованием стоит подготовиться к тому, что задачка может быть как теоретической, так и прикладной. Математическое задание по одному из разделов или же алгоритм решения проблемы — тут уже на выбор принимающей стороны.
Обучение математике для аналитики данных
Изучение базовой математики для анализа данных возможно даже с нуля. Использовать для этого только учебники — не всегда эффективно. Как в любом деле, здесь важна практика и прикладные задачи. При этом Tutortop не уменьшает значения профильной литературы: хорошими книгами по математике для data science мы поделимся ниже, а пока расскажем о том, как быстро и эффективно погрузиться в эту дисциплину. Стоит попробовать пойти на онлайн-курсы: математика для data science. Они составлены таким образом, что слегка скучная и для многих непонятная теория применяется для решения реальных рабочих задач. Практики обрадуются, что им больше не нужно будет сидеть над решением уравнений: на курсе расскажут и покажут, какая польза этих самых уравнений для работы, как проще подходить к делу и справляться с задачами в разы быстрее.
Вот несколько таких курсов, на которые стоит обратить внимание:
- Data Scientist с гарантией трудоустройства от Eduson Academy
- Профессия: Data Scientist с гарантией трудоустройства от ProductStar
- Data Scientist: с нуля до middle от Нетологии
Базовые книги по математике
«Линейная алгебра», В. А. Ильин, Э. Г. Позняк
Учебник сделали для ребят, обучающихся по специальностям «Физика» и «Прикладная математика». В нем есть информация о теории матриц и определителей, конечномерных линейных и евклидовых пространств, а также хорошее объяснение системы линейных уравнений. Это качественная и проверенная временем теория, которую при должном уровне старания легко применить на практике.
«Время переменных. Математический анализ в безумном мире», Орлин Б.
Если первая книга основательная и более серьезная, то эта — полная противоположность. Бен Орлин написал 28 небольших рассказов, которые посвящены разным аспектам математики. Плюсом к рассказам идут авторские рисунки, уместные шутки и так называемый игровой формат обучения.
«Практическая статистика для специалистов Data Sciencе», П. Брюс, Э. Брюс
Авторы доступным языком рассказывают о ключевых понятиях из статистики, которые имеют отношение к анализу данных. Они объясняют, почему именно эти понятия важны в работе, а на какие стоит обращать меньше внимания. В книге раскрываются такие темы, как проверка значимости, классификация, регрессия, разведочный анализ данных и другие. По уровню знаний она подойдет тем, кто уже знаком с основными понятиями статистики и сталкивался с ней в учебе или работе.
«Курс математического анализа», Л. Д. Кудрявцев
Хороший учебник для тех, кто хочет подробнее узнать о дифференциальных и интегральных исчислениях, теории рядов, функциональном и гармоническом анализе. Эту книгу также рекомендуют для студентов математических и физико-математических специальностей. Большой её плюс в том, что тщательно разбираются аналитические методы, которые важны в работе data science.
Сводные таблицы — удобный инструмент для анализа большого количества вводных данных. Их часто используют для финансовой отчётности в компаниях, где много различной продукции. Так можно быстро узнать о количестве продаж одного наименования, посмотрет...
Многие рассматривают трейдинг как способ быстрого и лёгкого заработка. Это не всегда так. Занятие трейдингом требует определённых навыков, знаний и терпения. Поэтому если вы готовы учиться и работать над собой, у вас есть все шансы стать успешным тр...
Любой компании нужно постоянно анализировать свою деятельность и улучшать рабочие процессы, чтобы сохранить конкурентоспособность. Роль бизнес-аналитика в этом процессе является ключевой. В этой статье мы подробно расскажем, что делает бизнес-аналит...
Microsoft Excel — инструмент для работы с данными и числами, одно из его функций является округление до десятых, сотых и тысячных. Функция округления числа нужна для замены точного числа на приближённое или снижение погрешности в вычислениях. В этой...
Диаграмма Ганта — это мощный инструмент управления проектами, который позволяет визуализировать и планировать задачи, сроки в проекте. В этой статье в нашем блоге мы рассмотрим, что такое диаграмма Ганта и поделимся советами её построения. Диагра...
Сортировка данных в Microsoft Excel — это важная и часто используемая операция при работе с таблицами и данными. Она позволяет упорядочить информацию по заданным критериям для более удобного анализа и поиска необходимых данных. В этой статье мы расс...