Дата обновления: 13 Февраля 2024
24.10.2022
15284
8.5 мин

Какая математика нужна для Data Science?

Сложные математические дисциплины не кажутся такими далекими и не применимыми на практике, когда речь идёт об анализе данных. Data Science изучают и интерпретируют данные, систематизируют огромные объемы информации. В этом им и помогают знания некоторых разделов математики. Теория, аксиомы, графики и формы — всё это находит применение в работе. Tutortop решил выяснить, какая именно математика важна для анализа данных и что из специальной литературы можно почитать.

Среди разделов математики, важных для Data Science выделяют:

  • теорию вероятности и статистику;
  • линейную алгебру;
  • математический анализ и оптимизацию;
  • дискретную математику.

Знания математики прежде всего важны для понимания внутренних процессов. При помощи этой науки возможно понять, как корректно проанализировать данные и на их основе выстроить модель для обучения алгоритма.

Теория вероятности и статистика  

Data Scientists должны иметь общее представление о теории вероятности и статистике, знать основные понятия. Сама по себе статистика была задумана в качестве науки о данных: исследования, проводившиеся в этой области помогали выявить определенные закономерности. Она хорошо помогает, когда нужно найти зависимость между двумя или более входными данными. Например, понять, в какой из дней чаще всего пользователи покупали товар. И теория вероятности, и статистика выручают, когда речь идёт о большом массиве данных с конечным результатом. Представьте, что нужно вычислить закономерность или понять, случайно или нет пользователи закрывают всплывающее окно: здесь поможет теория вероятности.

Помимо этого аналитики данных пользуются статистикой и теорией вероятности для проверки гипотез. Они следят за колебаниями, отслеживают реакцию пользователей и выявляют тенденцию в их выборе.

Линейная алгебра 

Большой и значимый раздел математики, необходимый для понимания того, как алгоритмы вступают в связь с потоком данных. В ней есть векторы, матрицы и наборы матриц. Даже самую сложно структурированную или обширную информацию можно представить в виде матрицы. Допустим, вам выдали таблицу погашения кредита с расчетами на каждый месяц. Целиком её можно назвать набором матриц, один месяц содержит массив цифр или считается просто матрицей, а цифры внутри таблицы — векторы. Более приближенный к этой сфере пример — набор приложений с разным функционалом. Каждое из них содержит совершенно разную информацию, но имеет какие-то общие входные данные. Если есть цель, провести комплексный анализ: о пользователях, их предпочтениях, количествах кликов, регистрации и других показателях, то важна вся информация. Набор данных по каждому приложению — это вектор. А собранная информация по всем приложениям — матрица. 

Алгоритмы нейросети применяют линейную алгебру для анализа сетевых структур. Её также используют при создании рекомендательных систем. При хорошем понимании понятия “матрица” и “набор матриц” аналитику данных легче разобраться в работе инструментов для работы. 

Математический анализ и оптимизация 

Математический анализ кажется прям-таки университетской дисциплиной, которая ну вряд ли пригодится в работе. Без него не получится изучить deep learning (так называют вид машинного самообучения при помощи нейронных сетей, в нем используется большой набор данных). Этот раздел включает в себя интегралы и дифференциалы. В анализе данных они нужны в большинстве случаев для оптимизации: при её помощи легче подобрать параметры для каждой функции. Ещё одна задача оптимизации — свести к минимуму количество ошибок и найти более подходящий вариант для поддержания задачи “на плаву”. Минимизация рисков нужна в любой из сфер: например, уменьшить расходы на аренду помещения, доставку товара, топливо.

Дискретная математика 

В основе вычислительных систем,  важных для анализа данных, лежат как раз основы дискретной математики. Эти знания помогут применять алгоритмы и структурировать данные для дальнейшей работы. Лучше всего начать с изучения основ индуктивной и дедуктивной логики, а также функции роста и других счетных функции. Чаще всего знания из дискретной математики используются аналитиками данных при поиске наиболее быстрого алгоритма.

Что из математики могут спросить на собеседовании 

Разброс вопросов большой: перед собеседованием стоит подготовиться к тому, что задачка может быть как теоретической, так и прикладной. Математическое задание по одному из разделов или же алгоритм решения проблемы — тут уже на выбор принимающей стороны. 

Обучение математике для аналитики данных

Изучение базовой математики для анализа данных возможно даже с нуля. Использовать для этого только учебники — не всегда эффективно. Как в любом деле, здесь важна практика и прикладные задачи. При этом Tutortop не уменьшает значения профильной литературы: хорошими книгами по математике для data science мы поделимся ниже, а пока расскажем о том, как быстро и эффективно погрузиться в эту дисциплину. Стоит попробовать пойти на онлайн-курсы: математика для data science. Они составлены таким образом, что слегка скучная и для многих непонятная теория применяется для решения реальных рабочих задач. Практики обрадуются, что им больше не нужно будет сидеть над решением уравнений: на курсе расскажут и покажут, какая польза этих самых уравнений для работы, как проще подходить к делу и справляться с задачами в разы быстрее.

Вот несколько таких курсов, на которые стоит обратить внимание:

Базовые книги по математике 

«Линейная алгебра», В. А. Ильин, Э. Г. Позняк

Учебник сделали для ребят,  обучающихся по специальностям «Физика» и «Прикладная математика». В нем есть информация о теории матриц и определителей, конечномерных линейных и евклидовых пространств, а также хорошее объяснение системы линейных уравнений. Это качественная и проверенная временем теория, которую при должном уровне старания легко применить на практике.

«Время переменных. Математический анализ в безумном мире», Орлин Б.

Если первая книга основательная и более серьезная, то эта — полная противоположность. Бен Орлин написал 28 небольших рассказов, которые посвящены разным аспектам математики. Плюсом к рассказам идут авторские рисунки, уместные шутки и так называемый игровой формат обучения. 

«Практическая статистика для специалистов Data Sciencе», П. Брюс, Э. Брюс

Авторы доступным языком рассказывают о ключевых понятиях из статистики, которые имеют отношение к анализу данных. Они объясняют, почему именно эти понятия важны в работе, а на какие стоит обращать меньше внимания. В книге раскрываются такие темы, как проверка значимости, классификация, регрессия, разведочный анализ данных и другие. По уровню знаний она подойдет тем, кто уже знаком с основными понятиями статистики и сталкивался с ней в учебе или работе.

«Курс математического анализа»,  Л. Д. Кудрявцев

Хороший учебник для тех, кто хочет подробнее узнать о  дифференциальных и интегральных исчислениях, теории рядов, функциональном и гармоническом анализе. Эту книгу также рекомендуют для студентов математических и физико-математических специальностей.  Большой её плюс в том, что тщательно разбираются аналитические методы, которые важны в работе data science.

Хочу изучать математику для анализа данных!
Если вы хотите прокачать свои знания для работы, то ищите подходящий курс на сайте tutortop. Для вас мы сформировали отдельную подборку лучших онлайн-курсов на рынке и сравнили их по множеству показателей.
Посмотреть подборку