Как получить профессию аналитик данных

Опубликовано: 03.10.2024

Данные собирают все — от магазинов и ресторанов до компаний-монополистов и приложений с миллионной аудиторией. Аналитик данных помогает сделать так, чтобы собранная информация приносила пользу бизнесу. Мы выяснили, какие задачи вместе с экспертами решает такой специалист и почему ему нужно разбираться в бизнес-процессах не хуже владельца компании.

Кто такой аналитик данных

Аналитик данных (или дата-аналитик) — это специалист, который собирает, обрабатывает, изучает и интерпретирует данные. Его работа помогает принимать решения в бизнесе, управлении и науке. Обычно такие специалисты работают в компаниях, которые практикуют data-driven подход — ориентируются на данные и их анализ при принятии решений. Курс «Аналитик данных» Яндекс.Практикума рассчитан именно на это направление.

«Любой продукт, у которого есть аудитория, собирает данные. Аналитика есть в телекоме, банках, играх, консалтинге. Если сильно обобщить, то можно сказать так: там, где есть возможность сохранять данные о продукте и поведении пользователя, рано или поздно должен появиться аналитик», — говорит Анна Чувилина, автор и менеджер программы «Аналитик данных».

Аналитик данных — важный участник бизнеса, потому что обеспечивает уверенность в принятии решений. Создавать новый продукт очень дорого, а ошибка при внедрении новой функции может стоить компании репутации и прибыли. Дата-аналитики проводят А/B-тесты и строят модели, чтобы проверить, как пользователи или клиенты реагируют на нововведения, и оценить перспективы того или иного проекта. Это дешевле и снижает риски бизнеса. Чтобы делать свою работу хорошо, аналитик должен видеть бизнес-процессы. Поэтому важно, чтобы он мог влиять на процесс принятия решения, основываясь на результатах своих исследований. Иначе работа такого специалиста теряет ценность.

Задачи аналитика данных

Хороший аналитик данных — не просто математик с навыками программиста. Он понимает бизнес-процессы и хорошо знает продукт. Такой специалист разбирается, на чем зарабатывает конкретный бизнес. В результате его работы компания может получать больше прибыли и делать своих пользователей счастливее. Сильный аналитик данных прежде чем взяться за работу всегда спрашивает руководителя о том, какую задачу хочет решить бизнес.

Кроме программных инструментов аналитику данных важно развивать — метапрофессиональные умения, которые помогают делать работу лучше. Это способность налаживать общение с коллегами и партнерами, умение решать проблемы и выходить из конфликтных ситуаций с наименьшими потерями, сильный эмоциональный интеллект. Такие навыки больше связаны с личностью человека, чем с его профессиональным уровнем. Но их тоже можно формировать и развивать.

«Важно не путать дата-саентиста и дата-аналитика. Первый — это программист, знающий определенный набор языков и алгоритмов. Он решает поставленную техническую задачу. А дата-аналитик ставит эту задачу и переводит результат на язык бизнеса. Для этого нужно развивать гибкие навыки: работа с требованиями, визуализация данных, переговоры. То есть понимать самому и уметь объяснить, что дает бизнесу ваша аналитика. Изучить программы недостаточно — нужно критически подходить к задаче», — говорит Алексей Колоколов, эксперт по BI и визуализации данных.

Для каждого бизнеса задачи будут свои, а порядок действий общий. Аналитик данных работает так:

  • собирает данные (формирует запрос сам или получает задачу от менеджеров);
  • знакомится с параметрами набора (какие типы данных собраны, как их можно отсортировать);
  • проводит предварительную обработку (очищает от ошибок и повторов, упорядочивает);
  • интерпретирует (анализирует, собственно решает задачу);
  • делает вывод;
  • визуализирует (так, чтобы на основе вывода можно было принять решение, подтвердить или опровергнуть гипотезу).

Типичные задачи, с которыми приходят к дата-аналитику:

  • Получить выгрузку данных для определенных целей
    Бухгалтерии нужен список сотрудников, у которых в семье пятеро детей, — специалист делает выгрузку из базы данных.
  • Ответить на вопрос бизнеса
    Сделать расчет определенной метрики: сколько сотрудников уволилось до конца испытательного срока в этом году и сколько в предыдущем. Если компания вводит новую систему адаптации, то изменения такой метрики покажут результат.
  • Провести А/B-тестирование
    Нужно выяснить, как пользователи реагируют на то, какого цвета кнопка, зеленого или красного. Аналитик тестирует два прототипа. Часть пользователей видят прототип с зеленой кнопкой, другие — с красной. Он смотрит, как реагировали пользователи, проверяет, было ли различие статистически значимо. В итоге — рекомендует решение, которое проверил в ходе теста: внедрить зеленую или красную кнопку.
  • Провести исследования
    Конкретного вопроса от бизнеса нет, но нужен ресерч: взять внешние или внутренние данные, исследовать, найти аномалии или инсайты, провести пиар-исследование.
  • Просчитать, какой вариант выгоднее
    Юнит-экономика: расчет РОИ, инвестиционного потенциала. Оценить окупаемость рекламной кампании или скорректировать бизнес-модель.
  • Выяснить, какой товар и в какое время больше покупают
    Взять группу товаров и посмотреть, есть ли сезонные всплески интереса, сравнить с другими группами.

Статистика позволяет сделать общие выводы по конкретному вопросу. А аналитика данных — исследовать тему со всех сторон, сравнить решения, найти аномалии или инсайты, сопоставить события по множеству параметров. Это открывает новые возможности для бизнеса.

Дата-аналитик может исследовать внутренние данные компании или обратиться к внешним источникам. Анализ открытых данных позволяет отслеживать важные социальные и культурные тренды.

«Дата-аналитик может глубже исследовать проблему. Например, в наших данных по ДТП в России есть доля водителей, которые нарушили правила ОСАГО. Зная эту долю и то, как она менялась в разные годы, мы можем делать выводы о социально-экономической ситуации в регионе — видим тенденцию, когда водители перестают покупать полисы, потому что у них нет денег.

Из того же датасета мы вытаскивали информацию про скрывшихся водителей. Оказалось, что в Омской области 20% водителей покидают место ДТП. Получив эту информацию, мы можем задавать дополнительные вопросы: почему так происходит, что это за социальные и культурные процессы», — рассказывает Сергей Устинов, аналитик данных и проджект-менеджер.

Как начать строить карьеру

Стереотипы в сфере аналитики данных не работают — неважно, гуманитарное или техническое образование получил дата-аналитик.

«У меня нет технического образования, я учился на факультете госуправления. А Python изучал на курсе биоинформатики для биологов. На мой взгляд, этот язык больше всего подходит для старта, база навыков работы с ним приобретается за два-три месяца. Затем стоит изучать профильные библиотеки для сбора и анализа данных. Чем больше ты знаешь библиотек, тем более качественная аналитика тебе доступна», — говорит Сергей Устинов.

Компании не рассчитывают, что начинающий аналитик данных будет уметь сразу всё. Они готовы обучать и направлять молодого специалиста. Главное — интерес к решению бизнес-задач. Правильно сформулированный перед исследованием вопрос важнее, чем большой опыт работы с программными инструментами.

«Программирование и математику можно выучить. А софтскиллы — нарабатываются опытом и практикой. Поэтому дата-аналитику полезны хакатоны и чемпионаты с решением практических задач. Он увереннее чувствует себя, прокачивая стиль мышления, ориентированный на решение конкретных бизнес-задач», — говорит Анна Чувилина.

Начинающих специалистов в сфере ИТ охотнее всего берут на позиции, связанные с анализом данных: доля вакансий для кандидатов с опытом работы меньше года здесь на четверть выше, чем в целом по рынку.

Работодатели ждут, что начинающий специалист:

  • знает хотя бы один язык программирования: Python или R;
  • умеет писать запросы к базам данных SQL;
  • может показать выводы и метрики в виде понятного дашборда (Tableau, Power BI, Amplitude);
  • хочет разбираться в бизнес-процессах, мыслит в терминах бизнес-задач.

Аналитику данных нужно понимать, что такое статистика и гипотеза. Серьезная математика не пригодится, главное ориентироваться в понятиях. В зависимости от запроса компании могут понадобиться навыки работы с Яндекс.Метрикой или Google Analytics. Опытные программисты с сильной математикой, которые не готовы думать в терминах задач бизнеса, закрывают себе путь в профессию аналитика данных.

«Джуниор вырастает в крутого специалиста, решая реальные кейсы. Потому что насмотренность определяет твой уровень: важно, сколько раз жизнь ставила тебя в ситуацию, когда нужно принимать решение. Развиваться в том, как владеешь инструментами, тоже важно. Но и решение реальных задач помогает аналитику данных расти», — говорит Анна Чувилина.

Аналитик – это специалист по анализу информации, который может найти закономерности даже в самых больших и разрозненных потоках данных. Профессия требует сильно развитого аналитического мышления.

Аналитик – это собирательное название профессии, суть которой сводится к сбору большого количества цифровых данных, их анализу и трактовке полученной информации. Что это за данные – зависит уже от специфики работы такого сотрудника. Аналитик может быть специалистом в области финансов, инвестиций, конкретных рыночных сегментов, инженерии, химии, компьютерного программного обеспечения, рекламы, социологии и так далее. Кстати, в 2021 году центр профориентации ПрофГид разработал точный тест на профориентацию. Он сам расскажет вам, какие профессии вам подходят, даст заключение о вашем типе личности и интеллекте.

Краткое описание: кто такой аналитик?

Аналитик – это человек, которого огромные разрозненные потоки информации приводят не в ужас, а в состояние профессионального азарта. Он способен обнаружить среди этих потоков определенные алгоритмы и закономерности, чтобы в итоге получить новое знание, которое можно будет с успехом применять в сфере его работы.


Особенности профессии

Чаще всего вакансия аналитика предполагает, так или иначе, работу с числами – самой подходящей формой представления информации для проведения исследований, анализа, выявления статистических принципов, прогнозирования и формирования планов дальнейшего развития. То, о чем говорят эти числа, может относиться практически к любой области жизни современного общества. Хотя на практике аналитики все же чаще работают в областях, связанных с финансами, поскольку именно они требуют детальнейшего анализа и предельно четких прогнозов, основанных на реальных данных и научной математике, а не чьей-то интуиции.

Ключевые обязанности аналитика сводятся к следующей последовательности действий:

  • Сбор всех данных, необходимых для проведения анализа, и их первичная обработка (она направлена на приведение данных к единой форме, выделение основных признаков, переменных и неизвестных для анализа и прочие подготовительные работы).
  • Определение основных тезисов исследования, выдвижение гипотез.
  • Непосредственно анализ собранной и стандартизированной информации, выполняемый с помощью математических методов и современного программного обеспечения. В результате анализа гипотезы либо подтверждаются, либо опровергаются.
  • Составление прогнозов, планов развития, проектов, методических рекомендаций, основанных на результатах выполненного анализа.
  • Оформление аналитического отчета о результатах анализа, формирование выводов, их презентация работодателю/клиенту.

Например, бизнес-аналитик может работать в штате конкретной компании и изучать ее финансовые процессы, реальные и потенциальные договора с партнерами, конкурентов, чтобы определить ее слабые и сильные места, предложить оптимальные способы оптимизации ее работы, сокращения расходов и повышения прибыли. Финансовый аналитик может специализироваться на особенностях процессов внутреннего или международного рынка. Некоторые аналитики специализируются на биржевой торговле и могут спрогнозировать перспективность тех или иных инвестиций.

Аналитики, работающие в области компьютерных технологий, совершенствуют концепции и методы разработки программного обеспечения, консультируют по вопросам информационной безопасности, помогают внедрять более совершенные алгоритмы на практике.

Плюсы и минусы профессии аналитик

Плюсы

  1. Высокая зарплата.
  2. Востребованность на рынке труда.
  3. Престижная профессия.
  4. Широкие возможности для переквалификации, работы в различных областях экономики.

Минусы

  1. Необходимость в наличии профильного образования и опыта работы для успешного трудоустройства.
  2. Высокий уровень ответственности.
  3. Работа, всегда требующая использования мозговых ресурсов, умственного напряжения.


Важные личные качества

Очевидно, что успешный аналитик должен обладать крайне ярко выраженными способностями к аналитическому мышлению. Также у него должна быть хорошая память, умение долго сохранять концентрацию, усидчивость, внимательность, способности к оперированию большими объемами информации, дедукции, индукции, ответственность, наблюдательность. Коммуникативные способности тоже не будут лишними, как и профессиональная интуиция (хоть аналитик и должен оперировать сугубо доказуемыми понятиями и выводами).

Обучение на аналитика

Аналитик без высшего образования не может претендовать на получение хороших высокооплачиваемых должностей. С другой стороны, таких специалистов «в чистом виде» отечественные вузы не готовят, да и специфика работы может сильно различаться в зависимости от области деятельности. Самые близкие по характеру и смыслу варианты обучения на аналитика – это профили «Экономика» (код 38.03.01) и «Социология» (код 39.03.01). Набор предметов, которые нужно сдавать для поступления, зависит от специальности и вуза и может включать в себя русский язык, математику, обществознание и иностранный язык. Обучение в обоих случаях длится 4 года на очном отделении, 5 лет – на всех остальных.

Подборка сайтов с бесплатными уроками по изучению больших данных.

Средняя зарплата дата-аналитика, по данным HeadHunter, — 120 тысяч рублей. В материале выделены основные требования в вакансиях дата-аналитиков и места, где можно получить навыки в этой области бесплатно.

Специалисты по работе с большими данными умеют извлекать полезную информацию из всевозможных источников и анализировать её для принятия бизнес-решений. Как правило, аналитики сталкиваются с разрозненной информацией, поэтому важно уметь извлекать нужные данные.

Сейчас профессия дата-аналитика считается одной из самых привлекательных и перспективных в мире. Чтобы стать хорошим аналитиком, нужно больше разбираться в статистике, чем в программировании. Потому что во время работы приходится строить математические модели, которые опишут проблему и фактические данные.

Дата-аналитик работает со случайными величинами и вероятностными моделями, его задача — найти неожиданные закономерности. Поэтому знание теории вероятностей и математической статистики — одно из главных требований к соискателям.

Также необходимо знать языки программирования R или Python и иметь представление о технологиях обработки больших данных. Этих знаний достаточно, чтобы претендовать на начальную позицию дата-аналитика.

Чтобы стать хорошим аналитиком, надо не только разбираться в программировании или статистике, но и отлично знать продукт, а главное, уметь проверять и предлагать гипотезы. Большие данные при правильном применении содержат огромное количество классных инсайтов и идей, как улучшить продукт или определить, что важно.

Но у большинства задач нет однозначного решения или алгоритма: в этом плане анализ данных — работа очень творческая. Важно и умение выбрать правильную визуализацию. Одни и те же данные могут выглядеть случайным набором точек или же рассказать много интересного при правильном подходе.

Во «ВКонтакте» мы работаем с огромными объёмами данных — более 20 млрд измерений в сутки. Информацию собираем на кластер Hadoop и используем различные инструменты для обработки: ответы на простые вопросы нам даёт Hive, а более сложную аналитику помогают осуществлять Spark, Pandas, Sklearn.

Для анализа продуктовых и технических метрик и A/B-экспериментов также используем разработанную нашей командой систему сбора данных, агрегации и визуализации. Благодаря анализу данных мы ежедневно проверяем десятки продуктовых гипотез и проводим сотни экспериментов, которые позволяют нам постоянно совершенствовать продукт, делать наши сервисы более удобными и персонализированными.

Например, в 2015 году мы начали анализировать активность пользователей в ленте новостей и смотреть, что можно улучшить. После большого количества исследований мы пришли к выводу, что можем сделать всё существенно удобнее, и в 2016 году запустили «умную» ленту, максимально интересную и полезную для каждого пользователя.

Мы постоянно продолжаем анализировать активность аудитории. В какой-то момент мы на практике обнаружили, что пользователям хочется расширять свой круг интересов и знакомиться с новыми авторами. Поэтому в 2017 году был запущен раздел «Рекомендации». И сейчас, анализируя растущую активность в новом сервисе, мы видим, что это было правильное решение.

Автор: Codecademy.

Язык: английский.

Уровень: начальный.

Онлайн-платформа Codecademy предлагает интерактивное изучение Python: на одной странице объясняется краткая теоретическая информация и интерпретатор кода. Курс рассчитан на начинающих пользователей и рассказывает о базовых командах языка программирования.

Курс предоставляется условно-бесплатно: получить доступ к контрольным заданиям и работе над проектами можно только по платной подписке. Бесплатные уроки подойдут, чтобы изучить простые конструкции и разобраться в синтаксисе языка.

Автор: Дмитрий Мусин.

Язык: русский.

Уровень: начальный.

Самоучитель Мусина — одна из крупных баз знаний про Python на русском языке. На сайте находится информация о модулях, материалы про анализ данных с помощью библиотеки Pandas, теоретическая информация, примеры задач и полезные ссылки. Также на основе опубликованных статей подготовлен самоучитель в PDF-формате.

Автор: Институт биоинформатики.

Язык: русский.

Уровень: начальный.

На курсе преподаватели знакомят с базовыми понятиями программирования. В качестве домашних заданий предлагается большой объём практических задач — все решения проверяет автоматическая система. При этом преподаватели не дают индивидуальные консультации. В курс также вошли задачи повышенной сложности, которые необязательно решать, чтобы пройти курс.

Автор: Институт биоинформатики.

Язык: русский.

Уровень: средний.

Требования: базовые навыки программирования на Python или других языках программирования.

Студенты курса изучают фундаментальные основы языка: как интерпретатор исполняет код, где он хранит переменные и данные, как определяются собственные типы данных и функции. Курс рассчитан на пользователей, которые знакомы с базовыми навыками программирования.

Проверочные задачи в курсе разделены на два типа: на закрепление материала и поиск способов для применения изученных навыков. Решения проверяются системой.

Автор: Udacity.

Язык: английский.

Уровень: начальный.

Слушатели изучают три базовые темы: использование функций, создание и использование классов. Последний урок посвящён созданию собственных проектов. Обучение строится на работе над мини-проектами и изучении важных концепций. Курс нацелен на тех, кто хочет стать программистом или планирует с ними работать.

Автор: Институт биоинформатики.

Язык: русский.

Уровень: начальный.

В этом курсе преподаватели рассматривают R как язык программирования, а не как инструмент решения конкретных задач. Слушатели изучают основные типы данных и универсальные семантические правила, а также темы, связанные с анализом и обработкой данных.

Автор: Институт биоинформатики.

Язык: русский.

Уровень: средний.

Требования: базовые знания в области статистики.

Преподаватели объясняют основные этапы анализа данных с помощью языка R. Студентам расскажут об основных этапах статистического анализа R, считывании и предварительной обработке данных, применении основных статистических методов и визуализации результатов.

Автор: Microsoft.

Язык: английский.

Уровень: средний.

Требования: курс ориентирован на аналитиков, которым необходимо знание R для работы над статистическими проектами.

Курс разработан Microsoft вместе с Техническим университетом Дании. В курсе рассказывают про основы R, учат читать и записывать данные, работать с ними и получать результаты. Также преподаватели объясняют, как выполнять интеллектуальную аналитику с помощью R и визуализировать данные.

Язык: английский.

Уровень: начальный.

DataCamp предлагает интерактивные курсы изучения R и Python по темам в области науки, статистики и машинного обучения. Проект делает упор на работу с данными. DataCamp сотрудничает с RStudio, Continuum Analytics, Microsoft, привлекает преподавателей из компаний-лидеров Pfizer, Liberty Mutual, H2O, DataRobot и других.

Бесплатная подписка открывает доступ к базовым курсам и первой главе платных. Чтобы получить неограниченный доступ, нужно купить подписку за $29 в месяц или за $300 в год.

Автор: Институт биоинформатики.

Язык: русский.

Уровень: начальный.

На курсе изучают подходы к описанию данных, полученных в ходе исследований, базовые понятия статистического анализа, интерпретацию и визуализацию полученных данных. Основной акцент делается на математических идеях, интуиции и логике, которые обуславливают методы и расчётные формулы.

Автор: Computer Science Center.

Язык: русский.

Уровень: средний.

Требования: знания в области одного из языков программирования: циклы, массивы, списки, очереди.

В курсе разбираются базовые алгоритмические методы: «жадные» алгоритмы, метод «разделяй и властвуй», динамическое программирование. Для всех методов преподаватели показывают математическое доказательство корректности и оценки времени работы.

Также на курсе рассказывают об особенностях реализации алгоритмов на C++, Java и Python. Большинство алгоритмов, которые рассматриваются на курсе, необходимо запрограммировать в рамках выполнения заданий.

Автор: Udacity.

Язык: английский.

Уровень: начальный.

Слушатели курса познакомятся с основными понятиями, используемыми для описания данных. Преподаватели расскажут о методах исследований, научат вычислять и интерпретировать статистические значения, вычислять простые вероятности. Студенты изучат законы распределения и научатся управлять ими для создания вероятностных прогнозов данных.

Автор: Udacity.

Язык: английский.

Уровень: начальный.

Требования: прохождение курса «Введение в описательную статистику».

Курс посвящён изучению вывода неочевидных данных. Студенты изучат оценку параметров с использованием выборочной статистики, научатся тестировать гипотезы и доверительные интервалы. Преподаватели объяснят работу t-критерия и дисперсионный анализ, корреляцию и регрессию, а также другие методы проверки статистических гипотез.

Автор: Udacity.

Язык: английский.

Уровень: средний.

Требования: базовые навыки программирования на Python.

Слушатели курса изучат основные понятия науки о данных: управление данными, анализ данных с помощью методов статистики и машинного обучения, передача и визуализация информации, работа с большими данными.

Автор: Высшая школа экономики, Школа анализа данных.

Язык: русский.

Уровень: средний.

Требования: знание основ математики (функции, производные, векторы, матрицы), навыки программирования на Python.

На курсе рассматриваются основные типы задач, решаемых с помощью машинного обучения: классификация, регрессия и кластеризация. Слушатели научатся оценивать качество моделей и решать, подходит ли модель для решения конкретной задачи. Преподаватели расскажут о современных библиотеках, в которых реализованы изучаемые модели и методы оценки их качества.

Автор: Гарвардский университет.

Язык: английский.

Уровень: начальный.

В курсе изучаются основы визуализации данных и анализа поисковых данных. Слушатели научатся использовать пакет R ggplot2 для создания пользовательских графиков. Также преподаватель расскажет об основных ошибках, которые допускаются при работе с данными.

Автор: Microsoft.

Язык: английский.

Уровень: начальный.

Требования: практические задания основаны на Microsoft Azure и требуют подписки Azure.

Слушатели курса узнают, как использовать машинное обучение для построения прогностических моделей. Преподаватели курса расскажут, какое программное обеспечение необходимо для обработки и анализа естественного языка, изображений и видео. Также студенты научатся создавать интеллектуальных чат-ботов.

Автор: Стэнфордский университет.

Язык: английский.

Уровень: начальный.

Слушатели курса узнают об эффективных методах машинного обучения и получат практические навыки их реализации. Также преподаватели расскажут о лучших практиках Кремниевой долины в области машинного обучения и искусственного интеллекта.

Курс даёт широкое введение в машинное обучение, интеллектуальный анализ данных и распознавание статистических моделей. Курс основывается на тематических исследованиях и практическом опыте — студенты узнают, как использовать алгоритмы обучения для построения «умных» роботов, анализировать текст, получат навыки в области компьютерного зрения, медицинской информатики, аудио, интеллектуального анализа баз данных и других областей.

Автор: Mail.Ru Group.

Язык: русский.

Уровень: средний.

Требования: желательно уметь читать и писать код, в курсе используются Java и Python.

Hadoop — одна из популярных open-source систем для обработки больших объёмов данных. Среди пользователей системы — Facebook, Twitter, Yahoo!, Bing, Mail.ru. Слушатели изучат основные способы хранения и методы обработки больших объёмов данных. Также студенты курса научатся разрабатывать приложения, используя программную модель MapReduce.

Автор: Cloudera.

Язык: английский.

Уровень: средний.

Особые требования: базовые навыки программирования в Python.

Слушатели курса изучат основы работы с Hadoop и узнают, как его использовать для работы с большими данными. Преподаватели расскажут, какие проблемы решает Hadoop, объяснят концепции HDFS и MapReduce. По итогам курса студенты научатся писать программы с использованием MapReduce и получат опыт самостоятельного решения проблем.

Автор: MongoDB.

Язык: английский.

Уровень: средний.

Особые требования: базовые навыки программирования в Python.

Преобразование данных — это процесс очистки данных для облегчения дальнейшей работы с ними. До сих пор некоторые учёные тратят на это большую часть времени. Студенты курса узнают, как собирать и извлекать данные из широко используемых форматов. Слушатели научатся оценивать качество данных и изучат лучшие методы очистки данных с помощью MongoDB — одной из ведущих баз данных NoSQL.

Ресурс поддерживает 425 наборов данных для сообщества по машинному обучению. Сервис предлагает качественные, реальные и понятные наборы данных машинного обучения, которые можно использовать для практического изучения методов машинного обучения.

Платформа предлагает соревнования для исследователей разного уровня подготовки, где они могут опробовать свои модели на серьёзных и актуальных данных. Kaggle предусматривает денежное вознаграждение за лучшее решение.

KDnuggets — один из ведущих сайтов по бизнес-аналитике, большим данным, интеллектуальному анализу, науке о данных и машинному обучению. Авторы проекта собрали на одной странице 78 источников открытых данных для обработки.

Джо Рикер — один из постоянных участников R-сообщества. Он собрал список сайтов, на которых можно найти открытые данные для анализа в системе R.

Мы попросили ИТ-инженера Центра компетенций по супермассивам данных в «Сбербанк-Технологиях» Диану Борисову прокомментировать список и рассказать о других понравившихся курсах.

Профессия: аналитик данных

Аналитик — специалист, который занимается обработкой данных и составлением на их основе прогнозов, стратегий, планов и рекомендаций клиентам.

Существует несколько профессий, в названии которых также есть слово «аналитик» — финансовые аналитики, программные аналитики, системные аналитики. Все они занимаются анализом той или иной информации, но не обязательно используют в своей деятельности математику, статистику и языки программирования. Их нужно отличать от отдельной профессии «аналитик данных».

Аналитик данных должен хорошо разбираться в математике, статистике, информатике, компьютерных науках, бизнесе и экономике.

Данные, которые обрабатывает аналитик, зависят от сферы деятельности, которой он занимается. Например, аналитик в области рекламы определяет целевую аудиторию для рекламных кампаний: составляет алгоритм, с помощью которого ищет в базах данных информацию о потенциальных клиентах, анализирует рекламные стратегии с точки зрения отклика, оценивает показатели эффективности кампаний.

В чём заключается моя работа

Я работаю ведущим аналитиком в рекламном подразделении таргетированных смс-рассылок мобильного оператора. По соображениям конфиденциальности назвать компанию я не могу, она входит в так называемую «большую тройку». Моё подразделение занимается рассылкой рекламы абонентам, сегментируя их по опредёленным социально-демографическим, поведенческим и другим признакам. Аналитик занимается тем, что из всей абонентской базы выбирает абонентов, которые отвечают этим признакам, чтобы рекламодатель рассылал рекламу именно тем людям, которых она может заинтересовать.

Например, к нам приходит клиент, директор стоматологии, и заказывает рекламную кампанию. Аналитик и клиент вместе определяют набор признаков, по которым абоненты могли бы заинтересоваться этой конкретной стоматологией — проживание в определённом районе, обращение за стоматологическими услугами в недалёком прошлом и так далее. Составив список этих признаков, аналитик направляет запросы в базу данных, чтобы реклама была отправлена релевантным абонентам. Для формирования запросов используется специальный язык программирования SQL, предназначенный для работы с базами данных.

Такая реклама называется таргетированной, от английского слова target — цель. Основная задача аналитика — правильно определить эту цель. Чем точнее определён круг признаков и правильнее составлен запрос, тем успешней рекламная кампания.

По результатам кампании аналитики собирают и анализируют данные о её эффективности: смотрят, как много абонентов откликнулись на рекламу— , то есть позвонили по указанным телефонам, обратились в эту стоматологию;, и анализируют, от чего зависит эффективность рекламы, когда она срабатывает, а когда нет. Это похоже на настоящее научное исследование.

Как я стала аналитиком

Меня с детства интересовали математика и программирование, работа с данными, таблицами, поиск и анализ закономерностей. Работа аналитика включает все эти аспекты.

Я закончила НИУ ВШЭ по направлению, связанному с маркетингом. На факультете нам преподавали математику, статистику, прогнозирование, эконометрику, и эти предметы мне нравились больше всего. Кроме того, я занималась программированием на дополнительных курсах.

После окончания вуза я стала работать в PR, но вскоре поняла, что эта сфера деятельности мне не нравится. Мне было неинтересно, работала я через силу, заставляя себя приходить в офис. Поэтому я решила сменить направление. В вузе я узнала, как работает статистика, какие математические инструменты используются для анализа данных, познакомилась с языком программирования SQL. С этими навыками в резюме я решила посмотреть вакансии аналитика и вскоре нашла мою нынешнюю работу. Поначалу мне поручали и другие задачи, но постепенно аналитика стала моим основным занятием.

За три года я стала ведущим аналитиком— руководителем подразделения. В мои обязанности входит не только составление запросов в базы данных, но и распределение задач внутри моей команды, взаимодействие с заказчиками рекламных кампаний или аккаунт-менеджерами, которые ведут этого рекламодателя.

Где учат на аналитиков

Профессию аналитика получают на направлениях, связанных с информатикой, математикой, программированием. Эти направления есть практически во всех ведущих вузах страны.

Список вузов от редакции:
МГУ им. М.В. Ломоносова — факультет вычислительной математики и кибернетики, направление «Прикладная математика и информатика».

СПБГУ — направления «Математика и компьютерные науки», «Математика, алгоритмы и анализ данных», «Прикладная математика и информатика», «Прикладная математика, фундаментальная информатика и программирование», «Программирование и информационные технологии», «Системный анализ и прикладные компьютерные технологии».

НИУ ВШЭ — направления «Экономика и статистика», «Бизнес-информатика», «Прикладная математика и информатика».

Национальный исследовательский университет МЭИ — Институт автоматики и вычислительной техники, направление «Прикладная математика и информатика».

Национальный исследовательский технологический университет МИСиС — факультет «Информатика и вычислительная техника».

Московский политехнический университет — факультет информационных технологий, направление «Прикладная информатика (большие и открытые данные)», «Прикладная математика и информатика», «Бизнес-информатика (IT-менеджмент)».

Московский технический университет связи и информатики (МТУСИ) — факультет экономики и управления (ФЭУ), направление «Прикладная информатика».

Финансовая академия при правительстве России — направления «Прикладная математика и информатика», «Бизнес-информатика», «Прикладная информатика».

Какие качества нужны, чтобы успешно работать аналитиком

1. Любовь к тишине и одиночеству

Работа аналитика по большей части заключается в том, чтобы взаимодействовать с компьютером, а не с людьми. Аналитик, если он не руководитель подразделения, мало общается даже с коллегами, не говоря уже о клиентах. Он не проводит встреч, его рабочий день проходит у монитора за обработкой данных. Есть люди, которым обязательно нужно общение — им такая работа не подойдёт!

2. Развитый логико-математический интеллект

Важно, чтобы человеку нравилось оперировать статистическими данными, составлять графики и таблицы, видеть закономерности, структурировать информацию, выделять главное, отбрасывать второстепенное.

3. Терпение

Аналитик — профессия не творческая. Каждый день аналитику приходится заниматься одним и тем же: сбором, анализом, оценкой данных. Эта работа очень похожа на главное увлечение моего детства — собирание пазлов. Мне доставляло удовольствие взять набор непонятных разрозненных деталей и часами собирать из них что-то целостное, разумное, имеющее смысл. Так же работают и аналитики.

4.Точность и скрупулёзность

Аналитик по большей части имеет дело с точными категориями: данными, цифрами, алгоритмами. Составляя запросы, нужно совершать как можно меньше ошибок и максимально точно подбирать аудиторию.

5. Внимательность

Аналитик должен учитывать все факторы, которые могут повлиять на результат анализа, не упустить ни одной важной детали, иначе на выходе он получит неверные данные и сделает ошибочные выводы.

Карьера, график работы, зарплата

Карьера. Внутри компании можно из простого аналитика стать тимлидом, руководителем подразделения и развиваться в направлении менеджмента — разрабатывать и курировать собственные продукты, придумывать стратегии их развития.

Можно совершенствовать навыки программирования, повышать свою квалификацию как аналитика данных, переходить в более крупные компании, на более востребованное и престижное направление, заниматься дата-моделированием, большими данными (big data), делать прогнозы и предсказания.

График работы. Аналитики в офисе работают по обычному графику с 9:00 до 18.00 или с 10:00 до 19:00. Иногда приходится задерживаться на работе, но это зависит от нагрузки конкретного аналитика.

Аналитик может работать и удалённо: консультировать заказчиков, которым необходим анализ данных, писать приложения. Всё, что ему для этого нужно — компьютер или ноутбук, выход в интернет и доступ к базам данных.

Зарплата. Зарплата аналитика зависит от его опыта и квалификации, от компании, в которой он работает. В начале карьерного пути я получала 45 тысяч рублей, сейчас зарабатываю больше.

Средняя зарплата аналитика в Москве — 70 тысяч рублей. Начинающий аналитик сразу после окончания вуза может получать от 25 тысяч рублей.

Аналитик данных в будущем

Современный бизнес во многом строится на анализе данных о клиентах, продажах, эффективности рекламных стратегий, поэтому профессия аналитика сейчас очень востребована и останется такой в ближайшие десятилетия. Перспективные направления: работа с большими данными, дата-моделирование, экономическое прогнозирование. Кроме того, умение работать с большим количеством информации (анализировать, структурировать её, делать выводы) востребовано не только в экономике и финансах, но в любой другой сфере деятельности.

Я считаю, что профессию надо выбирать по зову сердца, ориентируясь на то, что нравится делать. Какой бы перспективной ни была профессия, в ней невозможно достичь высот, если не получаешь от неё удовольствия.

Хотите получать новые статьи во «ВКонтакте»? Подпишитесь на рассылку полезных статей

Аналитик данных с нуля

Научитесь анализировать данные с помощью сервисов аналитики и BI-инструментов, освоите Python и SQL. Сможете строить прогнозы на основе данных и помогать бизнесу принимать решения.

  • 3 месяца бесплатно
  • Дипломная работа для реального заказчика
  • Обучение на практике: SQL, Power BI, Python
  • Преподаватели-практики с опытом работы от 10 лет

Получите профессию в перспективной сфере

ищут аналитиков. Среди них: Яндекс, Ozon, Сбербанк, ВТБ

Кому подойдёт этот курс

Студенты технических вузов

Студенты технических вузов

Узнаете, как проводить исследования, анализировать данные и делать наглядные отчёты. В короткие сроки получите специализацию и сможете начать карьеру в аналитике на позиции Junior.

Руководители и владельцы бизнеса

Руководители и владельцы бизнеса

Взглянете по-новому на свой продукт, изучите его сильные и слабые стороны. Узнаете, как делать прогнозы для бизнеса, развивать продукт и решать текущие проблемы на основе данных аналитики.

Разработчики, которые хотят сменить профиль

Разработчики, которые хотят сменить профиль

Поймёте, как применить свои знания в программировании для решения бизнес-задач. Изучите инструменты для анализа, сборки и презентации данных заказчику — и станете более востребованным специалистом.

Бизнес-аналитики

Бизнес-аналитики

Вы подтянете знания в работе с аналитикой, изучите основы программирования на Python, научитесь работать с базами данных и Power BI. Расширите компетенции и станете эффективнее решать текущие задачи.

Чему вы научитесь

Проводить исследования и делать точные выводы

Изучите математическую основу анализа, научитесь работать с массивами данных и находить закономерности в цифрах.

Использовать программирование в аналитике

Освоите основы программирования на Python для решения базовых бизнес-задач. Научитесь собирать базы данных на языке SQL и управлять ими.

Строить гипотезы и оценивать перспективы бизнес-решений

Узнаете, какие метрики эффективности использует бизнес, поймёте, как их собирать, читать, строить прогнозы и находить рабочие идеи.

Работать с сервисами аналитики и дашбордами

Научитесь работать с «Яндекс.Метрикой» и Google Analytics и собирать данные в одно окно для быстрого доступа к отчёту.

Делать развёрнутые аналитические отчёты

Поймёте, как пользоваться инструментами для визуализации данных, таблицами Google и Excel — и формировать отчёты для клиентов.

Работать с заказчиками аналитики

Научитесь обрабатывать различные типы аналитических запросов от бизнеса, презентовать отчёты и обрабатывать комментарии.

Как проходит обучение

Изучаете тему

В курсе — практические видеоуроки.

Изучаете тему

Выполняете задания

В том темпе, в котором вам удобно.

Выполняете задания

Работаете с преподавателем

Закрепляете знания и исправляете ошибки.

Работаете с преподавателем

Защищаете дипломную работу

И дополняете ею своё портфолио.

Защищаете дипломную работу

Программа

Вас ждут онлайн-лекции и практические задания с разным уровнем сложности. Этих знаний хватит, чтобы устроиться в компанию на junior-позицию.

  • 23 тематических модулей
  • 190 онлайн-уроков
  1. Введение в аналитику данных

Разберётесь, как данные могут помочь бизнесу и как выбрать подходящие метрики для задач компании.

Научитесь работать с разными видами источников данных. Узнаете, в каком виде можно получать данные и какими инструментами пользуется аналитик.

Познакомитесь с несколькими способами ввода функций. Изучите формулы и функции ВПР, ГПР, ЕСЛИ, И, ИЛИ, СЧЁТЕСЛИ, СУММЕСЛИ, СЧЁТЕСЛИМН, СУММЕСЛИМН, ИНДЕКС, ПОИСКПОЗ и инструмент «Проверка данных». Научитесь создавать текстовые и вложенные формулы.

Научитесь использовать фильтры и сортировку по цвету. Поймёте, как визуализировать данные с помощью графиков и диаграмм.

Научитесь распознавать данные, чтобы строить сводные таблицы и диаграммы. Узнаете, как настраивать сводные таблицы для анализа данных.

Научитесь устанавливать окружение Windows и Mac. Познакомитесь с интерфейсом командной оболочки Jupyter Notebook. Освоите базовые вычисления и научитесь работать с переменными в Python.

Разберётесь, как устанавливать среду разработки PyCharm на Windows, Mac OS, Linux и создавать там проекты.

Познакомитесь с понятием объекта и его класса. Узнаете различия между атрибутами класса и экземпляра. Научитесь создавать и обрабатывать исключения. Познакомитесь с синтаксическими ошибками языка.

Поймёте, как анализировать и визуализировать воронки продаж. Научитесь отслеживать их динамику с помощью графиков и диаграмм.

Поймёте, для чего нужна библиотека NumPy. Научитесь работать с многомерным массивом элементов Ndarray: проводить операции и вычисления, задавать условия и создавать массивы.

Познакомитесь с методом .reshape(). Научитесь менять размерность массивов, редактировать списки и включать в них элементы разных типов: возраст, имя, доход, пол.

Научитесь эффективно работать с таблицами с помощью библиотеки Pandas. Поймёте, как выбирать строки и столбцы по их индексу или названию с помощью метода .iloc. Узнаете, как правильно использовать датафреймы.

Освоите продвинутые способы обработки данных с помощью библиотеки Pandas. Научитесь использовать функцию groupby () для группировки и агрегирования. Поймёте, как сортировать строки в таблице, автоматически считать количество незаполненных ячеек в каждом столбце. Сможете работать со сложной структурой документа с помощью иерархического индексирования.

Узнаете, какие существуют типы данных. Научитесь читать текстовые файлы и файлы формата CSV с помощью библиотеки Pandas. Разберётесь, как работать с библиотекой lxml.html и обращаться к данным HTML и XML с помощью языка запросов XPath.

Поймёте, что такое SQL, и научитесь устанавливать mySQL. Познакомитесь с разными типами и структурами баз данных. Научитесь выбирать и фильтровать данные, использовать выражения и функции, делать простейшие агрегации.

Научитесь работать в библиотеках JSON и Pickle, а также с базами данных SQLite3, PostgreSQL, MongoDB и Pandas. Узнаете, как формат HDF5 помогает хранить многомерные массивы.

Освоите стандартные приёмы работы с текстом и научитесь использовать регулярные выражения Python.

Научитесь рассчитывать вероятность, проводить корреляционный анализ и искать аномалии в данных. Узнаете, где чаще всего ошибаются аналитики.

Узнаете что такое Big Data, чем она отличается от обычных реляционных баз данных. Поймете, как её использовать для анализа данных.

Разберётесь, какие метрики можно отслеживать с помощью «Яндекс.Метрики» и Google Analytics. Научитесь оценивать их эффективность.

Познакомитесь с интерфейсом Power Query и научитесь загружать данные в программу.

Научитесь объединять таблицы из разных источников и подключать Google Таблицы.

Выявите людей в зоне риска, учтёте их пол, возраст, перемещение по городу. Построите наглядные графики и таблицы для анализа.

Получить презентацию программы и консультацию специалиста

Читайте также: