Data scientist что за профессия

Опубликовано: 02.10.2024

Более 85 % данных, которые существуют на сегодняшний день, образовались только за последние 2–3 года. И ежегодно их количество увеличивается почти в 2 раза.

Важно их собирать, анализировать и использовать для решения бизнес-задач. Что и делают интернет-магазины, банки, страховые компании, медицинские учреждения и множества других предприятий. Они нанимают специалистов, которые работают с большими массивами различных данных.

В статье поговорим о профессии Data Scientist: кто это, что он делает, что должен знать, сколько зарабатывает и как им стать.

Data Scientist: кто это и что он делает

В переводе с английского Data Scientist – это специалист по данным. Он работает с Big Data или большими массивами данных.

Data Scientist – это человек, который собирает, обрабатывает, анализирует и изучает данные.

Источники этих сведений зависят от сферы деятельности. Например, в промышленности ими могут быть датчики или измерительные приборы, которые показывают температуру, давление и т. д. В интернет-среде – запросы пользователей, время, проведенное на определенном сайте, количество кликов на иконку с товаром и т. п.

Данные могут быть любыми: как текстовыми документами и таблицами, так и аудио и видеороликами.

От области деятельности зависят и результаты работы Data Scientist. После извлечения нужной информации специалист устанавливает закономерности, подвергает их анализу, делает прогнозы и принимает бизнес-решения.

Человек этой профессии выполняет следующие задачи: оценивает эффективность и работоспособность предприятия, предлагает стратегию и инструменты для улучшения, показывает пути для развития, автоматизирует нудные задачи, помогает сэкономить на расходах и увеличить доход.

Его труд заканчивается созданием модели кода программы, сформировавшейся на основе работы с данными, которая предсказывает самый вероятный результат.

Профессия появилась относительно недавно. Лишь десятилетие назад она была официально зафиксирована. Но уже за такой короткий промежуток времени стала актуальной и очень перспективной.

Каждый год количество информации и данных увеличивается с геометрической прогрессией. В связи с этим информационные массивы уже не получается обрабатывать старыми стандартными средствами статистики. К тому же сведения быстро обновляются и собираются в неоднородном виде, что затрудняет их обработку и анализ.

Вот тут на сцене и появляется Data Scientist. Он является междисциплинарным специалистом, у которого есть знания статистики, системного и бизнес-анализа, математики, экономики и компьютерных систем.

Знать все на уровне профессора не обязательно, а достаточно лишь немного понимать суть этих дисциплин. К тому же в крупных компаниях работают группы таких специалистов, каждый из которых лучше других разбирается в своей области.

Эти знания помогают ему выполнять свои должностные обязанности:

  • взаимодействовать с заказчиком: выяснять, что ему нужно, подбирать для него подходящий вариант решения проблемы;
  • собирать, обрабатывать, анализировать, изучать, видоизменять Big Data;
  • анализировать поведение потребителей;
  • составлять отчеты и делать презентации по выполненной работе;
  • решать бизнес-задачи и увеличивать прибыль за счет использования данных;
  • работать с популярными языками программирования;
  • моделировать клиентскую базу;
  • заниматься персонализацией продуктов;
  • анализировать эффективность деятельности внутренних процессов компании;
  • выявлять и предотвращать риски;
  • работать со статистическими данными;
  • заниматься аналитикой и методами интеллектуального анализа;
  • выявлять закономерности, которые помогают организации достигнуть конечной цели;
  • программировать и тренировать модели машинного обучения;
  • внедрять разработанную модель в производство.

Четких границ требований к Data Scientist нет, поэтому работодатели часто ищут сказочное создание, которое может все и на превосходном уровне. Да, есть люди, которые отлично понимают статистику, математику, аналитику, машинное обучение, экономику, программирование. Но таких специалистов крайне мало.

Еще часто Data Scientist путают с аналитиком. Но их задачи несколько разные. Поясню, что такое аналитика и как она отличается от деятельности Data Scientist, на примере и простыми словами.

В банк пришел клиент, чтобы оформить кредит. Программа начинает обрабатывать данные этого человека, выясняет его кредитную историю и анализирует платежеспособность заемщика. А алгоритм, который решает выдавать кредит или нет, – продукт работы Data Scientist.

Аналитик же, который работает в этом банке, не интересуется отдельными клиентами и не создает технические коды и программы. Вместо этого он собирает и изучает сведения обо всех кредитах, что выдал банк за определенный период, например, квартал. И на основе этой статистики решает, увеличить ли объемы выдачи кредитов или, наоборот, сократить.

Аналитик предлагает действия для решения задачи, а Data Scientist создает инструменты.

Программы для прогноза повышения и понижения курса валют, выгодности покупки и продажи акций, предугадывания спроса потребителей, сервисы распознавания лиц и голоса, даже алгоритмы подбора рекомендаций друзей и музыки в социальных сетях – это продукт работы специалиста по данным.

Требования к специалисту

Специалист по данным неразрывно связан с Data Science – наукой о данных. Она находится на пересечении нескольких направлений: математики, статистики, информатики и экономики. Следовательно, специалисты должны понимать и интересоваться каждой из этих наук.

Кроме этого, Data Scientist должен знать:

  1. Языки программирования для того, чтобы писать на них код. Самые распространенные – это SAS, R, Java, C++ и Python.
  2. Базы данных MySQL и PostgreSQL.
  3. Технологии и инструменты для представления отчетов в графическом формате.
  4. Алгоритмы машинного и глубокого обучения, которые созданы для автоматизации повторяющихся процессов с помощью искусственного интеллекта.
  5. Как подготовить данные и сделать их перевод в удобный формат.
  6. Инструменты для работы с Big Data: Hadoop, MapReduce, Apache Hive, Apache Kafka, Apache Spark.
  7. Как установить закономерности и видеть логические связи в системе полученных сведений.
  8. Как разработать действенные бизнес-решения.
  9. Как извлекать нужную информацию из разных источников.
  10. Английский язык для чтения профессиональной литературы и общения с зарубежными клиентами.
  11. Как успешно внедрить программу.
  12. Область деятельности организации, на которую работает.

Помимо того, что специалист по данным должен обладать аналитическим и математическим складом ума, он также должен быть:

  • трудолюбивым,
  • настойчивым,
  • скрупулезным,
  • внимательным,
  • усидчивым,
  • целеустремленным,
  • коммуникабельным.

Хочу отметить, что гуманитариям достичь высот в этой профессии будет крайне тяжело. Только при большом желании можно пробовать осваивать данную стезю.

Несколько лет назад Harvard Business Review назвал Data Scientist наиболее сексуальной профессией века. С тех пор её «сексуальность» только росла, а потребность в специалистах увеличивается по экспоненте. В 2016 году Data Scientist вошла в топ-25 лучших вакансий на территории Соединённых Штатов по версии Glassdoor. На Россию тенденция тоже распространяется, хоть и не в таких больших масштабах. Однако, потребность в квалифицированных кадрах всё же растёт.

Что такое Data Science – кто такой Data Scientist

Чтобы понять, кто такой Data Scientist, нужно сначала дать определение самой профессии. Называется она Data Science. В последнее время термин стал очень популярным, и вы часто можете встречать его, бороздя просторы всемирной паутины.

Так вот, Data Science – работа с большими данными. Отметим, что термин «большие данные» уже прочно укоренился, хотя изначально использовался английский вариант – Big Data. Большие данные представляют собой огромные объёмы неструктурированной информации, для обработки которой требуется математическая статистика и машинное обучение.

Специалист, который занимается этим, называется Data Scientist. Его задачей является анализ больших данных, на основе которых можно сделать прогноз в зависимости от поставленной задачи. В конченом счёте финальным продуктом Data Scientist’a является создание прогнозной модели – алгоритма для оперативного поиска наиболее подходящего решения поставленной задачи.

Вы могли не знать, но с результатами работы специалистов в сфере Data Science вы встречаетесь по несколько раз в день. Например, когда слушаете музыку в YouTube Music, Spotify или Deezer. В этих стриминговых сервисах алгоритмы, написанные дата сайентистами, подбирают композиции, наиболее соответствующие вашим вкусовым предпочтениям. Так же само рекомендуются видеоролики в соответствующих сервисах и списки пользователей, с которыми вы можете быть знакомы, в социальных сетях.

Где работает Data Scientist

Если вы не хотите применять свои умения только для того, чтобы помогать людям быстрее находить одноклассников и учить программное обеспечение рекомендовать к прослушиванию Eisbrecher после Rammstein – не переживайте. Есть ещё немало областей, в которых можно применить свои таланты.

Например, в транспортной компании Data Scientist позволяет найти оптимальный маршрут передвижения, а на производстве созданные модели могут помочь спрогнозировать сбои в работе. Страховым компаниям дата сайентисты помогают рассчитать вероятность страхового случая, а в сельском хозяйстве делают прогноз по урожаю и ищут способы наиболее эффективного использования с/х угодий. Кроме того, на базе алгоритмов в медицине оборудование может автоматически ставить диагнозы пациентам.

Несмотря на то, что специалистов в Data Science становится всё больше, количество высококвалифицированных кадров всё ещё не соответствует спросу на них. Это приводит к росту оплаты труда. Заработная плата зависит от опыта работы. Например, специалисты, которые уже имели дело с большими массивами данными, а в их арсенале есть глубокие знания и навыки построения математических моделей, могут получать в Москве свыше 100 000 рублей ежемесячно. Для дата сайентистов без опыта зарплата стартует примерно 70 000 рублей в столице Российской Федерации.

Само собой, российские зарплаты ни в какое сравнение не идут с американскими. Например, хороший специалист с опытом в Соединённых Штата может получать свыше 130 000 долларов в год, т.е. порядка 11 000 долларов в месяц.

Пройти курс обучения Data Science с нуля

На сегодняшний день при наличии большого желания расти в области анализа больших данных не составляет никакого труда пройти курсы по Data Science. В России есть масса возможностей на любой кошелёк и вкус. Например, программа GeekBrains, разработанная совместно с NVIDIA и «МегаФон», обучает Data Science с нуля.

Для прохождения курса студентам будет достаточно школьных знаний, а онлайн-университет обеспечит всеми необходимыми ресурсами и инструментарием. В рамках программы обучающиеся будут ознакомлены с нейронными сетями и технологиями машинного обучения.

Обучение разделено на четверти. С октября по декабрь студенты занимаются изучением основ языка Python, осваивают операционную систему Linux, создают сервера в облачных сервисах AWS. Также в список целей входит обучение SQL.

Во второй четверти студенты продолжают изучать библиотеки Python для Data Science, а также начинают решать задачи по комбинаторике, изучают методы проверки статистических гипотез и знакомятся с особенностями открытых данных. В третьей четверти придётся уделить внимание математике. В течение трёх месяцев нужно детально изучить математические аспекты алгоритмов, которым находится применения в Data Science.

Последний этап первого года уделён машинному обучению, а его программа разработана совместно с «МегаФон». Студентам даётся три месяца, в течение которых нужно научиться решать бизнес задачи, применяя машинное обучение. Также в рамках четвёртой четверти обучения удастся изучить реализацию рекомендательных систем.

Второй год обучения начинается с изучения нейронных сетей. Студенты решают задачи ML с данными из социальных сетей и др., а также на практике знакомятся с Tensorflow, Keras и PyTorch. Наконец, во второй четверти второго года изучаются продвинутые архитектуры нейронных сетей, компьютерное зрение и нейролингвистическое программирование.

Заключение

В целом, Data Scientist – профессия, которая требует как теоретических знаний, так и практических навыков. Причём вряд ли вам удастся обойтись опытом лишь одной профессии. Чтобы освоить Data Scientist, придётся приложить немало усилий и времени, но в конечном счёте это должно будет окупиться сполна.

Первые полтора года опыта в профессии вы можете получить на курсе "Data Science с нуля". После прохождения которого вы также получите полную поддержку при трудоустройстве, начиная от помощи в составлении резюме до подготовки к собеседованию.

Специалист в области Data Science строит на основе данных модели, которые помогают принимать решения в науке, бизнесе и повседневной жизни. Он может работать с неструктурированными массивами информации в разных сферах: от выявления элементарных частиц в экспериментах на БАК, анализа метеорологических факторов, анализа данных о перемещениях автотранспорта до исследования финансовых операций, поисковых запросов, поведения пользователей в Интернете.

В результате получаются модели, которые прогнозируют погоду, загруженность дорог, спрос на товары, находят снимки, где могут оказаться следы нужных элементарных частиц, выдают решения о предоставлении кредита, могут рекомендовать товар, книгу, фильм, музыку.

Анна Чувилина, автор и менеджер программы «Аналитик данных» Яндекс.Практикума, рассказала, какие задачи решает специалист в области Data Science или датасаентист, в чем состоит его работа и чем он отличается от аналитика данных.

Что такое Data Science?

Data Science — это применение научных методов при работе с данными, чтобы найти нужное решение. В широком смысле, естественные науки основаны на Data Science. Например, биолог проводит эксперименты и анализирует результаты для проверки своих гипотез. Он должен уметь обобщать частные наблюдения, исключать случайности и делать верные выводы.

Датасаентист работает с данными так же, как ученый в любой другой сфере. Он использует математическую статистику, логические принципы и современные инструменты визуализации, чтобы получить результат.

Сбор данных — это способ измерить процессы вокруг нас. А научные методы позволяют расшифровать большие массивы данных, найти в них закономерности и применить для решения конкретной задачи.

Кто такой специалист по Data Science?

Датасаентист обрабатывает массивы данных, находит в них новые связи и закономерности, используя алгоритмы машинного обучения, и строит модели. Модель — это алгоритм, который можно использовать для решения бизнес-задач.

Например, в Яндекс.Такси модели прогнозируют спрос, подбирают оптимальный маршрут, контролируют усталость водителя. В результате стоимость поездки снижается, а качество растет. В банках модели помогают точнее принимать решения о выдаче кредита, в страховых компаниях — оценивают вероятность наступления страхового случая, в онлайн-коммерции — увеличивают конверсию маркетинговых предложений.

Глобальные поисковые системы, рекомендательные сервисы, голосовые помощники, автономные поезда и автомобили, сервисы распознавания лиц — все это создано с участием датасаентистов.

Анализ данных — это часть работы датасаентиста. Но результат его труда — это модель, код, написанный на основе анализа. В этом главное отличие между датасаентистом и аналитиком данных. Первый — это инженер, который решает задачу бизнеса как техническую. Второй — бизнес-аналитик, больше погруженный в бизнес-составляющую задачи. Он изучает потребности, анализирует данные, тестирует гипотезы и визуализирует результат.

«Датасаентист решает задачи с помощью машинного обучения, например распознавание изображений или предсказание расхода материала на производстве. Результат его работы — работающая модель по техническому заданию, которая будет решать бизнес-задачу», — Анна Чувилина, автор и менеджер программы «Аналитик данных» в Яндекс.Практикуме.

Специалист по Data Science проходит те же карьерные ступени, что и другие профессионалы в IT: джуниор, мидл, тимлид или сеньор. В среднем, каждая ступень занимает от года до двух. Более опытный специалист лучше понимает бизнес-задачи и может предложить лучшее решение для них. Чем выше уровень, тем меньше датасаентист сфокусирован только на технических задачах. Он может оценивать проект и его смысловую составляющую.

Задачи специалиста по Data Science

Задачи различаются от компании к компании. В крупных корпорациях датасаентист работает с несколькими направлениями. Например, для банка он может решать задачу кредитной оценки и заниматься процессами распознавания речи.

Этапы работы над задачей у датасаентистов из разных сфер похожи:

  • выяснение требований заказчика;
  • решение принципиального вопроса «Целесообразно ли решать задачу методами машинного обучения?»;
  • подготовка данных, их разметка;
  • принятие метрик оценки эффективности модели;
  • разработка и тренировка модели машинного обучения;
  • защита экономического эффекта от внедрения модели;
  • внедрение модели в производственные процессы и продукты;
  • сопровождение модели.

Каждая новая итерация позволяет лучше понять проблемы бизнеса, уточнить решение. Поэтому каждый этап повторяется снова и снова для развития модели и обновления данных.

Data Science работает и для стартапов, и для крупных корпораций. В первых специалисты работают в одиночку или небольшими командами над отдельными задачами, а во вторых — реализуют долгосрочные проекты в связке с бизнес-аналитиками, аналитиками данных, разработчиками, инфраструктурными администраторами, дизайнерами и менеджерами.

Руководитель проекта с аналитиками берёт на себя большую часть работы: общается с бизнесом, собирает требования, формирует техническое задание. В зависимости от уровня и принципов работы в компании, специалист по Data Science участвует в переговорах или получает задачи от руководителя проекта и аналитиков.

Следующий этап — сбор данных. Если в компании не налажены процессы для получения данных, датасаентист решает и эту задачу. Он внедряет инструменты, которые помогают автоматически получать и предварительно очищать, структурировать нужную информацию.

Разметка данных — это тоже способ навести в них порядок. Каждой записи присваивается метка, по которой можно определять класс данных: это спам или нет, клиент платежеспособен или недостаточно. Для этой задачи редко используют алгоритмы, метки проставляют вручную. Качественно размеченные данные имеют большую ценность.

«Со стороны заказчика часто присылаются первые данные, которые не готовы для анализа. Специалист их изучает и пытается понять взаимосвязи внутри данных. Для этого часто используется пайплайн — стандартная последовательность действий для процесса анализа данных, которая у каждого своя. Во время ‘‘просмотра’’ у специалиста возникают гипотезы относительно данных, которые он потом будет проверять», — говорит Анна Чувилина, автор и менеджер программы «Аналитик данных» в Яндекс.Практикум.

Во время обработки данные переводятся в формат, удобный для машинного обучения, чтобы запустить первое, «пробное» обучение. Оно должно подтвердить или опровергнуть гипотезы о данных, которые есть у специалиста по Data Science. Если гипотезы не подтверждаются, работа с этим набором данных прекращается. Если одна или несколько гипотез окажутся жизнеспособными — на выходе получается первая версии модели. Её можно назвать baseline-моделью или базовой, относительно которой на следующих итерациях можно искать улучшения в качестве работы модели. Это минимально работающий продукт, который можно показать, протестировать и развивать дальше.

Вместе с моделированием или перед ним выбирают метрики для оценки эффективности модели. Как правило, это две категории: метрики для бизнеса и технические. Бизнес-метрики отвечают на вопрос «каков экономический эффект от работы данной модели?» Технические определяют качество модели, например, точность предсказаний.

Модель оценивают на контролируемость и безопасность. Например, для задач медицинской диагностики это решающий фактор. Когда модель готова и протестирована, то её встраивают в производственный процесс (например, кредитный конвейер) или продукт (например, мобильное приложение). Она начинает приносить пользу в реальной жизни.

Ошибки в моделях могут дорого стоит компании. Например, неверная скоринговая модель создаст ситуацию, когда ненадежные заемщики массово не смогут возвращать кредиты. В результате банк понесёт убытки.

Что нужно для старта

Знание математической статистики, базовые навыки программирования и анализа данных нужны для входа в любую сферу, где может быть занят датасаентист. Следующие этапы потребуют более глубоких знаний. Набор необходимых скиллов и инструментов будет во многом зависеть от задач конкретной компании.

Как правило, в Data Science используют SQL, Python, для сложных вычислений — C/C++. Хороший уровень английского поможет быстрее расти за счет чтения профессиональной литературы и общения с другими профессионалами отрасли.

Бэкграунд разработчика хорошо подходит для переквалификации в датасаентисты. Разработчики знают языки программирования, разбираются в алгоритмах и имеют представление о принципах работы инструментов в ИТ. В таком случае переход в новую специальность займет несколько месяцев. Важные конкурентные преимущества, доступные профессионалам из других сфер: лучшее понимание предметной области, сильные коммуникативные навыки.

От начинающего специалиста по Data Science работодатель ждёт:

  • базовое знание математической статистики, алгоритмов машинного обучения;
  • навыки подготовки данных к анализу с помощью библиотек;
  • способность выбрать подходящий алгоритм под задачу и создать модель на его основе;
  • умение защитить эффективность модели;
  • способность успешно внедрить её в процесс или продукт.

Опыт работы с реальными бизнес-проектами для работодателя важнее, чем ученая степень или профильное высшее образование. Дипломы сильных вузов и тематические научные работы ценятся больше при выборе привлеченных консультантов на стратегические проекты. А по практическому опыту выбирают датасаентиста для решения ежедневных задач компании.

Перед датасаентистом не стоит задача охватить все области математического знания или освоить каждый программный инструмент, который можно применить для анализа данных и построения модели. Над масштабными и сложными проектами обычно работают группы специалистов. Здесь навыки и знания каждого дополняют общий инструментарий. Чтобы стартовать в профессии достаточно любить программирование, математику и не бояться сложных задач.

Сейчас все вокруг говорят о том, как важно собирать данные, анализировать их и использовать для улучшения клиентского сервиса, оптимизации бизнес-процессов и увеличения прибыли. Всем этим занимаются Data Scientist. По статистике LinkedIn, с 2018 года в мире наняли 831 тысячу таких специалистов.

Мы поговорили с Иваном Пастуховым, Data Scientist из Сбербанка, и другими экспертами — расскажем, кто такие специалисты по Data Science, какие у них обязанности, что они должны уметь и как понять, нужен ли вашей компании такой специалист.

Data Scientist — кто это и что делает

Дословно Data Scientist переводится как «ученый данных». Но деятельность у такого специалиста не научная, а практическая: он работает с данными компании, анализирует их, ищет зависимости, делает выводы на их основе и при необходимости строит визуализации. Для этого Data Scientist использует разные математические алгоритмы, специальное программное обеспечение и инструменты разработки.

Данные, с которыми работает Data Scientist, могут быть любыми: звук, текст, фото, видео, таблицы, документы. Если у вас есть любые данные и нужно их проанализировать — это работа для Data Scientist.

В сфере данных работают и другие специалисты, например, Machine Learning Engineer, Data Engineer или Data Analyst. У них более узкая специализация, например, Machine Learning Engineer меньше занимается анализом данных, в основном разрабатывает модели машинного обучения. Data Scientist — более широкий термин, который обозначает человека с разными компетенциями в области анализа данных.

Обычно компании на старте нанимают одного Data Scientist. В будущем, если разноплановых задач, связанных с данными, станет слишком много, можно нанять несколько таких специалистов, то есть создать целый отдел Data Science.

Чем занимается Data Scientist

Часто в бизнесе есть задачи, которые решаются вручную. Например, менеджер делает простенькие расчеты в Excel или руководитель магазина по своему опыту предсказывает спрос на товары. Такие ручные решения занимают много времени и часто необъективны.

Data Scientist автоматизирует принятие таких решений и делает их более точными, основанными на данных. Он разбирается в задаче, смотрит, какие данные нужны для ее решения. Потом разрабатывает программу, которая будет автоматически считать и анализировать данные. Такая программа может либо принимать простые решения самостоятельно, либо давать более точную и полезную информацию менеджерам.

Часто Data Scientist решает общие задачи, характерные для любого бизнеса: проанализировать поведение покупателей, привлечь и удержать клиента, предугадать спрос, построить систему рекомендаций, запустить эффективную акцию. Но бывают и специфические задачи: банк хочет предсказать вероятность возврата кредита, колл-центр — автоматизировать ответы на часто задаваемые вопросы. С этим тоже помогает Data Scientist. Бывает и так, что Data Scientist не решает конкретную задачу, а анализирует текущую ситуацию и ищет зоны роста для компании.

В разных компаниях Data Scientist занимаются совсем разными вещами. Но в итоге они делают одно дело: помогают сэкономить деньги, увеличить доход или принять правильное решение.

Как понять, что вашей компании нужен Data Scientist

Если компания связана с технологиями, например, разработкой искусственного интеллекта или инструментов автоматизации, Data Scientist ей нужен с самого старта.

Если компания напрямую не связана с IT, Data Scientist обычно становится нужен, когда данных и бизнес-процессов много, ими сложно управлять вручную. Обычно такое происходит в крупных компаниях, которые уже перепробовали разные способы увеличить прибыль и пришли к тому, что нужно извлекать новую информацию из собранных данных, автоматизировать отдельные процессы и искать другие подходы к работе с клиентами.

Впрочем, иногда Data Scientist может быть полезен и небольшой компании. Он подскажет, как стоит собирать данные, что можно автоматизировать, где искать проблемы и зоны роста.

Что нужно Data Scientist для работы

Главное, с чем работает Data Scientist — это данные. Компания должна уже собирать, обрабатывать и хранить данные, построить для этого соответствующую инфраструктуру.

Data Scientist обрабатывает данные, для чего часто требуются большие вычислительные мощности и специальные инструменты.

Еще для работы Data Scientist нуждается в команде помощников. Чаще всего он работает в связке с Data Engineer и командой разработчиков. Первые обеспечивают его данными, вторые превращают разработанные модели в конкретные программы и сервисы, которыми могут пользоваться другие люди.

В небольших компаниях Data Scientist часто сам себе и Engineer, и разработчик. В более крупных за Data Science может отвечать целый отдел, состоящий из разных специалистов.

Что нужно знать Data Scientist

Data Science — дисциплина, которая лежит на стыке математики, статистики и компьютерных наук. Поэтому обычно Data Scientist должен:

  • Знать математику и статистику.
  • Писать код, обычно на языках R и Python.
  • Работать с базами данных и знать язык SQL.
  • Владеть инструментами для работы с большими данными: Hadoop, Spark, Hive, Kafka.
  • Отлаживать код и готовить к выкатке в продакшен.
  • Работать с программами для визуализации и презентации результатов работы: PowerPoint, Shiny/Dash, Power BI, Tableau, Qlik
  • Знать технологии машинного и глубокого обучения.

В вузах пока редко встречается специальность Data Scientist. Те, кто задаются вопросом «Как стать Data Scientist» обычно учатся на курсах, либо поступают в университеты на прикладную математику или специальности, связанные с математическим моделированием. Хотя кое-где, например в ВШЭ, есть магистерские программы, посвященные анализу данных и машинному обучению.

Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Они частично математики, частично компьютерные ученые и частично трендспоттеры.

Data Scientist требует реальных и практических знаний методов статистического анализа данных, навыков построения математических моделей (от нейронных сетей до кластеризации, от факторного до корреляционного анализов), работы с большими массивами данных и уникальной способности находить закономерности. Но это все лирика. Давайте теперь по делу.


Средняя зарплата в США Data Scientist — 91 тысяча $ в год. А вот график зависимости заработка от опыта работы.



Данные PayScale

В России цифра составляет от 60-70 тысяч рублей в месяц для совсем «зеленых» новичков и доходит до 220 для опытных специалистов.

Как сказал DJ Patil, бывший главный научный сотрудник отдела научно-технической политики Соединенных Штатов, — «Data scientist — это специалист с уникальным сплавом навыков, который делает удивительные находки и воплощает фантастические истории — и все это благодаря данным».

Чем на самом деле занимаются специалисты по Big Data? Они постоянно сталкиваются с ограничениями — техническими, методологическими и любыми иными — и находят пути для новых решений. Совершают открытия, анализируя и прогнозируя. В Data Science есть место и творчеству: специалисты изобретают элегантные решения сложных задач, а также качественно визуализируют информацию, делать шаблоны понятными и убедительными.

Нет определенного описания этой профессии — все зависит от сферы применения навыков работы с данными. Однако, есть вещи, которыми занимается любой Data Scientist:

  • Сбор большого количества неуправляемых данных и преобразование их в более удобный формат.
  • Решение бизнес-задач с использованием данных.
  • Работа с различными языками программирования, включая SAS, R и Python.
  • Работа со статистикой, включая статистические тесты и распределения.
  • Использование аналитических методов, таких как машинное обучение, глубокое обучение и текстовая аналитика.
  • Сотрудничество с ИТ и бизнесом в равной мере.
  • Поиск порядка и шаблонов данных, а также выявление тенденций, которые могут помочь в достижении конечного бизнес-результата.
    : представление данных в графическом формате, чтобы их можно было легко проанализировать.
  • Машинное обучение: отрасль искусственного интеллекта, основанная на математических алгоритмах и автоматизации.
  • Глубокое обучение: область изучения машинного обучения, которая использует данные для моделирования сложных абстракций.
  • Распознавание образов: технология, которая распознает шаблоны в данных (часто используется взаимозаменяемо с машинным обучением).
  • Подготовка данных: процесс преобразования необработанных данных в другой формат, чтобы их было проще потреблять.
  • Текстовая аналитика: процесс анализа неструктурированных данных для получения ключевых бизнес-идей.
  • Статистику и машинное обучение.
  • Языки программирования SAS, R или Python.
  • Базы данных MySQL и Postgres.
  • Технологии визуализации данных и отчетности.
  • Hadoop and MapReduce.

И да, в Data Scientist можно попасть не с нуля, но с хорошей базой. Вот что пишет физик, выпустившийся из университета, и променявший науку на Big Data: «Контора, которая называется Bidgely, предложила мне позицию Data Scientist с окладом $130k в год грязными (примерно $7400 в месяц чистыми): работать в офисе, расположенном в городке Sunnyvale, что в Кремниевой Долине, в паре километров от штаб-квартир Google, Linkedin, Apple». В январе он подумал, что надо уходить в Data Science, а уже в октябре работал в США, выпустившись из университета в июне.

Итак, вы уже поняли, что Data Scientist — человек, умеющий не только добывать и анализировать, но и обрабатывать большие массивы данных, совершая поистине волшебство с помощью множества инструментов. Если вы хотите заняться Data Science по-настоящему, то заготовьте не просто Excel, но и знания по Python, учебник по математическому анализу, и готовьтесь учиться.

Ну, и в конце мы просто хотели вас порадовать. Вот полезные ссылки. Первая — с 51 бесплатной книгой, связанной с Data Science. А вот крупнейшее Data Science сообщество. Еще есть отличный учебник Петера Флаха «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных», переведенный на русский язык.

Читайте также: