Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Они частично математики, частично компьютерные ученые и частично трендспоттеры.

Data Scientist требует реальных и практических знаний методов статистического анализа данных, навыков построения математических моделей (от нейронных сетей до кластеризации, от факторного до корреляционного анализов), работы с большими массивами данных и уникальной способности находить закономерности. Но это все лирика. Давайте теперь по делу.

Средняя зарплата в США Data Scientist — 91 тысяча $ в год. А вот график зависимости заработка от опыта работы.

Пример из жизни Data Scientist: «Джонатант Голдман, физик из Стэнфорда, устроился на работу в социальную сеть LinkedIn, и начал заниматься чем-то, что нельзя было измерить в KPI или посмотреть на конечный результат: сайт, исправление бага, внедрение фичи. Пока команда разработчиков ломала голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строил прогностическую модель, которая подсказывала владельцу аккаунта LinkedIn, кто еще из пользователей сайта может оказаться его знакомым. Убедив руководство компании опробовать его новую модель, Голдман приносит соцсети миллионы новых просмотров и значительно ускоряет ее рост».

Нет определенного описания этой профессии — все зависит от сферы применения навыков работы с данными. Однако, есть вещи, которыми занимается любой Data Scientist:

  • Сбор большого количества неуправляемых данных и преобразование их в более удобный формат.
  • Решение бизнес-задач с использованием данных.
  • Работа с различными языками программирования, включая SAS, R и Python.
  • Работа со статистикой, включая статистические тесты и распределения.
  • Использование аналитических методов, таких как машинное обучение, глубокое обучение и текстовая аналитика.
  • Сотрудничество с ИТ и бизнесом в равной мере.
  • Поиск порядка и шаблонов данных, а также выявление тенденций, которые могут помочь в достижении конечного бизнес-результата.

А вот термины и технологии, которые надо знать будущему Data Scientist:

  • Визуализация данных: представление данных в графическом формате, чтобы их можно было легко проанализировать.
  • Машинное обучение: отрасль искусственного интеллекта, основанная на математических алгоритмах и автоматизации.
  • Глубокое обучение: область изучения машинного обучения, которая использует данные для моделирования сложных абстракций.
  • Распознавание образов: технология, которая распознает шаблоны в данных (часто используется взаимозаменяемо с машинным обучением).
  • Подготовка данных: процесс преобразования необработанных данных в другой формат, чтобы их было проще потреблять.
  • Текстовая аналитика: процесс анализа неструктурированных данных для получения ключевых бизнес-идей.

Помимо прочего, нужно знать и понимать:

  • Статистику и машинное обучение.
  • Языки программирования SAS, R или Python.
  • Базы данных MySQL и Postgres.
  • Технологии визуализации данных и отчетности.
  • Hadoop and MapReduce.

Вот здесь можно прочитать, как Beeline проводит собеседование на Data Scientist в своей компании: «Процесс начинается с телефонного интервью с вопросами по некоторым разделам математики. После кандидата ждёт тестовая задача — конкретная задача машинного обучения, аналогичная задачам на kaggle.com. Построив хороший алгоритм и получив высокое значение метрики качества на тестовой выборке, кандидат допускается до следующего этапа — непосредственного собеседования, на котором проверяется знание методов машинного обучения и анализа данных, а также задаются нетривиальные вопросы из практики и задачи на логику».

Бесплатное образование и курсы

Платное образование и курсы

Поиск работы на позицию Data Scientist

Статистика зарплат по профессии Data Scientist

Источник :: Хабр Карьера

Buy now