Что нужно знать в sql аналитику
Перейти к содержимому

Что нужно знать в sql аналитику

  • автор:

Использование SQL для анализа данных

SQL или язык структурированных запросов — это язык программирования, используемый для связи с базами данных. Это позволяет пользователям извлекать, манипулировать и управлять данными, хранящимися в системах управления реляционными базами данных (RDBMS). SQL — это мощный инструмент для анализа данных, поскольку он позволяет пользователям быстро и легко получать доступ к большим объемам данных, хранящихся в базе данных, и манипулировать ими. В этой статье мы рассмотрим основы использования SQL для анализа данных.

SQL или язык структурированных запросов — это язык программирования, используемый для управления данными, хранящимися в реляционных базах данных, и манипулирования ими. Это мощный инструмент для анализа данных, поскольку он позволяет пользователям легко извлекать и обрабатывать большие объемы данных организованным и эффективным образом.

Чтобы использовать SQL для анализа данных, выполните следующие действия:

  1. Подключение к базе данных: чтобы использовать SQL, вам необходимо подключиться к базе данных. Это можно сделать с помощью программного инструмента, такого как SQL Server Workbench, или через интерфейс командной строки.
  2. Напишите оператор SELECT: Оператор SELECT используется для извлечения данных из базы данных. Вы можете указать, какие столбцы вы хотите извлечь, а также любые условия, которые должны быть выполнены. Например, вы могли бы написать оператор SELECT, подобный:

Это позволит получить все строки из таблицы продаж, где столбец даты больше или равен 1 января 2022 года.

  • Используйте агрегатные функции: Агрегатные функции позволяют выполнять вычисления с несколькими строками данных. Например, вы можете использовать функцию SUM для вычисления общей суммы всех продаж за данный период времени или функцию AVG для вычисления средней цены продажи.
  • Используйте предложения GROUP BY и HAVING: предложение GROUP BY позволяет группировать строки данных на основе общих значений в столбце. Предложение HAVING позволяет указать условия, которым должны соответствовать группы. Например, вы можете использовать следующий оператор, чтобы сгруппировать продажи по продуктам и показать только те, общая сумма которых превышает 100 долларов США:
  • Используйте предложения JOIN: предложение JOIN позволяет вам объединять данные из нескольких таблиц в одном запросе. Это может быть полезно для анализа данных, разбросанных по нескольким таблицам, или для объединения данных из разных источников.
  • Сохраняйте результаты и делитесь ими. После того, как вы получили данные и обработали их, вы можете сохранить результаты в новой таблице или экспортировать их в файл. Затем вы можете поделиться своими результатами с другими, отправив им файл или предоставив им доступ к таблице в базе данных.

Следуя этим шагам, вы сможете использовать SQL для эффективного и действенного анализа больших объемов данных, хранящихся в базе данных.

Подключение к базе данных

Первым шагом в использовании SQL для анализа данных является установление соединения с базой данных. Это можно сделать с помощью инструмента управления базой данных, такого как MySQL Workbench, или с помощью языка программирования, поддерживающего запросы SQL, например Python или R.

Чтобы подключиться к базе данных с помощью MySQL Workbench, вам потребуется ввести данные подключения к базе данных, включая имя хоста, порт, имя пользователя и пароль. После того, как вы введете эти данные и нажмете кнопку «Connect», вы будете подключены к своей базе данных и сможете начать выполнять команды SQL.

Выбор данных

После подключения к базе данных вы можете использовать оператор SELECT для извлечения данных из базы данных. Оператор SELECT используется для указания столбцов данных, которые вы хотите получить, а также любых условий, которым должны соответствовать данные.

Например, чтобы получить все строки и столбцы из таблицы «customers», вы можете использовать следующую инструкцию SELECT:

Вы также можете использовать предложение WHERE, чтобы указать условия, которым должны соответствовать данные. Например, чтобы получить только строки, в которых столбец «city» — «New York», вы можете использовать следующую инструкцию SELECT:

Фильтрация и сортировка данных

После извлечения данных вы можете использовать различные предложения и функции для фильтрации и сортировки данных. Например, вы можете использовать предложение WHERE для фильтрации данных на основе определенных условий, а предложение ORDER BY — для сортировки данных в порядке возрастания или убывания.

Например, чтобы получить только строки, где столбец «age» больше 30, и отсортировать результаты по столбцу «name» в порядке возрастания, вы можете использовать следующую инструкцию SELECT:

Выполнение расчетов

SQL позволяет выполнять различные вычисления с данными, например суммировать значения в столбце или находить среднее значение набора значений. Вы можете использовать функцию SUM для суммирования значений в столбце и функцию AVG для нахождения среднего значения набора значений.

Например, чтобы найти общую сумму продаж для всех клиентов, вы можете использовать следующую инструкцию SELECT:

Чтобы найти средний возраст всех клиентов, вы можете использовать следующий оператор SELECT:

Групповые и сводные данные

SQL также позволяет вам группировать данные и поворачивать их, чтобы вы могли видеть их по-разному. Предложение GROUP BY позволяет группировать данные по определенному столбцу, а функция PIVOT позволяет преобразовывать данные из строк в столбцы.

Он обычно используется при анализе данных, поскольку позволяет пользователям легко извлекать, обрабатывать и анализировать данные из базы данных.

Мы предоставим краткий обзор того, как использовать SQL для анализа данных.

  • Подключение к базе данных. Первым шагом в использовании SQL для анализа данных является подключение к базе данных. Обычно это можно сделать с помощью инструмента управления базой данных, такого как MySQL Workbench или Microsoft SQL Server Management Studio.
  • Напишите оператор SELECT: как только вы подключитесь к базе данных, вы можете начать извлечение данных с помощью оператора SELECT. Оператор SELECT используется для извлечения данных из таблицы базы данных и имеет следующий синтаксис:

Например, чтобы получить все данные из таблицы с названием «sales», вы можете использовать следующую инструкцию SELECT:

  1. Используйте фильтры и условия. Предложение WHERE оператора SELECT позволяет указать условия для фильтрации извлекаемых данных. Например, вы можете использовать предложение WHERE только для получения данных за определенный период времени или данных, соответствующих определенным критериям.
  2. Агрегируйте данные с помощью GROUP BY и HAVING. Предложение GROUP BY позволяет группировать данные по одному или нескольким столбцам, а предложение HAVING позволяет указать условия для групп. Это может быть полезно для агрегирования данных и расчета сводной статистики, такой как подсчеты, суммы и средние значения.
  3. Используйте JOIN для объединения данных из нескольких таблиц. Предложение JOIN позволяет вам объединять данные из нескольких таблиц в одном операторе SELECT. Это может быть полезно для извлечения данных, разбросанных по нескольким таблицам, и объединения их в единый набор данных для анализа.
  4. Используйте подзапросы для извлечения данных на основе результатов другого запроса: Подзапрос — это оператор SELECT, вложенный в другой оператор SELECT. Его можно использовать для извлечения данных на основе результатов внешнего запроса.
  5. Используйте общие функции и операторы: SQL включает в себя широкий спектр функций и операторов, которые можно использовать для управления данными и выполнения вычислений. Некоторые общие функции и операторы включают SUM, AVG, MAX, MIN, COUNT и CASE.

Следуя этим шагам и используя различные предложения, функции и операторы, доступные в SQL, вы сможете эффективно использовать SQL для анализа данных. Кроме того, SQL можно использовать в маркетинговой аналитике для определения ценности сегментов. Это мощный и универсальный инструмент, который можно использовать для извлечения, обработки и анализа данных из базы данных.

Введение в SQL для аналитика данных

В настоящее время, если мы наблюдаем, большинство вакансий аналитика данных в компаниях, которые внедрили ИТ-системы, требуют знания SQL в качестве инструмента анализа, поэтому навыки SQL — это навыки, которыми должен овладеть тот, кто хочет работать аналитиком данных.

В этой статье я намерен представить начальный урок SQL для тех, кто ищет карьеру аналитика данных.

Оглавление

  1. О SQL
  2. Типы команд SQL
  3. Система управления реляционными базами данных (RDBMS)
  4. Пример запроса

О SQL

Что такое SQL?

SQL, что означает язык структурированных запросов, является стандартным компьютерным языком, используемым для системы баз данных, или, скорее, для системы управления реляционными базами данных.

Зачем аналитикам данных нужно изучать SQL?

Наша работа как аналитика данных заключается не только в том, чтобы анализировать уже имеющиеся данные, но и в том, чтобы иметь возможность самостоятельно извлекать, изменять и получать доступ к данным из источника данных, а именно из базы данных. Аналитик данных будет использовать SQL для запроса данных и извлечения из них информации.

Кроме того, владение SQL поможет компаниям в следующих областях:

-Помогает создавать информационные отчеты, например, ежемесячные тенденции продаж, увеличение числа клиентов и т. д.

-Программисты, создающие прикладные системы.

-Повысить производительность компании.

Где используется SQL?

SQL обычно используется в компаниях, внедривших ИТ-системы, например:

Электронная коммерция
— Розничная торговля
— Logisly
— и т.д.

Типы команд SQL

Типы команд SQL, которые я часто нахожу, делятся на 4 типа, а именно язык определения данных (DDL), язык манипулирования данными (DML), язык управления данными (DCL) и язык управления транзакциями (TCL), но аналитик данных , на самом деле достаточно, чтобы освоить DDL и DML, потому что на самом деле они часто взаимодействуют с командами типа DDL и DML, возможно, если вы хотите быть администратором базы данных, то часто будете взаимодействовать с типами команд DCL и TCL. Ниже приведена картина распределения типов из команд SQL:

Язык определения данных (DDL)

DDL (язык определения данных) — это команда, которая больше предназначена для управления структурами базы данных, таких как создание, изменение и удаление. Ниже приведены команды, содержащиеся в DDL, и их функции:

  • СОЗДАТЬ: создать базу данных или таблицу.
  • ALTER: изменение структуры таблицы, например изменение имен таблиц, добавление столбцов, изменение столбцов, удаление столбцов и присвоение атрибутов столбцам.
  • DROP: удалить базу данных или таблицу.
Язык манипулирования данными (DML)

DML (язык манипулирования данными) — это команда на языке программирования SQL, которая используется для управления данными в базе данных. Ниже приведены команды, содержащиеся в DML, и их функции:

  • INSERT: вставка новых данных в таблицу.
  • SELECT: выбирает и отображает столбцы из таблицы или даже несколько столбцов из таблицы.
  • ОБНОВЛЕНИЕ: изменение/редактирование данных в таблице.
  • УДАЛИТЬ: удалить данные из таблицы.
Язык управления данными (DCL)

Функции языка управления данными (DCL) позволяют контролировать и манипулировать разрешениями самой базы данных. Проще говоря, язык управления данными (DCL) предназначен для управления правами доступа (привилегиями) и управления базой данных USER. Ниже приведены команды, содержащиеся в DCL, и их функции:

  • GRANT: эта команда используется для предоставления пользователю прав администратора.
  • REVOKE: в отличие от GRANT, который предоставляет права доступа, REVOKE имеет право отозвать права доступа пользователя.
Язык управления транзакциями (TCL)

Команды TCL имеют дело с транзакциями в базе данных. Ниже приведены команды, содержащиеся в TCL, и их функции:

  • COMMIT: используется для постоянного хранения транзакций в базе данных.
  • ROLLBACK: команда ROLLBACK используется для возврата базы данных к последней операции COMMIT.
  • SAVEPOINT: SAVEPOINT — это специальный знак внутри транзакции, который позволяет откатить все команды, выполненные после их установки, восстанавливая состояние транзакции до состояния на момент точки сохранения.

Система управления реляционными базами данных (RDBMS)

Что такое РСУБД?

Система управления реляционными базами данных, обычно сокращенно RDMBS, представляет собой программу, которая позволяет нам создавать, обновлять и управлять реляционной базой данных. Сама реляционная база данных — это тип базы данных, в которой данные обычно хранятся в структурированной форме в виде таблиц (строк и столбцов), и каждая таблица/данные, содержащиеся в базе данных, связаны (реляционно) друг с другом.

Простая иллюстрация реляционных таблиц

Вот простой пример таблицы, которая связана друг с другом через свои столбцы:

Популярные продукты РСУБД
  • PostgreSQL (с открытым исходным кодом)
  • MySQL, MariaDB (с открытым исходным кодом)
  • SQLite (с открытым исходным кодом)
  • Hadoop (с открытым исходным кодом)
  • Microsoft SQL Server (не с открытым исходным кодом)
  • БД Oracle (не с открытым исходным кодом)
Структура хранения базы данных

В качестве хранилища данных система реляционных баз данных имеет следующую иерархическую структуру объектов хранения:

  • База данных
  • Таблица
  • Столбец
Таблица и столбец

На следующем изображении показан пример таблицы в базе данных. Например, имя базы данных — база данных student.

Пример запроса

Здесь я покажу небольшой пример запроса на SQL, надеюсь, благодаря этому у вас есть представление о том, как выполнять запросы на SQL.

Например, в базе данных под названием student у нас есть таблица с именем Student_Identity, вот таблица:

затем мы хотим попробовать манипулировать таблицей с помощью простых манипуляций.

Получить весь столбец в таблице

Чтобы получить все столбцы таблицы Student_Identity, мы можем ввести следующую команду:

после запуска он выдаст следующий вывод:

  • Начальное слово SELECT используется для информирования системы о том, что мы хотим получить данные.
  • * (звездочка) означает, что все столбцы должны быть извлечены из таблицы, на которую ссылаются. Этот знак часто называют подстановочным знаком.
  • FROM [TABLE_NAME] означает имя таблицы, в которой будут браться данные.
  • Подписать; (точка с запятой) — знак, указывающий на окончание команды SELECT
Возьмите один столбец в таблице

Чтобы получить столбец Name в таблице Student_Identity, мы можем ввести следующую команду:

после запуска он выдаст следующий вывод:

Возьмите более одного столбца в таблице

Чтобы получить более одного столбца, мы можем ввести следующую команду:

после запуска он выдаст следующий вывод:

Вывод

Как человеку, который хочет сделать карьеру аналитика данных, очень важно освоить SQL как инструмент анализа, чтобы освоить SQL, необходимо сначала знать основы уроков SQL, чтобы поток мышления был построен, надеюсь, объяснение выше может помочь вам!

SQL для анализа данных. 7 аспектов SQL, которые следует знать специалисту по работе с данными.

SQL для анализа данных. 7 аспектов SQL, которые следует знать специалисту по работе с данными.

В следствие того, что мир постоянно прогрессирует, множество компаний начинают больше работать с данными. Огромное количество информации, которое собирают эти компании, хранится в специализированных базах данных. Управление, анализ и обработка этих данных осуществляется с помощью «Системы управления базами данных». В результате этого, сфера Data Science стала одной из наиболее развивающихся областей с многочисленными возможностями трудоустройства. Специалисту по работе с данными необходимо извлекать их из специализированной базы, и именно здесь вступает в игру такой язык программирования, как SQL. Наличие навыка SQL является одним из самых необходимых требований к любому специалисту сферы Data Science. А теперь вопрос: действительно ли мне нужно мастерски овладеть SQL, чтобы стать хорошим специалистом в Data Science?

@sqlhub – разбор реальных задач с SQL собеседований в нашем телеграм канале.

Наш ответ – «НЕТ», но требуются базовые познания SQL, ведь этот SQL стал стандартом для большинства систем баз данных. Цель этой статьи заключается в том, чтобы упомянуть все ключевые элементы SQL, которые вам необходимо знать и которые рекомендуются специалистами в области Data Science.

Зачем нужны знания SQL в сфере Data Science?

SQL расшифровывается как Язык Структурированных Запросов и предназначен для управления базами данных. Но что же делает его таким уникальным и одним из самых востребованных навыков в Data Science? Ниже приведены некоторые аспекты, которые помогут вам понять его важность:

Широкое использование: Несмотря на то, что ему уже около 40 лет, SQL используется для запросов в большинстве систем баз данных.

Упрощает понимание данных: SQL очень удобен для навигации по содержимому базы данных. Это помогает вам более эффективно разобраться во всех особенностях.

Лёгок в освоении: Это идеальная точка старта для начинающих. SQL имеет простой синтаксис, крайне похожий на английский язык, вследствие чего полезную информацию можно получить всего лишь из нескольких строк кода.

Возможность обработки больших массивов с данными: SQL позволяет организованно управлять огромным объёмом данных, что делает его великолепным выбором для сферы Data Science.

Совместимость с другими языками программирования и приложениями: Интеграция SQL с такими языками программирования, как Python, C++, R и т. д. очень удобна. Также он поддерживает такие инструменты бизнес-аналитики и визуализации данных, как Power BL и Tableau, что заметно упрощает процесс разработки.

1) Понимание основных команд

Знание основных команд закладывает фундамент для обучения, которое длится на протяжении всей жизни. Иначе, вы просто будете заниматься запоминанием фактов, при этом не имея понимания того, как всё работает на самом деле. Что можно делать с помощью SQL команд:

– извлекать данные из базы данных;

– удалять повторяющиеся строки и показывать только уникальный контент;

– фильтровать записи и показывать только те, в которых выполняется какое-либо условие;

– не выполнять запрос, если условие не соблюдается (с помощью команд While, AND и OR);

– сортировать данные в порядке возрастания и убывания;

– группирует схожие данные;

– с помощью SQL можно создавать новые фильтры, в следствии чего фильтровать данные;

– можно использовать встроенные функции COUNT(), MAX(), MIN(), AVG() и SUM() для выполнения операция с данными.

SQL для анализа данных. 7 аспектов SQL, которые следует знать специалисту по работе с данными.

Теперь мы хотим получить среднюю заработную плату женщин, работающих в административном отделе.

Вывод:

2) Владение условными операторами

Также очень полезными и удобными в языке SQL являются условные операторы, такие как IF, THEN или ELSE. Давайте взглянем на их синтаксис:

Этот запрос выполняет инструкцию по-порядку и возвращает значения, пока условие истинно. Если условие становится ложным, то срабатывает блок ELSE. При его отсутствии в результат возвращается NULL.

Давайте представим, что у нас есть база данных студентов, и нам надо отфильтровать их по уровню оценок. Для этого мы можем воспользоваться следующим кодом:

3) Подзапросы

Любому специалисту в области Data Science необходимо иметь понятие о том, что такое подзапросы, зачем они нужны и как ими правильно пользоваться. Синонимами подзапросов являются внутренние или вложенные запросы. Подзапрос всегда должен быть заключён в круглые скобки, при этом выполняться он будет перед главным (основным) запросом. Если он вернёт более одной строки (многострочный запрос), то с ним должны использоваться многострочные операторы.

Представим такую ситуацию: страховая компания вводит новый полис и отменяет возможность страхования тех людей, кому больше 80-и лет. С помощью подзапросов это можно сделать так:

Внутренний запрос группирует всех людей, чей возраст достигает более 80 лет, а затем удаляет их из базы данных.

4) Джоины

ДЖоины в SQL используется для объединения строк, которые схожи по каким-то общим признакам. Ниже будет указано 4 примера присоединения:

1. Inner Join. Оно показывает нам данные из таблицы только в том случае, если условие связывания соблюдаются.

SQL для анализа данных. 7 аспектов SQL, которые следует знать специалисту по работе с данными.

Эта программа возвращает имена студентов в том случае, если их id категории «Sports» совпадает с id категории «Students».

Left Join. При использовании этого типа присоединения, мы видим все записи из левой части таблицы, тогда как правая часть будет присоединена по возможности.

Right Join. Этот тип присоединения полностью противоположен предыдущему.

SQL для анализа данных. 7 аспектов SQL, которые следует знать специалисту по работе с данными.

Full Join: Этот тип присоединения содержит все строки, и если в нём нет соответствующей записи, то он возвращает значение NULL.

5) Хранимые процедуры

Благодаря хранимым процедурам, мы можем хранить несколько инструкций SQL в нашей базе данных, чтобы позже ими воспользоваться. С их помощью легче вносить какие-либо изменения в процессе работы.

Этот код позволяет нам отбирать студентов разных специальностей, опираясь на их оценки. Например: нам нужно выбрать всех студентов специальности Data Science, имеющих оценку A. Стоит заметить, что CREATE PROCEDURE идентична объявлению функции и вызывается она с помощью команды EXEC.

6) Форматирование строк

Все мы знаем, что необработанные данные необходимо чистить, чтобы повысить производительность нашей программы. Форматирование строк используется именно в этом контексте, с целью управления данными. В языке SQL содержится обширное количество встроенных функций, которые нужны для преобразования строк и работы с ними. Вот 5 наиболее используемых из них:

1. CONCAT. Используется для сложения двух или более строк.

2. SUBSTR. Данная функция позволяет извлекать подстроку из строки.

3. TRIM. Функция TRIM удаляет указанные символы (или слова) из начала или конца строки.

Если бы у нас была строка «26 years», то после использования функции сверху, программа возвращала бы только «26».

4. INSERT. Функция INSERT позволяет добавить одну или несколько строк в таблицу. Вам необходимо указать место, куда перезапишется строка, и её содержание.

5. COALESCE. Эта функция используется для замены нулевых значений на те, которые укажут сами пользователи.

7) Оконные функции

Оконная функция в SQL – функция, которая работает с выделенным набором строк (окном, партицией) и выполняет вычисление для этого набора строк в отдельном столбце. Они делятся на 3 типа:

1. Агрегатные функции. Они возвращают значения, которые получились при выполнении какого-либо взаимодействия между данными. Например: VG(), COUNT(), MAX(), MIN(), SUM() и другие.

Результатом этой программы становится средняя заработная плата различных отделов из таблицы сотрудников.

2. Функции значений. Эти функции используются для присвоения строкам значений из других строк. Например: LAG(),LEAD(), FIRST_VALUE(), LAST_VALUR() и NTH_VALUE().

В этой программе идёт сравнение дохода разных банков за текущий месяц с предыдущим.

3. Функции ранжирования. Они используются для присваивания классов строкам, исходя из предопределённого порядка. Например: ROW_NUMBER(), RANK(), DENSE_RANK(), PERCENT_RANK(),NTILE().

Товары классифицируются на основании их цен с помощью функции RANK().

Заключение

Я надеюсь, что прочтение этой статьи доставило вам удовольствие! Теперь, после ознакомления с ней, вам должны быть понятны те аспекты SQL, которые вам необходимо знать для работы в Data Science.

Что нужно знать в sql аналитику

Содержание:

  • Кто такой SQL-аналитик
  • Как можно войти в профессию
  • Как строится работа SQL-аналитика над проектом
  • Что самое сложное в работе SQL-аналитика
  • Какими навыками должен обладать SQL-аналитик
  • Где учиться на SQL-аналитика

Современный бизнес получает данные из огромного числа источников, среди них не только внешние ресурсы (статистические реестры, социальные сети, новостные ленты и др.), но и внутренние процессы компаний: почтовые рассылки и переписка, презентации, техническая документация, регламенты, сведения из систем мониторинга, CRM и ERP, общение с клиентами и партнерами и др. Чем активнее развиваются технологии, чем больше путей и каналов взаимодействия с сотрудниками и партнерами, тем быстрее происходит рост количества данных.

Такие перемены не могли не отразиться на компаниях. «Сырые» данные стали рассматривать под лупой и старательно искать в них закономерности, которые помогут развитию бизнеса: определить наиболее вероятное поведение участников процессов и их предпочтения, возможности оптимизации и монетизации. Отсюда и возникла потребность в проведении анализа.

Кто такой SQL-аналитик

Начнем чуть раньше. Если утрировать, то бизнес-анализ представляет собой процесс превращения данных в информацию, а информации — в деньги. Основная цель такого процесса — повысить эффективность компании и ее конкурентоспособность.

Бизнес-аналитика применяет результаты анализа в практических целях. Бизнес-аналитик изучает потребности, проблемы, потенциальные возможности бизнеса в рамках заданных требований и рекомендует наиболее оптимальные решения, позволяющие компании достичь цели.

SQL-аналитика — это более узкая часть бизнес-аналитики, главным инструментом которой стал SQL, или Structured Query Language — язык запросов, позволяющий работать с данными из БД: «читать» их, извлекать, исследовать, обрабатывать и визуализировать.

Утрированный пример: представим таблицу (Students_data), которая содержит следующее:

  • ФИО человека (student);
  • номер школы (school);
  • предмет (subject);
  • количество баллов по ЕГЭ (points).

Как только вся информация собрана, мы получаем сущность — готовую таблицу, атрибуты — столбцы, записи — строки. Итого: некая база данных. Нам надо узнать, кто из школьников написал ЕГЭ по математике на 60 и выше баллов. И чтобы вытащить эту информацию из базы, нужно прописать на специфическом языке специальный запрос, который реализует как раз SQL:

from students_data

where subject = ‘Математика’ and points >=60

Несмотря на то, что SQL принято считать лишь одним из инструментов аналитики, он очень гибкий и достаточно обширный: на нем можно в том числе проектировать базы данных, задавать их структуру, создавать таблицы и т.д. Но мы используем в большей степени только ту часть, которая отвечает за запросы, то есть за извлечение данных из базы и их обработку.

В качестве источников данных в большинстве случаев выступают логи — данные из журналов событий информационных систем, где в хронологическом порядке зафиксированы все действия пользователя. Вспомните, где, как и в скольких программах вы работаете в течение дня, умножьте это на пару месяцев и еще на пару десятков/сотен человек. Данные получаются действительно огромными.

Отсюда вытекает основная задача SQL-аналитика: понять, как нужно извлечь, преобразовать и визуализировать нужную информацию, чтобы это было полезно для бизнес-заказчика.

Как можно войти в профессию

Я окончила бакалавриат и магистратуру по направлению «Бизнес-информатика». Всегда тяготела к точным наукам, но учеба на стыке технических и бизнес-дисциплин показалась более перспективной и интересной. Мы не ограничивались разработкой или, например, управленческими навыками, а копали глубже: изучали общую теорию систем, структуры, базы и хранилища данных, моделирование бизнес-процессов, а также их совершенствование и управление ими. Особый фокус делали на анализе данных, благодаря чему и произошло мое первое знакомство с языком SQL.

Несколько лет проработала 1С-программистом, однако после первого курса магистратуры поняла, что в жизни надо что-то менять. Вакансия «SQL-аналитик» в «Инфомаксимум» поначалу вызвала больше вопросов и опасений: а смогу ли я? Хватит ли профильных навыков и компетенций?

Собеседование, обязательное тестовое, и вот — первый рабочий день. Он прошел на удаленке: со мной связалось руководство, дали вводные относительно доступов, документов, баз знаний, представили наставника, с кем в паре предстояло изучать основные моменты.

Сложность была в том, что пришла я сразу на большой проект и все практические навыки получала на «поле боя». Постоянно спрашивала у коллег различные тонкости и много-много-много изучала самостоятельно — на курсах, в книгах и экспертных статьях.

Как строится работа SQL-аналитика над проектом

Стоит отметить, что работа SQL-аналитика начинается задолго до начала непосредственного анализа и состоит из нескольких этапов:

1) Выявление потребностей заказчика и его «боли», формализация и согласование требований.

Во многих компаниях, в том числе и у нас, клиент заполняет специальную анкету. Там описывается то, что бы он хотел проанализировать (процессы или операции), какие цели и задачи ставит. Этот этап всегда длительный и сложный.

Во-первых, клиент не всегда сразу понимает, чего хочет на самом деле, а, во-вторых, его видение часто не совпадает с нашими возможностями. Мы, прежде всего, именно исследуем и анализируем, находим перспективы и возможности для совершенствования, предлагаем какие-то пути решения найденных проблем, но итоговое слово всегда за бизнес-заказчиком.

2) Изучение и исследование регламентов бизнес-процессов компаний, юридические согласования.

Внедрение нового ПО или даже пилотный проект — всегда долгая история в больших компаниях. Много юридических моментов, согласований со службами безопасности и т.д. После этого мы начинаем изучать качество данных: определяем, насколько они полные, достоверные, точные и согласованные. Это очень важно, поскольку именно оценка качества данных и мероприятия по их повышению — важнейший этап любого проекта по аналитике, поскольку некачественные данные приводят к заведомо некорректному результату.

Если мы понимаем, что для реконструкции процесса нам не хватает каких-либо данных, приходится обсуждать возможность добавления дополнительных источников.

3) Непосредственно аналитика.

Начинаем подробно и внимательно изучать все полученные массивы данных, чтобы правильно связать все данные из полученных источников (логи, агенты, регламенты, карты и т.д.). Нам нужно найти необходимые процессы или их кусочки, чтобы корректно построить процесс. Это делается обычно тремя способами:

  1. При помощи автоматических алгоритмов, когда выявляются повторяющиеся цепочки событий.
  2. Полуавтоматически, когда вручную задаются начало и конец операции/процесса, а закономерности и связи ищет алгоритм.
  3. Вручную — для сложных и длинных процессов/операций, когда нужно «увязать» деятельность сотрудников из разных подразделений. Это тот случай, когда может потребоваться большое количество разных источников.

4) Подготовка итоговых презентаций для клиентов.

Четко и лаконично, исключительно на основе фактов и в доступной форме нужно рассказать о том, к чему пришли в результате анализа.

К чему должен быть готов специалист — описывать сложные вещи просто. Не все понимают специфические термины а-ля process mining, OLAP-кубы и другие. Полезную информацию нужно предоставлять в доступной форме и обязательно визуальным способом.

Что самое сложное в работе SQL-аналитика

Мыслить как бизнес-заказчик. Если технические скиллы можно проработать, то вот с бизнес-мышлением сложнее. С чего именно надо начинать анализ, что станет той самой пресловутой отправной точкой – это нелегко определить. Нужно учиться смотреть на ситуацию с точки зрения клиента.

Я назову три компонента, которые считаю основными для достижения такой цели – опыт, время и постоянная работа над собой. Классическая формула.

Какими навыками должен обладать SQL-аналитик

Не скажу, что порог входа в профессию очень высокий и сложный, однако он требует специфических навыков и умений, основные из которых:

  • базовое знание SQL;
  • азы работы с большими данными;
  • общие знания о теории баз данных и методологиях проектирования;
  • навыки работы с одной из промышленных СУБД (лучше всего — ClickHouse);
  • аналитический склад мышления.

SQL-аналитику необходимо уметь посмотреть на ситуацию с разных ракурсов — как клиента, так и технического исполнителя. Это позволяет учитывать все аспекты работы при генерации вариантов решения поставленной задачи

Soft skills будут мало чем отличаться от других областей аналитики:

  • широкий кругозор. Насмотренность и начитанность, а также знание специфики различных видов деятельности (например, концентрация не только на банковской сфере, но и промышленности, телекоммуникациях, логистике и др.) помогает быстрее вникать в детали проекта и использовать уже готовые конструкции, а не начинать работу с нуля;
  • внимание к деталям. Мы имеем дело с огромными массивами данных, поэтому очень важно, чтобы полученные итоги были достоверными и обоснованными. Правило: «Семь раз примерь, один раз отрежь» — применимо к любой аналитической работе, где главный враг — суета, из-за которой можно не заметить важные мелочи;
  • коммуникабельность. Очень банальный, но актуальный скилл. Приходится общаться с большим количеством специалистов — от бизнес-заказчиков до проектных менеджеров, разработчиков и тестировщиков, доносить до них нужную информацию и делать релевантные запросы;
  • навыки презентации. Мало выполнить работу и в совершенстве знать результат, необходимо сжато и доходчиво донести информацию до заказчиков/руководства/коллег. Это универсальный навык, пожалуй, полезный не только в аналитике, но и во многих других профессиях;
  • работа в команде. Здесь все понятно. Без комментариев.

Где учиться на SQL-аналитика

В университете у нас был небольшой курс, посвященный изучению SQL, однако, приступив к работе, я поняла, что это больше теория. Практика же требует намного больших знаний и умений, поэтому большим подспорьем были экспертные статьи, книги, курсы и даже Telegram-каналы. Что могу посоветовать:

Один из самых известных и мейнстримных, но очень толковых курсов. Акцент сделан на том, чтобы научить созданию БД и правильно прописывать запросы, дать азы о связанных таблицах. Особенно полезным курс будет для тех, кто только начинает знакомство с SQL и пока мало понимает, что это и о чем это. Многие из наших ребят начинали свой путь в аналитике именно с этих курсов.

Тоже для тех, кто делает первые шаги в анализе. Об SQL рассказывают просто и с самых азов — от установки до решения задач с различными операторами.

Отличный и понятный, что немаловажно, учебник по SQL. Был очень полезен на начальных этапах работы, когда приходилось освежать знания.

Для тех, кто очень хочет связать свою жизнь с аналитикой, но не знает, с чего начать. Автор делает акцент на именно на том, как работать с информацией и на чем лучше концентрироваться.

Священная вещь. Большой русскоязычный (!) портал с документацией по ClickHouse, к которой постоянно обращаемся. Здесь можно найти ответ на любой интересующий вопрос. Все расписано емко, подробно и без воды. Кстати, в Telegram есть классный чат «ClickHouse не тормозит» с живым обсуждением самых разных тем.

Совет: перед тем, как выбрать курс, обязательно посмотрите, есть ли обратная связь и домашние задания. Теория теорией, но лучше практики ничего нет.

Быть SQL-аналитиком не значит сидеть с девяти до шести в офисе. Это интерес к своему делу в любое время дня. Не раз замечала, что для нас скинуть интересный кейс, экспертную статью в рабочий чат — естественное дело.

Профессия SQL-аналитика, с одной стороны, требует огромной точности и «аналитически заточенного разума», с другой же — предполагает креатив и возможность проявить творческую нотку. Не стоит этого бояться.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *