Что такое хранилище данных SQL Azure?

Microsoft преобразовала свои службы Azure в облачные решения корпоративного уровня, включающие передовые функции, такие как управление данными и их анализ.

Microsoft запустила хранилище данных SQL Azure, когда приняла решение использовать облако. Microsoft активно продвигает хранилище данных SQL Azure. Это гибкая служба управления базами данных, которая сочетает в себе функции эластичного хранилища данных.

Что такое хранилище данных SQL Azure?

Хранилище данных SQL Azure (теперь называемое Azure Synapse Dedicated SQL Pool, облачное хранилище данных, позволяет создавать и доставлять хранилище данных в Microsoft Azure. Хранилище данных Azure может обрабатывать большие объемы реляционных и нереляционных данных. Он предлагает Возможности хранилища данных SQL и платформа облачных вычислений.

Он изначально поддерживает SQL-серверы и может переносить существующие SQL-серверы в хранилище данных SQL. Вы также можете использовать те же запросы и конструкции. Кроме того, подписчики имеют мгновенный доступ к масштабированию, приостановке и сокращению ресурсов хранилища данных.

Он используется для предоставления полного решения хранилища данных корпоративного класса на основе SQL. Его также можно использовать следующими способами:

  • Миграция существующих хранилищ данных (локальных) в облако
  • Предоставьте решение хранилища данных для приложений и служб, которым требуется хранение и извлечение данных во время выполнения, таких как веб-приложения.
  • Гибридное решение для хранилища данных, которое подключается к хранилищу данных, размещенному в Azure, и SQL Server на месте.

Лучшей функцией хранилища данных SQL Azure является его эластичность. Он обеспечивает масштабируемость и возможность раздельного управления ресурсами хранения и вычислительными ресурсами. Это создает беспроигрышную платформу, где пользователи платят только за то, что они используют, и когда они это используют.

Вычислительная часть хранилища данных SQL Azure основана на модуле хранилища данных (DWU), который отслеживает вычислительные ресурсы, такие как операции ввода-вывода хранилища и память, на всех участвующих вычислительных узлах.

Хранилище данных SQL Azure предлагает функцию безопасности подключения. Это позволяет ограничить доступ к определенным IP-адресам или диапазонам IP-адресов с помощью правил брандмауэра. Интеграция с проверкой подлинности Azure Active Directory (AAD) позволит вам подключаться к хранилищу данных SQL Azure, используя удостоверения из Azure AD.

Многоуровневое шифрование обеспечивает защиту при хранении, перемещении и использовании для защиты ваших данных от неправомерного использования. Доступны дополнительные инструменты для аудита и мониторинга данных, а также для выявления нарушений безопасности.

В сочетании с другими инструментами Майкрософт хранилище данных SQL Azure обеспечивает непревзойденную производительность, что является основным преимуществом по сравнению с другими сопоставимыми службами на рынке.

Выделенный пул SQL Azure Synapse

Выделенный пул SQL Azure Synapse SQL (ранее Хранилище данных SQL Azure) — это банк данных с массовой параллельной обработкой данных, аналогичный технологиям масштабируемых баз данных на основе столбцов, таким как Snowflake и Amazon Redshift. Для конечного пользователя это выглядит как традиционный SQL Server, но он не хранит и не обрабатывает данные на одном узле.

Это может значительно повысить производительность хранилищ данных, размер которых превышает несколько терабайт, но могут быть лучшие решения для небольших реализаций.

Базовая архитектура сильно отличается от традиционных SQL-серверов. Это означает, что синтаксис и методы разработки также различаются.

Распределения сопоставляются с вычислительными узлами в выделенном пуле SQL. Пул переназначает ваши дистрибутивы на вычислительные узлы по мере того, как вы покупаете больше вычислительных ресурсов.

Вы можете импортировать большие данные с помощью простых запросов PolyBase SQL, а затем использовать механизм распределенных запросов для высокопроизводительной аналитики.

Выделенный пул SQL, ранее называвшийся SQL DW, предоставит вашему бизнесу единый источник достоверной информации, который позволит вам быстрее интегрировать и анализировать данные и получать более надежные аналитические данные.

В чем разница между выделенными пулами SQL Azure Synapse и выделенными пулами SQL в рабочей области Azure Synapse Analytics?

PowerShell — одна из самых запутанных областей в документации между «выделенным пулом SQL (ранее SQLDW) и выделенным пулом SQL Synapse Analytics».

В исходной реализации SQL DW используется логический сервер, аналогичный Azure SQL DB. Модуль PowerShell с именем Az.Sql является общим.

Этот модуль создает новый пул SQL (ранее SQLDW) с помощью командлета New.AzSqlDatabase. У него есть параметр «Редакция», который позволяет вам указать, что вы хотите DataWarehouse.

Synapse Analytics поставляется с новым модулем PowerShell от Az.Synapse, когда он был впервые выпущен. Чтобы создать выделенный пул SQL в рабочей области Synapse Analytics, вы должны использовать New-AzSynapseSqlPool.

Этот модуль PowerShell не требует включения параметра «Выпуск», поскольку он используется только для артефактов Synapse.

Выделенный пул SQL обеспечивает вычисления и хранилище на основе T-SQL. Данные можно загружать, моделировать и обрабатывать в Synapse, чтобы обеспечить более быстрое понимание.

Azure Synapse предлагает пулы Serverless SQL и Apache Spark в дополнение к выделенным пулам SQL. Вы можете выбрать правильный в зависимости от ваших требований.
Бессерверный пул SQL позволяет вам запрашивать данные, хранящиеся в вашем озере данных.

Что делает выделенный пул SQL Azure Synapse?

Выделенный пул SQL Azure Synapse использует масштабируемую архитектуру для распределения вычислений данных между несколькими узлами. Вы можете масштабировать вычислительные ресурсы независимо от хранилища, поскольку вычислительные ресурсы отличаются от хранилища.

Бессерверные пулы SQL являются бессерверными и автоматически масштабируются в соответствии с требованиями к ресурсам запросов. Он адаптируется к изменяющимся топологиям путем добавления, удаления или переключения узлов. Это гарантирует, что ваш запрос имеет достаточные ресурсы и может быть успешно выполнен.

Synapse SQL основан на архитектуре на основе узлов. Synapse SQL использует архитектуру на основе узлов. Приложения могут подключаться к узлу управления и выполнять команды T-SQL. Это единственная точка для Synapse SQL.

Узлы управления Azure Synapse SQL используют механизм распределенных запросов, который оптимизирует запросы для параллельной обработки, а затем передает операции вычислительным узлам, чтобы они могли выполнять свою работу параллельно.

Бессерверный узел управления пулом SQL использует механизм распределенной обработки запросов (DQP) для оптимизации и организации распределенного выполнения.

Для этого пользовательский запрос разбивается на более мелкие запросы, которые можно выполнять на вычислительных узлах. Каждая задача представляет собой распределенную исполнительную единицу. Он извлекает данные из других задач, группирует файлы и считывает их из хранилища.

Вычислительные узлы хранят все пользовательские данные и выполняют параллельные запросы. Служба перемещения данных (DMS), внутренняя служба системного уровня, перемещает данные между узлами, обеспечивая параллельные запросы и возвращая точные результаты.

Synapse SQL использует службу хранилища Azure для обеспечения безопасности пользовательских данных. Служба хранилища Azure хранит ваши данные и управляет ими. За использование хранилища взимается отдельная плата.

Возможности выделенных пулов SQL Azure Synapse

Вот основные функции пула SQL Azure Synapse:

  • Вы можете запросить данные в различных форматах, таких как Parquet, JSON и CSV, в озере данных.
  • Пользователи могут просматривать самые последние данные с помощью реляционной абстракции.
  • T-SQL позволяет преобразовывать данные в озере простым и масштабируемым способом.
  • Исследователи данных могут быстро изучить структуру и содержание данных об озере, используя OPENROWSET или функции автоматического вывода схемы.
  • Инженеры данных могут использовать пул для исследования озера и преобразования, создания или упрощения своих конвейеров преобразования данных.
  • Аналитики данных могут получать доступ к данным и запускать внешние таблицы с помощью языка T-SQL и других знакомых инструментов. Эти инструменты также можно подключить к бессерверному пулу SQL.
  • Мгновенно создавайте отчеты BI профессионалами бизнес-аналитики с помощью таблиц Spark или озера данных.

Выделенный пул SQL vs. Бессерверный пул SQL

Бессерверный пул SQL

Рабочие области Azure Synapse имеют бессерверный пул SQL, который действует как служба запросов по озерам данных. Для доступа к данным не требуется дополнительная настройка. Он полностью бессерверен и не требует инфраструктуры для настройки или обслуживания.

Масштабирование может выполняться автоматически в соответствии с требованиями к ресурсам. Пользователь платит только за обработанные данные, а не за зарезервированные ресурсы. Бессерверный пул SQL также создает статистику для оптимизации выполнения запросов.

Например, когда мы запускаем запрос дважды или запускаем два запроса с похожими планами выполнения, эту статистику можно использовать повторно.
Эти функции позволяют нам быстро анализировать большие объемы данных без их копирования или загрузки в определенное хранилище.

Выделенный пул SQL

Выделенный пул SQL Synapse является преемником хранилища данных SQL Azure и предлагает все функции корпоративного хранилища данных. Однако бессерверного пула SQL нет. Вместо этого пользователи должны создавать и удалять выделенный пул SQL Synapse. Мы также можем выбрать ресурсы, которые он будет использовать.

Эти ресурсы измеряются с помощью выделенных пулов SQL Synapse. Они называются единицами хранения данных (DWU). DWU относится к комбинации ресурсов ЦП, памяти и ввода-вывода.

Количество DWU определяет производительность и стоимость пула. Плата взимается не за каждый запрос, а за любое время активности пула, независимо от объема выполненной работы.

Чтобы избежать дополнительных затрат, выделенные пулы можно останавливать и перезапускать. Для нашего теста мы создали выделенный пул SQL на 100 DWU.

После создания пула данные в него можно загрузить с помощью команды COPY, PolyBase с запросами T–SQL или конвейера. Эти данные будут храниться в столбчатом хранилище в реляционных таблицах.

Выделенный пул SQLБессерверный пул SQLЭто позволяет запрашивать озеро данных и принимать его. Пользователи могут запрашивать файлы озера данных. Требуется инфраструктура. Нет необходимости создавать инфраструктуру или поддерживать кластеры. выделенные серверы. Для преобразования или исследования данных не требуется инфраструктура. Для хранения данных используются реляционные таблицы. Озеро данных хранит данные. Вы можете управлять затратами, приостанавливая пул SQL и уменьшая масштаб хранилища. Стоимость автоматически обрабатывается и выставляется счет в соответствии с с оплатой за запрос. Зарезервированные ресурсы подлежат оплате. Затраты на обработку данных по запросу взимаются. Плата за предоставленное DWU. Плата за обработанный ТБ.

Вывод

Итак, это все, что касается хранилища данных SQL Azure (теперь оно называется выделенным пулом SQL Azure Synapse). Несмотря на то, что выделенный пул SQL может выглядеть как традиционный SQL Server со многих точек зрения, базовая архитектура (массово-параллельная обработка) полностью отличается. Это означает, что определенные концепции и методы применимы только к выделенному пулу SQL.

Вы также можете изучить различия между Data Lake и Data Warehouse.