Amazon Redshift

 

O Amazon Redshift usa SQL para analisar dados estruturados e semiestruturados em data warehouses, bancos de dados operacionais e data lakes, usando hardware e machine learning projetados pela AWS para oferecer a melhor performance de preço em qualquer escala.

Casos de Uso do AWS Redshift

O AWS RedShift pode ser usado em uma ampla variedade de casos de uso, como:

Melhorar as previsões financeiras e de demanda

Criar, treinar e implantar automaticamente modelos de machine learning para insights preditivos.

Cooperar e compartilhar dados

Compartilhe dados entre contas, organizações e parceiros com segurança enquanto cria aplicações com base em dados de terceiros.

Otimizar a business intelligence

Crie relatórios e painéis orientados por insights usando o Amazon QuickSight, o Tableau, o Microsoft PowerBI ou outras ferramentas de business intelligence.

Aumentar a produtividade do desenvolvedor

Obtenha acesso simplificado aos dados, ingestão e saída de várias linguagens de programação e plataformas sem configurar drivers e gerenciar conexões de banco de dados.

 

Benefícios

Analise todos os seus dados:

Obtenha insights integrados executando análises preditivas e em tempo real sobre dados complexos e escalonados em seus bancos de dados operacionais, data lakes, data warehouses e milhares de conjuntos de dados de terceiros.

Consulta federada: 

Com o novo recurso de consulta federada no Amazon Redshift, você pode acessar bancos de dados relacionais em operação. Consulte dados ao vivo em um ou mais bancos de dados do Amazon Relational Database Service (RDS), Aurora PostgreSQL, RDS MySQL e Aurora MySQL para obter visibilidade instantânea de todas as operações comerciais sem exigir a movimentação de dados. Você pode juntar dados de seus armazéns de dados do Redshift, dados em seus data lakes e dados em seus armazenamentos operacionais para tomar melhores decisões baseadas em dados. O Amazon Redshift oferece otimizações para reduzir a movimentação de dados na rede e o complementa com seu processamento de dados massivamente paralelo para consultas de alta performance. Saiba mais.

Compartilhamento de dados:

o compartilhamento de dados do Amazon Redshift permite estender a facilidade de uso, a performance e os benefícios de custo que o Amazon Redshift oferece em um único cluster para implantações de vários clusters, possibilitando ao mesmo tempo o compartilhamento de dados. O compartilhamento de dados possibilita acesso instantâneo, detalhado e rápido aos dados por meio dos clusters do Redshift sem a necessidade de copiar ou mover esses dados. O compartilhamento de dados fornece acesso em tempo real aos dados, para que os seus usuários sempre vejam as informações mais atualizadas e consistentes à medida que são atualizadas no data warehouse. É possível compartilhar com segurança os dados ao vivo com os clusters do Redshift em contas iguais ou diferentes e entre regiões da AWS. Saiba mais.

AWS Data Exchange for Amazon Redshift:

consulte conjuntos de dados Amazon Redshift de seu próprio cluster do Redshift sem extrair, transformar e carregar ETL os dados. Você pode se inscrever em produtos de data warehouse em nuvem do Redshift no AWS Data Exchange. Assim que um provedor faz uma atualização, a mudança fica visível para os assinantes. Se você é um provedor de dados, o acesso é concedido automaticamente quando uma assinatura começa e revogado quando ela termina, as faturas são geradas automaticamente quando os pagamentos vencem e os pagamentos são coletados por meio da AWS. Você pode licenciar o acesso a arquivos simples, dados no Amazon Redshift e dados entregues por meio de APIs, tudo com uma única assinatura. Saiba mais.

Redshift ML:

o Redshift ML facilita a criação, o treinamento e a implantação de modelos do Amazon SageMaker usando o SQL para analistas de dados, cientistas de dados, profissionais de BI e desenvolvedores. Com o Redshift ML, os clientes podem usar instruções do SQL para criar e treinar modelos do Amazon SageMaker nos dados no Amazon Redshift e, em seguida, usar esses modelos para previsões como detecção de rotatividade, previsões financeiras, personalização e pontuação de risco diretamente em consultas e relatórios. Saiba mais.

Integração do Amazon Redshift para Apache Spark: 

Esse recurso facilita a criação e a execução de aplicações Apache Spark em dados do Amazon Redshift, permitindo que os clientes abram o data warehouse para um conjunto mais amplo de análises e soluções de machine learning. Com a Integração do Amazon Redshift para Apache Spark, os desenvolvedores que usam análises da AWS e serviços de ML, como Amazon EMR, AWS Glue, Amazon Athena Spark e Amazon SageMaker, podem começar em segundos e criar sem esforço aplicações Apache Spark que leem e gravam em suas aplicações Amazon Redshift data warehouse sem comprometer a performance das aplicações ou a consistência transacional dos dados. A Integração do Amazon Redshift para Apache Spark também facilita o monitoramento e a solução de problemas de performance de aplicações Apache Spark ao usar com o Amazon Redshift.

Amazon Aurora Zero-ETL para Amazon Redshift: 

E uma integração sem código entre o Amazon Aurora e o Amazon Redshift que permite que os clientes do Amazon Aurora usem o Amazon Redshift para análise quase em tempo real e machine learning em petabytes de dados transacionais. Segundos depois de os dados transacionais serem gravados no Amazon Aurora, o Amazon Aurora Zero-ETL para o Amazon Redshift disponibiliza os dados no Amazon Redshift, eliminando a necessidade de os clientes criarem e manterem pipelines de dados complexos executando operações de extração, transformação e carregamento (ETL). Essa integração reduz a carga e o custo operacional e permite que os clientes se concentrem na melhoria das suas aplicações. Com acesso quase em tempo real aos dados transacionais, os clientes podem aproveitar os recursos analíticos e de machine learning do Amazon Redshift para obter insights de dados transacionais e outros para responder com eficiência a eventos críticos e sensíveis ao tempo.

Ingestão de streaming: 

Engenheiros de dados, analistas de dados e desenvolvedores de big data estão usando mecanismos de streaming em tempo real para melhorar a capacidade de resposta do cliente. Com o novo recurso de ingestão de streaming no Amazon Redshift, você pode usar SQL (Structured Query Language) para se conectar e ingerir dados diretamente do Amazon Kinesis Data Streams e do Amazon Managed Streaming for Apache Kafka (MSK). O Amazon Redshift Streaming Ingestion também facilita a criação e o gerenciamento de pipelines downstream, permitindo que você crie visualizações materializadas diretamente nos streams. As visualizações materializadas também podem incluir transformações de SQL como parte do seu pipeline ELT (extração, transformação e carregamento). Você pode atualizar manualmente as visualizações materializadas definidas para consultar os dados de streaming mais recentes. Essa abordagem permite que você realize o processamento posterior e as transformações de dados de streaming usando ferramentas familiares existentes, sem custo adicional.

Consulte e exporte dados de/para um data lake: 

Nenhum outro data warehouse na nuvem facilita tanto a consulta e a gravação de dados em um data lake usando formatos abertos. Você pode consultar formatos de arquivo abertos, como Parquet, ORC, JSON, Avro, CSV e outros, diretamente no Amazon S3 usando o conhecido ANSI SQL. Para exportar dados para um data lake, basta usar o comando UNLOAD do Amazon Redshift no código SQL e especificar o Parquet como formato de arquivo. O Amazon Redshift formata e move automaticamente os dados para o S3. Assim, você conta com a flexibilidade de armazenar dados altamente estruturados e acessados com frequência e dados semiestruturados em um data warehouse do Amazon Redshift. Além disso, você pode manter até exabytes de dados estruturados, semiestruturados e não estruturados no Amazon S3. A exportação de dados do Amazon Redshift de volta para o data lake permite análises adicionais dos dados usando serviços da AWS como Amazon Athena, Amazon EMR e Amazon SageMaker.

Integração com serviços da AWS:

A integração nativa com serviços AWS, banco de dados e serviços de machine learning torna mais fácil lidar com fluxos de trabalho analíticos completos sem atrito. Por exemplo, o AWS Lake Formation é um serviço que facilita a configuração de um data lake seguro em dias. O AWS Glue pode extrair, transformar e carregar (ETL) dados no Amazon Redshift. O Amazon Kinesis Data Firehose é a maneira mais fácil de capturar, transformar e carregar dados de transmissão no Amazon Redshift para análises praticamente em tempo real. Você pode usar o Amazon EMR para processar dados usando Hadoop/Spark e carregar a saída no Amazon Redshift para inteligência de negócios e análises. O Amazon QuickSight é o primeiro serviço de inteligência de negócios com preço de pagamento por sessão que você pode usar para criar relatórios, visualizações e painéis com dados do Redshift. Você pode usar o Amazon Redshift para preparar os dados para executar workloads de machine learning (ML) com o Amazon SageMaker. Para acelerar as migrações para o Amazon Redshift, você pode usar o AWS Schema Conversion Tool e o AWS Database Migration Service (DMS). Além disso, o Amazon Redshift é estreitamente integrado ao Amazon Key Management Service (KMS) e ao Amazon CloudWatch para fins de segurança, monitoramento e conformidade. Você também pode usar User-Defined Functions (UDFs – Funções definidas pelo usuários) do Lambda para chamar uma função do Lambda de suas consultas SQL como se estivesse chamando uma UDF no Amazon Redshift. Você pode gravar UDFs do Lambda para integrar com serviços de parceiros da AWS e para acessar outros serviços populares da AWS, como o Amazon DynamoDB e o Amazon SageMaker.

Integração do console do parceiro: 

Você pode acelerar a integração de dados e criar valiosos insights de negócios em minutos integrando-se com soluções de parceiros selecionados no console do Amazon Redshift. Com essas soluções, é possível reunir os dados de aplicações como Salesforce, Google Analytics, Facebook Ads, Slack, Jira, Splunk e Marketo no data warehouse do Redshift de maneira eficiente e simplificada. Isso também permite juntar esses conjuntos de dados díspares e analisá-los juntos para produzir insights acionáveis.

Cópia automática do Amazon S3: 

O Amazon Redshift oferece suporte à cópia automática para simplificar e automatizar o carregamento de dados do Amazon S3, reduzindo o tempo e o esforço para criar soluções personalizadas ou gerenciar serviços de terceiros. Com esse recurso, o Amazon Redshift elimina a necessidade de executar procedimentos de cópia manual e repetidamente, automatizando a ingestão de arquivos e cuidando das etapas contínuas de carregamento de dados. O suporte à cópia automática facilita que usuários da linha de negócios e analistas de dados sem nenhum conhecimento de engenharia de dados criem facilmente regras de ingestão e configurem a localização dos dados que desejam carregar do Amazon S3. À medida que novos dados chegam às pastas específicas do Amazon S3, o processo de ingestão é acionado automaticamente com base nas configurações definidas pelo usuário. Todos os formatos de arquivo são compatíveis com o comando de cópia do Redshift, incluindo CSV, JSON, Parquet e Avro. 

Perguntas Frequentes

O que é o Redshift?

O Amazon Redshift é um serviço de armazenamento de dados em escala de petabytes totalmente gerenciado na nuvem. O Amazon Redshift Serverless permite acessar e analisar dados sem todas as configurações de um data warehouse provisionado.

O Redshift é um SaaS?


O Redshift também é um data warehouse tradicional projetado para lidar com casos de uso de Business Intelligence, entre outras coisas. No entanto, enquanto o Snowflake é uma oferta SaaS, o Redshift é uma solução PaaS (Platform-as-a-Service).

O Redshift é igual ao SQL?


O Redshift é uma solução de data warehouse totalmente gerenciada, enquanto o SQL Server é um sistema de gerenciamento de banco de dados relacional. O Amazon Redshift é tolerante a falhas e tem uma arquitetura de processamento massivamente paralelo (MPP). Por outro lado, a arquitetura cliente-servidor do servidor SQL suporta ANSI SQL.

 
 

4Strategies - Alta Performance para estratégias corporativas