GCP Big data Platform

IT/GCP 2019. 11. 28. 16:54

ㅇ Cloud Dataproc : GCP에서 Hadoop, Spark, Hive 및 Pig를 빠르고 쉽게 관리 할 수있는 방법

Compute Engine 가상 머신 위에 90초 이내에 구축 가능
클러스터가 실행되는 동안 확장 or 축소 가능
Stackdriver를 사용하여 클러스터 모니터링 가능
dataset 크기를 알고 있거나 클러스터 크기를 직접 관리하는 경우에 좋음

사용 이유 :

- On premise 환경에서 Hadoop 사용시 HW가 필요하지만 Dataproc에서 작업하면 사용하는 동안만 리소스에 대한 비용 지불

- On premise 환경의 Hadoop 작업을 클라우드로 쉽게 Migration 가능

- Cloud Storage에 있는 데이터를 빠르게 분석 가능( 클러스터를 평균 90초 이내 생성하고 후에 즉시 삭제)

- Spark/Spark SQL를 사용하여 데이터 마이닝과 분석을 빠르게 가능

- Spark Machine Learning Libraries (Mllib)을 사용하여 분류 알고리즘을 수행

- 배치 처리에 선점형 인스턴스를 사용하여 비용 절약 가능

* 선점형 인스턴스 문서 URL : https://cloud.google.com/compute/docs/instances/preemptible

ㅇ Cloud Dataflow : Dataproc에 비해 데이터가 실시간성이고, 예측불가한 크기 및 속도일때 Dataflow 사용이 좋음

통합 프로그래밍 모델이자 관리 서비스
추출, 변환, 로드, 배치 계산, 연속 계산과 같은 광범위한 데이터 처리 패턴 개발 및 실행 가능
Data pipe line 를 구축하고, 동일한 파이프 라인이 배치 및 스트리밍 데이터에 동작
데이터 처리 운영에 리소스 관리 및 성능 최적화 알아서 해줌

특징 :

- Resource Management : 리소스 관리 자동화

- On-Demand : 모든 리소스는 주문형으로 제공되어 비즈니스 요구에 맞게 확장 가능

- Intelligent Work Scheduling : lagging (지연된) 작업을 동적으로 재조정 할 수 있는 자동 최적화된 작업 분할 가능

- Auto Scaling : 최적의 throughput 요구사항 충족을 위해 작업자가 자원을 수평으로 자동 확장 가능, 가격대비 성능을 향상 시킴

- Unified Programming Model : Dataflow API를 사용하여 데이터 소스 관계없이 MapReduce와 같은 작업 , 강력한 data windowing, 세밀한 정확성 제어 표현

- Open Source : 개발자가 Java 기반 Cloud Dataflow SDK에서 pull 요청을 끌거나 제출할수 있음. Dataflow pipeline은 Spark, Flink와 같은 대체 런타임에서도 실행 가능

- Monitoring : GCP 콘솔에 Pipeline 처리량 및 지연, 통합 작업자 로그 검사와 같은 통계를 거의 실시간성으로 제공함

- Integrated : seamless data 처리를 위해 Cloud Storage, Cloud Pub/Sub, Cloud Datastore, Cloud Bigtable 및 BigQuery와 통합됨, Apache Kafka 및 HDFS와 같은 다른 소스 및 싱크와 상호 작용하도록 화장 가능

- Reliable & Consistent Processing : 데이터 크기, 클러스터 크기, 처리 패턴 또는 pipeline 복잡성에 관계없이 일관되고 정확한 fault tolerant 실행을 기본적으로 지원함

사용 이유 :

- 데이터를 이동, 필터링, 보강, 강화하기위한 ETL (추출 / 변형 / 부하) 파이프 라인

- 데이터 분석 : 스트리밍을 사용한 배치 계산 또는 연속 계산

- Orchestration : 외부 서비스를 포함하여 서비스를 조정하는 파이프 라인을 만듭니다.

- Cloud Storage, Cloud Pub / Sub, BigQuery 및 Bigtable과 같은 GCP 서비스와 통합

오픈 소스 Java 및 Python SDK

ㅇ Big Query : Google의 완전 관리형 페타 바이트 규모의 저비용 분석 데이터웨어 하우스

대규모 데이터 세트 (수백 개의 TB)에 대한 거의 실시간 대화식 분석 제공
SQL 구문을 사용한 쿼리 (SQL 2011)
NoOps, 관리할 인프라 없고, DB관리자, 클러스터 유지 관리가 필요없음
장기 스토리지 가격 책정은 장기간 BigQuery에 상주하는 데이터에 대한 자동 할인 BigQuery에서 데이터 유효 기간이 90 일이되면 Google은 스토리지 가격을 월별 GB 당 0.02 USD에서 월별 GB 당 0.01로 낮아짐

특징 :

- Flexible Data Ingestion

Cloud Storage 또는 Cloud Datastore에서 데이터를 로드하거나 초당 100,000 행의 BigQuery로 스트리밍하여 데이터를 실시간으로 분석

- Glabal Availability

BigQuery 데이터를 유럽 위치에 저장하는 동시에 낮은 수준의 클러스터 유지 관리없이 지리적 데이터 제어 옵션을 통해 완전히 관리되는 서비스

- Security and Permissions

BigQuery에 저장된 데이터에 접근할수 있는 사람 제어

데이터 세트를 공유하더라도 비용이나 성능에 영향없음

- Cost Controls

BigQuery는 원하는 비용으로 일일 비용을 제한 할수있는 비용 관리 메커니즘을 제공

- Highly Available

여러 지역에서 Transparent data 복제를 수행하면 극도의 장애 모드에서도 데이터를 사용 가능 및 내구성이 있음

- Super Fast Performance

Google 인프라의 처리 능력을 사용하여 몇 테라 바이트의 데이터에 대해 초고속 SQL 쿼리를 몇 초만에 실행

- Fully Integrated

SQL 쿼리 외에도 Cloud Dataflow, Spark 및 Hadoop을 통해 BigQuery에서 데이터를 쉽게 읽고 쓸 수 있음

- Connect with Google Products

Google Analytics Premium에서 BigQuery로 데이터를 자동으로 내보내고 Google Cloud Storage, Google 드라이브 및 Google 스프레드 시트에 저장된 데이터 세트를 분석

BigQuery는 데이터베이스에 대한 만들기, 바꾸기, 업데이트 및 삭제를 일부 제한 사항과 알려진 특정 문제에 따라 변경

ㅇ Cloud Pub/Sub : M:M 비동기 메세징 서비스 지원

응용 프로그램 구성 요소로 주제에 대한 푸시 / 풀 구독
오프라인 소비자 지원 포함
데이터 처리 파이프 라인을 위해 Cloud Dataflow와 통합

특징 :

- Highly Scalable

고객 요청에 따라 초당 최대 10,000개 메시지 전송 가능

- Push and Pull Delivery

가입자는 인터넷 또는 방화벽 뒤에서 액세스 할 수있는 유연한 전송 옵션을 제공

- Encryption

유선 및 유휴 상태의 모든 메시지 데이터를 암호화하면 데이터 보안 및 보호 기능을 제공

- Replicated Storage

모든 메시지를 여러 영역의 여러 서버에 저장하여 "한 번 이상"메시지 배달을 제공하도록 설계

- Message Queue

단일 주제와 일대일 통신패턴을 지원하는 subscription을 사용하는 높은 확장성의 큐를 생성

- End-to-End Acknowledgement

명시적인 애플리케이션 수준의 승인으로 신뢰할 수있는 애플리케이션을 쉽게 구축

- Fan-out

주제에 메시지를 한 번 게시하면 여러 가입자가 일대 다 또는 다 대다 통신 패턴을 지원하기 위해 사본을 받음

- REST API

많은 프로그래밍 언어에서 API 라이브러리와 함께 JSON 메시지를 사용하는 간단한 상태 비 저장 인터페이스

사용 이유 :

Dataflow, 사물 인터넷 (IoT), 마케팅 분석에서 데이터 수집을 위한 Block 생성

● Dataflow 스트리밍 기반

● 클라우드 기반 애플리케이션에 대한 푸시 알림

● Google Cloud Platform에서 애플리케이션 연결 (Compute Engine과 App Engine 간 Push/Pull)

ㅇ Cloud Datalab : 대규모 데이터 탐색, 변환, 분석 및 시각화를 위한 Interactive Tool

- Jupyter 기반 오픈소스 (이전 Ipython), Jupyter Notebook으로 인지하면됨

- Datalab 자체에 대한 추가 비용은 없고, 사용한 리소스에 대해서만 비용 지불

특징 :

- Integrated

Cloud Datalab은 기본적으로 인증 및 클라우드 계산을 처리하며 BigQuery, Compute Engine 및 Cloud Storage와 통합

- Multi-Language Support

Python, SQL 및 JavaScript (BigQuery 사용자 정의 함수용)를 지원

- Notebook Format

코드, 문서, 결과 및 시각화를 직관적인 Notebook 형식으로 결합

- Pay-per-use Pricing

사용하는 클라우드 리소스 (App Engine 애플리케이션, BigQuery 및 클라우드 스토리지와 같이 사용하기로 결정한 추가 리소스)에 대해서만 요금을 지불

- Interactive Data Visualization

Google 차트 또는 matplotlib을 사용하여 쉽게 시각화

- Collaborative

GitHub 및 Bitbucket과 같은 Google 이외의 소스 코드 레파지토리와 동기화하는 옵션을 사용하여 노트북의 Git 기반 소스 제어

- Open Source

Cloud Datalab을 확장하려는 개발자는 GitHub 호스팅 프로젝트에서 Pull 요청을 Fork 및 / 또는 제출

- Custom Deployment

최소 VM 요구 사항, 네트워크 호스트 등을 지정

- IPython Support

Cloud Datalab은 Jupyter (이전의 IPython)를 기반으로하여 통계, 머신 러닝 등에 많은 기존 패키지를 사용

게시된 Notebook에서 IPython 커뮤니티와 팁을 교환

사용이유 : 직관적인 노트북 형식으로 코드, 문서, 결과, 시각화 작성 및 관리 용이

● 손쉬운 시각화를 위해 Google 차트 또는 matplotlib을 사용

● Python, SQL 및 JavaScript를 사용하여 BigQuery, Compute Engine 및 Cloud Storage의 데이터를 분석

● BigQuery에 모델을 쉽게 배포 할 수 있음

'IT > GCP' 카테고리의 다른 글

[Preview] Compute Predictive autoscaling 예측 자동 확장 사용('21.3) (0)	2021.03.04
Google Cloud Platform Issue Report - 2020.08.19 (0)	2020.08.26
Google Cloud Platform - Professional Cloud Architect 범위 (0)	2019.11.27
GCP Storage 비교 (0)	2019.11.17
Google Cloud Platform - Associate Cloud Engineer 범위 (0)	2019.10.24

ABOUT ME

Natural born IT Natural born IT

'IT > GCP' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'IT > GCP' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바