-
GCP Big data PlatformIT/GCP 2019. 11. 28. 16:54
ㅇ Cloud Dataproc : GCP에서 Hadoop, Spark, Hive 및 Pig를 빠르고 쉽게 관리 할 수있는 방법
- Compute Engine 가상 머신 위에 90초 이내에 구축 가능
-
클러스터가 실행되는 동안 확장 or 축소 가능
-
Stackdriver를 사용하여 클러스터 모니터링 가능
-
dataset 크기를 알고 있거나 클러스터 크기를 직접 관리하는 경우에 좋음
사용 이유 :
- On premise 환경에서 Hadoop 사용시 HW가 필요하지만 Dataproc에서 작업하면 사용하는 동안만 리소스에 대한 비용 지불
- On premise 환경의 Hadoop 작업을 클라우드로 쉽게 Migration 가능
- Cloud Storage에 있는 데이터를 빠르게 분석 가능( 클러스터를 평균 90초 이내 생성하고 후에 즉시 삭제)
- Spark/Spark SQL를 사용하여 데이터 마이닝과 분석을 빠르게 가능
- Spark Machine Learning Libraries (Mllib)을 사용하여 분류 알고리즘을 수행
- 배치 처리에 선점형 인스턴스를 사용하여 비용 절약 가능
* 선점형 인스턴스 문서 URL : https://cloud.google.com/compute/docs/instances/preemptible
ㅇ Cloud Dataflow : Dataproc에 비해 데이터가 실시간성이고, 예측불가한 크기 및 속도일때 Dataflow 사용이 좋음
-
통합 프로그래밍 모델이자 관리 서비스
-
추출, 변환, 로드, 배치 계산, 연속 계산과 같은 광범위한 데이터 처리 패턴 개발 및 실행 가능
-
Data pipe line 를 구축하고, 동일한 파이프 라인이 배치 및 스트리밍 데이터에 동작
-
데이터 처리 운영에 리소스 관리 및 성능 최적화 알아서 해줌
특징 :
- Resource Management : 리소스 관리 자동화
- On-Demand : 모든 리소스는 주문형으로 제공되어 비즈니스 요구에 맞게 확장 가능
- Intelligent Work Scheduling : lagging (지연된) 작업을 동적으로 재조정 할 수 있는 자동 최적화된 작업 분할 가능
- Auto Scaling : 최적의 throughput 요구사항 충족을 위해 작업자가 자원을 수평으로 자동 확장 가능, 가격대비 성능을 향상 시킴
- Unified Programming Model : Dataflow API를 사용하여 데이터 소스 관계없이 MapReduce와 같은 작업 , 강력한 data windowing, 세밀한 정확성 제어 표현
- Open Source : 개발자가 Java 기반 Cloud Dataflow SDK에서 pull 요청을 끌거나 제출할수 있음. Dataflow pipeline은 Spark, Flink와 같은 대체 런타임에서도 실행 가능
- Monitoring : GCP 콘솔에 Pipeline 처리량 및 지연, 통합 작업자 로그 검사와 같은 통계를 거의 실시간성으로 제공함
- Integrated : seamless data 처리를 위해 Cloud Storage, Cloud Pub/Sub, Cloud Datastore, Cloud Bigtable 및 BigQuery와 통합됨, Apache Kafka 및 HDFS와 같은 다른 소스 및 싱크와 상호 작용하도록 화장 가능
- Reliable & Consistent Processing : 데이터 크기, 클러스터 크기, 처리 패턴 또는 pipeline 복잡성에 관계없이 일관되고 정확한 fault tolerant 실행을 기본적으로 지원함
사용 이유 :
- 데이터를 이동, 필터링, 보강, 강화하기위한 ETL (추출 / 변형 / 부하) 파이프 라인
- 데이터 분석 : 스트리밍을 사용한 배치 계산 또는 연속 계산
- Orchestration : 외부 서비스를 포함하여 서비스를 조정하는 파이프 라인을 만듭니다.
- Cloud Storage, Cloud Pub / Sub, BigQuery 및 Bigtable과 같은 GCP 서비스와 통합
오픈 소스 Java 및 Python SDK
ㅇ Big Query : Google의 완전 관리형 페타 바이트 규모의 저비용 분석 데이터웨어 하우스
- 대규모 데이터 세트 (수백 개의 TB)에 대한 거의 실시간 대화식 분석 제공
- SQL 구문을 사용한 쿼리 (SQL 2011)
- NoOps, 관리할 인프라 없고, DB관리자, 클러스터 유지 관리가 필요없음
- 장기 스토리지 가격 책정은 장기간 BigQuery에 상주하는 데이터에 대한 자동 할인 BigQuery에서 데이터 유효 기간이 90 일이되면 Google은 스토리지 가격을 월별 GB 당 0.02 USD에서 월별 GB 당 0.01로 낮아짐
특징 :
- Flexible Data Ingestion
Cloud Storage 또는 Cloud Datastore에서 데이터를 로드하거나 초당 100,000 행의 BigQuery로 스트리밍하여 데이터를 실시간으로 분석
- Glabal Availability
BigQuery 데이터를 유럽 위치에 저장하는 동시에 낮은 수준의 클러스터 유지 관리없이 지리적 데이터 제어 옵션을 통해 완전히 관리되는 서비스
- Security and Permissions
BigQuery에 저장된 데이터에 접근할수 있는 사람 제어
데이터 세트를 공유하더라도 비용이나 성능에 영향없음
- Cost Controls
BigQuery는 원하는 비용으로 일일 비용을 제한 할수있는 비용 관리 메커니즘을 제공
- Highly Available
여러 지역에서 Transparent data 복제를 수행하면 극도의 장애 모드에서도 데이터를 사용 가능 및 내구성이 있음
- Super Fast Performance
Google 인프라의 처리 능력을 사용하여 몇 테라 바이트의 데이터에 대해 초고속 SQL 쿼리를 몇 초만에 실행
- Fully Integrated
SQL 쿼리 외에도 Cloud Dataflow, Spark 및 Hadoop을 통해 BigQuery에서 데이터를 쉽게 읽고 쓸 수 있음
- Connect with Google Products
Google Analytics Premium에서 BigQuery로 데이터를 자동으로 내보내고 Google Cloud Storage, Google 드라이브 및 Google 스프레드 시트에 저장된 데이터 세트를 분석
BigQuery는 데이터베이스에 대한 만들기, 바꾸기, 업데이트 및 삭제를 일부 제한 사항과 알려진 특정 문제에 따라 변경
ㅇ Cloud Pub/Sub : M:M 비동기 메세징 서비스 지원
- 응용 프로그램 구성 요소로 주제에 대한 푸시 / 풀 구독
- 오프라인 소비자 지원 포함
- 데이터 처리 파이프 라인을 위해 Cloud Dataflow와 통합
특징 :
- Highly Scalable
고객 요청에 따라 초당 최대 10,000개 메시지 전송 가능
- Push and Pull Delivery
가입자는 인터넷 또는 방화벽 뒤에서 액세스 할 수있는 유연한 전송 옵션을 제공
- Encryption
유선 및 유휴 상태의 모든 메시지 데이터를 암호화하면 데이터 보안 및 보호 기능을 제공
- Replicated Storage
모든 메시지를 여러 영역의 여러 서버에 저장하여 "한 번 이상"메시지 배달을 제공하도록 설계
- Message Queue
단일 주제와 일대일 통신패턴을 지원하는 subscription을 사용하는 높은 확장성의 큐를 생성
- End-to-End Acknowledgement
명시적인 애플리케이션 수준의 승인으로 신뢰할 수있는 애플리케이션을 쉽게 구축
- Fan-out
주제에 메시지를 한 번 게시하면 여러 가입자가 일대 다 또는 다 대다 통신 패턴을 지원하기 위해 사본을 받음
- REST API
많은 프로그래밍 언어에서 API 라이브러리와 함께 JSON 메시지를 사용하는 간단한 상태 비 저장 인터페이스
사용 이유 :
Dataflow, 사물 인터넷 (IoT), 마케팅 분석에서 데이터 수집을 위한 Block 생성
● Dataflow 스트리밍 기반
● 클라우드 기반 애플리케이션에 대한 푸시 알림
● Google Cloud Platform에서 애플리케이션 연결 (Compute Engine과 App Engine 간 Push/Pull)

ㅇ Cloud Datalab : 대규모 데이터 탐색, 변환, 분석 및 시각화를 위한 Interactive Tool
- Jupyter 기반 오픈소스 (이전 Ipython), Jupyter Notebook으로 인지하면됨
- Datalab 자체에 대한 추가 비용은 없고, 사용한 리소스에 대해서만 비용 지불
특징 :
- Integrated
Cloud Datalab은 기본적으로 인증 및 클라우드 계산을 처리하며 BigQuery, Compute Engine 및 Cloud Storage와 통합
- Multi-Language Support
Python, SQL 및 JavaScript (BigQuery 사용자 정의 함수용)를 지원
- Notebook Format
코드, 문서, 결과 및 시각화를 직관적인 Notebook 형식으로 결합
- Pay-per-use Pricing
사용하는 클라우드 리소스 (App Engine 애플리케이션, BigQuery 및 클라우드 스토리지와 같이 사용하기로 결정한 추가 리소스)에 대해서만 요금을 지불
- Interactive Data Visualization
Google 차트 또는 matplotlib을 사용하여 쉽게 시각화
- Collaborative
GitHub 및 Bitbucket과 같은 Google 이외의 소스 코드 레파지토리와 동기화하는 옵션을 사용하여 노트북의 Git 기반 소스 제어
- Open Source
Cloud Datalab을 확장하려는 개발자는 GitHub 호스팅 프로젝트에서 Pull 요청을 Fork 및 / 또는 제출
- Custom Deployment
최소 VM 요구 사항, 네트워크 호스트 등을 지정
- IPython Support
Cloud Datalab은 Jupyter (이전의 IPython)를 기반으로하여 통계, 머신 러닝 등에 많은 기존 패키지를 사용
게시된 Notebook에서 IPython 커뮤니티와 팁을 교환
사용이유 : 직관적인 노트북 형식으로 코드, 문서, 결과, 시각화 작성 및 관리 용이
● 손쉬운 시각화를 위해 Google 차트 또는 matplotlib을 사용
● Python, SQL 및 JavaScript를 사용하여 BigQuery, Compute Engine 및 Cloud Storage의 데이터를 분석
● BigQuery에 모델을 쉽게 배포 할 수 있음
'IT > GCP' 카테고리의 다른 글
[Preview] Compute Predictive autoscaling 예측 자동 확장 사용('21.3) (0) 2021.03.04 Google Cloud Platform Issue Report - 2020.08.19 (0) 2020.08.26 Google Cloud Platform - Professional Cloud Architect 범위 (0) 2019.11.27 GCP Storage 비교 (0) 2019.11.17 Google Cloud Platform - Associate Cloud Engineer 범위 (0) 2019.10.24