ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • GCP Big data Platform
    IT/GCP 2019. 11. 28. 16:54

     

    Cloud Dataproc : GCP에서 Hadoop, Spark, Hive Pig를 빠르고 쉽게 관리 할 수있는 방법

    • Compute Engine 가상 머신 위에 90 이내에 구축 가능
    • 클러스터가 실행되는 동안 확장 or 축소 가능

    • Stackdriver 사용하여 클러스터 모니터링 가능

    • dataset 크기를 알고 있거나 클러스터 크기를 직접 관리하는 경우에 좋음

     사용 이유 :

    - On premise 환경에서 Hadoop 사용시 HW 필요하지만 Dataproc에서 작업하면 사용하는 동안만 리소스에 대한 비용 지불

    - On premise 환경의 Hadoop 작업을 클라우드로 쉽게 Migration 가능

    - Cloud Storage 있는 데이터를 빠르게 분석 가능( 클러스터를 평균 90 이내 생성하고 후에 즉시 삭제)

    - Spark/Spark SQL 사용하여 데이터 마이닝과 분석을 빠르게 가능

    - Spark Machine Learning Libraries (Mllib) 사용하여 분류 알고리즘을 수행

    - 배치 처리에 선점형 인스턴스를 사용하여 비용 절약 가능

    * 선점형 인스턴스 문서 URL : https://cloud.google.com/compute/docs/instances/preemptible

     


    Cloud Dataflow : Dataproc 비해 데이터가 실시간성이고, 예측불가한 크기 속도일때 Dataflow 사용이 좋음

    • 통합 프로그래밍 모델이자 관리 서비스

    • 추출, 변환, 로드, 배치 계산, 연속 계산과 같은 광범위한 데이터 처리 패턴 개발 실행 가능

    • Data pipe line 구축하고, 동일한 파이프 라인이 배치 스트리밍 데이터에 동작

    • 데이터 처리 운영에 리소스 관리 성능 최적화 알아서 해줌

    특징 :

    - Resource Management : 리소스 관리 자동화

    - On-Demand : 모든 리소스는 주문형으로 제공되어 비즈니스 요구에 맞게 확장 가능

    - Intelligent Work Scheduling : lagging (지연된) 작업을 동적으로 재조정 있는 자동 최적화된 작업 분할 가능

    - Auto Scaling : 최적의 throughput 요구사항 충족을 위해 작업자가 자원을 수평으로 자동 확장 가능, 가격대비 성능을 향상 시킴

    - Unified Programming Model : Dataflow API 사용하여 데이터 소스 관계없이 MapReduce 같은 작업 , 강력한 data windowing, 세밀한 정확성 제어 표현

    - Open Source : 개발자가 Java 기반 Cloud Dataflow SDK에서 pull 요청을 끌거나 제출할수 있음. Dataflow pipeline Spark, Flink 같은 대체 런타임에서도 실행 가능

    - Monitoring : GCP 콘솔에 Pipeline 처리량 지연, 통합 작업자 로그 검사와 같은 통계를 거의 실시간성으로 제공함

    - Integrated : seamless data 처리를 위해 Cloud Storage, Cloud Pub/Sub, Cloud Datastore, Cloud Bigtable BigQuery 통합됨, Apache Kafka HDFS 같은 다른 소스 싱크와 상호 작용하도록 화장 가능

    - Reliable & Consistent Processing  :  데이터 크기, 클러스터 크기, 처리 패턴 또는 pipeline 복잡성에 관계없이 일관되고 정확한 fault tolerant 실행을 기본적으로 지원함

     

    사용 이유 :

    - 데이터를 이동, 필터링, 보강, 강화하기위한 ETL (추출 / 변형 / 부하) 파이프 라인

    - 데이터 분석 : 스트리밍을 사용한 배치 계산 또는 연속 계산

    - Orchestration : 외부 서비스를 포함하여 서비스를 조정하는 파이프 라인을 만듭니다.

    - Cloud Storage, Cloud Pub / Sub, BigQuery Bigtable과 같은 GCP 서비스와 통합

     오픈 소스 Java Python SDK


    Big Query : Google의 완전 관리형 페타 바이트 규모의 저비용 분석 데이터웨어 하우스

    • 대규모 데이터 세트 (수백 개의 TB)에 대한 거의 실시간 대화식 분석 제공
    • SQL 구문을 사용한 쿼리 (SQL 2011)
    • NoOps, 관리할 인프라 없고, DB관리자, 클러스터 유지 관리가 필요없음
    • 장기 스토리지 가격 책정은 장기간 BigQuery에 상주하는 데이터에 대한 자동 할인 BigQuery에서 데이터 유효 기간이 90 일이되면 Google은 스토리지 가격을 월별 GB 0.02 USD에서 월별 GB 0.01로 낮아짐

     

    특징 :

    - Flexible Data Ingestion

    Cloud Storage 또는 Cloud Datastore에서 데이터를 로드하거나 초당 100,000 행의 BigQuery로 스트리밍하여 데이터를 실시간으로 분석

     

    - Glabal Availability

    BigQuery 데이터를 유럽 위치에 저장하는 동시에 낮은 수준의 클러스터 유지 관리없이 지리적 데이터 제어 옵션을 통해 완전히 관리되는 서비스

     

    - Security and Permissions

    BigQuery에 저장된 데이터에 접근할수 있는 사람 제어

    데이터 세트를 공유하더라도 비용이나 성능에 영향없음

     

    - Cost Controls

    BigQuery는 원하는 비용으로 일일 비용을 제한 할수있는 비용 관리 메커니즘을 제공

     

    - Highly Available

    여러 지역에서 Transparent data 복제를 수행하면 극도의 장애 모드에서도 데이터를 사용 가능 내구성이 있음

     

    - Super Fast Performance

    Google 인프라의 처리 능력을 사용하여 몇 테라 바이트의 데이터에 대해 초고속 SQL 쿼리를 몇 초만에 실행

     

    - Fully Integrated

    SQL 쿼리 외에도 Cloud Dataflow, Spark Hadoop을 통해 BigQuery에서 데이터를 쉽게 읽고 쓸 수 있음

     

    - Connect with Google Products

    Google Analytics Premium에서 BigQuery로 데이터를 자동으로 내보내고 Google Cloud Storage, Google 드라이브 및 Google 스프레드 시트에 저장된 데이터 세트를 분석

    BigQuery는 데이터베이스에 대한 만들기, 바꾸기, 업데이트 및 삭제를 일부 제한 사항과 알려진 특정 문제에 따라 변경


    Cloud Pub/Sub : M:M 비동기 메세징 서비스 지원

    • 응용 프로그램 구성 요소로 주제에 대한 푸시 / 풀 구독
    • 오프라인 소비자 지원 포함
    • 데이터 처리 파이프 라인을 위해 Cloud Dataflow와 통합

    특징 :

    - Highly Scalable

    고객 요청에 따라 초당 최대 10,000개 메시 전송 가능

    - Push and Pull Delivery

    가입자는 인터넷 또는 방화벽 뒤에서 액세스 할 수있는 유연한 전송 옵션을 제공

    - Encryption

    유선 및 유휴 상태의 모든 메시지 데이터를 암호화하면 데이터 보안 및 보호 기능을 제공

    - Replicated Storage

    모든 메시지를 여러 영역의 여러 서버에 저장하여 "한 번 이상"메시지 배달을 제공하도록 설계

    - Message Queue

    단일 주제와 일대일 통신패턴을 지원하는 subscription 사용하는 높은 확장성의 큐를 생성

    - End-to-End Acknowledgement 

    명시적인 애플리케이션 수준의 승인으로 신뢰할 수있는 애플리케이션을 쉽게 구축

    - Fan-out

    주제에 메시지를 한 번 게시하면 여러 가입자가 일대 다 또는 다 대다 통신 패턴을 지원하기 위해 사본을 받음

    - REST API

    많은 프로그래밍 언어에서 API 라이브러리와 함께 JSON 메시지를 사용하는 간단한 상태 비 저장 인터페이스

    사용 이유 :

    Dataflow, 사물 인터넷 (IoT), 마케팅 분석에서 데이터 수집을 위한 Block 생성

    Dataflow 스트리밍 기반

    클라우드 기반 애플리케이션에 대한 푸시 알림

    ● Google Cloud Platform에서 애플리케이션 연결 (Compute Engine App Engine Push/Pull)

     

     


    Cloud Datalab : 대규모 데이터 탐색, 변환, 분석 시각화를 위한 Interactive Tool

    - Jupyter 기반 오픈소스 (이전 Ipython), Jupyter Notebook으로 인지하면됨

    - Datalab 자체에 대한 추가 비용은 없고, 사용한 리소스에 대해서만 비용 지불

     

    특징 :

    - Integrated

    Cloud Datalab은 기본적으로 인증 및 클라우드 계산을 처리하며 BigQuery, Compute Engine Cloud Storage와 통합

    - Multi-Language Support

    Python, SQL JavaScript (BigQuery 사용자 정의 함수용)를 지원

    - Notebook Format

    코드, 문서, 결과 및 시각화를 직관적인 Notebook 형식으로 결합

    - Pay-per-use Pricing

    사용하는 클라우드 리소스 (App Engine 애플리케이션, BigQuery 및 클라우드 스토리지와 같이 사용하기로 결정한 추가 리소스)에 대해서만 요금을 지불

    - Interactive Data Visualization

    Google 차트 또는 matplotlib을 사용하여 쉽게 시각화

    - Collaborative

    GitHub Bitbucket과 같은 Google 이외의 소스 코드 레파지토리와 동기화하는 옵션을 사용하여 노트북의 Git 기반 소스 제어

    - Open Source

    Cloud Datalab을 확장하려는 개발자는 GitHub 호스팅 프로젝트에서 Pull 요청을 Fork / 또는 제출

    - Custom Deployment

    최소 VM 요구 사항, 네트워크 호스트 등을 지정

    - IPython Support

    Cloud Datalab Jupyter (이전의 IPython)를 기반으로하여 통계, 머신 러닝 등에 많은 기존 패키지를 사용

    게시된 Notebook에서 IPython 커뮤니티와 팁을 교환

     

    사용이유 : 직관적인 노트북 형식으로 코드, 문서, 결과, 시각화 작성 관리 용이

    손쉬운 시각화를 위해 Google 차트 또는 matplotlib을 사용

    ● Python, SQL JavaScript를 사용하여 BigQuery, Compute Engine Cloud Storage의 데이터를 분석

    ● BigQuery에 모델을 쉽게 배포 할 수 있음

Designed by Tistory.