728x90
반응형

기술 및 IT/Spark 2

spark.executor.memory 이란?

spark.executor.memory는 Apache Spark의 설정 옵션 중 하나로, Spark 애플리케이션의 각 executor 프로세스에 할당되는 메모리를 설정하는 데 사용됩니다. Executor는 Spark 애플리케이션에서 병렬 처리를 수행하는 컴포넌트이며, 데이터와 작업 처리를 담당합니다.spark.executor.memory를 사용하여 적절한 메모리 할당량을 설정하면 Spark 애플리케이션의 성능과 안정성이 향상될 수 있습니다. 설정값이 너무 작으면 실행 중인 작업이 충분한 메모리를 갖지 못해 성능이 저하되거나, executor가 종료되는 등의 문제가 발생할 수 있습니다. 반면, 설정값이 너무 크면 전체 클러스터의 메모리 사용량이 높아져 다른 애플리케이션에 영향을 줄 수 있습니다.spark...

기술 및 IT/Spark 2023.03.28

RDD(Resilient Distributed Datasets) 란?

Apache Spark는 빅 데이터 처리에 일반적으로 사용되는 오픈 소스 분산 컴퓨팅 시스템입니다. Spark의 주요 기능 중 하나는 데이터를 RDD(Resilient Distributed Datasets)라는 더 작은 조각으로 분해하여 분산 방식으로 데이터를 처리하는 기능입니다. RDD는 Spark의 기본 데이터 추상화이며 대량의 데이터를 처리하고 시스템 클러스터 전체에서 병렬 처리를 가능하게 하도록 설계되었습니다.주요 기능, 이점 및 사용 사례를 포함하여 RDD에 대해 자세히 살펴보겠습니다.RDD란?병렬 처리할 수 있는 안정적인 분산 데이터셋으로, Hadoop Distributed File System (HDFS), Amazon S3 등의 데이터 소스에서 생성할 수 있습니다. RDD는 immutabl..

기술 및 IT/Spark 2023.02.24
728x90
반응형