스파크 공부를 시작하기로 했다.
주피터랩(JupyterLab)에서 노트북으로 실습 예제를 돌려보려고 했는데, jupyterlab에 기본적으로 탑재되어 있는 파이썬 커널 말고도 pyspark 커널이나 스칼라 기반 스파크 커널도 설치가 가능하다고 한다.
나는 파이썬 기반으로 공부할 거라서 파이스파크 커널을 설치하기로 했다.
Pyspark_kernel 설치하기
사전 확인
Spark 설치
Spark가 설치되어있는지 확인하고, 설치되어있지 않다면 설치해 준다.
pip install pyspark
나는 pip install로 설치함.
의존성 패키지 설치
아래 명령어로 의존성 패키지를 설치해 준다.
pip install ipywidgets ipykernel metakernel py4j pandas
pip install "IPython<8.0.0"
pyspark_kernel 패키지 설치
pyspark kernel 패키지를 설치한다.
pip install pyspark_kernel
JupyterLab에 pyspark_kernel 등록
python -m pyspark_kernel.install
정상적으로 설치가 완료됐다면 PySpark (python)이라는 선택지가 새롭게 생긴다.
노트북을 선택해서 코드를 실행시키면 Initializing PySpark로 pyspark가 실행되는 것도 확인할 수 있다.
에러 발생 시
# python -m pyspark_kernel.install
/usr/local/bin/python: No module named pyspark_kernel.install
위와 같이 No module named pyspark_kernel.install 에러가 발생한다면
python -m pyspark_kernel install
명령어를 수행해보고, 같은 오류가 발생한다면
python -m ipykernel install --user --name=pyspark --display-name="PySpark"
위의 명령어를 입력하여 수동으로 커널을 등록해버리면 pyspark 커널을 사용할 수 있긴 함.
참고 - https://pypi.org/project/pyspark-kernel/
'IT' 카테고리의 다른 글
[Streamlit] 스트림릿이란? 데이터분석 시각화 오픈소스 라이브러리 (0) | 2023.05.31 |
---|---|
Pyspark를 위한 Java 설치 및 JAVA_HOME 환경변수 설정 (0) | 2023.05.24 |
데이콘 일기 (2) - matplotlib 한글 폰트 설정 (0) | 2023.05.14 |
[Database] Oracle db 삭제 uninstall deinstall 하는 법 (0) | 2023.05.06 |
데이콘 일기 (1) - 이미지 분류 경진대회 준비하기 (0) | 2023.04.29 |
댓글