Mac에서 Scala Spark Jupyter Notebook을 사용해보기

음... 심심해서 몇가지 테스트 겸 공부해보기 위해서 Spark 를 공부해보고 있다.

사용할때 Jupyter Notebook을 통해 Scala를 사용할 수 있는 "spylon-kernel" 이라는게 있어서 한번 사용해보려 한다.

설치를 위해서는 1) Python 2) Scala 3) Spark 를 설치하여야 한다. Jupyter Notebook을 돌리기 위해서 Python을 설치해야 하고, Spark를 돌리기 위해서 JAVA가 필요하며, Spark위에서 작업을 하기 위해서는 Scala가 필요하다. 대충 공부소꿉놀이를 위해서는 PySpark를 사용해도 무방하다.

자바를 한번도 해본적은 없지만 (업무에서는 Golang을 사용하고 있다.) PySpark보다는 Scala를 사용하는게 나은 선택인 것 같아서 사용한다. 이전에 Spark를 공부했을 때는 PySpark를 사용했었으나, Production을 가정하고 사용할때는 Scala를 사용하는 것이 나은 것 같다.

  1. Python: http://python.org 에 접속해 파이썬을 다운로드 받는다. 윈도우에서 입력하면 윈도우 스토어를 통해서 설치된다고 알고 있으나, 공식문서에서 다운로드 받는게 좋다고 본다.
  2. Java: https://adoptopenjdk.net/ 에 접속해 자바를 다운로드 받는다. 환경변수 (JAVA_HOME, PATH 등) 설정은 해야한다.
  3. Scala: https://www.scala-lang.org/ 에 접속해 스칼라를 다운로드 받는다. 이 역시도 알아서 잘 설정하면 된다. SBT로 한방에 설치했다. (brew install sbt)
  4. Spark: https://spark.apache.org/ 에 접속해 스파크를 다운로드 받는다. 이 역시도 알아서 잘 설정하면 된다. SPARK_HOME 환경변수를 설정한 후 이 역시도 PATH설정을 맞출 것.

Spylon-Kernel[1] 설치

$ pip install spylon-kernel
$ python -m spylon-kernel install

실행

$ jupyter notebook

[사진 1] Jupyter을 눌렀을 때 "spylon-kernel"이 나오게 된다.

[사진 2] 이후 코드를 집어넣고 실행하면 정상적으로 실행되는 것을 확인할 수 있다


팁: jupyter-spark[2] 를 활용해서 현재 실행중인 Spark Job 정보 확인하기

Mozilla 에서 Jupyter에서 Spark를 손쉽게 모니터링 할 수 있도록 만든 플러그인인데, 해당 툴을 사용하여 현재 실행중인 Job이 얼마나 있는지 노트북에서 확인이 가능하다.

터미널을 보면 정상적으로 띄워지지 않은 경우에는 404에러가 뜨는 것을 확인할 수 있는데, 다음의 명령어를 통해서 기본 Spark 주소를 변경함으로써 사용이 가능하다고 나온다.

$ jupyter notebook --Spark.url="http://localhost:4040"

참고문헌

[1]: https://george-jen.gitbook.io/data-science-and-apache-spark/install-findspark-add-spylon-kernel-for-scala

[2]: https://github.com/mozilla/jupyter-spark 

Comments

Popular posts from this blog

Windows에서 Buf 사용해보기

Apache Airflow 설치해보기

KubeCon Europe 참관기, 그리고 GPU Sharing