Apache Airflow 설치해보기

 서론

Spark를 사용하여 Big Data Processing을 하게 되면서 일정 시간마다 처리할 수 있도록 도와주는 프로세서를 찾게 되었고, 여기에서 NiFi와 Airflow가 눈에 들어왔다.

그래서 NiFi(나이파이인지, 니피인지는 모르겠다)를 사용해보려고 했지만 구닥다리인 UI 덕분에 쓸 생각이 없어졌고, Airflow가 여기에서는 우위에 있다고 생각해서 Airflow를 사용해보려고 한다.

본론

설치[2]

$ which python

여기서는 당연히 파이썬을 필요로 하고, Python3이상의 버전을 사용하는 것을 권장한다. (Python 2는 이미 관짝에 봉인된지 오래다.) 그래서 Python을 설치한 후 PATH 에 Python을 잡아주어 Python, PyPi Installer 및 airflow 커맨드를 사용할 수 있도록 해주자.

$ export AIRFLOW_HOME=~/airflow

해당 명령은 넣어도 되고 안넣어도 된다. 지정한 폴더 내에 데이터베이스가 쌓이기 때문에 변경해야 할 필요성이 있는 경우 해당 폴더를 변경해서 사용하면 충분할 것 같다. 데이터베이스도 Sqlite외에 다른 DB 엔진을 사용해도 되는 것으로 보인다. 공식 문서[1]에서 이야기하기로는 MySQL이나 PostgreSQL을 사용하라고 권장하고 있는데, 기본으로 제공되는 Sqlite 를 사용해도 무방한 문제라고 본다.


[사진 1] 라고 쓸려고 했는데 PostgreSQL로 이전하는게 좋아 보인다... 쩝...

$   pip install apache-airflow
해당 명령을 통해서 Apache Airflow를 설치하게 되고

$   airflow initdb
해당 명령을 통해서 데이터베이스를 초기화하게 된다. $AIRFLOW_HOME을 지정하지 않으면 내 홈 디렉토리에 airflow 폴더에 생성된다.

$   airflow webserver -p 8080
해당 명령을 실행시키면 WebServer을 실행시킬 수 있고.

$   airflow scheduler
해당 명령을 사용하면 Airflow Scheduler을 실행시킬 수 있다.

참고문헌

1: https://airflow.apache.org/docs/stable/howto/initialize-database.html

2: https://airflow.apache.org/docs/stable/start.html

Comments

Popular posts from this blog

Windows에서 Buf 사용해보기

KubeCon Europe 참관기, 그리고 GPU Sharing