본문 바로가기

Data Mining/Airflow

[ Airflow ] Airflow 설치하기 - Ubuntu

반응형

Ubuntu에서 Apache Airflow를 설치하는 방법을 단계별로 안내하겠습니다. Airflow는 워크플로우 자동화 및 스케줄링 도구로, 여러 방법으로 설치할 수 있습니다. 가장 일반적인 방법은 pip 패키지 관리자를 사용하는 것입니다.

1. Ubuntu 업데이트 및 기본 패키지 설치

먼저 시스템 패키지를 업데이트하고 필요한 도구를 설치합니다:

sudo apt update
sudo apt upgrade -y
sudo apt install -y python3-pip python3-dev libpq-dev

2. Python 가상환경 설정 (권장)

가상환경을 사용하여 Airflow와 그 종속성을 관리하는 것이 좋습니다.

sudo apt install -y python3-venv
python3 -m venv airflow-venv
source airflow-venv/bin/activate

3. Airflow 설치

Airflow는 apache-airflow라는 패키지로 제공됩니다. 설치 전에 환경 변수를 설정해야 합니다.

  • AIRFLOW_HOME 환경 변수를 설정하면 Airflow가 파일을 저장할 위치를 지정할 수 있습니다. 기본값은 ~/airflow입니다.
export AIRFLOW_HOME=~/airflow
  • pip로 Airflow를 설치합니다. 필요한 구성 요소(예: PostgreSQL, MySQL 등)를 기반으로 설치할 수 있습니다. 기본적으로 SQLite를 사용합니다.
pip install apache-airflow

만약 특정 추가 기능이 필요하다면 아래와 같이 설치할 수 있습니다:

pip install "apache-airflow[postgres]"
pip install "apache-airflow[mysql]"

4. Airflow 초기화

Airflow 설치 후 데이터베이스를 초기화해야 합니다.

airflow db init

5. Airflow 사용자 생성 (옵션)

Airflow 웹 서버에 접근하기 위해 관리자 사용자를 생성해야 합니다.

airflow users create \
    --username admin \
    --firstname Admin \
    --lastname User \
    --role Admin \
    --email admin@example.com \
    --password adminpassword

6. Airflow 웹 서버 및 스케줄러 시작

Airflow 웹 서버를 백그라운드에서 실행하려면 아래 명령을 사용합니다:

airflow webserver --port 8080

스케줄러도 별도로 실행해야 합니다:

airflow scheduler

7. Airflow 웹 UI에 접속

웹 브라우저에서 http://localhost:8080에 접속하여 Airflow 웹 UI를 사용할 수 있습니다.


이렇게 하면 Ubuntu 시스템에서 Airflow를 설정하고 실행할 수 있습니다. 필요한 추가 기능에 따라 설치할 패키지를 다르게 선택할 수 있으니, 필요에 따라 구성을 조정하세요.

반응형