본문 바로가기
Dev Ops/Airflow

[Airflow 시리즈] AWS Server 구성

by ErrorMin 2024. 10. 14.

시작하며

 

Data ETL을 구성, 데이터들을 적극적으로 활용하기 위한 Airflow서버를 구축해 보려고 한다.

 

스팩 및 솔루션 구성

 

AWS

Ec2 : ubuntu24.04, t3.large, EBS 30gb

 

솔루션 예시는 다음과 같다.

 

  1. 회사의 AWS 서버가 있다. DB는 RDS 서비스를 활용하여 회사의 서비스가 동작중에 있다.
  2. 회사는 시간이 흘러 적제된 데이터를 활용해야한다는 생각이 들기 시작했다. 어떡해?
  3. 같은 VPC Subnet 환경에 Ec2를 생성하고 python패키지 설치, 사용중인 RDS DB연결, Airflow 설치, S3 연동을 진행 해야한다는것을 아~~~랏습니다.
  4. 보안은 기본적인 클라우드 아키텍처 구성과 인트라넷 구성으로 진행하면 된다는것을 또 아~~랏습니다.
  5. 기본적이면서도 관리와 구축이 쉽고 하지만 강력하게 사용할수 있도록 해 보겠습니다.

 

구축하기

 

  • AWS Service 아키텍처부터 구성하실경우 도움이 필요하시면 댓글에 적어주세요 :)
# 리눅스 최신 패키지 설치 및 확인
sudo apt update -y


# 파이썬 최선 비전 및 pip 설치
sudo apt install -y python3

sudo apt install -y python3 python3-pip

# 파이썬 라이브러리 설치
pip3 install requests pandas numpy matplotlib tqdm python-binance binance

 

 

[AWS] RDS 구축

RDS 실습 이전 포스팅에서 이론을 알아보았으며 이번엔 구축을 해 보려고함. RDS 생성중 RDS 식별자 인스턴스 정보를 확인할 수 있는 대시보드에서 연결 & 보안 항목에 EC2 인스턴스와는 달리 RDS 인

errormindevops.tistory.com

 

  • RDS 연결 설정이 완료 되었고 테이블 들이 잘 있는지 확인하셨다면 다음 포스팅을 보고 yaml파일을 만들어 주세요
  • yaml파일을 활용하는 이유는 사용하려는 Airflow에는 python 코드가 그대로 유출됩니다. 보기 않좋아요 :)

https://errormindevops.tistory.com/50

 

[Python] yaml 파일을 활용한 python 코딩

yaml파일을 활용한 Python 코딩을 포스팅하려고 합니다. 그냥 코딩을 해도 되는데 yaml파일 활용을 왜 하는건지 궁금하시지 않을 거 같지만 알아 두는 것이 몸에 이로울 수 있습니다. yaml을 사용하지

errormindevops.tistory.com

 

마지막으로 설치할것

pip install pymysql

 

다음글에서 계속...