시작하며
Data ETL을 구성, 데이터들을 적극적으로 활용하기 위한 Airflow서버를 구축해 보려고 한다.
스팩 및 솔루션 구성
AWS
Ec2 : ubuntu24.04, t3.large, EBS 30gb
솔루션 예시는 다음과 같다.
- 회사의 AWS 서버가 있다. DB는 RDS 서비스를 활용하여 회사의 서비스가 동작중에 있다.
- 회사는 시간이 흘러 적제된 데이터를 활용해야한다는 생각이 들기 시작했다. 어떡해?
- 같은 VPC Subnet 환경에 Ec2를 생성하고 python패키지 설치, 사용중인 RDS DB연결, Airflow 설치, S3 연동을 진행 해야한다는것을 아~~~랏습니다.
- 보안은 기본적인 클라우드 아키텍처 구성과 인트라넷 구성으로 진행하면 된다는것을 또 아~~랏습니다.
- 기본적이면서도 관리와 구축이 쉽고 하지만 강력하게 사용할수 있도록 해 보겠습니다.
구축하기
- AWS Service 아키텍처부터 구성하실경우 도움이 필요하시면 댓글에 적어주세요 :)
# 리눅스 최신 패키지 설치 및 확인
sudo apt update -y
# 파이썬 최선 비전 및 pip 설치
sudo apt install -y python3
sudo apt install -y python3 python3-pip
# 파이썬 라이브러리 설치
pip3 install requests pandas numpy matplotlib tqdm python-binance binance
- RDS 연결은 다음 포스팅을 확인해서 진행해 주세요 ( RDS Ec2 설정 및 접속 ) 부터 보시면 됩니다.
https://errormindevops.tistory.com/58
[AWS] RDS 구축
RDS 실습 이전 포스팅에서 이론을 알아보았으며 이번엔 구축을 해 보려고함. RDS 생성중 RDS 식별자 인스턴스 정보를 확인할 수 있는 대시보드에서 연결 & 보안 항목에 EC2 인스턴스와는 달리 RDS 인
errormindevops.tistory.com
- RDS 연결 설정이 완료 되었고 테이블 들이 잘 있는지 확인하셨다면 다음 포스팅을 보고 yaml파일을 만들어 주세요
- yaml파일을 활용하는 이유는 사용하려는 Airflow에는 python 코드가 그대로 유출됩니다. 보기 않좋아요 :)
https://errormindevops.tistory.com/50
[Python] yaml 파일을 활용한 python 코딩
yaml파일을 활용한 Python 코딩을 포스팅하려고 합니다. 그냥 코딩을 해도 되는데 yaml파일 활용을 왜 하는건지 궁금하시지 않을 거 같지만 알아 두는 것이 몸에 이로울 수 있습니다. yaml을 사용하지
errormindevops.tistory.com
마지막으로 설치할것
pip install pymysql
다음글에서 계속...
'Dev Ops > Airflow' 카테고리의 다른 글
[Airflow 시리즈] Example DAG 삭제 (0) | 2024.10.15 |
---|---|
[Airflow 시리즈] Airflow + Mysql DB그리고... 대Python (1) | 2024.10.14 |
[Airflow] 설치 1.10버전 (0) | 2022.07.26 |