• 티스토리 홈
  • 프로필사진
    31514
  • 방명록
  • 공지사항
  • 태그
  • 블로그 관리
  • 글 작성
31514
  • 프로필사진
    31514
    • 분류 전체보기 (109)
      • Book (66)
        • Learning SQL (9)
        • SQL 레벨업 (8)
        • 견고한 데이터 엔지니어링 (5)
        • 운영체제 (2)
        • 스파크 완벽 가이드 (9)
        • 파이썬 코딩의 기술 (29)
        • 분산 컴퓨팅 (4)
      • 개발 (25)
      • 기타 (10)
        • 출퇴근 공부 간단 정리 (7)
      • ELK (6)
  • 방문자 수
    • 전체:
    • 오늘:
    • 어제:
  • 최근 댓글
      등록된 댓글이 없습니다.
    • 최근 공지
      • 31514의 이전 블로그는 여기로!
      등록된 공지가 없습니다.
    # Home
    # 공지사항
    #
    # 태그
    # 검색결과
    # 방명록
    • postgres 마이그레이션
      31514:
      얼마 전 회사에서 A 서버의 Docker 위에서 돌아가는 postgres를 B 서버로 마이그레이션하는 작업을 맡았다. 일단 덤프 파일을 만들기 위해 A 서버에서 다음과 같은 명령어를 실행해준다.docker exec -i pg_dumpall -U > .sql `pg_dumpall` 명령어는 postgres에 존재하는 모든 데이터베이스에 대한 덤프 파일을 만들 수 있는데, 만약 일부 데이터베이스의 덤프 파일이 필요하면 `pg_dump` 명령어를 사용하면 된다. 다음으로 A 서버의 덤프 파일을 B 서버로 옮겨줘야 하는데, 나는 Termius라는 멀티 SSH 플랫폼을 사용하여 쉽게 옮겼다. 이제 A 서버에서 사용하던 postgres docker-compose.yml 파일의 내용을 가져와서, B 서버에서 실행..
      • 2024-12-31 14:28:19
    • Airflow 뜯어보기(2)
      31514:
      # airflow\\configuration.pydef getboolean(self, section: str, key: str, **kwargs) -> bool: # type: ignore[override] val = str(self.get(section, key, _extra_stacklevel=1, **kwargs)).lower().strip() if "#" in val: val = val.split("#")[0].strip() if val in ("t", "true", "1"): return True elif val in ("f", "false", "0"): return False else: raise AirflowCon..
      • 2024-12-17 10:34:25
    • Airflow 뜯어보기(1)
      31514:
      먼저 Airflow의 시작점인 __main__.py 파일의 main() 함수부터 살펴보자.# airflow\__main__.pydef main(): conf = configuration.conf if conf.get("core", "security") == "kerberos": os.environ["KRB5CCNAME"] = conf.get("kerberos", "ccache") os.environ["KRB5_KTNAME"] = conf.get("kerberos", "keytab") parser = cli_parser.get_parser() argcomplete.autocomplete(parser) args = parser.parse_args() ..
      • 2024-12-16 14:44:20
    • 하둡 공부 4일차
      31514:
      오늘은 하둡 에코시스템에 포함되어 있지는 않지만, 대용량 데이터를 다룰 때 유용한 몇 가지 쿼리 엔진에 대해 학습했다.쿼리 엔진 Drill, Phoenix, Presto를 소개하고자 한다.DrillDrill은 다양한 데이터 소스에 대해 SQL 쿼리를 실행할 수 있는 분산형 스키마리스 SQL 엔진이다.Drill은 아래와 같이 다양한 데이터 소스를 지원한다.파일 시스템 : CSV, JSON, Parquet, ORC, Avro 등NoSQL 데이터베이스 : MongoDB, HBase, Cassandra 등클라우드 스토리지 : Amazon S3, Google Cloud Storage 등관계형 데이터베이스 : MySQL, PostgreSQL, Oracle 등이처럼 Drill은 다양한 데이터 소스로부터 편리한 SQL..
      • 2024-11-26 11:56:39
    • 포스트글 썸네일 이미지
      하둡 공부 3일차
      31514:
      오늘은 하둡과 관련하여 비관계형 데이터베이스(NoSQL)에 대해 학습했고, 어떤 상황에서 어떤 저장소를 선택할지에 대해 알아봤다. HBaseHBase는 HDFS 위에서 작동하고 API를 통해 CRUD 연산을 할 수 있는 비관계형 데이터베이스이다.Master-Slave 구조를 가지고 있어서 Master가 모든 Slave 노드를 추적하며, Zookeeper를 통해 Master 노드를 추적한다.HBase는 키의 범위를 기준으로 데이터를 분산한다. HBase에는 Cell과 Column Family라는 개념이 있다.Row Keyuser:nameuser:emailstats:visits1Alicealice@email.com342Bobbob@email.com12Cell은 Row Key, Column(Column Fam..
      • 2024-11-25 15:54:02
    • 하둡 공부 2일차
      31514:
      오늘은 저번 글에서 말했듯이, Spark와 Hive에 대해 공부했다.내 블로그를 보면 알 수 있듯이 Spark는 이미 다른 책을 통해 학습해둔 상태여서 이번 강의를 통해 복습을 할 수 있었다.굳이 새롭게 알게 된 사실을 말하자면 Spark에서 Python을 사용하는 것보다 Scala를 사용하는 것이 더 빠르다는데, 나중에 직접 경험해볼 수 있으면 좋을 거 같다.추가로 Spark는 디스크보다 인메모리 기반으로 데이터를 처리하기 때문에 처리 속도가 매우 빠르다.다른 글에 Spark에 대해 잘 정리되어 있으니, 이쯤에서 Hive 이야기로 넘어가보자. Hive도 SQL을 HiveQL이라는 이름으로 지원한다.실행 엔진도 MapReduce 뿐만 아니라 Tez, Spark 등 원하는 것을 선택하여 실행할 수 있다.그..
      • 2024-11-22 14:32:40
    • 포스트글 썸네일 이미지
      하둡 공부 1일차
      31514:
      이번에는 무엇을 공부해 볼까 하다가 하둡을 선택했다.사실 하둡의 역사와 어떤 구조를 가지고 있는지, 어떻게 데이터를 분산 저장하고 통신하는지 이론적으로 알고 있었다.하지만 하둡 저장소를 사용할 만큼 대용량의 데이터가 없었고, 어디서부터 시작해야 할지 막막했다. 열심히 찾아본 결과 유데미에서 케인 아저씨가 강의하는 하둡 강의를 찾게 되었다. 오늘은 하둡의 전체적인 생태계, MapReduce, Pig에 대해 공부하고 실습했다.하둡 에코 시스템은 HDFS와 YARN을 토대로 여러 컴포넌트들이 존재한다.우리가 흔히 알고 있는 Spark도 이에 포함된다. 하둡이 나온 지 얼마 되지 않았을 때는 데이터를 분석하기 위해 MapReduce를 사용했었다.이번 실습을 통해 파이썬 MRJob 라이브러리를 사용하여 간단한 코..
      • 2024-11-21 17:31:01
    • GCP VM Instance 저스펙으로 Airflow 서버 구축하고 안정적으로 크롤링하기
      31514:
      첫 번째 문제 - Small Instance에 Airflow 서버 구축개인 프로젝트를 하면서 5분 단위로 크롤링하여 데이터를 수집하고 싶었다.이를 위해 Lambda + EventBridge와 EC2 + Airflow를 고민하다가 비용적인 측면에서 후자가 유리할 거 같았다.이 링크를 참고하여 최대한 스펙이 낮은 EC2에 Airflow 서버를 구축했다. 처음에는 1GB RAM을 가진 인스턴스에서 Airflow 서버 구축을 시도했지만 메모리 부족 한계에 부딪혔다.이에 따라 아래와 같이 스왑 메모리도 설정해봤지만 역부족이었다.sudo fallocate -l 3G /swapfilesudo chmod 600 /swapfilesudo mkswap /swapfilesudo swapon /swapfileecho '/sw..
      • 2024-11-14 17:13:42
    조회된 결과가 없습니다.
    [1][2][3][4]
    스킨 업데이트 안내
    현재 이용하고 계신 스킨의 버전보다 더 높은 최신 버전이 감지 되었습니다. 최신버전 스킨 파일을 다운로드 받을 수 있는 페이지로 이동하시겠습니까?
    ("아니오" 를 선택할 시 30일 동안 최신 버전이 감지되어도 모달 창이 표시되지 않습니다.)
    목차
    표시할 목차가 없습니다.
      • 안녕하세요
      • 감사해요
      • 잘있어요

      티스토리툴바