Pandas의 벡터 연산

2025년 03월 06일

최근에 회사에서 ETL 작업을 수행하면서, DB에 있는 테이블을 불러와 변환 작업을 한 뒤 새로운 테이블에 적재하는 일을 진행했다.

변환 작업은 Pandas를 사용했고, 이 과정에서 성능 향상을 고민하면서 알게된 벡터 연산에 대해 정리하려고 한다.

데이터프레임을 다룰 때 여러 가지 방법이 존재한다.

for문, iterrows() 메서드, apply() 메서드와 같이 레코드를 하나씩 다루는 방법과 벡터와 같이 모든 레코드를 한 번에 다루는 방법이 있다.

당연하게도 처리 속도 측면에서 벡터 연산이 우월하며, for문, iterrows(), apply() 중에서는 apply()가 가장 빠르다.

레코드를 하나씩 다루는 방법을 스칼라라고 하는데, 다음과 같은 특징을 가지고 있다.

끝으로 내가 사용한 벡터 연산 코드의 예시를 보여주고 마무리하고자 한다.

# pixel_count에서 1,000을 나눠 KP 계산
df_to_insert["kkpn"] = df["pixel_count"] / 1000

더불어 numpy의 where 메서드도 벡터 연산이므로 참고하자.

df_to_insert["latitude"] = np.where(df["tsi_lat"].isna() & df["tsi_lon"].isna(), df["pds_lat"], df["tsi_lat"])

그리고 벡터 연산의 경우는 입력값의 데이터 개수와 출력값의 데이터 개수가 동일해야 한다는 점을 잊지말자!

LATERAL JOIN에 대해 알아보자. (0)	2025.03.17
SQLAlchemy와 psycopg2 중 어느 것을 사용할까? (0)	2025.03.06
Chunk를 사용하여 대용량 파일 전송하기 (0)	2025.01.17
Synology Active Backup for Business 사용법 (Windows) (0)	2025.01.06
postgres 마이그레이션 (0)	2024.12.31

다음 글이 없습니다.

이전 글이 없습니다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바