삼일오일사
close
프로필 사진

삼일오일사

github: @zjacom

  • 분류 전체보기 (115)
    • Book (66)
      • Learning SQL (9)
      • SQL 레벨업 (8)
      • 견고한 데이터 엔지니어링 (5)
      • 운영체제 (2)
      • 스파크 완벽 가이드 (9)
      • 파이썬 코딩의 기술 (29)
      • 분산 컴퓨팅 (4)
    • 개발 (31)
    • 기타 (10)
      • 출퇴근 공부 간단 정리 (7)
    • ELK (6)
  • 홈
  • 태그
  • 방명록
뤼튼 캐릭터 크롤링

뤼튼 캐릭터 크롤링

오늘은 뤼튼 홈페이지에서 캐릭터 데이터를 크롤링하면서 부딪혔던 문제들에 대해 글을 쓰려고 합니다. 기능 요구사항위 이미지처럼 뤼튼에는 여러 캐릭터가 있습니다.여기서 이름, 썸네일 이미지, 설명, 만든 사람을 추출합니다. 그리고 캐릭터를 클릭하면 볼 수 있는 첫 메시지 또한 가져오고 이를 MySQL에 저장하는 간단한 기능입니다. 사용한 기술언어 : Python크롤링 도구 : Playwright오케스트레이션 툴 : Docker패키징 : pyproject참고 사항뤼튼은 캐릭터를 가상 스크롤링 기술을 사용하여, 동적으로 렌더링합니다.크롤링보다 더 좋은 방법은 뤼튼이 웹 사이트에 데이터를 전달하는 API의 패턴을 찾아보는 것이 더 좋습니다.뤼튼은 next_cursor를 사용하여 캐릭터 정보를 담고 있는 API를 ..

  • format_list_bulleted 개발
  • · 2024. 10. 13.

새로운 웹 크롤링 도구 Playwright

최근 셀레니움을 사용해서 웹 페이지를 크롤링하던 중, 아래와 같은 문제에 부딪혔다.StaleElementReferenceException 오류로 인한 신뢰성 감소크롬 드라이버가 멈춰 무한루프에 빠지는 문제문제를 해결하기 위해 다음과 같은 과정을 수행했다.특정 요소가 로딩되는 시간을 명시적으로 지정하기time.sleep()을 사용하여 충분한 대기 시간 보장하기StaleElementReferenceException 오류가 발생하면 잠깐의 대기 시간을 갖고 재시도하기그럼에도 불구하고 코드의 실행 시간만 증가할 뿐 문제는 해결되지 않았다.계속해서 고민하던 중 "내가 너무 하나의 도구에만 의존하고 있는 건 아닐까?"라는 생각이 들었다.그 결과 도입한 도구는 Playwright이다. Playwright이란?Play..

  • format_list_bulleted 개발
  • · 2024. 9. 27.
  • navigate_before
  • 1
  • ···
  • 3
  • 4
  • 5
  • 6
  • navigate_next
공지사항
  • 31514의 이전 블로그는 여기로!
전체 카테고리
  • 분류 전체보기 (115)
    • Book (66)
      • Learning SQL (9)
      • SQL 레벨업 (8)
      • 견고한 데이터 엔지니어링 (5)
      • 운영체제 (2)
      • 스파크 완벽 가이드 (9)
      • 파이썬 코딩의 기술 (29)
      • 분산 컴퓨팅 (4)
    • 개발 (31)
    • 기타 (10)
      • 출퇴근 공부 간단 정리 (7)
    • ELK (6)
인기 글
전체 방문자
오늘
어제
Copyright © 31514 모든 권리 보유.
SKIN: Copyright © 쭈미로운 생활 All rights reserved. Designed by JJuum.
and Current skin "dev-roo" is modified by Jin.

티스토리툴바