#5 of AI and Deep Learning - 이미지 크롤링 at multiple web browser

이미지 크롤링 using pycharm IDE

개요


(chapter - 1) 데이터 추출 기초 by urllib

  • python org-site library
  • urllib 패키지
    • 크롤링 관련 함수 및 설정을 갖춘 라이브러리
  • 데이터 추출 관련 2가지 함수
    • 파싱 여부에 따른 저장 flow
      • urlretrieve
        • 저장 -> open() -> 변수 할당 -> 파싱 -> 재저장
      • urlopen
        • 변수 할당 -> 파싱 -> 저장

(chapter - 2) 브라우저에서 이미지 크롤링

  • 기본 flow
  • google chrome
    • 1회 최대 400장 크롤링 가능
      • + 수백, 수천장 더 할 수 있을지 방법 확인 중
  • naver
    • 기본 1회 최대 50장
      • 50장 이상 본인이 원하는대로 크롤링 가능한 소스 찾아 적용
      • max 1회 1000장일 것으로 예상됨
  • bing 
    • 위와 동일한 방법
      • max 1회 35장밖에 수집 안되는 것으로 보임
        • 해결 -ing

Sources


Refereneces



댓글