조종 다음은 개발
article thumbnail
중고나라 크롤링 (3) - 가격정보 누락 문제해결 및 회고
중고나라 크롤링 2021. 5. 14. 15:50

크롤링을 하면서 가격 정보를 가져올 때 css 선택자로 가격 정보가 들어있는 class를 선택하여 가격 정보를 가져왔었다. 그러나 모든 게시글이 이러한 형식을 따른 것은 아니였다.. 특히 공식앱을 통해서 업로드 된 게시글들은 위 사진과 같은 형식으로 업로드 되지 않아서 가격 정보를 추출하지 못했다. 하지만 그러한 게시글들의 가격 정보는 제목에 담아 있었다. 위 사진에서 알 수 있듯이 제목에서 대괄호로 공식앱, 제목, 가격 정보가 들어 있었다. 그래서 제목에서 가격정보를 추출하여 가격 칼럼에 저장하는 방식으로 코드를 추가했다. 하지만 이 과정에서 문제가 다시 발생 했었다. 크롤링을 하는 과정에서 위 사진과 같은 공식앱으로 업로드 된 게시글에서 가격 정보를 추출하는 시간이 너무 오래 걸렸다. (최소 15초)..

중고나라 크롤링 도전 (2)
중고나라 크롤링 2021. 4. 11. 00:29

그동안 코드잇을 통해서 "데이터 사이언스 입문" 강의를 듣고 "업무자동화 FOR WINDOWS" 도 들으면서 많은 지식을 얻었다. 이제 필요한 것은 바로 적용!! 그래서 기존에 하고 있었던 중고나라 크롤링의 코드에 여러 기능을 추가했다 from selenium import webdriver import time from openpyxl import Workbook import datetime from selenium.webdriver.common.keys import Keys import pyperclip import pandas as pd # 검색할 물건 thing = '맥북 m1' # 총 몇 페이지 자료를 모을지 선택 total_page = 354 # 페이지 개수 나누기 total_next = tot..

중고나라 크롤링 시도!
중고나라 크롤링 2021. 3. 18. 22:24

웹 크롤링 수업을 듣고나서 최근들어서 관심이 있는 맥북의 대한 중고 게시글 정보들을 크롤링 해보고 싶은 마음에 시도해보았다. 처음에는 수월하게 잘 진행 되는듯 했으나,,, 중고나라에 들어가서 '맥북'을 검색한 뒤 게시글 하나를 클릭하고 뒤로가기 까지는 잘 진행 됐다. 하지만 그 이후론 문제가 생겼다. from selenium import webdriver import time driver = webdriver.Chrome() driver.implicitly_wait(3) driver.get('https://cafe.naver.com/joonggonara') driver.maximize_window() time.sleep(1) # 맥북 검색 driver.find_element_by_css_selector(..