아무거나 만들어 봄/kBO 크롤링

2002-2024년앞에서 2001년까지 수행했으므로 이제 2002-2024년의 데이터를 크롤링하려고 한다.구조 확인현재 클릭해야하는 버튼은 크게 3가지다.1. 다음 기록2. 세부기록3. 두 번째 페이지그렇기 때문에 순서를기본 페이지 -> 다음 기록 페이지 -> 세부 기록 페이지 -> 행 합치기 -> 2번 째 페이지(기본 페이지) -> 다음 기록 페이지 -> 세부기록 페이지 -> 행 합치기 -> 1번 페이지, 2번 페이지 열 합치기순서로 했다.크롤링 시작첫 번째 글에서 만든 내용을 바탕으로 조금 수정했다.def page_click(driver): page_count = len(driver.find_elements(By.CSS_SELECTOR, '#cphContents_cphContents_cphCon..
처음 버전은https://chaos-apic.tistory.com/7개발 환경os: Ubuntu-20.04language: python3.10.14cpu: i9-13900kf홈페이지 구성 확인먼저 홈페이지에 들어가 보았다.kbo 기록실 페이지타자, 투수, 수비, 주루 4가지로 나뉘어져 있고연도, 시즌, 팀, 포지션, 상황 별로 나뉘어져 있다.또한 페이지가 동적이기 때문에 페이지내에서 변경사항이 있더라도 url 변동이 없다.그렇기 때문에 셀레니움을 이용해볼 생각이다.테이블 추출일단 테이블을 추출하고 이를 데이터프레임으로 만들어보자.# 페이지에서 테이블 추출def create_table(driver): # 페이지 소스 가져오기 kbo_page = driver.page_source # html..
샐프
'아무거나 만들어 봄/kBO 크롤링' 카테고리의 글 목록