코드를 약간 수정했다. 1. cpu 전체 중 90%만 사용2. 여러번 옮길 때 텍스트 초기화 결과1. 자잘한 파일들(사진 등)이 많을 때는 프로그램이 좀 더 빠르다(약 20%)2. 큰 파일들(게임 파일)을 옮길 때는 윈도우로 옮기는게 더 빠르다(약 50% 느림) 문제점1. 큰 용량이 들어있는 파일을 옮길 때 프로그래스바가 제대로 작동하지 않음2. 여전히 좀 느림
아무거나 만들어 봄

파이썬 multiprocessing을 이용하여 파일을 빨리 옮기는 프로그램을 만들어 보았다.사진 파일 옮기기파일 수 및 용량결과프로그램윈도우 옮기기약 142초2초 정도 더 빨라졌다...게임 파일 옮기기약 10분 정도 걸렸다.좀 더 수정이 필요해 보인다.https://github.com/dlsdud9098/move_files_program

2002-2024년앞에서 2001년까지 수행했으므로 이제 2002-2024년의 데이터를 크롤링하려고 한다.구조 확인현재 클릭해야하는 버튼은 크게 3가지다.1. 다음 기록2. 세부기록3. 두 번째 페이지그렇기 때문에 순서를기본 페이지 -> 다음 기록 페이지 -> 세부 기록 페이지 -> 행 합치기 -> 2번 째 페이지(기본 페이지) -> 다음 기록 페이지 -> 세부기록 페이지 -> 행 합치기 -> 1번 페이지, 2번 페이지 열 합치기순서로 했다.크롤링 시작첫 번째 글에서 만든 내용을 바탕으로 조금 수정했다.def page_click(driver): page_count = len(driver.find_elements(By.CSS_SELECTOR, '#cphContents_cphContents_cphCon..

처음 버전은https://chaos-apic.tistory.com/7개발 환경os: Ubuntu-20.04language: python3.10.14cpu: i9-13900kf홈페이지 구성 확인먼저 홈페이지에 들어가 보았다.kbo 기록실 페이지타자, 투수, 수비, 주루 4가지로 나뉘어져 있고연도, 시즌, 팀, 포지션, 상황 별로 나뉘어져 있다.또한 페이지가 동적이기 때문에 페이지내에서 변경사항이 있더라도 url 변동이 없다.그렇기 때문에 셀레니움을 이용해볼 생각이다.테이블 추출일단 테이블을 추출하고 이를 데이터프레임으로 만들어보자.# 페이지에서 테이블 추출def create_table(driver): # 페이지 소스 가져오기 kbo_page = driver.page_source # html..
지금까지는 여러 소설 사이트에서 소설 제목, 작가 이름, 소개글, 장르를 가지고 왔다. 현재까지 내가 가지고온 소설 사이트들은 카카오 페이지 카카오페이지 네이버 시리즈 네이버 시리즈 문피아 문피아 노벨피아 노벨피아 이렇게 4가지가 있다. 노벨피아는 기본적으로 f12를 막아놨기 때문에 따로 글을 작성하지 않았다. 카카오 또한 기존의 방식에서 다른 방식으로 크롤링하여 4만개의 데이터를 모두 모았다. 총 데이터는 159,596개다. 이제 이 데이터들을 가지고 본격적으로 장르 분류기를 만들어보려고 한다. 데이터 전처리 데이터 모으기 csv 파일 가져오기 각 파일에서 제목과, 작가이름만 가져오기 제목에서 필요한 부분만 가져오기(특수문자 및 필요없는 단어 제거) for t_list, g_list in zip(tit..
이제 카카오, 네이버, 문피아의 크롤링이 끝났다. 이제 노벨피아 차례인데, 노벨피아는 특이하게 다른 사이트들과 다르게 f12를 막아놨다. 저작권을 위해, 크롤링을 막아놓은 샘인데, 이게 나에겐 큰 난관으로 다가왔다. 이걸 뚫을 방법이 없나 하고 돌아다니며 찾아봤는데, 딱히 방법이 보이지 않았다. 하지만 집념의 힘으로 어떻게 뚫어내는데 성공했다! 일단 막아놓은걸 뚫었다고 쓰기에는 사이트에서 말 한데로 저작권 등 여러 문제가 있기 때문에 자세한 방법은 올리지 않겠다. 일단 긁을 수 있는건 다 긁은거 같다. 소개글도 긁을 수 있긴 한데 너무 오래걸릴거 같아서 패스했다.
현재까지 카카오페이지, 네이버 소설 목록을 크롤링 했다. 이제 문피아를 크롤링 할 차례다. (사실 크롤링은 1주일 전 쯤 다 끝냈는데 이것 저것 한답시고 글 쓰는게 좀 늦어졌다.) 먼저 문피아 홈페이지를 살펴보자 문피아는 다른 사이트 들과 다르게 전체 소설 목록 보는게 힘들게 되어있다. 이런 식으로 왼쪽에 왼쪽에 페이지 목록, 소설 목록이 모여있다. 여기서도 마찬가지로 두 단계로 나눠서 했다. 페이지 별(작가 연재, 일반 연재, 무료 연재, 선 독점작, 연재작, 완결작) 이상 총 6개의 페이지에 들어간다. 각 페이지의 끝 페이지 번호를 알아낸다. BeautifulSoup을 통해 크롤링 한다. 그리고 이번에는 더욱 빠른 크롤링을 위해 Multiprocessing을 이용할 예정이다. 관련 내용은 Beauti..
이전까지는 카카오 페이지의 소설 정보들을 크롤링했다. 데이터 프레임까지 다 만들었으니 이제는 네이버 소설을 크롤링할 차례다. 먼저 네이버 시리즈 각 카테고리의 링크들을 가져오자 # 네이버 소설 크롤링 본문 url_list = { '로맨스': 'https://series.naver.com/novel/categoryProductList.series?categoryTypeCode=genre&genreCode=201&page=', # 로맨스 '로판': 'https://series.naver.com/novel/categoryProductList.series?categoryTypeCode=genre&genreCode=207&page=', # 로판 '판타지': 'https://series.naver.com/novel..