반응형
크롤링 외주를 진행 중에 데이터의 개수는 정확하게 틀어맞지만 한국말이 아닌 외계어, 특수문자로 저장이 되어 있는 것을 확인하였습니다.
제 데이터를 예를 들어, �����������������Ȧ �� 이런 식의 특수 기호가 저장되어 있었습니다.
경험상 이 부분은 인코딩 문제라고 판단하여 구글링을 해보았는데, 자료가 많지 않아 공유드립니다.
조치법
res = requests.get(url, headers=headers)
res.encoding = 'euc-kr' #3번 주목
krtext = res.text
soup = BeautifulSoup(krtext, 'lxml')
# 프로그램 구동
위 조치법이 안되면 3번째 줄의 코드에
'euc-kr'을 'cp949', 'utf-8' 등으로 바꿔서 시도를 하시면 됩니다.
'파이썬 > 파이썬 셀레니움, Request' 카테고리의 다른 글
셀레니움) 스크롤 끝까지 내리기 (0) | 2023.01.28 |
---|---|
python) Tkinter checkbox, checkbox 클릭 시 해당 조건의 데이터 불러오기 (0) | 2023.01.08 |
Python) VS code sklearn 에러, 설치 방법, pip install 꿀팁 (0) | 2022.12.02 |
파이썬 문자 내용 말고 양 쪽 공백 다 제거하기, strip(), replace (1) | 2022.11.18 |
시간 설정으로 유튜브 셀레니움 스크롤 적당히 내리기 (0) | 2022.11.06 |
댓글