Python) Pandas read_csv 인코딩 확인하는 방법 소개
2022. 8. 30. 21:52ㆍ분석 Python
파이썬에서 csv를 읽을 때 가장 큰 이슈 중에 하나는 가끔 인코딩이 안 맞아서 헤매는 경우가 많다.
이 경우 일반적으로 윈도우면 cp949 리눅스면 utf-8 대충 아는 식으로 하게 되면 대부분은 맞지만 특이한 것들이 나오는 경우가 있다.
이 방법은 리눅스에서만 가능할 것 같지만 소개한다.
리눅스
바로 다음 명령어를 사용하면 된다. (u.item이라는 파일이 있다고 가정)
file -i u.item
u.item: text/plain; charset=iso-8859-1
그럼 아래처럼 charset이 나오게 된다.
이걸 사용해서 읽을 때 인코딩으로 정해주면 된다.
import pandas as pd
df = pd.read_csv("u.item", sep="|", encoding="iso-8859-1")
아래는 utf-8로 바꾸는 명령어이다.
iconv -f ISO-8859-1 -t UTF-8 filename
윈도우
메모장으로 열어서 원하는 방식으로 바꾸는 방법...
꿀팁 끝
참고
https://superuser.com/questions/123731/how-to-find-out-the-character-set-of-a-text-file
728x90
'분석 Python' 카테고리의 다른 글
[Python] txt 파일을 읽을 때, sep를 지정해서 분리하기 (0) | 2020.08.07 |
---|---|
openpyxl을 활용하여 Python에서 엑셀 사용하기 (0) | 2019.05.04 |