[Java] 한글 처리

Sort 2014. 11. 18. 13:16

2014. 11. 18. 13:16

※ 자바에서 한글을 쓰기 위해서는 charset을 EUC-KR로 써라?!

자바를 배우기 위해 넉달동안 학원수강을 했다. 열심히 잘 배우고 이제 취직 준비중...

두 분의 강사를 만나 배웠는데.. 두 분 모두 한글 처리에 관해서는 이렇게 가르치고 있다.

“한글을 쓰려면 EUC-KR 인코딩을 사용해라...”

두 분의 강사 뿐만 아니라... 현재 국내의 JAVA 교육센터, 현재 출간된 자바, JSP관련 책자 등은 모두 한글처리를 위해서 EUC-KR 혹은 KSC5601을 사용한다고 나와있다.

문제는 왜 EUC-KR을 사용하는지에 대한 언급도 없으며, 한글 처리를 위해서는 MS949도 있고 UTF-8도 있는데 여기에 대한 언급도 전혀 없다. 단지 “한글 처리를 위해서” 란다. 강사조차도 MS949라는 인코딩 방식이 있는지 모르는 경우도 있으며, UTF-8에서 한글처리가 가능한 것을 모르는 경우도 있다. 이런 연유로... 현재 웬만한 PHP를 포함한 웹사이트들을 보면 EUC-KR로 인코딩이 되어있는 것을 확인할 수 있다.

EUC-KR이 온전한 한글이 아님은 이전에 내 블로그에서 확인한 바 있다. 2350개의 한글만 처리할 수 있는 이빨빠진 한글이다. EUC-KR을 사용할 바엔 차라리 MS949를 사용하는 것이 나을지도 모르겠다. 적어도 '뷁', '똠방각하'등의 글자를 제대로 처리하려면 말이다. 궁극적으로는 UTF-8를 사용해야 한다는 것이 내 생각이다.

물론 UTF-8을 사용할 경우 한글이 2바이트가 아닌 3바이트로 늘어난다는 단점도 있다. 그렇다고 UTF-16을 사용하기에는 웹문서의 대부분을 차지하는 ASCII 영역이 1바이트가 아닌 2바이트로 늘어난다.

그렇다면 왜 UTF-8인가?

첫째, FONT만 존재하면 외국 어느 국가에서든 인코딩 변환 없이 문서를 조회할 수 있다는 장점이 있다.

둘째, 한 문서 안에서 한글, 일본어, 한자 뿐만 아니라 세계의 모든 글자를 표현할 수 있다. 이는 곧 유니코드가 만들어진 배경이며 ISO표준이 된 이유이다.

셋째, 가장 중요한 이유로, 유니코드의 한글은 이빨빠진 완성형인 EUC-KR(KSC5601)뿐만 아니라 MS949 보다도 훨씬 정확하게 한글을 표현할 수 있다. MS949는 이전에 언급한 바도 있지만 정렬 문제가 치명적이다. 그러나 유니코드의 한글은 가~힣까지의 모든 한글이 순차적으로 배열되어있다. 덕분에 한글을 조합형처럼 분해, 조합할 때도 간단한 수식 계산만으로 가능하다고 이전에 포스팅한 적이 있다. 또한 “DB의 어떤 데이터를 사전 순서로 배열하라”고 하면 UTF-8기반으로 작성된 시스템에서는 “ORDER BY ... ”의 SQL문 하나로 끝날 수 있는 것이다. EUC-KR의 한글도 물론 순차적으로 배열되어 있지만, 한글 분해 조합을 위해서는 별도의 테이블이 필요하며, 유저가 “뷁”이라는 데이터를 요구하면 속수무책이다.

마지막으로, JAVA 내부적으로는 이미 UNICODE가 쓰이는데, 이를 억지로 EUC-KR로 바꾸느라 고생을 해야 한다는 점이다. 물론 이점은 Encode 관련 메소드에 의해서 UTF-8로 변환하나, EUC-KR로 변환하나 프로그래머가 직접적으로 느끼는 수고는 차이 없을지도 모르겠지만.

※ JSP, 톰캣에서 한글 사용하기

이하로 설명하는 것은 학원에서 EUC-KR 배운것을 UTF-8로 바꾸면서 경험한 것을 토대로 작성하였다. 톰캣 5.5 버전을 기본으로 설명하겠다. 다른 버전은 사용해보지 않았기에.

1. 기본 세팅의 톰캣

톰캣을 설치하면 기본 charset은 Latin-1(8859_1)으로 되어있다.

1) 페이지 설정

UTF-8을 쓰고자 하는 경우 *.html, *.htm, *.jsp 파일은 UTF-8 형식으로 저장한다.

EUC-KR, MS949는 ANSI, MS949등의 기본 형식으로 저장하면 된다.

모든 HTML, JSP에는 아래와 같은 META태그를 넣을 것을 권장한다.

JSP에서는 페이지 상단에 page 지시자를 다음과 같이 넣는다.

<%@ page contentType="text/html;charset=UTF-8" %>

2) POST 방식의 데이터 전송

POST방식으로 전송된 데이터는 UTF-8이든, EUC-KR이든 다음과 같은 라인을 추가하면 해결 된다.

request.setCharacterEncoding("UTF-8");

//EUC-KR인 경우 UTF-8을 EUC-KR로 바꾼다.

3) GET 방식의 데이터 전송

GET방식으로 전송된 데이터는 URL을 통해 전송되기 때문에 위의 방식으론 쓸 수 없다. URL에서의 데이터를 Latin-1(8859_1)인코딩으로 서버에서 처리하기 때문이다. 이를 톰캣의 버그라고 단정짓는 일부 서적의 말은 잘못된것이다.

불러온 데이터를 아래와 같이 처리해 주어야 한다.

request.setCharacterEncoding("UTF-8");

String data = new String(request.getParameter("data").getBytes("8859_1"),"UTF-8");

//Latin-1(8859_1)로 읽어들인 데이터를 다시 UTF-8로 재해석하는 코드

//EUC-KR인 경우 UTF-8을 EUC-KR로 바꾼다.

4) 한글 파일 전송

Latin-1(8859_1)로 세팅된 톰캣 서버에서는 URL을 무조건 영어로 처리하므로 한글 파일은 절대로 읽어들일 수 없다. 파일을 영어로 바꾸어 저장하거나, 한글 파일을 영어로 바꾸는 처리를 해주어야 한다.

2. 톰캣의 세팅을 UTF-8로 바꾸기

톰캣의 conf라는 폴더를 보면 server.xml과 server-minimal.xml 이란 파일을 볼 수 있다. 텍스트 에디터로 열어서 <connector...>라는 항목을 찾아 다음과 같이 설정하자.

server.xml

<Connector port="8080" maxHttpHeaderSize="8192"

maxThreads="150" minSpareThreads="25" maxSpareThreads="75"

enableLookups="false" redirectPort="8443" acceptCount="100"

connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" />

server-minimal.xml

server-minimal.xml이 존재하지 않거나 server.xml만 바꾸었을때 제대로 동작하면 server-minimal.xml은 세팅할 필요 없다.

이 세팅은 웹페이지의 URL에서 문자열을 읽어올 때 서버가 처리하는 URL의 인코딩 타입을 변경하는 것이다. Internet Explorer에서 "URL을 항상 UTF-8로 보냄"이 켜져 있으면 브라우저는 서버에 UTF-8로 보낸다. 이를 서버에서 읽어들일때 UTF-8이 세팅되어 있어야 하는 것이다.

이제 기본세팅과의 차이점을 보자.

페이지 설정과 POST방식으로 전송된 데이터의 처리는 그대로 두어도 좋다. 서버를 UTF-8로 세팅한 만큼 가급적 UTF-8의 방식으로 페이지 설정을 하자.

GET방식으로 전송된 데이터의 처리는, 다음 항목이 필요가 없어진다. 당연하다. 있으면 오히려 에러가 발생할 것이다. 앞부분에 주석처리를 해버리자.

request.setCharacterEncoding("UTF-8");

//String data = new String(request.getParameter("data").getBytes("8859_1"),"UTF-8");

//Latin-1(8859_1)로 읽어들인 데이터를 다시 UTF-8로 재해석하는 코드

한글 파일의 전송은 다음과 같이 처리한다.

한글파일 링크</a>

이렇게 하면 URLEncoder에 의해서 %xx%xx 형식의 UTF-8로 인코딩된 URL코드가 링크될 것이다.

그외에 Internet Explorer에서는 “URL을 항상 UTF-8로 보냄”이 기본 체크 되어있으므로 주소창에 한글을 직접 써도 서버에서 알아서 처리해준다. 물론 저 항목을 끄면 또 에러 발생.. (FireFox에서는 OS에 따라 MS949로 보낼 수도 있으므로 주의하자.)

3. 톰캣의 세팅을 EUC-KR로...

역시 conf 폴더에서 server.xml과 server-minimal.xml 이란 파일을 찾아 텍스트 에디터로 열어서 <connector...>라는 항목을 찾아 다음과 같이 설정하자.

server.xml

<Connector port="8080" maxHttpHeaderSize="8192"

maxThreads="150" minSpareThreads="25" maxSpareThreads="75"

enableLookups="false" redirectPort="8443" acceptCount="100"

connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="EUC-KR" />

server-minimal.xml

server-minimal.xml이 존재하지 않거나 server.xml만 바꾸었을때 제대로 동작하면 server-minimal.xml은 세팅할 필요 없다.

역시 페이지 세팅은 서버가 EUC-KR인 만큼 EUC-KR로 하는 것이 바람직하다....(젠장)

GET방식으로 전송된 데이터의 처리는, 역시 다음 항목이 필요가 없어진다. 앞부분에 주석처리를 하자.

request.setCharacterEncoding("EUC-KR");

//String data = new String(request.getParameter("data").getBytes("8859_1"),"EUC-KR");

//Latin-1(8859_1)로 읽어들인 데이터를 다시 EUC-KR로 재해석하는 코드

한글 파일의 전송도 마찬가지다.

한글파일 링크</a>

뭐.. Internet Explorer에서 "URL을 항상 UTF-8로 보냄" 설정에 상관 없이 클릭하면 잘 될 것이다. 단.. 주소창에 직접 입력하려면 저 설정을 꺼야 된다.(개발자는 이를 고객에게 강요는 하지 말라. 어플리케이션 개발을 시작할때부터 한글을 직접 주소창에 입력하는 경우를 철저히 배제해야 한다.)

EUC-KR로 세팅한 이상 EUC-KR에서 지원하는 2350자 이외의 한글에 대해서는 보장이 되지 않는다. 차라리 MS949 방식을 권장하겠다

저작자표시 (새창열림)

'Java' 카테고리의 다른 글

[ Java ] Java API 7 (0)	2014.12.08
[linux] 오라클 에러 정보 확인 (0)	2014.08.29
[Java] 소켓통신(에코서버, 에코클라이언트) - 단일 쓰레드 (0)	2014.08.21
[Java] 정규식 패턴 (0)	2014.07.17
[Java] Java Doc 사용법 (0)	2014.07.14

Experience Never Fail !!

[Java] 한글 처리

'Java' 카테고리의 다른 글

+ Recent posts

티스토리툴바