인터넷정보

UTF-8 vs EUC-KR 어떻게 다른가요?

알 수 없는 사용자 2008. 11. 5. 23:21

한국어 문서를 제공하는 웹 사이트에서 흔히 쓰는 문자 인코딩은 EUC-KR 입니다.

마이크로소프트 기반 제품에서는 "ks_c_5607_1987" 을 쓰기도 한다만, 이것은 올바른 이름이 아닙니다.


EUC-KR 은 2byte 로 표현할 수 있는 한글 음절의 수가 2350자로 제한되어 있습니다.

따라서 '','','' 등의 글자를 표현하기 위해서는 8byte 를 써야 합니다.


하지만 KS X 1001 부록 3에서 규정한 이 방법은 mozilla firefox 등 gecko 기반 브라우저만 지원합니다.


따라서... 모든 브라우저에서 현대 한국어의 모든 음절을 불편없이 쓰기 위해서는 유니코드에 바탕을 둔 인코딩 방법인 UTF-8, UTF-16LE (LE 는 Little Endian. 일부 Windows 기반 프로그램에서 'Unicode' 라고 부르는 인코딩 방법은 실제로는 UTF-16LE 입니다), UTF-16BE (BE 는 Big Endian) 등을 써야 합니다.


몇 년 전과는 달리 UTF-8, UTF-16 등을 지원하는 문서 편집기(Windows XP 에서는 노트패드나 워드패드도 지원)와 웹 저작 도구 (예를들어 Dreamweaver, Nvu, Ms FrontPage 등)를 쉽게 구할 수 있습니다.


Oracle, DB2 등 상용 DBMS 는 물론이고, MySQL, Postgres 등 open source DB 도 UTF-8 을 잘 지원하며, Linux 의 기본 인코딩도 UTF-8 입니다.

따라서 UTF-8 (혹은 UTF-16)을 사용할 것을 강력하게 권고 드립니다.


HTML 문서에 UTF-8 을 사용하면 한글 이름을 지닌 파일을 HTML 문서에서 참조할 때 EUC-KR 문서에서 하듯이 한글 부분을 %-escape 하지 않아도 됩니다.

즉, EUC-KR 문서에서는 'http://www.example.com/%B0%A1%B0%A2.jpg' 라고 해야 하지만, UTF-8 문서에서는 'http://www.example.com/가각.jpg' 라고 할 수 있습니다.


이외에도 한국어가 아닌 다른 언어를 지원하거나 (예를들어 한국인을 위한 중국어/일본어/러시아어 사전이나 언어 교육용 웹 사이트), 장차 해외 시장으로 진출할 때 유니코드 기반으로 작업하면 훨씬 편리합니다.

(출처 : 실전 웹 표준 가이드)

반응형