네이버 오픈백과에다가 올릴 글 – UTF-8(유니코드)란 무엇인가?

네이버에서 UTF-8로 검색해서 내 블로그에 들어오는 경우가 꽤 있다.
리퍼러를 역으로 따라서 들어가보니,의외로 네이버에 UTF-8에 대한 정보가 많이 부족해 보였다.
‘UTF-8로 보냄’을 해제하라는 이런 것들이나,어디선가 긁어온 복잡한 기술문서가 대부분이었다.
심지어 ‘UTF-8을 지원한다는 뜻은 영문 표기를 하겠다는 뜻’이라는 이색적인 주장도 있었다.

UTF-8이 뭔지 몰라서 검색하는 사람에게는 그다지 도움이 될 것 같지 않았다.

그래서 복잡한 기술적인 것들은 싹 빼고,아주 간단한 기본적인 개념을 위한 글을 써보았다.
다듬고 오류를 정정해서,오픈사전이나 지식인 등에 최종적으로 올릴 생각이다.

네이버 지식인의 많은 정보들이 스크랩(펌질)을 통해서 돌고도는 경우가 많아서,
결국은 누군가가 최초로 글을 쓰는 사람(소스맨)이 있어야 하는데,그 역할을 내가 감당해 보기로 했다.

 

————————————————————————–

제목 : UTF-8(유니코드)란 무엇인가?

UTF-8은 전세계 모든 문자를 동시에 표현할 수 있도록 만들어진 규약입니다.
컴퓨터에서 UTF-8이나 EUC-KR이런 것들이 보인다면,
아하,한글 표현과 어떤 관련이 있는 것이로군
이라고 생각하시면 됩니다.

UTF-8은 흔히 유니코드라고도 불립니다.
(UTF-8은 유니코드를 표현하기 위한 방식 중의 하나입니다.)

애초에 컴퓨터에서 문자를 표기할때 영어권 국가만 생각해서 만들었기 때문에,
전세계 각 나라들은 자기나라의 문자를 표현하기 위해 나름대로의 독자적인 꼼수를 사용해야 했습니다.
이러한 방법을 인코딩이라고 부릅니다.
우리나라는 한글을 표기하기 위해 EUC-KR라는 인코딩을 사용하였고,
일본은 Shift-JIS,중국은 GB2312,대만은 Big5,우크라이나는 KOI8-U..등등
결국 지구상에는 수십종류의 인코딩이 생기게 되었습니다.

하지만,이렇게 제각각의 길을 걷다 보니 문제가 되는 경우가 많았습니다.
흔히 ‘한글이 깨져 보인다‘거나 ‘이상한 글자가 보인다‘는 말은 이 과정에 문제가 생겼기 때문입니다.
외국에서 만든 프로그램이나 게임들은 한국어 환경에서 제대로 문자가 보이지 않는 경우가 많았고,
반대로 한글로 된 것들은 영문윈도우 등에서 제대로 표시되지 않습니다.
이것은 로마자 외의 문자를 가진 다른 나라도 마찬가지였습니다.

그래서 전세계의 수많은 기업들을 중심으로 이러한 문제와 혼란을 한큐에 해결하기 위한 노력이 진행되었습니다.
그리하여 탄생한 것이 유니코드(Unicode)입니다.
전세계 모든 글자들을 한곳에 몰아넣은 종합세트인 것이죠.
그 중에서 UTF-8이라는 방식이 가장 힘을 얻게 되었고,세계 표준으로 인정받고 있습니다.

UTF-8이 도입되면서 전세계 모든 문자를 동시에 표현할 수 있게 되었고,
따라서 서로간에 충돌이 일어나는 일이 없을 뿐만 아니라 다국어입력 또한 수월하게 되었습니다.

또한,UTF-8은 현존하고 있는 모든 문자를 포함할 뿐만 아니라,학술용도를 위해 인류 역사상 존재했던 문자들을 담을 수 있습니다.
한국어의 경우 현재 사용가능한 11172자의 한글 외에도
아래아,반치음 처럼,이제는 사라져 버린 옛날 문자인 한글고어도 표시할 수 있습니다.

윈도우의 경우 이미 윈도우98부터 유니코드를 채택하여 사용하고 있고,
앞으로도 점점 유니코드가 널리 사용될 것입니다.

하지만 여전히 문제가 되는 곳이 웹페이지 입니다.

흔히 한글파일명으로 된 그림이 보이지 않을때 ‘URL을 항상 UTF-8로 보냄‘ 옵션을 해제하라는 설명을 자주 봅니다.
물론 필요할 경우는 어쩔 수 없겠지만,이 방법은 단지 임시방편일 뿐이라는 사실을 알고 있어야 합니다.
아직까지 네이버를 비롯한 대부분의 사이트들은 UTF-8이 아닌 EUC-KR을 사용하고 있기 때문에 생기는 문제인데,
전세계 각 나라들이 서로간의 언어 충돌로부터 자유로워지기 위해서는
궁극적으로 UTF-8로 통일되어야 할 것입니다.
현재는 과도기에 있기 때문에 다소 불편함을 겪는 것입니다.

————————————————————————–

2 thoughts on “네이버 오픈백과에다가 올릴 글 – UTF-8(유니코드)란 무엇인가?

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다