indent라는 C 소스의 들여쓰기, 띄어쓰기 괄호 위치 등을 정리해주는 프로그램은 의외로 오래된 프로그램 중의 하나이다.

1988년의 오래된 이메일
http://www.pell.portland.or.us/~orc/Code/bsd/bsd-current/indent/
를 보면, 원작은 David Willcox가 일리노이 대학교에서 어떤 프로젝트로 인해 필요해서 만들었고, 그 이후 여기 저기 떠돌다가 4.2 BSD에 처음 들어왔다고 한다.

그러나, linux에는 그 소스의 최신(?) 수정본이 들어 있다. 최신이래봐야 2002년 버전인데, 지금쯤 C++이 적절히 반영된 최신버전이 들어옴직한데, 뭘 고민하는지 그간 업데이트가 없다.

indent는 여러 옵션을 가지고(실로 엄청난 옵션이다.) 수행되는데 이 옵션들은 $HOME/.indent.pro 라는 파일에 미리 정의해 놓을 수 있다. 따라서 같은 개발팀이라면 이 파일을 공유하고, 코드들이 코드 저장소(repository)에 반영(commit)되기 전에, 한 번씩 수행하도록하면, 많은 사람들이 동일한 들여쓰기를 사용하게 되어 코드 가독성이 높어지게 된다.

이 시점에서 짚고 넘어 가야할 일이 있다. 코드 가독성을 말할 때, 항상 자신만의 코딩스타일이 가독성이 높으리라는 생각이다. 그러나, 코드 가독성은 많이 보아온 스타일에 대해 가독성이 높을 뿐, 그것이 항상 자신의 코드이기 때문만은 아니다. 오히려 전문성을 발휘한다면, 모든 형태의 들여쓰기에 대해 코드 흐름을 놓치지 않을 수 있는 다양한 경험이 있어야할 것 아닌가.

또 다른 한가지는 들여쓰기같은 사소한 문제로 인해 코드리뷰의 지적 대상을 삼지 말자는 것이다. 이 말은 너무 많이 자신의 습관을 반영했기 때문에 들여쓰기 지적을 하지 말라는 것이 아니라, 그런 정도는 indent 같은 코드 화장품을 좀 도입하자는 것이다. 그리고, 수시로 indent를 돌리는 습관을 기르는 것이 팀을 위해서 좋은 것이다.

indent의 한가지 문제라면, 이미 성숙해 있는 코드에 들여쓰기를 흩어놓는다면, 그것은 코드의 변화상을 추적하기 어려워지는 단점이 있다. 코드의 변화상을 추적하는 것(annotate)은 한 줄 단위로 누가 어떤 리비전에서 작성하였는지를 보고자하는 것인데, indent 라는 놈은 모든 행에 대해 뒤집어 놓기 때문에, 정작 필요한 경우 곤란한 상황에 직면할 수 도 있는 것이다.

따라서, 소스 코드 초기에 진압하지 않으면, indent의 유용성은 단점을 안고 가게 된다. 만약 코드 변화를 추적하는 일도 하지 않았던 팀이라면 중간에 사용해도 크게 어려움이 없다 할 수 있다.

인간이란 규칙을 세우기는 하여도 항상 실수가 있기 마련이고, 그것을 지적하는 것 또한 귀찮은 일이 된다. 문제는 팀 구성원의 개발하는 습관이다. 이 문제는 다음 글에서 다룰일이 있을지 모르겠다.
  1. 졸곰 2005.05.18 22:14 신고

    전에 KLDP에 쓰신 글중에 cvs와 indent연동해서 commit시에 indent하도록 하시지 않으셨나요?
    http://bbs.kldp.org/viewtopic.php?t=24241
    제 경우에는 실제 사용해보고 싶었는데 부서내에 도입은 못했는데 결과가 어떤가요?

  2. 2005.05.19 13:55 신고

    저희는 잘 썼었지요. 제가 강제하였기 때문에 가능했었습니다.
    지금은 더이상 cvs를 사용하지 않고 svn을 사용하므로 그런 기능을 사용하지 못하고 있습니다.

아래는 Cascading Style Sheet - The Designer's Edge (Holzschlag) 라는 책의 한 부분을 인용한 것이다.
저자에게는 허락을 받지 않았으나, 미안하긴 하지만 게재한다.아래는 의역입니다.

So why should you follow standards? A lot of people say, “Hey, I can use nonstandard markup that works just fine.”

그러면 왜 표준을 지켜야하는가. 많은 사람들이 말하길 "뭐, 난 표준이 아닌 태그를 이용해도 잘 돌아가."라고들 말한다.

There are several reasons why understanding and following standards makes sense. Here are a few:

왜 표준을 이해하고 따라야하는지 납득할 만한것을 예로 들자면,

You will save time. If your documents follow standards, you achieve a level of efficient work practices. Troubleshooting becomes easier because of document consistency. Team members will work more efficiently in an environment where documents follow structure and logic.

시간을 절약할 수 있습니다, 작성한 HTML이 표준을 따르게 된다면, 효율성을 충분히 경험한 수준을 달성하게 되고, 다른 것들과 일관성 있기 때문에 문제를 찾는것도 쉽게 됩니다. 팀구성원이 문서를 구조적이고 논리적으로 맞추며 작업하는 환경이라면 보다 효율적으로 일할 수 있게 됩니다.

Saving time means saving money. If you are able to save time by ensuring that your documents are standards compliant, stable, and use CSS for style, you will be able to both profit from the process and pass the resulting savings on to your clients.

시간을 절약한다는 것은 돈을 절약한다는 것입니다. 만약 작성하는 HTML 문서들이 표준에 준하게 되고 안정적이고 스타일을 일치시키는데 CSS를 사용하는 것이 확실하다면 시간을 절약하게됩니다. 따라서 개발절차상 이득이며, 이것은 고객을 만족시키게 됩니다.

You’ll reduce complicated pages so browsers will interpret and display a page quickly and accessibility concerns will be addressed. This means a happier end user.

복잡한 페이지들을 간단하게 만들어 브라우져로 하여금 페이지를 해석하고 화면에 나타내는데 빠르게하며, 접근성 문제를 대두시키게 합니다. 고객은 더 행복하겠지요.

You’ll have better job opportunities. If you are still creating web pages in a visual editor without understanding the underlying markup and have not spent any time studying standards, you are restricting yourself in terms of advancement within the profession.

더 좋은 취업 기회를 갖게 됩니다. 만약 여전히 비주얼 에디터를 사용하며, 태그가 가지는 뜻을 이해하지 못하고, 표준을 공부하는데 시간을 들이지 않는다면, 전문성있는 일과는 거리가 멀어지게 될 것입니다.

You will become part of the solution, not the problem, as the infrastructure of the web becomes increasingly more complex.

문제 덩이에서 문제 해결사로 변신하게됩니다. 만약 복잡도가 상당한 웹에서는 더욱 더 그러하겠지요.

Standards set the stage for extending content beyond the limits of the Web to wireless devices such as smart phones, pagers, and PDAs; alternative devices such as MSNTV (formerly WebTV); and a range of devices yet to come.

표준은 웹이라는 제한적인 것을 확장할 수 있는 발판이 되게합니다. 스마트 폰이나 호출기, PDA등의 무선 장치나 웹TV로 알려진 MSNTV같은 대안 장치, 그리고 아직 나타나지도 않은 많은 장비들에게까지 확장은 무한합니다.

-----

웹에서 뿐아니라 어디에서든 표준.. 지켜야겠죠?
온갖 상상이 난무하고, 추측과 확신이 교차하는 작업이 디버깅이라고해도 과언이 아니다. 디버깅은 아는 것 만큼 혹은 조금 더 상상한 것 만큼만 해결 가능하고, 그 외의 것들은 모두 우연한 실수일 뿐이다. 어쩌다 문제를 해결했어도 그것은 실수로 해결한 것이리라. 잔인한가?

디버깅이야말로 책으로 보아왔던 지식이 살아나는 현장이고, 디버깅이야말로 책을 들여다보게 만드는 작업이다. 디버깅을 하면서 가장 중요한 자세 하나를 생각해보고자 한다.

디버깅의 가장 큰 적은 "그 부분은 문제없을텐데"라고 믿게되는 근거를 알 수 없는 자기확신이다. 만일 디버깅을 잘하고자한다면, 지금까지 확실하다고 생각했던 부분을 다시 한 번 보라.

프로그래머가 가져야할 가장 중요한 덕목 중에 하나는 논리적인 무결성과 실제 데이터의 무결성에 대한 차이를 알고 그것을 상황에 따라 적절히 펼치는 것이다. 누구나 프로그래머라면 프로그램의 무결성을 추구한다. 즉, 오류에 적절히 처리하는 루틴이 삽입된다. 그런데, 가끔 명령한 동작의 결과가 성공일 것이라는 맹신을 할 때가 있고, 그것은 논리적으로 아무 오류가 없을 것이라는 생각으로 슬쩍 넘어가게 된다. 그러나 실행시간에 실제 데이터가 그 동작을 보장할 수 없는 값으로 넘어 왔고, 여기에는 논리적으로 있을 수 없다는 것에서 오류처리를 하지 않았고, 이것 때문에 버그가 생기는 것이다.

물론 디버깅을 획일화할 생각은 없지만, 가장 도움이 되는 버그 퇴치자세를 논하기 위해 다른 상황은 잠시 무시하자. 그렇다면, 논리적 무결성과 실데이터의 무결성에 대한 차이는 무엇일까?

논리적으로 무결한 예는 이렇다.
정수를 입력받고, 이 값을 2로 나누면 짝수 아니면 홀수임을 알 수 있다.

하지만 다음은 논리적으로 무결하지 않다.
내가 지금 300바이트를 TCP/IP를 통해서 한번에 전송하였다. 그러면 수신쪽에서도 한 번 읽을 때 300바이트가 읽혀질것이다.

다음은 어떠한가?
두 개의 쓰레드가 돌아가는데, 한 쓰레드에서 스택에 생성된 자동변수 두개의 값을 바꾸기 위해 하나를 더 잡아서 임시 보관용으로 사용하면 두 개의 값을 바꿀 수 있다
스택은 쓰레드마다 고유한 것이고, 따라서 위 말은 아무런 문제가 없다. 논리적으로 아무런 문제가 없으니 이런 루틴은 설마 버그가 있었으랴하고 지나치는 것이 우리의 상식이다. 하지만, 좀더 염세적으로 생각해보자, 쓰레드는 다른 쓰레드의 스택에 접근할 수 있는 권한이 있다. 혹시 이전 작업이 같은 함수내의 자동변수에 대한 포인터가 다른 쓰레드에 넘어 갔고 그쪽에서 오버플로라도 일어났다면? 심각한 문제이다.

인생은 디버깅이다. 적절히 assert 뿌려가면서 사는 것이지.
요즘에야 프로젝트의 시작부분에 설치본을 만드는 것이 당연하다 생각되나, 나 자신도 몇년전에는 그러하다 생각지 못하였는데, 그 이유는 "설치할 것이 있어야 설치본을 만들지!"라는 생각에서였다.

하지만, 제일 쉬우면서도 가장 오래, 배포되는 프로그램의 끝까지 애를 먹이는 것이 바로 배포를 위한 설치본, 또는 부분패치 설치본이며, 이것은 릴리즈 엔지니어링의 마지막 결과물에 해당한다.

강조를 백번해도 모자랄 정도로 프로젝트의 시작부분에서의 설치본인데, 이것은 개발조직이 분화되기 위한 첫걸음이된다. 개발초기부터 테스팅 및 릴리즈를 위한 얘기를 할 수 있고, 중간 단계쯤에서 그간 진행된 기능에 대한 다양한 피드백을 받을 수도 있고, 나중에 고생할만한 일을 초기에 잡을 수 있는 아주 필수적인 것이 개발팀이 설치본을 만들어 배포하는 것이다. 그것이 비록 불완전하게 동작한다할 지라도, 설치본이 대화의 중심에 있어야한다.

다양한 계층의 테스터, 성능이나 UI에 대한 피드백을 프로그래머들이 오너십을 가지고 진행한다는 것은 얼마나 피곤한 일인가? 그것은 전문성도 떨어지려니와 프로그래머에게 설계/구현/디버깅이라는 행위에서 의견 수집/분석/조율이라는 행위간의 문맥전환을 수시로 일으키기란 참으로 어려운 일이다.

설치본을 어떻게 만들것이냐는 것은, 초기에는 대~~충 설치본을 만드는 한이 있더라도 초안을 생각해두고 진행해야한다. 설치 및 삭제 그리고 부분 업그레이드에 대한 것이 나중에 버그를 잡는데도 도움이 된다. 그 이유는 한 번 개발팀을 떠난 것은 어떤 식으로든, 부메랑을 타고 돌아오게 되어 있다. 그런데, 문제는 개발팀의 손을 한두번 떠난것이 아닌 상황이 오게되면, 부메랑에 맞아 쓰러지는 상황이 발생하게 된다.

몇가지 정리하자면, 설치본을 만들때는 다음과 같은 상황을 고려해야한다.

1. 매일매일 최신소스로 설치본이 자동으로 만들어지는가?
2. 임의의 바이너리가 어느 빌드에서 생성되었는지 알 수 있는가?
3. 바이너리들이 의존하고 있는 라이브러리들은 모두 알고 있는가?
4. 바이너리안에 들어 있는 global symbol(nm 명령을 통해)들은 관리가 되고 있는가?
5. 이전 설치본과 지금 설치본에서 변경사항은 자동으로 뽑혀 릴리즈 노트를 구성할 수 있는가?
6. 부분 테스트를 위한 정보들은 버그트래킹시스템과 연결되어 꼭 필요한 인수 테스트를 할 수 있는가?

매일매일 최신소스로 설치본이 자동으로 만들어지는가?
아마 이 부분이 다른 다섯가지보다 가장 재미있고, 쉽고, 뿌듯한 부분이 아닐까 한다. 왜냐하면, 자동으로 만드는 스크립트에는 나머지 것들에 대한 모든 것이 포함되기 때문이다. 그 끝은 관련자들에게 따끈따끈한 설치본의 URL과 빌드로그 및 릴리즈 노트를 메일로 전송하는 것이 될 것이다. 이렇게 기쁜 일은 프로젝트가 시작할 때 얼른 담당하고 남주지 말자. 만약 당신이 닥치는대로 공부하는 열정이 있는 사람이라면 이 일은 정말 남주면 안될 것이다.

적절히 crontab 을 운영할 것이고, 빌드 로그중에서 warning만을 추려내어 따로 보고해야할 지도 모르며, 하나의 소스로 여러 OS에서 동시에 빌드할 수 있어야하고, apache의 fancy indexing도 사용해야할 수도 있고, 가장 빨리 빌드하는 방법을 위한 여러 안건을 만들 수도 있고, cvs나 subversion 등의 tag, diff, merge 등에 대해 일가견이 생기게 되고 하여간 도무지 말로 할 수 없는 수 많은 것들을 빌드 시스템을 구축하면서 찾고 공부하게 된다.

임의의 바이너리가 어느 빌드에서 생성되었는지 알 수 있는가?
바이너리 안에는 대개 "static char []"형으로 된 $Id$가 들어가게 된다. 이것은 소스 정보만을 나타내게 되지만, ident라는 좋은 툴은 $String ...$ 형태로 되어 있는 모두 뽑아주므로 거기에 팀의 독특한 스트링을 버전 및 빌드 번호를 표시하는데 사용할 수 있다. 예를 들면
$Version: doorscan 2.2.1.1224 $
와 같이 Version 이라는 것을 사용할 수 있겠다. 만약 2.2.1.1224 와 같은 이름으로 소스 트리를 태깅을 해놓는 다면, 바이너리를 만드는데 들어간 소스들의 버전을 쉽게 뽑아낼 수 있게된다.

또는 반대로, 바이너리를 출시한 뒤 MD5 해시 값을 구해놓고 빌드시점에 모든 파일의 MD5 해시를 저장해 놓은 뒤 비교하여 구할 수도 있다.

바이너리들이 의존하고 있는 라이브러리들은 모두 알고 있는가?
ldd 를 이용한 검사인데, 개발도중 어느새 모르게 개발팀이 모르는 라이브러리가 들어갈 수 있다. 이것은 설치가 개발 장비에서만 제대로 될 수 있고, 정작 다른 곳에는 해당 바이너리가 없는 것으로 인해 설치후에 수행이 되지 않을 수 있다. 어딘가에 그 프로젝트 전체적으로 외부 라이브러리를 사용한다면 모든 배포되는 바이너리가 어떤 의존관계를 가지고 있고, 그 의존 관계에 대한 것은 선행작업이 필요함을 설치본 배포시에 적절히 명시해야한다.

바이너리안에 들어 있는 global symbol(nm 명령을 통해)들은 관리가 되고 있는가?
바이너리가 특히나 shared object(so) 파일이라면, 흔히 저지르기 쉬운 것이 단지 어떤 실행파일이 사용한다정도의 정보만을 가지기 쉽다. 즉, ldd에 의한 의존성만 확인하는 경우가 발생할 수 있는데, nm 을 통해서 정확히 외부에 노출시킬 것이 노출되고 있는지, 이전과 다르게 추가되거나 삭제된 것이 없는지 확인해야한다. shared object 의 생명은 global symbol(defined, undefined)l과 의존성이다. 이것이 적절히 빌드시점에 생성되거나 관리되지 않는다면, 나중에 업그레드시에 모든 바이너리가 배포되어야하는 상황이 발생할 수 있다. 그러면 왜 so로 분리했느냐!라는 소릴 듣게 될 수도 있다. 무작적 so로 쪼게는 것은 정말 삼갈일이며, 그것은 신발에 껌을 잔뜩 붙이고 줄넘기하는 것과 똑같다.

이전 설치본과 지금 설치본에서 변경사항은 자동으로 뽑혀 릴리즈 노트를 구성할 수 있는가?
릴리즈 노트라는 것은 새로운 버전을 출시할 때, 개발자들이 그간의 기억을 미루어 적어 내거나, 그동안 처리했던 버그 리스트를 정리하는 것이 아니다. 그것은 버그를 처리할 때마다 적어 놓은 간단한 노트들이 있어야하고, 그 노트들을 각 버전별로 뽑을 수 있는 상태로 관리되어야하는 것이다.

간단히는 cvs나 subversion을 쓸 때, 커밋로그를 이용해서 릴리즈 노트용을 적절한 규칙에 의해 적게되면, 태깅한 기간별로 구별하여 뽑아 낼 수 있다. 로그는 한 번 올리면 다시 수정못하는 것으로 아는데, cvs의 경우 cvs admin 명령으로 subversion의 경우 svn ps svn:log 조합으로 다시 고칠 수 있다. 로그는 커밋하는 시점외에는 다시 자세히 적을일이 없게된다. 대략 간단한 어플리케이션을 개발하는데, 5000 번 정도의 커밋이 되면 알파 릴리즈가 만들어지는데, 5000번에 대한 것을 누가 이후에 관리할 것인가.

부분 테스트를 위한 정보들은 버그트래킹시스템과 연결되어 꼭 필요한 인수 테스트를 할 수 있는가?
SCM(Software Configuration Management)이라는 영역이 있다. 검색을 하게 되면 개발 관련된 각종 도우미 툴들이 소개되는데, 가장 중요한 것은 소스를 소스만으로 두는 것이 아니라, 제기된 이슈나 버그, 그리고 고친 내역등을 유기적으로 결합하는 방법을 어떻게 구성할 것인가에 있다.
학교에서 갓 나온 수준으로 기업형 프로그램을 만들어야할 경우, 프로그램이란 몇달하고 마는 것이 아니라 계속 살아서 발목을 잡아 당기는 실로 무시무시한 존재와 같은 것을 느끼게 된다. 이런 문제를 해결하기 위해 버전 컨트롤 시스템을 도입하게되는데, 그 이후에도 문제는 또 발생한다. 버전 컨트롤 시스템이 단지 코드의 변화에 대한 것은 알려주지만, 코드가 변하는데는 이유가 있어야 하며, 그 이유의 근원에 대한 것은 동시에 수십 수백개가 관리되어야하고, 릴리즈 이후 코드에 변형을 가하는 모든 커밋에 대한 것이 테스트 대상으로 연결되어 문제를 재발하지 않고, 원하는 방향으로 적절한 계획을 가지고 나갈 수 있어야한다.

이상으로 간단히 빌드와 관련된 것을 살펴보았는데, 소스가 공개되어 개발되는 프로그램들을 잘 살펴보면, 빌드 및 그 관리와 관련된 상당히 많은 노하우들이 그 프로젝트안에 녹아 있고, 그 과정들이 단지 프로그래밍 실력으로만 시작하여 진행되는 것이 아니라는 것을 알 수 있다. 그들은 끊임없이 고객의 요구를 수용하고 있고, 버그를 찾고 있으며, 새로운 기능을 추가하고 있다. 이것이 모두 릴리즈를 어떻게 관리할지에 대한 것에 대한 것이 모두 오픈되어 진행된다.

어디서 개발을 하던지, 이상과 같은 빌드관리가 선행되지 않는다면, 조만간 누구도 손댈 수 없는 코드로 변신하고 말것이다.
  1. june8th 2005.04.04 09:46 신고

    잘 정리했네요.. 근데 이 문서의 버전은 어디에? ㅎㅎ

  2. 2005.04.04 10:38 신고

    ㅋㅋ.. 요건 버전관리 대상이 아닌 릴리즈지...
    설치해서 배포할까? ^^;

  3. 석영 2005.04.17 14:21 신고

    이 쪽은 정말 관심이 많은데, Windows 환경에서 소스 자동 빌드와 버전 배포를 위해 사용할 수 있는 툴들 또는 관련 리소스들이 있는 사이트가 있으면 알려주겠어요?

  4. 2005.04.18 07:42 신고

    아하.. 그것참.. 저는 윈도우쪽 환경에서는 많이 고민하지 못해서, 저도 찾아봐야해요..

Subversion : http://subversion.tigris.org/
TortoiseSVN: http://tortoisesvn.tigris.org/
poedit: http://www.poedit.org/translations.php

나는 요 세가지의 한국어 문자열을 관리하고 있는데, 어떤 소프트웨어가 맘에 들면 번역을 시도해보는 것은 그 프로그램을 깊이 이해하는데 더 도움이 된 것 같다. 가장 활발히 하는 것은 TortoiseSVN인데, 그 이유는 일주일에 한 번 씩 번역 상태가 메일로 오고 각 언어별 번역율이 그래프로 나오는 것이 약간의 경쟁을 유도하게한다.

subversion은 일주일에 한 번정도 모든 언어들의 번역상태가 메일링리스트로 전송되어 온다.
Translation status report for revision 13587 (trunk/)

============================================================================
Status for 'de.po': in repository
Passes GNU msgfmt --check-format
Statistics:
0 obsolete
82 untranslated
1238 translated, of which
48 fuzzy
----------------------------------------------------------------------------
Status for 'es.po': in repository
Passes GNU msgfmt --check-format
Statistics:
0 obsolete
94 untranslated
1226 translated, of which
106 fuzzy
----------------------------------------------------------------------------
Status for 'ja.po': in repository
Passes GNU msgfmt --check-format
Statistics:
0 obsolete
75 untranslated
1245 translated, of which
121 fuzzy
----------------------------------------------------------------------------
Status for 'ko.po': in repository
Passes GNU msgfmt --check-format
Statistics:
0 obsolete
79 untranslated
1241 translated, of which
134 fuzzy

poedit도 번역 상태가(tortoise svn처럼) 웹에는 계속 올라오는데, 메일을 안보다 보니 내가 들어가서 보기전까지는 잘 모르게 된다.(실로 지금까지 한 번 보내고 말았는데, 이 놈의 게으름..)

(내가 관심있는 요 세 프로그램에 대한 독일어버전도 TortoiseSVN의 번역관리담당인 뤼베 옹켄이라는 한 사람이 한다.)

사실 개인적으로 svn을 사용하면서 cvs의 사용이 극도로 줄어들게 되었고, 그에 따라 관심의 영역이 줄어 든 것도 사실이다. (cvs 프로젝트도 observer로 등록되어 있기는 하다마는) 번역하면서 위세를 떨칠것도 아니고, 관심의 끊임없는 표현인데, 그에 따른 적절한 책임감이 소프트웨어를 빛나게하는 것 같다.

난 일주일에 한 번, 번역에 시간을 들여 커밋 또는 메일링 리스트에 올리는데, 대개 주말에 한다. 번역을 하게 되면서, 프로그램을 작성할 때 번역자를 고려하는 설계와 누구나 번역을 쉽게 할 수 있도록 하는 방법에 대한 고민을 많이 하게 되었고, 나와 같이 패키지 작업을 하는 것이라면 더욱 도움이 많이 된다.

po 포맷이라는 전통적인 Unix 기반 다국어 처리용 포맷이 있는데, 요놈의 구조가 간단하고 그 editor들 또한 훌륭하여 프로그램을 모르는 사람을 번역하는데 고용할 수 있으므로 더욱 그 활용도가 높다.

Subversion과 poEdit 프로젝트는 전통적인 방식 그대로 po를 compile한 mo 파일을 어플리케이션에서 핸들링한다. 즉 gettext라는 라이브러리에서 최적화되어 메모리 맵된 파일 입출력을 통하여 사용되는데, 요 Tortoise SVN이라는 녀석은 gettext library를 사용하지 않고, po 포맷을 단지 우리같은 지역화하는 사람들과의 통신도구로만 사용하는데 그 재미가 있다. 그 개발팀은 restext.exe 라는 MS 윈도우용 프로그램을 이용하여 po 파일을 dll로 만들어준다. 마치 mo 파일 만들듯이 Tortoise SVN용 리소스 DLL을 만들며, 현재 아무 문제 없이 Tortoise SVN의 언어 확장팩으로 배포되고 있다.

난, 여기에 힌트를 얻어 회사에서의 프로젝트에 po 포맷을 도입했는데, 이로써 사내에서는 po 포맷을 이용하여 다국어 기반의 업무 프로세스를 만들었다는데 그 의의가 있다. 즉, 소스와 전혀 상관없이 po 파일로 기술문서팀과 이야기하고 개발팀에서는 po 포맷을 자바스크립트의 연관 배열로 바꾸는 스크립트를 간단히 제작하여 웹관리툴의 다국어 지원을 꾀하였다.

약 1000개의 문자열로 된 웹관리툴이 po 기반의 다국어 지원을 한다는것이 신선하지 않은가? strings.js 라는 그 자바 스크립트는 모든 웹페이지가 link하는 형태로 load하므로 네트웍 트래픽은 한 번만 일어나게되며, 화면에 약 30개 정도의 문자열이 그려지게 되는데, 1000개정도의 연관배열을 뒤지는데는 그다지 많은 컴퓨팅 파워를 소모하지 않는다.

다국어를 지원하는 방법은 여러가지겠지만, 될 수 있으면 많이 사용하는 방법을 최대한 이용하는 것이 생산성과 직결된다는 생각을 상기하며 이만.
[CODE]$ cat a.c #include <stdio.h> int noinit_global_var; int init_global_var = 0; static int static_var; static int init_static_var = 0; int func() { static int func_static_var; return 0; } $ nm a1.o 00000000 T func 00000008 b func_static_var.0 00000000 B init_global_var 00000004 b init_static_var 00000004 C noinit_global_var 0000000c b static_var $ nm a2.o 00000000 T _Z4funcv 00000010 b _ZZ4funcvE15func_static_var 00000004 B init_global_var 0000000c b init_static_var 00000000 B noinit_global_var 00000008 b static_var $ nm -C a2.o 00000000 T func() 00000010 b func()::func_static_var 00000004 B init_global_var 0000000c b init_static_var 00000000 B noinit_global_var 00000008 b static_var[/CODE]


C와 C++에서 초기화 되지 않은 전역 변수를 다루는데 gnu c/c++ 컴파일러는 각각 다른 코드를 만들어 낸다. 각각을 보면 C에서는 "C" 즉 COMMON으로 만들고 C++에서는 "B" 즉 BSS 영역의 데이터로 만들어 낸다. C와 B의 차이를 nm의 info 페이지에서 찾아 보면,

[CODE]$ info nm `B' The symbol is in the uninitialized data section (known as BSS). `C' The symbol is common. Common symbols are uninitialized data. When linking, multiple common symbols may appear with the same name. If the symbol is defined anywhere, the common symbols are treated as undefined references. For more details on common symbols, see the discussion of -warn-common in *Note Linker options: (ld.info)Options. [/CODE]

이런 차이가 있으니, C 에서는 두 개의 파일이 초기화하지 않은 전역 변수를 외부로 노출할 경우 아무런 문제없이 링크되나 C++에서는 그렇지 않게 된다.
[CODE]char ch; while( (ch = fgetc( f )) != EOF ) { printf("%c", ch ); }[/CODE]

언뜻보기에는 맞는 것 같이 보인다. 하지만, 여기에는 isprint 못지 않은 두려운 버그가 숨어 있다.

fgetc 의 원형은 다음과 같다.

[CODE]int fgetc( FILE * );[/CODE]

fgetc의 return 값이 int 란다. 그리고, 문자하나를 되돌리는 함수라니..

각설하고 위 코드는 다음과 같아야한다.

[CODE]int ch; while( (ch = fgetc( f )) != EOF ) { printf("%c", (char) ch ); }[/CODE]

fgetc의 설명을 보면, 파일의 끝이나 오류를 만났을 때 EOF를 되돌린단다. unsigned char 로 표현할 수 있는 문자의 범위를 벗어나는 값으로 EOF가 정의되어 있지 않는한 파일에서 EOF와 동일한 문자값을 읽었을 때 이것이 파일의 끝이 아님에도 불구하고 끝으로 해석하는 버그가 좋아하는 상황이 벌어지게 될 것이다.

처음 코드에서는 강제로 char 변수에 받았으니, 문자 중에 어떤 값은 EOF로 해석되는 경우도 생기는 것은 당연하고, 따라서, fgetc의 리턴값은 파일에서 한 문자를 읽는것에만 흥분한 나머지, 오류 리턴을 제대로 판단하지 못하게 되는 것이다.
따라서, EOF인지 확인한다음 char로 캐스팅하여야 정상적인 사용법이 되는 것이다.

실제 EOF는 많은 구현에서 -1 로 정의되어 있다.
char ch = 'X';

위와 같이 되어 있을 때, 다음과 같이 사용하는 것이 옳은 것이냐하는 것인데,

if( isprint( ch ) )
{
blah;
}

경고감이다. 왜냐하면, isprint의 원형은

[CODE]int isprint (int c);[/CODE]

이기 때문이며, 여기에는 isprint에 넣는 인자의 철학과 우리가 흔히 사용하는 문자형 변수의 차이에서 오는 괴리감이 있는 것이다.

int 는 char가 표현할 수 있는 것보다. 일반적으로 더 많은 범위를 받을 수 있는데 (sizeof( char ) == sizeof( int ) 인 구조를 제외하면 항상 그렇지 않는가?) 그러면서도 signed 형이라는 것이다. 그런데, char 는 명시적으로 signed char, unsigned char이라 쓰지 않는한 컴파일러의 디폴트 값을 따른다.
그 디폴트 값이 signed라면, 위 코드는 부호확장이라는 개념으로 캐스팅이 일어날 것이다. 일반적으로 문자 코드 값은 음수가 없는데도 char 만 사용함으로 signed char로 취급되고, 이는 unsigned char 로 표현할 수 있는 0~255까지의 코드를 -128~127로 해석하여 isprint 함수에 전달하게 될 것이다. 이는 개발자의 뇌리 속에서 원하지 않았을테고, isprint도 사실 원하지 않을지 모른다.

컴파일러에 따라 이러한 char에서 int로의 암시적 캐스팅을 경고하는 경우도 있으므로 참고하시되, 유독 short 에서 int 로의 확장은 아무 문제가 없는데, char 에서 int 는 한 번쯤 생각해보아야한다.

따라서, isprint 같이 int로 문자를 받아서 평가하는 함수와 어울리는 곳에서는 unsigned char 로 받아서 처리하는 센스도 필요하다.
* GNU GCC versus Sun's Compiler in the SPARC Platform
::http://www.osnews.com/story.php?news_id=5830&page=3
* Are 64-bit Binaries Really Slower than 32-bit Binaries?
::http://www.osnews.com/story.php?news_id=5768
* Solaris 64-bit Developer's Guide
::http://docs.sun.com/app/docs/doc/806-0477
* Compiler Usage Guidelines for 64-Bit Operating Systems on AMD64 Platforms
::http://www.amd.com/us-en/assets/content_type/white_papers_and_tech_docs/32035.pdf
* Intel 386 and AMD x86-64 Options
::http://gcc.gnu.org/onlinedocs/gcc-3.4.3/gcc/i386-and-x86_002d64-Options.html
* Porting InteㅣApplications to 64 bit Linux on POWER
::http://www-1.ibm.com/servers/enable/linux/pdfs/intel_ppc64.pdf
* AIX 5L Porting Guide
::http://publib-b.boulder.ibm.com/Redbooks.nsf/RedbookAbstracts/sg246034.html?Open
* Large File Support in Linux
::http://www.suse.de/~aj/linux_lfs.html
* Porting x86 Linux device drivers to AMD64 Technology
::http://www.amd.com/us-en/assets/content_type/DownloadableAssets/Porting_x86_Linux_device_drivers_to_AMD64_Technology.htm
* Proceedings of the GCC Developers Summit: Porting to 64-bit Linux systems
::http://zenii.linux.org.uk/~ajh/gcc/gccsummit-2003-proceedings.pdf

  1. 함수의 프로토타입을 꼼꼼히 분석하라 : 함수의 프로토타입에는 그 함수가 뭘하는 것인지에 대한 정보의 90%가 들어 있다.
  2. const 형식이 어떤 것인지 모두 이해하고 있어라 : 함수 인자, 변수 선언, 멤버 함수 맨 뒤.
  3. static 형식이 어떤 것인지 모두 이해하고 있어라 : 변수 선언, 함수 선언, 멤버 함수
  4. 오브젝트 파일안에 뭐가 들어 있는지 알고 있어야한다. : nm, objdump, readelf, dumpbin.exe, depends.exe 등의 유틸리티가 도움이 된다.
  5. 소스를 코딩하고나면 오브젝트 코드가 어떻게 생기는지 알고 있어야한다.
  6. 스택에 쌓이는 순서를 상상하라
  7. 커널레벨과 사용자레벨의 차이와 그 전환은 어떻게 일어나는지 알고 있어야한다.
  8. 디버깅 툴(브레이크 포인트, 변수 내용 보기, 시스템 콜 트레이싱)의 작동원리를 알고 있어라.
  9. 환경변수가 어떻게 저장되는지 알고 있어라.
  10. fork에서 유지되는 것과 유지되지 않는 것에 대해 알고 있어라.
  11. callback 함수의 개념에 대해 알고 있어라
  12. -fPIC로 주어지는 relocatable object의 원리에 대해 알고 있어라
  13. 호출 스택에 대한 구조를 알고 있어라
  1. Delight 2005.06.21 12:32 신고

    좋은글 많이 보고 가요

  2. doodoo 2006.04.12 02:47 신고

    9번 글은 제가 항상 궁금하던 것인데...어디서 좀 찿을길이 없을까요? 무슨 글자를 넣어서 검색을 해보라는 둥...그런거...

    • 주인 2006.04.12 03:34 신고

      hex dump를 만들어서 argv 가 가리키는 곳부터 1kB 정도를 출력해보세요.

      어디서 찾긴 힘들것 같습니다.

    • 최호진 2006.04.12 11:08 신고

      bss code stack env
      위 단어를 모두 넣어 검색해보세요.

+ Recent posts