17세기 철학자 존 로크가 처음 주장한대로 단어(혹은 음성의 조합으로서의 언어)와 그 뜻(개념)은 자의적이지 자연스럽게 만들어진 것이 아니다. 읽을 때 깊이 읽지 않아 개론 습득에 불과하지만, 어떤 지적인 체계가 이루어 질 때, 그것은 개념이 선행하고 그 개념에 따라 적절한 약속에 의한 표현으로서의 언어가 존재한다는 것을 의미하게 된다.


누구도 한 사람이 생각한 개념을 언어 없이 전달 받을 수는 없다. 또한 개념은 하나의 언어로만 전달되는 것도 아니다.


데이터로 저장되는 개념 또한 최소한의 규약으로 표현될 수 있으며, 저당된 데이터를 인간이 접근할 때는 인간이 이해하는 기호체계로 표현되어야한다.


이하에 기술하는 것은 평소생각이며, 그 생각을 지지하는 개념을 철학자의 표현을 빌어 올 수 있겠다 싶어 위 생각을 기술해 본다.


난 개념을 저장하는 방식에 관심이 있다. 세상의 모든 것을, 그것이 구분이 모호한 것이라 할 지라도, 모두 수로 표현하고, 그것들의 관계들 또한 수로 표현한다고 생각하 보자. 수는 무한하다. 세상의 모든 것도 무한하다. 그들의 관계들도 무한에 가까운 방식으로 표현된다.


데이터 베이스에 어떠한 수도 들어 있지 않는다는 것은 세상에 대한 지식이 전무한 상태다.


학습본능을 이렇게 정의 해 보자.

- 입력 단위를 구별할 수 있다. 즉, 문자를 기반으로 한다면, 문자 하나하나를 입력단위라 할 수 있다.

- 입력단위의 뭉치를 하나의 입력단위로 취급할 수 있다.

- 입력되는 순서가 존재하며, 순서를 이해한다.

- 입력단위들의 순서 유사성에 대한 빈도를 계산 할 수 있다.

- 입력단위들의 순서상 빈도가 높은 것을 구별하여 학습 프레임을 만들어 간다.

- 프레임과 프레임 외적인 것을 분리하여 프레임을 문법이라한다면 프레임 외적인 것은 단어라 학습한다.


일단 이 정도로 말뭉치를 분석하는 프로그램을 작성해봐야겠다.

저작자 표시 동일 조건 변경 허락
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

+ Recent posts