반복되는 패턴이 있다면 그것을 어떻게 인식할까? 이 패턴과 저 패턴이 다르다는 것은 어떻게 인식할까?


말뭉치를 넣어 주었을 때, 여하한의 문법에 관한 사전 정보 없이 최소의 가이드만으로 반복되는 패턴을 알아 낼 수 있을까? 다른 말로하자면, 각 글자들의 집합에 해당하는 형태에서 형태소를 찾아 내고 형태소의 나열에서 문법을 찾아 낼 수 있을까하는 질문이다. 이것은 문법의 형태론과 통사론에 해당하는 기초적인 접근인데, 문법을 모른다고 할 때 최소의 가이드는 무엇일까?라는 질문과 연결되어 있고, 모든 언어에서 발견될 수 있는 보편 문법적인 가이드 정도만으로 개별언어의 문법을 구축하고 싶은 가능성을 보고 싶은 것이다.


여기서 말하는 언어란 문자로 씌어진 언어만을 의미하며, 발화되는 음성언어의 힌트를 받는 것은 수작업에 해당하는 것이라 하겠다. 예를 들어 'ㅏ'와 'ㅐ'는 연관 없는 문자 코드지만, 발화상 변모음화 되는 관계라는 것은 힌트로 주어 질 수 있다는 것이다. 마찬가지로 띄어쓰기도 그러하다. 띄어쓰기를 자주 틀리게 표현하는 언어나 띄어쓰지 않아도 되는 언어도 있을 때 띄어쓰기를 엄격한 규칙이 아닌 힌트로 봐야한다.


생각에 대한 정리는 여기까지.

+ Recent posts