부 산 일 보 뉴 스* [해설/특집] 95/02/10
<소프트웨어 시대-4>국어정보베이스...한글 모든것 전산화
----------------------------------------------------
「할아버지 가방에 들어가신다」라는 문장은 문법은 맞지만 의미
가 통하지 않는 잘못된 문장이다.그러나 문장의 전후 맥락상 할
아버지가 어떤 특별한 이유,예를들어 다른 사람의 눈을 피해 가
방에 들어간다면 이 문장은 문법도 맞고 의미도 통하는 것이 된
다.
이같이 언어는 특정 상황에 따라 의미를 갖기도 하고 무의미한
것이 되기도 해 어떤 정형화된 규칙을 정할 수 없는 것처럼 보인
다.그러나 우리가 한국어를 사용해 서로의 의사를 전달할 수 있
는 것은 오랜기간의 경험과 수많은 시행착오를 거치면서 옳고 그
른 문장을 파악하는 언어능력을 습득하기 때문이다.
만약 사람에게만 고유한 것으로 인식되던 언어능력을 컴퓨터가
갖게되면 어떻게 될까. 현재 우리나라 SW개발 수준을 2000년대
에는 선진국 수준으 끌어 올린다는 목표아래 진행되고 있는 ST
EP2000의 3대 중점과제의 하나인 「국어정보처리 기술개발」과
제에서는 우리말과 글을 사람의 수준만큼 컴퓨터가 처리할 수 있
도록 하는「국어정보 베이스」를 개발한다.
이 과제를 담당하고 있는 과학기술원의 최기선교수(전산학과)는
『미국을 비롯한 영어권과 프랑스 스페인 언어권,일본 등이 50년
대부터 자국 언어를 정보처리화하기 위한 연구를 시작,이미 영어
-불어,영어-일어 등의 자동번역 SW가 나와있다』고 소개하고
『뒤늦은 감이 있지만 STEP2000을 계기로 우리나라도 한국어
의 정보처리에 박차를 가하고 있다』고 말했다.
「국어정보 베이스」는 일반 국어사전을 떠 올리면 이해하기 쉽
다.다른 점이 있다면 「국어정보 베이스」는 컴퓨터가 한국어를
모국어처럼 사용하도록 한 전자사전이라는 것. 예를들어 사전에
서 「새」가 「날개가 있어 날아 다닐 수 있는 동물」로 정의되
어 있다면 「국어정보 베이스」에서는 「있다:날개,능력:난다,구
분:동물」등으로 분석된다.
분석된 요소는 각각 최소의 정보가 되고 이들 정보의 공집합은
「새」라는 단어를 나타낸다.한편 「새」와 유사한 의미를 전달
하는 「날짐승」이나 반대되는 의미를 갖는 「물고기」등과의 단
어를 연관시켜 동의어와 반의어 체계가 씨줄 날줄처럼 짜여진다.
현재 「국어정보 베이스」에서 대상어로 보고 있는 단어는 한국
어와 영어 등 20만단어정도.이 단어 체계에는 북한과 연변 및 해
외 동포들이 모국어로 사용하고 있는 한국어가 포함되며 전문용
어까지 망라된다. 언어체계가 완성되면 다음은 이들 단어가 조합
돼 문장을 이루는 규칙이 연관관계에 의해 구축된다.
주어 목적어 동사의 어순으로 이뤄지는 표준 문장과 갖가지축약
표현등 한국어로 표현할 수 있는 모든 문장이 모두 함수적 관계
에 의해 정의되는 것이다.
예를들어 「데리다」라는 불완전동사는 「손님을 데리고 -」「
손님을 데리러」처럼 목적어를 앞세워야만 사용된다든가 「- 데
리고 싶다」의 결합은 옳지 않으며 「- 데리고 가고 싶다」라고
써야된다는 것이 약속된다.
일단 이러한 정보베이스가 구축되면 이를 어떻게 이용하느냐에
따라 활용폭은 헤아릴 수 없이 넓다.
철자검색 SW의 기초 자료로 활용할 수 있는 것은 가장 간단한
예.문서편집기에 이 정보베이스가 결합되면 표준어와 사투리,오기
를 가려내는데 사용할 수 있으며 한 문장에서 같은 의미를 전달
하더라도 더 적확한 단어가 어떤 것인지를 제시해주는데 이용할
수 있다.
전산화되어 있는 정보중에서 자신이 원하는 정보만을 찾아낼 수
있는데도 사용할 수 있다.만약 대량의 문서가 전산화된 도서관에
서 장문의 논문을 검색하면서 간단히 핵심 주제어별로 검색하기
도 하고 필요한 논문은 짧은 요약문으로 만들어 낼 수 있다.
또 이미 구축되어 있는 영어 일어 등의 정보베이스와 변환하는
SW와 결합되면 자동번역기의 기초자료로 활용할 수 있다.
최교수는 『구축된 정보베이스는 누구나 손쉽게 사용할 수 있도
록 CD롬에 담을 예정』이라면서 『앞으로 이러한 정보베이스의
활용이 일반화되면 정보화사회의 질적 도약이 이뤄질 것』으로
전망했다. <김승일기자>
「국어정보 베이스」과제를 맡고 있는 과학기술원 최기선교수(전
산학과)는 『미·일 등 선진국에 비해 우리나라 정보처리기술이
크게 뒤처진 것이 사실이지만 우리말과 글을 전산화하는데는 우
리가 최고가 되겠다는 각오로 연구를 진행하겠다』고 의지를 밝
혔다.
다음은 일문일답.
-국어연구자들과 공동연구는 어떻게 진행되고 있나.
�언어학과 전산학이 통합된 국어공학이라는 독자적인 학문체계
에서 연구를 진행한다.현재 우리나라의 국어공학은 생소하며 연
구자가 10여명에 불과하나 앞으로 이 분야는 크게 발전될 것으로
전망된다.
-국어정보 베이스의 연구결과 공개방법은.
�직접 연구를 담당하는 기관외의 연구소 및 관련기업들에 수시
로 매 단계의 연구결과를 공개,이들이 객관적으로 성과를 평가할
수 있도록 하겠다.특히 정보베이스를 활용하는 SW를 만들 수
있도록 지원할 계획이다.최종적으로 만들어진 정보베이스는 CD
롬으로 제작,일반에 공개하겠다.
-앞으로의 계획은.
�국어에 관련한 체계적이고 다양한 정보를 제공할 수 있는 국
어정보은행을 만드는 것이다.이 정보은행은 국어로 된 갖가지 정
보체계를 개발,보급하게 된다. <일>
----------------------------------------------------
정보,통신분야의 최첨단 연구결과가 우리 도서관계에 미칠 영향
을 충분히 알고 있어야 할 것이라는 생각에서 이 기사를 그대로
옮깁니다. 특히 이 기사에서 지적한 것 처럼 전산화되어 가고 있
는 도서관계에서 본문을 통한 신속하고 정확한 정보검색을 가능
케 할 수 있다면 이는 도서관 전산화에도 매우 중요한 기술개발
이라고 생각된다. 특히, 우리 국어의 전산화 작업은 시급한 과제
이고 이에 대해서 도서관계에서도 관심을 가져야 할 것이다.
이용훈(blackmt)
<소프트웨어 시대-4>국어정보베이스...한글 모든것 전산화
----------------------------------------------------
「할아버지 가방에 들어가신다」라는 문장은 문법은 맞지만 의미
가 통하지 않는 잘못된 문장이다.그러나 문장의 전후 맥락상 할
아버지가 어떤 특별한 이유,예를들어 다른 사람의 눈을 피해 가
방에 들어간다면 이 문장은 문법도 맞고 의미도 통하는 것이 된
다.
이같이 언어는 특정 상황에 따라 의미를 갖기도 하고 무의미한
것이 되기도 해 어떤 정형화된 규칙을 정할 수 없는 것처럼 보인
다.그러나 우리가 한국어를 사용해 서로의 의사를 전달할 수 있
는 것은 오랜기간의 경험과 수많은 시행착오를 거치면서 옳고 그
른 문장을 파악하는 언어능력을 습득하기 때문이다.
만약 사람에게만 고유한 것으로 인식되던 언어능력을 컴퓨터가
갖게되면 어떻게 될까. 현재 우리나라 SW개발 수준을 2000년대
에는 선진국 수준으 끌어 올린다는 목표아래 진행되고 있는 ST
EP2000의 3대 중점과제의 하나인 「국어정보처리 기술개발」과
제에서는 우리말과 글을 사람의 수준만큼 컴퓨터가 처리할 수 있
도록 하는「국어정보 베이스」를 개발한다.
이 과제를 담당하고 있는 과학기술원의 최기선교수(전산학과)는
『미국을 비롯한 영어권과 프랑스 스페인 언어권,일본 등이 50년
대부터 자국 언어를 정보처리화하기 위한 연구를 시작,이미 영어
-불어,영어-일어 등의 자동번역 SW가 나와있다』고 소개하고
『뒤늦은 감이 있지만 STEP2000을 계기로 우리나라도 한국어
의 정보처리에 박차를 가하고 있다』고 말했다.
「국어정보 베이스」는 일반 국어사전을 떠 올리면 이해하기 쉽
다.다른 점이 있다면 「국어정보 베이스」는 컴퓨터가 한국어를
모국어처럼 사용하도록 한 전자사전이라는 것. 예를들어 사전에
서 「새」가 「날개가 있어 날아 다닐 수 있는 동물」로 정의되
어 있다면 「국어정보 베이스」에서는 「있다:날개,능력:난다,구
분:동물」등으로 분석된다.
분석된 요소는 각각 최소의 정보가 되고 이들 정보의 공집합은
「새」라는 단어를 나타낸다.한편 「새」와 유사한 의미를 전달
하는 「날짐승」이나 반대되는 의미를 갖는 「물고기」등과의 단
어를 연관시켜 동의어와 반의어 체계가 씨줄 날줄처럼 짜여진다.
현재 「국어정보 베이스」에서 대상어로 보고 있는 단어는 한국
어와 영어 등 20만단어정도.이 단어 체계에는 북한과 연변 및 해
외 동포들이 모국어로 사용하고 있는 한국어가 포함되며 전문용
어까지 망라된다. 언어체계가 완성되면 다음은 이들 단어가 조합
돼 문장을 이루는 규칙이 연관관계에 의해 구축된다.
주어 목적어 동사의 어순으로 이뤄지는 표준 문장과 갖가지축약
표현등 한국어로 표현할 수 있는 모든 문장이 모두 함수적 관계
에 의해 정의되는 것이다.
예를들어 「데리다」라는 불완전동사는 「손님을 데리고 -」「
손님을 데리러」처럼 목적어를 앞세워야만 사용된다든가 「- 데
리고 싶다」의 결합은 옳지 않으며 「- 데리고 가고 싶다」라고
써야된다는 것이 약속된다.
일단 이러한 정보베이스가 구축되면 이를 어떻게 이용하느냐에
따라 활용폭은 헤아릴 수 없이 넓다.
철자검색 SW의 기초 자료로 활용할 수 있는 것은 가장 간단한
예.문서편집기에 이 정보베이스가 결합되면 표준어와 사투리,오기
를 가려내는데 사용할 수 있으며 한 문장에서 같은 의미를 전달
하더라도 더 적확한 단어가 어떤 것인지를 제시해주는데 이용할
수 있다.
전산화되어 있는 정보중에서 자신이 원하는 정보만을 찾아낼 수
있는데도 사용할 수 있다.만약 대량의 문서가 전산화된 도서관에
서 장문의 논문을 검색하면서 간단히 핵심 주제어별로 검색하기
도 하고 필요한 논문은 짧은 요약문으로 만들어 낼 수 있다.
또 이미 구축되어 있는 영어 일어 등의 정보베이스와 변환하는
SW와 결합되면 자동번역기의 기초자료로 활용할 수 있다.
최교수는 『구축된 정보베이스는 누구나 손쉽게 사용할 수 있도
록 CD롬에 담을 예정』이라면서 『앞으로 이러한 정보베이스의
활용이 일반화되면 정보화사회의 질적 도약이 이뤄질 것』으로
전망했다. <김승일기자>
「국어정보 베이스」과제를 맡고 있는 과학기술원 최기선교수(전
산학과)는 『미·일 등 선진국에 비해 우리나라 정보처리기술이
크게 뒤처진 것이 사실이지만 우리말과 글을 전산화하는데는 우
리가 최고가 되겠다는 각오로 연구를 진행하겠다』고 의지를 밝
혔다.
다음은 일문일답.
-국어연구자들과 공동연구는 어떻게 진행되고 있나.
�언어학과 전산학이 통합된 국어공학이라는 독자적인 학문체계
에서 연구를 진행한다.현재 우리나라의 국어공학은 생소하며 연
구자가 10여명에 불과하나 앞으로 이 분야는 크게 발전될 것으로
전망된다.
-국어정보 베이스의 연구결과 공개방법은.
�직접 연구를 담당하는 기관외의 연구소 및 관련기업들에 수시
로 매 단계의 연구결과를 공개,이들이 객관적으로 성과를 평가할
수 있도록 하겠다.특히 정보베이스를 활용하는 SW를 만들 수
있도록 지원할 계획이다.최종적으로 만들어진 정보베이스는 CD
롬으로 제작,일반에 공개하겠다.
-앞으로의 계획은.
�국어에 관련한 체계적이고 다양한 정보를 제공할 수 있는 국
어정보은행을 만드는 것이다.이 정보은행은 국어로 된 갖가지 정
보체계를 개발,보급하게 된다. <일>
----------------------------------------------------
정보,통신분야의 최첨단 연구결과가 우리 도서관계에 미칠 영향
을 충분히 알고 있어야 할 것이라는 생각에서 이 기사를 그대로
옮깁니다. 특히 이 기사에서 지적한 것 처럼 전산화되어 가고 있
는 도서관계에서 본문을 통한 신속하고 정확한 정보검색을 가능
케 할 수 있다면 이는 도서관 전산화에도 매우 중요한 기술개발
이라고 생각된다. 특히, 우리 국어의 전산화 작업은 시급한 과제
이고 이에 대해서 도서관계에서도 관심을 가져야 할 것이다.
이용훈(blackmt)
'올리브에 남긴 발자욱' 카테고리의 다른 글
[강연] 전국사서협회의 의의와 과제/2 (0) | 1995.02.14 |
---|---|
[강연] 전국사서협회의 의의와 과제/1 (0) | 1995.02.14 |
[해외] 유네스코 본부건물 개축 계획.... (0) | 1995.02.11 |
[외신] 아르헨티나 국립도서관 일부직원 유 (0) | 1995.02.11 |
[지방자치시대] 내일의 내고향 / 경기용인 (0) | 1995.02.11 |