자연어처리
-
출석은 그렇게 중요하게 여기지 않은 듯.
-
Written form의 입출력만을 다룬다. (text만 다룬다.)
1. 자연어 처리
- 컴퓨터로 하여금 자연어를 사용할 수 있게 하는 기술
- 자연어 이해
- 자연어 생성
자연어 이해
- 컴퓨터에게 들어 오는 자연어를 이해하는 작업
- 완전한 이해 : 함축적 의미까지 파악
자연어 생성 (Natural language generation)
- 컴퓨터가 자연어를 만들어 출력하는 작업
2. 자연어처리의 응용 분야
- 사용자 인터페이스
- HCI : Human Computer Interface
- MMI : Man Machine Interface
- Automated control of electronic equipments
- telematics
- 기계번역, 자동통역 , 정보추출기, 질의응답기, 정보검색
- Text 요약 시스템 ( Story, Article, News wire)
- Automated Customer Service ( 은행, 상점, e-mail 응답)
- Tutoring Systems
3. 자연어 이해 과정
(1) 형태소 분석 (mophological analysis) : 구문분석단계의 Input Data
-
형태소 : 의미를 가진 가장 작은 단위
-
형태소 분석 : 문장의 형태소를 파악하는 작업
-
######품사 태깅 (part of speech tagging) : 각형태소의 품사를 결정하는 작업
-
모든 가능한 분석 가능성을 고려해야 함.
- 한 어절내의 존재하는 형태소의 수가 얼마가 될 지 모름
- 어떤 품사인지 모름
- 한 어절에 대하여 여러가지 분석 가능성이 존재함
- 근복적인 해결은 상위 지식을 이용해야 함
- 하늘을
나는새 -> “날다 + 는”
- 하늘을
(2) 구문 분석 (syntactic analysis) : OutPut : 문장의 구조 ( 보통 트리로 표현)
- 문장의 구조를 분석하는 작업
- 해당 분석이 제대로 이루어지지 않으면 의미를 이해할 수 없음
- 문법 : 문장의 구조를 기술할 수 있는 형식
- 구구조문법
- Set of Nonterminals (구의 레이블)
- Set of Terminals ( Terminal : 문장에 나타나는 Symbol)
- Set of rules (LHS -> RHS)
- LHS : a nonterminal
- RHS : a list of terminals and nonterminals
- A Starting nonterminal
- 문장 전체에 대한 label
- 구 (Phrase)
- 문장 내부의 구성 성분
- 단어들이 모여 구를 형성
- 구들이 모여 다시 구를 형성
- 구문요소 (constituent)라고 지칭
(3) 의미 해석 (semantic interpretation) : 주어진 문장을 Logical Form으로 나타내는 작업
-
단어어미 중의성 해소
-
Logical Form : 문장 의미 표현
</figure>
- 주변 다른 문장을 고려해야하는 작업은 뒤로 미룸
(4) 화용 분석 (Pragmatic analysis) : 분석하는 문장 이외의 것들을 이용하여 분석하는 작업
- Anaphora resolution
- Tom went to the party. He was drunk much at the night.
- Indefinite reference
- Three boys each bought a pizza.
- They ate them in the park.
- Definite reference
- Helen bought a car and a boat yesterday.
- She paid too much for the car.
- Co-reference identification