Skip to main content

텍스트 코퍼스는 무엇입니까?

wext 텍스트 코퍼스는 말하거나 쓰여진 텍스트 모음으로 코퍼스 언어학 연구의 기초입니다.이 큰 텍스트 은행을 저장하면 연구원들은 모든 언어의 다양한 측면을 분석 할 수 있습니다.텍스트 코퍼스는 자료가 수집되면 형태, 구문, 어휘 및 실용주의를 포함한 다양한 언어 관련 문제를 조사하는 데 사용될 수 있기 때문에 연구를 수행하는 효율적인 방법입니다.언어 연구를 수행하는 오래된 방법과 달리, 텍스트 코퍼스는 연구자들이 가설 적으로 사용될 수있는 방법보다는 실제로 맥락에서 어떻게 사용되는지에 따라 언어를 볼 수있게합니다.언어 학자들은 일반적으로 제한된 재정 자원으로 제한된 기간 동안 자신을 수집 할 수있는 데이터로 제한해야 할 때보 다 훨씬 더 큰 데이터 샘플에 액세스 할 수 있습니다.Corpora는 일반적으로 컴퓨터에 저장되므로 연구를 용이하게하기 위해 컴퓨터 소프트웨어 프로그램을 만들 수 있습니다.텍스트 코퍼스를 사용하는 일반적인 방법 중 하나는 텍스트의 총 단어 수를 세고 특정 단어가 나타난 횟수를 계산하고 순위를 매기는 것입니다.총 단어 수와 특정 단어 사이에 생성되는 비율은 Zipf의 법칙이라고합니다.이 비율은 언어로 단어 빈도를 설명하는 데 도움이됩니다.Zipf의 법칙을 이해하면 컴퓨터 프로그래머가 주어진 언어의 요구를 충족시키는 컴퓨터 소프트웨어를 설계하는 데 도움이됩니다.그들은 특정 단어와 문구가 입력으로 얼마나 자주 사용되는지를 세고 예측할 수 있습니다.

텍스트 코퍼스를 사용하는 또 다른 방법은 연구원이 공부하고자하는 특정 요소를 태그하는 것입니다.이것이 어떻게 사용되는지에 대한 예는 다른 텍스트 장르에 수동적 음성이 몇 번이나 나타나는지 계산하는 것입니다.태깅은 또한 사람들이 일상 생활에 도움이되는 컴퓨터 프로그램을 만드는 데 유용했습니다.음성 인식 소프트웨어 개발에 중요한 음성 태그가 중요했습니다.예를 들어 영어에서는 같은 단어가 말의 일부 이상을 가질 수 있습니다.다중 음절 단어는 종종 어떤 말의 일부가 사용되는지 신호를 보내기 위해 다르게 강조됩니다.명사 "객체"는 첫 번째 음절에 스트레스를 전달하지만 동사 "객체"는 두 번째 음절에 스트레스를받습니다."객체"의 명사 형태를 태그하면 컴퓨터 프로그램이 인간이 "객체"라고 말할 때 컴퓨터 프로그램이 올바르게 읽고 인식하는 데 도움이됩니다.text Corpora는 인간 언어학 및 계산 언어학 모두에게 유용합니다.그들은 사람들이 인간이 사용하는 언어를 더 잘 이해하는 데 도움이되는 연구를 수행 할 수있게 해주 며, 이는 컴퓨터가 사용하는 언어를 개발하는 데 도움이됩니다.음성 인식 기술에서 큰 도약을 통해 소비자가 사무실, 주택 및 차량의 컴퓨터를 구두로 제어 할 수 있습니다.지속적인 발전을 통해 인간은 서로처럼 자연스럽게 컴퓨터와 의사 소통 할 수 있습니다.