일반적으로 N 그램이라고도 불리는 N 그램은 텍스트에서 일종의 항목의 n (숫자)을 찾기 위해 텍스트 또는 음성 내용의 통계적 분석입니다. 그것은 음소, 접두사, 구 또는 글자와 같은 모든 종류의 것들 일 수 있습니다. N 그램은 연구원 외부에서 다소 애매하지만 실제로 다양한 분야에서 사용되며 자연 언어로 이해하고 응답하는 컴퓨터 프로그램을 만드는 사람들에게 많은 영향을 미칩니다. 간단히 말해서, 아이디어에 대한 Google의 관심이 될 것입니다.
Google 도서 Ngram 뷰어의 경우 분석 할 텍스트는 Google이 공공 도서관에서 스캔하여 Google 도서 검색 엔진을 채우는 방대한 양의 책에서 나옵니다. Google 도서 Ngram Viewer의 경우 '코퍼스'로 검색 할 텍스트를 참조합니다. Ngram Viewer의 자료는 영어로 나뉘어져 있지만 영어와 영어를 별도로 분석하거나 함께 정리할 수 있습니다. 그것은 용어의 영국에서 미국 사용법을 토글하고 차트가 바뀌는 것을 보는 것은 매우 재미있는 것이 끝난다.
Ngram 작동 방법
- books.google.com/ngrams에서 Google 도서 Ngram 뷰어로 이동하십시오.
- 항목은 Google 웹 검색과 달리 대소 문자를 구분하므로 적절한 명사를 대문자로 사용하십시오.
- 분석 할 구 또는 문구를 입력하십시오. 각 구를 쉼표로 구분하십시오. Google은 "Albert Einstein, Sherlock Holmes, Frankenstein"을 제안합니다.
- 다음으로 날짜 범위를 입력하십시오. 기본값은 1800 ~ 2000이지만 더 최근의 책이 있습니다 (2011 년이 가장 최근에 Google 설명서에 나열되었지만 변경되었을 수 있음).
- 코퍼스를 선택하십시오. 외국어 텍스트 또는 영어를 검색 할 수 있으며 표준 선택 사항 외에도 하단에 "영어 (2009) 또는 미국 영어 (2009)"와 같은 것이 나타날 수 있습니다. 이것들은 Google이 이후 업데이트 한 오래된 자료이지만 이전 데이터 세트와 비교할만한 이유가있을 수 있습니다. 대부분의 사용자는이를 무시하고 가장 최근의 자료에 집중할 수 있습니다.
- 부드럽게 수준을 설정하십시오. 매끄럽게하기는 그래프가 얼마나 매끄러운지를 나타냅니다. 가장 정확한 표현은 0의 스무딩 레벨이지만, 읽기가 어려울 수 있습니다. 기본값은 3으로 설정됩니다. 대부분의 경우이 값을 조정할 필요가 없습니다.
- 도서 검색 버튼을 누릅니다. (검색 창에서 Enter 키를 누를 수도 있습니다.)
Ngram은 무엇입니까?
Google 도서 Ngram 뷰어는 시간 경과에 따른 서적의 특정 구문 사용을 나타내는 그래프를 출력합니다. 두 개 이상의 단어 나 구를 입력하면 다른 검색어와 대비되는 색으로 구분 된 선이 표시됩니다. 이것은 Google 트렌드 와 매우 유사하며 검색 만이 더 긴 기간을 포함합니다.
실제 예가 있습니다. 우리는 최근에 식초 파이에 대해 궁금합니다. 그들은 Prairie 시리즈의 Laura Ingalls Wilder의 Little House에서 언급되었지만, 우리는 그런 것을 들어 본 적이 없었습니다. 먼저 Google의 웹 검색 을 사용하여 식초에 대해 자세히 알아 보았습니다. 분명히, 그들은 미국 남부 요리의 일부로 간주되며 실제로 식초로 만들어집니다. 그들은 모든 사람들이 일년 내내 신선한 농산물을 이용할 수없는 시대로 귀 기울입니다. 그게 전부일까요?
우리는 Google Ngram Viewer를 검색했으며, 1800 년대 초반과 1800 년대의 파이, 1940 년대의 많은 멘션, 최근 몇 차례의 언급 (아마도 일부 파이 향수)이 있습니다. 3의 스무딩 레벨에서 데이터 문제. 1800 년대의 언급에 비해 고원이 있습니다. 분명히 5 년 동안 매년 특정 파이에 대한 언급이 똑같지는 않았습니까? 무슨 일이 벌어지는지는 그 시간에 많은 책이 출판되지 않고 우리의 데이터가 부드럽게 설정되기 때문에 그림이 왜곡된다는 것입니다. 아마 식초 파이를 언급 한 책이 있었을 것이고, 단지 스파이크를 피하기 위해 평균을 얻었을 것입니다. 평활화를 0으로 설정하면 이것이 사실 인 것을 알 수 있습니다. 스파이크는 1869 년을 중심으로, 1897 년과 1900 년에 또 다른 스파이크가 있습니다.
나머지는 식초 파이에 대해 아무도 얘기하지 않았습니까? 아마도 그 파이에 대해 이야기했을 것입니다. 그 곳곳에 떠있는 요리법 이있었습니다. 그들은 책에 대한 글을 쓰지 않았으며, 이는 Ngram 검색의 한계입니다.
고급 Ngram 검색
Ngrams가 모든 종류의 텍스트 검색으로 구성 될 수 있다고 말한 것을 기억하십니까? Google에서는 Ngram 뷰어로도 약간의 드릴 다운을 허용합니다. 명사를 물고기 대신에 동사를 검색하려면 태그를 사용하면됩니다. 이 경우 'fish_VERB'를 검색하면
Google은 사용할 수있는 명령의 전체 목록과 기타 고급 설명서를 웹 사이트에서 제공합니다.