Google 도서에서 'Ngram Viewer'도구를 사용하는 방법

일반적으로 N 그램이라고도 불리는 N 그램은 텍스트에서 일종의 항목의 n (숫자)을 찾기 위해 텍스트 또는 음성 내용의 통계적 분석입니다. 그것은 음소, 접두사, 구 또는 글자와 같은 모든 종류의 것들 일 수 있습니다. N 그램은 연구원 외부에서 다소 애매하지만 실제로 다양한 분야에서 사용되며 자연 언어로 이해하고 응답하는 컴퓨터 프로그램을 만드는 사람들에게 많은 영향을 미칩니다. 간단히 말해서, 아이디어에 대한 Google의 관심이 될 것입니다.

Google 도서 Ngram 뷰어의 경우 분석 할 텍스트는 Google이 공공 도서관에서 스캔하여 Google 도서 검색 엔진을 채우는 방대한 양의 책에서 나옵니다. Google 도서 Ngram Viewer의 경우 '코퍼스'로 검색 할 텍스트를 참조합니다. Ngram Viewer의 자료는 영어로 나뉘어져 있지만 영어와 영어를 별도로 분석하거나 함께 정리할 수 있습니다. 그것은 용어의 영국에서 미국 사용법을 토글하고 차트가 바뀌는 것을 보는 것은 매우 재미있는 것이 끝난다.

Ngram 작동 방법

  1. books.google.com/ngrams에서 Google 도서 Ngram 뷰어로 이동하십시오.
  2. 항목은 Google 웹 검색과 달리 대소 문자를 구분하므로 적절한 명사를 대문자로 사용하십시오.
  3. 분석 할 구 또는 문구를 입력하십시오. 각 구를 쉼표로 구분하십시오. Google은 "Albert Einstein, Sherlock Holmes, Frankenstein"을 제안합니다.
  4. 다음으로 날짜 범위를 입력하십시오. 기본값은 1800 ~ 2000이지만 더 최근의 책이 있습니다 (2011 년이 가장 최근에 Google 설명서에 나열되었지만 변경되었을 수 있음).
  5. 코퍼스를 선택하십시오. 외국어 텍스트 또는 영어를 검색 할 수 있으며 표준 선택 사항 외에도 하단에 "영어 (2009) 또는 미국 영어 (2009)"와 같은 것이 나타날 수 있습니다. 이것들은 Google이 이후 업데이트 한 오래된 자료이지만 이전 데이터 세트와 비교할만한 이유가있을 수 있습니다. 대부분의 사용자는이를 무시하고 가장 최근의 자료에 집중할 수 있습니다.
  6. 부드럽게 수준을 설정하십시오. 매끄럽게하기는 그래프가 얼마나 매끄러운지를 나타냅니다. 가장 정확한 표현은 0의 스무딩 레벨이지만, 읽기가 어려울 수 있습니다. 기본값은 3으로 설정됩니다. 대부분의 경우이 값을 조정할 필요가 없습니다.
  1. 도서 검색 버튼을 누릅니다. (검색 창에서 Enter 키를 누를 수도 있습니다.)

Ngram은 무엇입니까?

Google 도서 Ngram 뷰어는 시간 경과에 따른 서적의 특정 구문 사용을 나타내는 그래프를 출력합니다. 두 개 이상의 단어 나 구를 입력하면 다른 검색어와 대비되는 색으로 구분 된 선이 표시됩니다. 이것은 Google 트렌드 와 매우 유사하며 검색 만이 더 긴 기간을 포함합니다.

실제 예가 있습니다. 우리는 최근에 식초 파이에 대해 궁금합니다. 그들은 Prairie 시리즈의 Laura Ingalls Wilder의 Little House에서 언급되었지만, 우리는 그런 것을 들어 본 적이 없었습니다. 먼저 Google의 웹 검색 을 사용하여 식초에 대해 자세히 알아 보았습니다. 분명히, 그들은 미국 남부 요리의 일부로 간주되며 실제로 식초로 만들어집니다. 그들은 모든 사람들이 일년 내내 신선한 농산물을 이용할 수없는 시대로 귀 기울입니다. 그게 전부일까요?

우리는 Google Ngram Viewer를 검색했으며, 1800 년대 초반과 1800 년대의 파이, 1940 년대의 많은 멘션, 최근 몇 차례의 언급 (아마도 일부 파이 향수)이 있습니다. 3의 스무딩 레벨에서 데이터 문제. 1800 년대의 언급에 비해 고원이 있습니다. 분명히 5 년 동안 매년 특정 파이에 대한 언급이 똑같지는 않았습니까? 무슨 일이 벌어지는지는 그 시간에 많은 책이 출판되지 않고 우리의 데이터가 부드럽게 설정되기 때문에 그림이 왜곡된다는 것입니다. 아마 식초 파이를 언급 한 책이 있었을 것이고, 단지 스파이크를 피하기 위해 평균을 얻었을 것입니다. 평활화를 0으로 설정하면 이것이 사실 인 것을 알 수 있습니다. 스파이크는 1869 년을 중심으로, 1897 년과 1900 년에 또 다른 스파이크가 있습니다.

나머지는 식초 파이에 대해 아무도 얘기하지 않았습니까? 아마도 그 파이에 대해 이야기했을 것입니다. 그 곳곳에 떠있는 요리법 이있었습니다. 그들은 책에 대한 글을 쓰지 않았으며, 이는 Ngram 검색의 한계입니다.

고급 Ngram 검색

Ngrams가 모든 종류의 텍스트 검색으로 구성 될 수 있다고 말한 것을 기억하십니까? Google에서는 Ngram 뷰어로도 약간의 드릴 다운을 허용합니다. 명사를 물고기 대신에 동사를 검색하려면 태그를 사용하면됩니다. 이 경우 'fish_VERB'를 검색하면

Google은 사용할 수있는 명령의 전체 목록과 기타 고급 설명서를 웹 사이트에서 제공합니다.