絵本コーパスを構築したからわかること

NTTの藤田早苗です。

この連載ではNTTで取り組んでいる絵本検索システム「ぴたりえ」関連の研究を中心にご紹介していきます。第1回ではそもそもどうしてこのような研究を始めたかと、絵本のコーパス(=実際に使用された言語表現を集積、整理した言語データ)を大規模に構築していることをご紹介しました。

第2回では、コーパスに含める絵本の選び方と、絵本のコーパスがあるとわかること(の一部)として、絵本に出てくる語についてご紹介します。

絵本の選定 ~泣く泣く選ぶ~

理想的にはすべての絵本を電子化してコーパスに含めたいのですが、絵本は毎年おおむね6,000冊以上出版されており、とても人手で電子化できる量ではありません。参考までにご紹介すると、国立国会図書館の分類別図書整理統計では、児童図書の和図書の出版数は、2016 年で6, 608 冊、2017 年で6, 734 冊、2018 年で6, 535 冊、2019 年で6, 878 冊となっています。

これらすべての絵本の電子化はできないので、優先的に電子化する絵本を次の条件で選びました。

(a) 売れている本(ベストセラー・トップセラー。紀伊国屋からリストをご提供いただきました。)

(b) 図書館での推薦図書(全国の県立図書館で公開されているリストを調査。調査対象はこちらのサイトにまとめています。)

(c) 小学校国語教科書掲載作品(2015年度のシェアトップ3 社(東京書籍,光村書店,教育出版) の教科書で調査しました。)

基本的に、より多くの子どもに読まれていると考えられる絵本をカバーできるように選んでいます。その他、対象年齢が明示されている絵本や、実証実験先の図書館の蔵書リストなども参考に電子化(コーパス化)を進めています。

絵本のクイズ ~絵本のコーパスからわかること~

コーパスにしておくと検索や分析が簡単にできるようになります。NTT絵本・児童書コーパスの中の絵本のみ6,137冊(7,322話)(注)を使って、クイズを作ってみました。先の方で解説しますので、よろしければ先に考えてみてください。

Q1. いぬとねこ、絵本により多く出てくるのはどちらでしょう?

Q2. 一冊(一話)の絵本に出てくる語数はどのくらいでしょう? 中央値で答えてください。

  選択肢:  (a) 176語,  (b) 647語, (c) 1,022語, (d) 45,345語

Q3. 子どもへの発話と絵本で、同じ語数中により多様な語が含まれるのはどちらでしょう?

なお、語数と言っても、日本語の場合、どこまでを1語と考えるかは難しい問題ですが、我々はUniDic短単位に基づいて「形態素(=意味を持つ最小の言語単位。(「言語情報処理 用語集」参照))」に分割し、形態素数を語数としています。

絵本により多く出てくるのはどちら? ~いぬ vs. ねこ~

正解は「ねこ」です。しかもかなり圧倒的に多く、「ねこ」は「いぬ」の2.5倍も出てきます。表記ゆれ(ねこ/ネコ/猫、いぬ/イヌ/犬)をまとめて比較しても、「ねこ/ネコ/猫」の方が1.7倍多く出てきます。

ところが、漢字の「猫」と「犬」だけを比較すると、「犬」の方が5.8倍も多く出てきます。「犬」は小学1年生の配当漢字ですが、「猫」は小学生の配当漢字ではありません。そうしたことから「猫」はあまり絵本では使われていないのかもしれません。なお、表記ごとの頻度は、ねこ, いぬ,ネコ, 犬, イヌ, 猫の順でした。

ついでに動物の出現頻度トップ30をご紹介しておきます。表記ゆれはまとめていません。

1話の絵本に出てくるのべ語数は? ~中央値~

のべ語数とは、同じ語が何度でてきてもそのまま足し算したものです。選択肢は (a) 176語,  (b) 647語, (c) 1,022語, (d) 45,345語 でした。

このうち、のべ語数の中央値の正解は、(b) 647語 でした。

他の選択肢の数字にも意味があります。(a) 176語は、1話ずつの絵本に出てくる異なり語数を数えた時の中央値です。異なり語数では、同じ語なら何度出てきても1語とかぞえるので、当然ながらのべ語数よりはるかに小さな数字になります。

(c) 1,022語は、のべ語数の平均値で、(d) 45,345語は、のべ語数の最大値です。

絵本なのに4万語?と思って確認すると、最大語数の絵本は『発明図鑑 世界をかえた100のひらめき!』(文 トレイシー・ターナー, アンドレア・ミルズ, クライブ・ジフォード, 監修 ジャック・チャロナー, 主婦の友社, 2015)でした。128ページもあり、タイトルにも「図鑑」とあります。中身をみると、単に図鑑とも言い難いものの、絵本としていいのか迷う本かもしれません。

こうした一部の非常に語数の多い絵本に引きずられ、最大値や平均値は引き上げられています。のべ語数の度数分布(ヒストグラム)を図1に示します。図1からもわかるように、約68%のお話は1,000語以下、つまり平均値以下です。図1の右側に、1,000語以下の絵本だけの度数分布を示します。1,000語以下の絵本の中では、100語以下の絵本が最も多いことが見て取れます。

図1 絵本1話ごとののべ語数の度数分布(ヒストグラム)

語数に関して、具体例をご紹介しておきますと、例えば、『ぐりとぐら』(なかがわりえこ、おおむらゆりこ, 福音館書店, 1963)の場合、空白や句読点のような記号を除き、のべ641語、異なり196語でした。『はらぺこあおむし』(エリック=カール さく/もりひさし やく, 偕成社, 1976)の場合は、のべ270語、異なり115語でした。

より多様な語が出てくるのはどちら? ~絵本 vs. 子どもへの発話~

正解は、もちろん絵本です。

3問中、最も簡単な問題だったのではないでしょうか?

では、実際に日常会話(子どもへの発話)と絵本ではどのくらい出てくる語が違うのでしょうか。子ども自身や子どもに向けた発話を記録・書き起こしたコーパスであるCHILDESと、絵本コーパスを比較した結果をご紹介します。

具体的には,のべ語数(Token)に対して異なり語数(Type)がどのくらい出てくるか(以下,Type-Token比) を調査しました。Type-Token比が高ければ高いほど、同じ語数の中により多様な語が出てくることになります。

上の左側の図では、絵本とCHILDESからランダムに100語ずつ取り出した場合のTypeとTokenの変化を示しています。右側の図は左側の図の一部を拡大し、さらに絵本1冊ずつ、CHILDESの1ファイルごとの値をプロットしています。二つの図から、絵本の方がCHILDES よりType-Token 比が高い、つまり、同じ語数で比較すると絵本の方がより多様な語が出現していることが分かります。

のべ語数が多くなればなるほど、絵本とCHILDESの差は大きくなりますが、際限なく絵本を読めるわけではありません。仮に絵本100 冊程度(68, 400 語, 2018年調査時点の値)の語数で比較すると(左側の図の緑の縦線)、 約1.71 倍の種類の語が出てきます。

絵本の読み聞かせは言語発達に貢献するとされています。その理由に関する研究はいろいろありますが、日常の会話ではほとんど出現しない語やフレーズが多数出現することも、理由の一つに挙げられます。

では実際に絵本にはどのような語やフレーズが出てくるのか、日常会話とどのように違うのか、といった情報も、絵本コーパスを構築したことで、具体的な数字で示すことができるようになったのです。

第3回は、対象年齢が明示されている絵本を使った難しさの推定についてご紹介予定です。


(注)2023年10月19日時点のコーパスを利用しています。一冊の絵本に複数話入っていることがあるため、話数は冊数より多くなっています。

参考資料: 藤田 早苗, 奥村 優子, 小林 哲生, 服部 正嗣. “絵本と幼児向けの発話に出現する語の多様性比較”,言語処理学会第24回年次大会 (NLP-2018), pp. 1264–1267, 岡山, B7-4, 2018.3.