英文の語彙レベル解析手順について
本サイトでは小説などの英文で使われている英単語を1~26000語のレベルで分類し、英文を楽しむために必要な目標語彙数、英語試験の目標語彙数を公開していきます。しかし、中にはどのような基準で単語を分類しているか気になる方もいるかと思いますので、解析手順について記載しておきます。
なお、語彙レベルを解析して公開している理由は「語彙力にあった作品を見つけやすくするため」、「読みたい作品を楽しむにはどこまで語彙力を伸ばせば良いのか目安を示すため」です。詳細は以下を参照ください。
英単語の語彙レベルの基準について
1~12000語レベルまではSVL 12000が基準
英語作品の語彙レベルを解析するとして、わかりやすい基準が必要となります。本サイトではこの基準としてアルク社公開のSVL 12000を利用することにしました。SVL 12000は英単語が頻出順にまとめられ、1000語/1レベル で区切られているので語彙レベル計測に向いた構成となっています。なお単語集 SVL Vol.1 ~ Vol.4 の4冊に3000語ずつ収録されています。
研究機関などでも語彙レベル解析の基準に良く使われていますし、利用している方も多いので、客観的な指標になると判断しました。SVL 12000の詳細は以下記事を参照ください。
12001~26000語レベルまでは極限の英単語、終極の英単語が基準
26000語ものレベルで解析する必要性はあるのか?
語彙レベル解析を行うにあたり、12000語レベルを超える高難度な英単語の扱いどのようにするのか、という点が1つ問題としてありました。基本的にほとんどの英文で使われている英単語はSVL 12000で8~9割カバーできるので、この評価で十分と感じる方もいるかもしれません。しかしSVL 12000だけの解析では、すべての単語をカバーするには語彙をどこまで増やせば良いのか、という疑問は払拭できないのです。大学の研究の語彙解析でもSVL 12000どまりなので、この疑問を解消する具体的な情報は、私が探した限りでは見つかりませんでした。
この疑問を払拭するために、当初は英検1級対策用の英単語集に掲載されている単語を集め、SVL 12000と重複しない単語を12001~15000語レベルとして扱って評価すれば良いと考えてました。しかし、小説などで使われる英単語のバリエーションは多く、たかだか3000語程度の語彙セットでは賄うことができませんでした。つまり、結局どこまで語彙を増やせば良いのかは分からずじまいでした。
見つけたのは極限の英単語
そこで次に目を付けたのが「極限の英単語 Vol.1~4」です。こちらは、「24000語レベルまでの語彙」が、「SVL 12000と重複せず」、「頻出順で」まとまっているという、SVL 12000と組み合わせるにはうってつけの英単語集です。実際にハリーポッターや英検1級の英文を対象にした語彙レベル解析を行い、基準とするには十分な妥当性を持っていると判断しました。詳細は以下を参照ください。
というわけで本サイトでは極限の英単語と、同作者による24001~26000語レベルの英単語集「終極の英単語」を合わせ、12001~26000語レベルの基準とします。なお、終極の英単語は約2000語掲載されていますが、1000語単位で分割されていません。そのため、24001~26000の語彙レベル評価は1つ (26000語レベル) にまとまっています。
ちなみに、語彙をどこまで増やせば良いのか、という疑問に対する答えは、「26000語でも100%カバーすることはできない。というかすべてカバーするのは無理だし、気にする必要はない」という結論に達しました。開き直り気味ですが、26000語レベルで解析して初めて分かることですので、これはこれで意味のある結論だと思います。
語彙レベル解析手順
概要
26000語レベルの分類は、単語単体で評価を行っています。例えば、解析対象の英文に “all-out” が含まれていた場合、all と out に分割し、SVL 1 (1~1000語レベル) の単語が2つ存在すると判定しています。極限の英単語 Vol.1 (12001~13000語) には “all-out” が1語として掲載されていますが、本サイトでの解析方法では該当することはありません。
なお、解析は自作のプログラムを利用して行っています。なにぶん自作ですので100%の確度ではありませんし、徐々に改良を重ねている状況ですので時期によって精度にバラつきが若干生じているかもしれません。また、私は言語学者や語彙研究者ではなく、英文学を専攻していたわけでもありません。語彙解析手順として一般的な手法を取っていないかもしれませんので、その旨あらかじめご了承ください。
① 基準となる26000語の英単語リストの準備
解析ではSVL 12000語と極限の英単語12000語、終極の英単語約2000語の英単語リストを利用していますが、それぞれ以下のように準備しました。
-
SVL 12000
学辞郎を購入し、付属のCDから英単語を抽出しました。具体的な方法は以下を参照ください。
-
極限の英単語、終極の英単語
Kinlde Unlimitedに加入していたので極限の英単語 & 終極の英単語をダウンロードし、全英単語を手入力しました。Kindle for PCはテキストコピーなどが一定量できますが、どのような英単語が掲載されているのかもじっくり確認したかったので、確認ついでに手入力していました。
② 解析対象の英文をテキストデータで準備
解析で利用する作品のテキストデータは自力で用意しています。状況によっていくつか方法を分けていますし、ネット上でスクリプトが入手できればそれを利用していますが、手入力で準備することもあります。
- Kindle版の小説の場合は、Kindleのコピー機能などで英文をコピー。OCRで画像から文字に変換したり手入力することもある
- 紙媒体の英文はページを画像化し、OCRで文字に変換。場合によっては手入力
- PDFなどは英文コピー。コピーできない場合はOCRで画像から文字に変換
- マンガの場合は英文を手入力
- ドラマ、映画、ゲームの場合、ネット上でスクリプトが公開されている場合はその英文を利用。ない場合はセリフをOCRで文字に変換、または手入力
※ | 解析対象の作品は購入していますし (無料公開されている場合を除く)、DRM解除などは行っていません |
③ 英文を単語単位に分解し、正規化
準備した解析対象の英文は、以下のように単語を編集 (正規化) し、単語単位に分割しています。
-
省略された単語は元の単語に復元
I’ve や You’re などは、I have、You are に復元しています。その他にも、gonna や whatcha など口語で良く使われる省略表現も going to、what are you といった形に戻しています。
ただし、プログラムで機械的に判断しているため正確な復元ができていない場合が若干あります。例えば、it’s/he’s/she’s などは is なのか has なのか判らず is で復元するよう統一しています。is も has もSVL 1の単語なのでこのケースは解析結果に誤差は生じません。なお、Ken’s といった場合は所有格なのか Ken is なのか Ken has なのかプログラムでは判断がつかないため、代名詞以外に ‘s が追加されている場合は ‘s を無視するようにしています。
-
ハイフンは除外
ハイフンでつながれた言葉はハイフンを除外して、1単語ずつに分割しています (so-called はso と called の2語に分割)。
-
イギリスやフランスなどの綴りはアメリカ綴りに変更
SVLはアメリカ綴りで表記されているため、単語はすべてアメリカ綴りに直しています (centre→center、café→cafe など)。
-
方言は通常の綴りに変更
一部の小説などでは訛り表現として単語の表記が変わることがありますが、標準の綴りに直しています (yeh→you、ter→to など)。
④ 1~12000語レベルの判定
英文を単語単位に分割したので、各単語とSVL 12000の英単語が一致するか判定します。屈折接辞 (三人称単数、複数形、分詞の状態) が付いていても、まずはその形でSVL 12000の単語と一致するか判定します。一致しなかった場合、原形に戻して再度SVL 12000の単語と一致するか判定します。
例えば beat, beats, beating, beatings, beaten の5単語を判定する場合、
-
そのままで判定
beat SVL 2 (2000語レベル) の beat と判定 beats 該当なし beating SVL 5 (5000語レベル) の beating と判定 beatings 該当なし beaten SVL 5 (5000語レベル) の beaten と判定 -
1で判定できなかった単語を原形に戻して判定
beat SVL 2 (2000語レベル) の beat と判定 beat SVL 2 (2000語レベル) の beat と判定 beating SVL 5 (5000語レベル) の beating と判定 beating SVL 5 (5000語レベル) の beating と判定 beaten SVL 5 (5000語レベル) の beaten と判定
上記のように判定します。
分詞 (beating/beaten) の場合も原形に戻して判定すべきではないかという議論が生まれそうですが、SVL 12000に分詞の形で掲載されている場合は分詞として判定することにしています。washing など、分詞の形でSVL 12000に掲載されていない単語の場合は、原形に戻して判定しています。
語数のカウントについて
語数のカウント数に関しては、以下のように、「種類」と「総語数/全英単語」と表記して以下のようにカウントしています。同じ単語を複数計測するか否かという違いです。語彙計測に関する論文は色々ありますが、種類のことをtype、総語数のことをtokenと表記していること多いです。
語彙レベル | 英単語の種類 (type) | 総語数 (Token) |
---|---|---|
SVL 2 | beat x 1 | beat x 2 |
SVL 5 | beating x 1 beaten x 1 | beating x 2 beaten x 1 |
計 | 3 | 5 |
⑤ 12001~26000語レベルの判定
SVL 12000に該当しなかった英単語は、極限の英単語 + 終極の英単語 (12001~26000語) の英単語と一致するか判定します。判定は手順④と同じ方法を取っています。
⑥ 固有名詞、数値、造語などを除外
SVL 12000、極限の英単語、終極の英単語いずれにも掲載されていない単語のうち、以下に該当する語句を語彙レベル解析の対象として相応しくないと判断し、除外しています。
- 登場人物名や造語
- 数値系 (100、20th、1960s など)
- 一般的な固有名詞 (地名、商品名、企業名、団体名 など)
- 日本語が英語になった単語 (sushi、ninja など)
- 叫び声、笑い声などのたいして意味のない感嘆詞 (er、ugh など)
- 日本でも一般的な名詞 (UFO、Smartphone など)
- 技術用語 (URL、HTML など)
- 単語として成り立っていない語 (Wh-what? の Wh など)
なお、人物名などの綴りが通常の英単語の綴りと一致するケースがありますが、この場合はすべて小文字で表記されていない場合は名称と判断し解析対象から除外しています。例えばハリーポッターの場合、Harry/HARRYは名称と判断して除外、harryは SVL 11 (10001~11000) の英単語として判定しています。もちろん、Harryという人物が登場しない作品では常にSVL 11の英単語と判定しています。
除外されずに残った単語を26000語範囲外として扱います。
⑦ 目標語彙数を計算
語彙レベルを計測した作品は目標語彙数を記載していきます。基準についてですが、一般的に
- 英文を「楽しむ」には総語数の95%を理解している必要がある
- 英文を「きちんと理解する」には総語数の98%を理解している必要がある
という研究結果があるようです。3%ぐらいあまり変わらないのではないかと思いがちですが、ハリーポッター1巻の場合は95%カバーに必要な語彙数は約5,000語、98%カバーに必要な語彙数は10,000語です (緑色のグラフの結果より)。基本的にSVL1~3で英文の90%ほどカバーできてしまうので、それ以降では1%カバー率を上げるのは大変なものなのです。
多読時の最低目標語彙数は総語数の95%カバーとする
もちろん98%理解できている方が良いに決まっていますが、目標とするには少し敷居が高いように感じます。試験ではないので辞書で調べながら読書しても良いわけですし、SSS書評ではハリーポッター1巻の目標語彙レベルは5000語と掲載されていますので、本サイトでは娯楽作品を多読するための最低目標語彙数を総語数の95%理解できる語彙数として記載することにします。
総語数の95%ってどれぐらい読めそうかという点は、以下の記事で具体的なサンプル英文を出していますので、興味があれば参照ください。
目標語彙数の計算方法
目標語彙数を1000単位で刻むのは大雑把なので、目標語彙数は100語単位で記載していきます。
例えば、ハリーポッター1巻の場合
計測対象の英文の総語数 | 74259 |
総語数の95% | 70547 |
英文中のSVL 1~4レベルの英単語の総語数 | 69747 |
95%カバーに必要なSVL 5の英単語の語数 | 800 |
英文中のSVL 5レベルの英単語の総語数 | 855 |
SVL 5レベルの1000語のうち、何語覚えていれば良いのか | 1000 * (800/855) = 936 |
総語数の95%カバーに必要な語彙数 | SVL 1~4の4000語 + SVL 5の936語 = 4936語 |
上記計算を行い、50以下切り捨てで最低目標語彙数を4900語とします。穴がある計算ではあるので、あくまでも目安だとお考えください。
【おまけ】 英文の語彙レベルを解析するプログラムあれこれ
SVL 12000/JACET8000で分類・英単語一覧を出力
Word Level Checker
英文を語彙レベル別に分類し、英単語一覧を出力するプログラム (Word Level Checker) が無料で公開されています。語彙レベルの基準としてJACET8000、SVL 12000、WLC (ver.02) の3パターンを選択できます。利用方法は、Word Level Checkerトップページの上の方にある[WLC 解説]のリンク先に記載されています。
-
JACET8000
英語のコーパスと日本人向け学習用資料を基に、8000の英単語を頻度順に集めた英単語リストです。2016年には新JACET8000が発表されています。詳細は以下記事を参照ください。
-
WLC (ver.02)
ビジネス英語向けの約35,000語の英単語リストです。詳細は利用方法の中に記載があったので、そちらを参照ください。
英単語一覧の出力・保存方法
英単語一覧の出力方法が少し分かりづらいので、簡単に説明しておきます。
トップページで[送信]ボタンを押下すると結果画面が表示されますが、画面下部に[OPTION]項目が表示されます。英単語の並び順を4種類の中から選び、[SUBMIT]ボタンを押します。
補足
Word Level CheckerではSVL 12000での語彙レベル解析ができますが、本サイトで行っている解析とは同じ結果にはなりません。特に以下2点の処理が異なりますので、ご注意ください。
- 略語の復元を行っていない (you’re は、you と re に分割され、re は Unknown として扱われる)
- 分詞はすべて原形に戻される (beats、beating、beaten はすべて beat として扱われる)
NGSL (新基本英単語リスト) でのカバー率を計測
NGSL
一般英文の8割をカバーすると言われる無料の英単語リストGSL (General Service List、基本英単語リスト) があります。そして、このリストを大幅に刷新した NGSL (New GSL、新基本英単語リスト) が2013年に公開されています。また、NGSL以外にもNAWL (アカデミック向け)、TSL (TOEIC向け)、BSL (ビジネス英語向け) の英単語リストも公開されています。詳細は以下記事を参照ください。
Vocab Profile
そして、NGSLがどれほど英文中の単語をカバーするかを計測する機能がVocab Profileなるサイトで公開されています。
語彙や翻訳に関連した論文あれこれ
語彙や翻訳に対する研究は色々ありますが、論文で公開されているだけなのであまり表に出てきません。面白いと感じたものをいくつか掲載しておきます。
- テキストカバー率が読解に及ぼす影響
- 中学・高校の英語教科書と一般的英語教材との語彙比較
- 多読と語彙の統制に関する一考察 : 『ハリー・ポッターと不死鳥の騎士団』のコーパス分析から
- 日本マンガ『よつばと!』翻訳比較研究に関わる補遺
- 「JACET8000」をスケールとして学習指導要領の制限語彙及び中学校教科書語彙を検討する
- グレィデッド・ リーダーの語彙と文法
- JACET8000と電子版ニューヨーク・タイムズ紙掲載の新刊書第1章の語彙
- JACET8000のテキストカバー率 語彙表と英文テキストによる検証
- Comparing the vocabulary of different graded-reading schemes
- Extensive Reading and Vocabulary Range (YouTube)
- Power of Words | Charles Browne | TEDxTokyoTeachers (YouTube)
- What makes a word “real”? (TED)
英単語を原形に変換する機能
語彙レベル解析を行う場合、英単語を原形に戻す機能が必要となってきます。ただ原形に戻すだけで良ければ前述のWord Level Checkerでも良いですが、解析プログラムを作成する場合は外部機能または変換用のDBを用意し、自作プログラムに組み込むことになります。いくつか使えそうな機能を見つけたので残しておきます。もちろん全英単語に対応しているわけではないので、自分なりのカスタマイズは必要になるかと思います。
About me
管理人 矢月
(@yazuki_tw)
英語の娯楽作品に関する情報をまとめています。洋書に加え、英語のマンガ・アニメ・ライトノベル・ドラマ・ゲームでの多読多聴も楽しいですよ……!
英検、TOEIC、英単語集の語彙レベルや Anki についても調べて公開中。