新JACET8000とSVL12000の語彙、英文カバー率の比較
2016年に出版されたJACET8000の新バージョン、新JACET8000。この記事では新旧JACET8000の比較、およびSVL12000の語彙レベル、英文カバー率比較を行った結果をご紹介します。
※ | 本記事はインターネット上で集めた情報を元に記載しています。詳細は市販の新JACET8000を参照ください。 |
目 次
新JACET8000とは?
米国英語・現代英語を取り込んだ新しいJACET8000
JACET8000
まずJACET8000 (以下「旧J8」と呼称) とは、2003年に出版された日本人大学生向けの8000の英単語リストです。BNCという英国英語コーパスを元に頻出する英単語が選出されています。JACET8000をご存じない方は先に以下記事を参照ください。
新JACET8000
旧J8の後継として2016年に新JACET8000 (以下「新J8」と呼称) が出版されました。旧J8はBNC (英国英語コーパス) が利用されていましたが、新J8ではCOCA (米国英語コーパス) のデータや中学高校の英語教科書、TOEICや英検の英文も参考にされるなど、日本人の英語学習に合う英単語の選出精度をより高くする試みがとられています。
British National Corpus (BNC)
BNCとは1990年前後に作られた大規模なイギリス英語コーパス (小説、雑誌、論文、ラジオなどで使われた言葉の用例集) です。文章や口語表現などの英文を集め、あわせて1億語の英単語で構成されています (書き言葉: 約90% + 話し言葉: 約10%)。
Corpus of Contemporary American English (COCA)
COCAとは大規模な米国現代英語コーパスです。口語、小説、新聞、学術、雑誌など複数のジャンルの英文がバランスよく収集されており、2016年時点では5億語を越える英単語で構成されています。
新旧JACET8000の違い
JACET8000 | 出版時期 | 8000語の選出基準 | 付属リスト | |
---|---|---|---|---|
基準コーパス | 順位補正基準 | |||
旧 | 2003年 | BNC (英国英語) | 頻出順 |
|
新 | 2016年 | BNC (英国英語) +COCA (米国英語) | 分布度 |
|
旧J8が出版された2003年以降、COCAやANC (American National Corpus) など米国英語のコーパスが登場してくるとともに、2008年には学習指導要領の改訂があり、小学校~高校までの英語学習の内容にも変化が訪れていました。そのため、旧J8の改訂の要望が出てきて新J8が登場した模様です。新旧J8では英単語の選定基準変更により掲載語に947語の入れ替わりがあります。さらに付属するリストも追加されています。
掲載語の選定基準
基準となるコーパスはBNCとCOCAの2種類になりましたが、英単語の選定方法にも変更が加えられたようです。具体的には、以下のような手順で8000語を選出したとのことです。
BNC、COCAそれぞれで会話、小説、雑誌、新聞、学術論文の5ジャンルに共通する英単語を14000語抽出
中・高校英語教科書、高校入試、センター試験、TOEIC・TOEFL公式問題集、英検、日本の英字新聞、英語の学術入門書の英単語をそれぞれ集めた11種類の補正資料を作成
BNC・COCAから抽出した14000語のうち、複数の補正資料で使われる英単語は掲載順位を高くし、8000語を選出
このような方法がとられたため、英国・米国で使用頻度が高いながらも日本の英語教育において使用されない単語は新J8では掲載順位が低い、または掲載されていないことがあります。この辺りは以下資料も参照ください。
付属リスト
市販の新J8の書籍にはCDが付属しており、「中学・高校コミュニケーション支援語録リスト」と「共通学術語彙リスト」が収録されています。
中高生向けの語彙リストは英英辞典の定義語彙、NGSL、中学英語教科書を参考に3000語が選定されています。もう片方の学術語彙リストは、農学・生物学・科学・工学・人文学・数物系化学・社会科学・医師薬学の英語の入門書の52冊において、5分野以上で使われる英単語が基本となって集められ、2194語が選定されています。
新JACET8000の入手方法
英単語リスト自体は無料
新旧JACET8000の英単語リスト自体は、神戸大学の研究室のHPで無料で公開されています。英単語の選定基準の詳細や付属の語彙リスト (中高生向け支援語彙リスト、学術語彙リスト) が欲しい場合はAmazonなどで販売されている新J8の書籍を購入する必要があります。なお、2018年3月現在では日本語訳や例文が付属した単語集は存在していない模様です。
種類 | 概要 |
---|---|
神戸大学石川慎一郎研究室 | 英単語リストの公開サイト |
市販の新JACET8000 | 市販の書籍 (CD付属) |
新JACET8000に関するツールや論文
英文を新JACET8000で分類するツール
New Word Level Checker
入力した英文を新J8の語彙レベルで分類し、レベル別の構成割合と、英単語を頻出順で一覧表示するツールです。単語は原形に戻されて表示されます。SVLやNGSLなど別の語彙セットで調べることも可能です。
新JACET8000を利用した論文
新J8は2016年出版のためか、2018年3月時点ではまだまだ論文は少ない状態です。読んだモノを以下に記載しておきますね。
和訳を付けてボキャビルをするには?
市販の英辞郎とExcelで和訳を紐づける
アルクが提供している英辞郎 on the WEBの内容はCD/DVDで市販されています。この市販の英辞郎とExcelがあれば、任意の英単語一覧に和訳を付けることができます。詳細は以下を参照ください。
ボキャビルはAnkiで
Ankiとは世界中の語学学習者に愛用されている暗記のためのツールです。紙の単語帳やフラッシュカードをツール化したもので、復習期間を適切に管理してくれるため覚えづらい単語のみ頻繁に復習することができます。PC、スマホ、タブレットで使えます。私もAnkiで数百時間ほどボキャビルしています。
任意の英単語一覧に英辞郎の和訳を付けた一覧をAnkiに取り込めば、効率的にボキャビルすることができますよ! Ankiの詳細は以下を参照ください。
語彙の定着には多読を
洋書・マンガ・ラノベ・ドラマ・アニメを楽しむ!
新旧JACET8000の語彙レベル比較
概要
新旧JACET8000では947語が入れ替わっていますが、掲載語の順位にも変更が加えられています。そこで新旧JACET8000の語彙レベルの相関を確認してみました。
なお、旧J8の語彙レベルについては以下記事で調べているため、先にそちらの内容をご覧ください。
解析の対象にする単語
神戸大学石川慎一郎研究室のHPにて旧J8と新J8の英単語リストがそれぞれ公開されているので、そこに掲載されている英単語を利用します。なお、旧J8は品詞違いによる単語の重複が2語あります。また、新J8は information (info)、phone (telephone) のように省略や異なる表記が1つにまとまっていますが、本記事では単語単位で分解するので、例えば information (info) は2つの単語としてカウントします。そのため、最終的には8026語の英単語を評価しています。
種類 | 掲載語数 | 重複除外時 |
---|---|---|
旧JACET8000 (※1) | 8000 | 7998 |
新JACET8000 (※2) | 8000 | 8026 |
※1 | 日本人大学生用英語語彙リスト 旧JACET8000(2003年版) |
※2 | 大学英語教育学会基本語改訂特別委員会(編著)(2016) |
語彙レベルの比較
新旧JACET8000の語彙レベル比較
旧J8の7998語を新J8の語彙レベルで分類した結果です。
さらに、旧J8の語彙レベル別に分布を表すと以下のグラフのようになります。
旧J8 (7998語) のうち7051語は新J8にも掲載されていますが、語彙レベルは大きく変更されてることが分かります。また、グラフには旧J8に付属していた別表plus250の英単語の分布も参考までに掲載しています。旧J8では曜日や月などの英単語はplus250という別表にまとめられていますが、新J8ではこの辺りの単語はLevel 1~2に含めてるように変更があった模様です。
除外された旧JACET8000の947語
新J8では採用されなかった旧J8の947の語彙レベルは上記グラフの通りです。
新JACET8000で追加された英単語の特徴
品詞数の変化
品詞 | 掲載語数 | 増減 | |
---|---|---|---|
旧JACET8000 | 新JACET8000 | ||
省略形 | 1 | 0 | -1 |
序数詞 | 1 | 4 | +3 |
数詞 | 1 | 34 | +33 |
冠詞類 | 4 | 2 | -2 |
感嘆詞 | 8 | 0 | -8 |
助動詞 | 10 | 10 | 0 |
間投詞 | 12 | 13 | +1 |
接続詞 | 25 | 22 | -3 |
代名詞 | 50 | 50 | 0 |
前置詞 | 59 | 56 | -3 |
副詞 | 540 | 537 | -3 |
動詞 | 1083 | 1045 | -38 |
形容詞 | 1708 | 1655 | -53 |
名詞 | 4498 | 4572 | +74 |
新旧JACET8000に掲載されている品詞の数を比較した結果が上記表です。なお、新J8では各単語には代表的な品詞が1種類掲載されていますが、旧J8では「n/a (名詞/形容詞)」のように複数掲載されている場合があります。そのため、新J8と共通の単語は新J8の品詞で、旧J8にのみ掲載かつ複数の品詞がある場合は最初に記載されている品詞で分類しています (n/aと記載されていれば名詞と分類)。
目立った特徴として以下3点に気づきました。
- 新J8では序数詞、数詞が追加された
- 新J8では月や曜日など、旧J8の別表plus250の単語が含まれるようになった
- 新J8では、語尾が-ing、-edの形容詞・副詞が減った
前述していますが、新J8では旧J8の別表plus250の英単語も多く取り入れています。このplus250には数詞や曜日・月などの名詞が多く含まれていたため、新旧JACET8000ではこの辺りの品詞が増えています。
掲載される形容詞・副詞の変化
語尾 | 掲載語数 | 増減 | |
---|---|---|---|
旧JACET8000 | 新JACET8000 | ||
-ing | 268 | 152 | -116 |
-ed | 261 | 178 | -83 |
新J8では形容詞が53語減っていたので特徴を見ていたところ、語尾が-ing/-edで終わる形容詞および副詞の数に違いがあることに気づきました。除外された旧J8の947語のうち-ing/-edで終わる英単語数はそれぞれ141、107である一方、新J8で追加された数は25、24だったため、この形の形容詞・副詞の数は大きく減っていました。
新JACET8000の語彙レベル比較 (SVL 12000)
概要
本サイトでは様々な英文の語彙レベルを26000語レベルで分類して評価しています。26000語はアルクのSVL 12000 (1~12000語レベル) と極限の英単語・終極の英単語 (12001~26000語レベル) を基準としています。新J8に掲載されている英単語もこの26000語の語彙レベルで分類し、比較を行います。
基準となる英単語リスト | 語彙レベル | レビュー記事 |
---|---|---|
SVL 12000 | 1~12000 | レビュー |
極限の英単語 Vol.1~4 | 12001~24000 | レビュー |
終極の英単語 | 24001~26000 |
※ | 英単語の分類は単語の形が完全に一致したか否かで判断します。例えば beat、beats、beatingは別の単語として扱います。ただし、大文字・小文字の差は判断しません。Beatとbeatは同じ単語として扱います。 |
解析の対象にする単語
前述した通り、神戸大学石川慎一郎研究室のHPにて公開されている新J8の英単語リストが対象です。また、比較として旧J8の英単語の情報を掲載することもあります。
種類 | 掲載語数 | 重複除外時 |
---|---|---|
旧JACET8000 | 8000 | 7998 |
新JACET8000 | 8000 | 8026 |
26000語レベルで分類
語彙レベル | 旧JACET8000 (7998語) | 新JACET8000 (8026語) |
---|---|---|
1~8000語レベル | 6468語 | 6386語 |
8001~12000語レベル | 1032語 | 1088語 |
12001~26000語レベル | 252語 | 232語 |
26000語範囲外 | 246語 | 320語 |
新J8の8026語を26000語レベル (SVL 12000+極限の英単語+終極の英単語) で分類した結果です。新J8は旧J8と比較して947語の入れ替わりがあり、また語彙レベルも大きく変更されたものがありましたが、この語彙レベル比較ではそこまで大きな変更はないようです。多少英単語の合致率は低くなっているようですが。
語彙レベルの相関
新J8の各レベルの分布が分かるように色分けを行いました。新J8では旧J8のplus250の基礎英単語を含んでいるため、新Level 1とSVL 1 (1000語レベル) の傾向は似てきていますが、その他は新旧JACET8000でそこまで大きな変更が無いように思います。
比較しやすいように、新旧JACET8000のグラフをアニメーション化した画像を以下に掲載しておきます。
※ | 以下画像が新旧JACET8000で切り替わらない場合は、ChromeやFirefoxなど別のブラウザで表示してみてください。 |
SVL 12000の英単語を新JACET8000の語彙レベルで分類
SVL 12000の英単語を新J8の語彙レベルで分類したものが以下グラフです。
新旧JACET8000で入れ替わった単語の語彙レベル
分類 | 掲載語数 | |
---|---|---|
旧JACET8000 | 新JACET8000 | |
掲載語数 | 8000 | 8000 |
重複除外後 | 7998 | 8026 |
共通 | 7051 | |
独自 | 947 | 975 |
新旧JACET8000で共通の単語は7051語です。つまり、旧J8には947語、新J8には975語が独自の英単語としてカウントできます。これらを26000語レベルで分類した結果が上記グラフです。SVL12000での語彙レベルにおいては、新J8は1000~2000語レベルの簡易な単語と9000語レベル以上の難解な単語の数が増えたという事ですね。
新JACET8000の語彙レベル比較 (NGSL、CEFR-J)
概要
① NGSLと語彙レベルを比較
無料で公開されている英単語リストに、一般英文の9割の英単語をカバーするといわれるNGSL (New General Service List、新基本英単語リスト) があります。2013年に大学の教授らが公開したもので、その他にNAWL (学術向け)、TSL (TOEIC向け)、BSL (ビジネス英語向け) の英単語リストもあります。ここではNGSL、NAWL、TSL、BSLの英単語と新J8がどれほど重複するか確認します。
種類 | 対象 | 語数 |
---|---|---|
NGSL | 一般的英文向け | 2801 (Ver. 1.01) |
TSL | TOEIC英文向け | 1259 (ver.1.1) |
NAWL | 学術的な基礎英文向け | 963 (Ver. 1.0) |
BSL | ビジネス基礎英文向け | 1754 (Ver. 1.01) |
② CEFR-J Wordlistと語彙レベルを比較
前述しましたが、CEFR-J Wordlistは日本の小学校~大学レベルの英単語が掲載されています。新J8も日本の大学生向け英単語として選出されているので、どれほど重複しているかを確認します。
レベル | 目安 | 語数 |
---|---|---|
A1 | 小学校~中学2年程度 | 1165 |
A2 | 中学3年~高校1/2年程度 | 1416 |
B1 | 高校3年~大学受験レベル | 2451 |
B2 | 大学受験~大学教養レベル | 2782 |
新JACET8000とNGSLの重複語数
種類 | 対象 | 新旧JACET8000との重複語数 | 増減 | |
---|---|---|---|---|
旧JACET8000 | 新JACET8000 | |||
NGSL | 一般的英文向け | 2786 | 2794 | 8 |
TSL | TOEIC英文向け | 959 | 1051 | 92 |
NAWL | 学術的な基礎英文向け | 602 | 614 | 12 |
BSL | ビジネス基礎英文向け | 616 | 629 | 13 |
計 | 4963 | 5088 | 125 |
NGSL、TSL、NAWL、BSLの英単語を新J8の語彙レベルで分類した結果が上記グラフです。なお、TSL、NAWL、BSLの英単語には重複が発生しているため、NGSL→TSL→NAWL→BSLの順で組み合わせて英単語の重複を除外しています。
旧J8と比較すると、新J8にはNGSLら4種類の英単語リストに掲載されている英単語が増えており、中でもTOEIC向けの単語が増えていたということが分かりましたね。
新JACET8000とCEFR-Jの重複語数
レベル | 目安 | 新旧JACET8000との重複語数 | 増減 | |
---|---|---|---|---|
旧JACET8000 | 新JACET8000 | |||
A1 | 小学校~中学2年程度 | 962 | 1013 | 51 |
A2 | 中学3年~高校1/2年程度 | 1094 | 1102 | 8 |
B1 | 高校3年~大学受験レベル | 1759 | 1750 | -9 |
B2 | 大学受験~大学教養レベル | 1539 | 1515 | -24 |
計 | 5354 | 5380 | 26 |
上記がCEFR-J Wordlistの単語を新J8の語彙レベル別に分類した結果です。旧J8と比較すると、A1レベル (小学校~中学2年) レベルの英単語の合致数が特に増えていました。CEFR-J Wordlistは日本の学校英語に着目して整理された英単語リストなので、新J8は旧J8よりもより日本の小・中学校英語の実態を反映していると言えそうですね。
英文カバー率比較
概要
カバー率計測対象
SVL12000とJACET8000の掲載語はどれほど英文をカバーするのかを確認してみます。
具体的な題材ですが、馴染みがありそうな以下を利用します。
種類 | 目安語彙数 | 題材 |
---|---|---|
洋書 | 5000以上 | ハリーポッター1巻 (米国版) |
英語試験 | 9000~10000 | TOEIC L&R |
8000~9000 | 英検準1級 | |
1250~2100 | 英検3級 |
旧JACET8000のカバー率も参考までに併記していきますが、詳細は以下記事を参照ください。
英単語解析方法
それぞれの題材で使われている英単語が、それぞれ何千語レベルの語彙なのか確認していきます。英単語がSVL12000/JACET8000の英単語に一致するか否かは、まず英文中で使われてた語形で判定し、使われていなかった場合は原形に戻して再度判定しています。
例えば、beat, beats, beatingの3単語があった場合、
英単語 リスト | 解析対象の単語 | ||
---|---|---|---|
beat | beats | beating | |
SVL12000 | SVL 2の単語 | 存在しないので、beat として判定 →SVL2の単語 | SVL 5の単語 |
旧JACET8000 | Level 1の単語 | 存在しないので、beat として判定 →Level 1の単語 | 存在しないので、beat として判定 →Level 1の単語 |
新JACET8000 | Level 2の単語 | 存在しないので、beat として判定 →Level 2の単語 | Level 4の単語 |
上記のように判定します。一般的な語彙解析の研究では常に原形に戻して語彙数を計測していることが多いですが、英単語リストの掲載語の特徴を反映させるためにこのような手順を踏んでいます。そのため、同じ英文を対象に解析しても英単語リストの掲載語の種類によって解析結果の語数が異なる場合があります。ご留意ください。
また英単語リスト範囲外の単語のうち、人名、地名、商品名、造語などは範囲外の単語のカウント対象から除外しています。手順については以下記事の内容と同等です。
ハリーポッター1巻 (米国版) の英文カバー率
総語数
ハリーポッター1巻 (米国版) で使われている全英単語を分類した結果です。グラフにはSVL12000と新旧JACET8000それぞれの語彙レベルに該当した英単語数と語彙レベル別の割合を掲載しています。なお、グラフ上の値は新J8での計測結果です。また、割合 (縦軸右) の値は差が分かりやすくなるように70%~100%のスケールで表しています。
新J8では旧J8よりも英単語のカバー率が向上していたことが分かりましたが、SVL12000の方がまだカバー率が高い結果となりました。
英単語の種類
英単語の重複を除外し、英単語の種類で計測した結果が上記の通りです。総語数に対するカバー率は新J8の方が旧J8よりも高かったのですが、登場する英単語自体は旧J8の方が僅かに多かったという結果ができました。新J8の方がハリーポッターに頻出する単語を多く掲載していたということですね。
ハリーポッター1巻のもう少し詳しい語彙レベル解析結果は後日記事にする予定ですが、とりあえず26000語レベルで解析した結果は「英文の語彙レベル解析手順について」の記事内に掲載してありますので、気になる方はご確認ください。
TOEIC L&Rの英文カバー率
英単語の種類
TOEIC L&Rで使われる英単語を語彙レベルで分類した結果です。TOEICなどの英語試験は正確に単語の意味を把握していないと正解に結びつかないことが多いため、総語数ではなく英単語の種類を語彙レベルで分類した結果のみ掲載します。なお、TOEIC本試験の問題は公開されていないため、TOEICの公式問題集 (2017年2月発売の公式 TOEIC Listening & Reading 問題集 2) 第1回目の模試の英文を利用しています。
TOEIC L&Rについては、新J8の1000~3000語レベルの単語が特に多く使われていることが分かりました。前述したように、新J8では旧J8よりもTSL (Toeic Service List、TOEIC向け英単語リスト) に掲載されている英単語を多く含んでいるので、TOEIC向けの性質も強くなっているようですね。SVL12000で解析した結果の詳細は以下を参照ください。
英検準1級の英文カバー率
英単語の種類
英検準1級試験 (2017年6月実施) で使われた英単語を語彙レベルで分類した結果です。1000語レベルでこそ旧J8よりもカバー率が低くなりましたが、全体的には新J8の方が英検準1級で使われた英単語をカバーしていることが分かります。新J8の8000語を把握していれば、英検準1級の合格も狙えそうなレベルではないかと思います。SVL12000で解析した結果の詳細は以下を参照ください。
英検3級の英文カバー率
英単語の種類
英検3級試験 (2017年6月実施) で使われた英単語を語彙レベルで分類した結果です。英検3級は中学卒業レベルと言われている試験で、語彙は1250~2100程度が目安です。この結果を見るに、新J8は旧J8の別表plus250の基本単語を取り込んでいるため、英検3級出題レベルの英単語のカバー率もSVL12000と遜色ないレベルまで改善できているようです。英検3級の語彙レベルに関する内容は以下記事も参照ください。
まとめ
旧JACET8000と比較すると大きく改善されている
ここまで新JACET8000の語彙レベルや英文カバー率について調べてきました。旧J8と比較すると、NGSLやCEFR-J Wordlistなどにも掲載されている基本的な英単語の採用率が上がっており、英文カバー率も明らかに向上していました。SVL 12000と比較しても、TOEICや英検などの試験で使われる2000~3000語レベルまでの基本的な英単語をよくカバーしていると言えます。ただし、ハリーポッター1巻の英文カバー率を見るに洋書向きとは言えなさそうですね。
新JACET8000の利用方法は?
旧J8よりも改善されていると言えますが、掲載語数が8000止まりである点は旧J8と同様なので、TOEICハイスコアや英検1級合格を目指すには物足りません。また、音声や日本語訳があるわけではないので、英語学習者が一からボキャビルする題材としても向いているわけではありません。そもそも英語学習者向けというより、研究者向けの用途として考えられているからかもしれません。
もし英語学習者が利用するのであれば、新J8の英単語リスト自体は無料公開されているので、自分の学習進度に合わせて暗記漏れがある英単語を探すのに向いているかと思います。特に語彙が5000語前後の方は、次のボキャビルを始める前にいったん新J8の5000語レベルまでの英単語に暗記漏れが無いか確認してみてはいかがでしょうか。
About me
管理人 矢月
(@yazuki_tw)
英語の娯楽作品に関する情報をまとめています。洋書に加え、英語のマンガ・アニメ・ライトノベル・ドラマ・ゲームでの多読多聴も楽しいですよ……!
英検、TOEIC、英単語集の語彙レベルや Anki についても調べて公開中。