日本語教育語彙表のダウンロードについて | 2020-11-07 09:30 | 2020-11-24 08:20 | 2 | |
またHagoromoがダウンしています | 2020-09-06 00:39 | 2020-09-06 00:39 | 0 | |
「Hagoromo」はダウンしているみたいです。 | 2020-04-16 14:04 | 2020-04-18 01:58 | 1 | |
語彙特性の重要度について | 2019-11-20 05:43 | 2019-12-31 00:56 | 2 | |
品詞構成の「その他」について | 2019-05-03 08:38 | 2019-05-07 02:40 | 1 | |
リーダビリティスコアの難易度について | 2019-02-03 04:17 | 2019-02-03 23:53 | 1 | |
API | 2018-07-16 12:58 | 2018-07-17 00:22 | 2 | |
Reading Grade Level | 2018-05-23 04:58 | 2018-05-23 22:19 | 2 | |
jWriterの難解語使用率とは? | 2017-10-22 08:47 | 2017-10-24 11:38 | 2 | |
リーダビリティの算出式について | 2017-09-15 10:44 | 2017-09-17 05:15 | 2 | |
「日本語文章難易度判定システム」のテキスト解析結果の語彙表について | 2017-07-28 09:19 | 2017-08-14 08:18 | 3 | |
研究発表に使用してもよろしいでしょうか? | 2016-05-04 20:42 | 2016-05-29 21:46 | 1 | |
文字数について | 2016-03-14 10:14 | 2016-03-30 22:25 | 1 | |
検索のフォーマットについて | 2016-03-01 21:29 | 2016-03-30 22:24 | 1 | |
語彙レベル情報を持っていない語の数につきまして | 2016-02-22 12:21 | 2016-03-03 08:33 | 2 | |
学習者文章評価について | 2014-10-16 13:24 | 2014-10-20 16:39 | 1 | |
語彙レベルの判定 | 2014-09-10 22:44 | 2014-09-13 18:33 | 2 | |
解析結果の出力 | 2013-11-27 23:57 | 2013-12-06 18:14 | 3 | |
感激と個人的希望など。 | 2013-11-24 00:47 | 2013-11-26 14:52 | 1 |
こちらの表を研究に使用したいと考えたのですが、ダウンロードページとして指定されている、http://jhlee.sakura.ne.jp/JEV.html が使用できなくなっていました。そこで、復旧等の状況について確認したく思い、質問を投稿させて頂きました。
郷原聖士 (2020-11-07 09:30)
郷原聖士様
お世話になります。李です。 http://jhlee.sakura.ne.jp/JEV.html ,アクセスできるようになりました。 ご確認ください。 よろしくお願いいたします。 李在鎬 |
李在鎬 (2020-11-20 08:14)
李在鎬様
お世話になります、郷原聖士です。 先程確認した所、無事アクセスとダウンロードが出来ました。 お忙しい中、貴重なお時間をとっていただいたこと、 心より感謝申し上げます。 郷原 聖士 |
郷原 聖士 (2020-11-24 08:17)
先月末からずっと使えない状態です。
もし意図的な閉鎖でなければ、復旧をお願いします。
毎日のように使わせてもらっています。
素晴らしいシステムをありがとうございます。
宇野幸一 (2020-09-06 00:39)
「Hagoromo」はアクセスできない状態になっているみたいですが、サーバーがダウンしているのでしょうか。
党豪傑 (2020-04-16 14:04)
ご報告ありがとうございます。
担当者に連絡してみます。しばしお待ちください。 |
李在鎬 (2020-04-18 01:58)
素晴らしいシステムを作ってくださいまして、ありがとうございます。
重要度のところについて少しご確認したいですが、白い星と黒い星がわからなくて、「★★★★★」と「☆★★★★」と、どちらが重要度が高いですか?また、重要度の判断基準を教えていただけますか?
王曄雯 (2019-11-20 05:43)
王さん
黑の星が多ければ多いほど、重要という解釈です。 重要度の判断基準はBCCWJ(現代日本語書き言葉均衡コーパス)の使用頻度に基づいています。使用頻度が高ければ高いほど、重要という判定をしています。 李 |
李 (2019-12-16 07:37)
李さん
すみません。 写真、重要度:☆☆☆☆★ 新しい、重要度:☆☆☆☆★ 重要度低、ホントに? 花粉、重要度:☆★★★★(「日本語教育語彙表」システム) 花粉、重要度:☆☆☆☆★(李さんの論文、Sunakawa, Yuriko, Lee, Jae-ho, and Takahara, Mari (2012) The Construction of a Database to Support the Compilation of Japanese Learners Dictionaries, Acta Linguistica Asiatica 2(2), pp.97-115) 話す、重要度:☆☆☆☆★(「日本語教育語彙表」システム) 話す、重要度:★★★★☆(砂川有里子さんの研究成果報告書、汎用的日本語学習辞書開発データベース構築とその基盤形成のための研究) 「日本語教育語彙表」システムの重要度は ☆の数が多いほど、よく使われると思います。 「★は重要」は論文と報告の中の観点です 確認してください。 ありがとうございます。 |
ハンウ (2019-12-30 23:55)
品詞構成の「その他」には何が含まれるでしょうか?
ちょう (2019-05-03 08:38)
UNIDICの品詞で「普通名詞, 助詞, 助動詞, 形状詞, 動詞, 固有名詞」を除くものです。UNIDICの品詞はこちらをご覧ください。https://hayashibe.jp/tr/mecab/dictionary/unidic/pos
李 |
李在鎬 (2019-05-07 02:40)
素晴らしいシステムを開発してくださり、ありがとうございます。
お尋ねしたいのは、「よくある質問」にある、難易度のレベルわけのレベル感についてです。
このシステムは「文章の難易度」を数値で表してくれるものであると把握しておりますが、レべル感に記載されている文章を読む限り、この程度の数値の文章を理解できる人はこういうことができる人である」と捉えられると思います。
レベル感に対して、わたくしが何か勘違いしているかもしれませんが、レベル感とは、「この程度の数値の文章は、このぐらいの難易度の文章である」ということを文章で教えてくれるものではないのでしょうか?
kkc (2019-02-03 04:17)
開発者の李です。
レベル感は、ご指摘のとおりです。このシステムが上級後半と言っているのは、「高度に専門的な文章に関しても不自由なく、理解できる。日本語のあらゆるテキストに対して困難を感じない人」という意味です。また、システムの趣旨もおっしゃるとおり、文章の難易度を推定するものです。文章の難易度といっても、結局、人が読むわけですので、読み手のレベルをcandoとして記述しているわけです。 |
李在鎬 (2019-02-03 23:53)
Python辺りから呼べるような関数はありませんでしょうか?
開発者 (2018-07-16 12:58)
ご質問ありがとうございます。現在は公開APIを用意していません。外部プログラムとの連携については今後検討したいと思います。よろしくお願いします。 |
長谷部 (2018-07-16 22:16)
返信ありがとうございます。状況について把握しました。 |
開発者 (2018-07-17 00:22)
I was wondering if there was a list I could have of the equivalent reading grade level for native readers, eg. 2.1 = 6th grade etc
Zoe Alexander (2018-05-23 04:58)
Thanks for your suggestion/question. We don't have a conversion chart of that kind, but we'll think about it. |
Yoichiro Hasebe (2018-05-23 11:30)
Please try using "http://readability.nagaokaut.ac.jp/readability" |
Lee jaeho (2018-05-23 22:19)
いつもこのシステムを使わせていただいております。ありがとうございます。標記について質問させていただきます。jWriterの難解語とは何を指すのですか。また、難解語使用率はどんな計算式で割り出すのでしょうか?
お答えいただければ幸いです。
森川結花 (2017-10-22 08:47)
森川様
ご質問ありがとうございます。jWriterの難解語は,「日本語教育語彙表」の「中級後半レベル」の語彙の使用率のことです。 今度の日本語教育学会のポスター発表で,アルゴリズムの詳細を発表する予定ですので,お時間あるようでしたら,いらしてください。 よろしくお願いします。 李 |
李在鎬 (2017-10-24 04:26)
李先生
ご回答ありがとうございました。なるほどです。学習者の書いた作文で個々人の数値の変化を見ているととても面白いなと思っております。ご研究の成果を期待しております。これからもよろしくお願いします。 |
森川結花 (2017-10-24 11:38)
はじめての投稿失礼します。
大変興味深い研究をありがとうございます。
jreadabilityの算出式について、
X={ 平 均 文 長 *-0.056}+{ 漢 語 率 *-0.126}+{ 和 語 率*-0.042}+{動詞率*-0.145}+{助詞率*-0.044}+11.724
となっており、李先生の論文(「日本語教育のための文章難易度に関する研究」)8ページにも下のような計算例が掲載されているのですが、その計算が合わないです。
{8.56×-0.056}+{0.12×-0.126}+{0.83×-0.042}+ {0.05×-0.145}+0.22×-0.044}+11.724=6.08
(僕の計算だと11.17になりました)
お忙しい中恐縮ですが、リーダビリティの算出の方法について誤りがあれば教えていただきたいです。
よろしくお願いします。
khiroyuki (2017-09-15 10:44)
お世話になります。ご指摘ありがとうございました。
論文の数値に誤りがありました。申し訳ありません。 計算式そのものは、ウェブサイトの「システムの仕様」に掲載してある計算式ままです。値の数値の誤りです。 サンプルテキストとしては、 ************ 音楽がすきですから、よく CD を聞きます。日本がすきですから、日本語を勉強します。安かったですから、買いました。ディズニーランドは楽しかったです。教室は静かでした。わたしはラーメンがすきです。わたしはたばこがきらいです。ワンさんは日本語が上手です。わたしは料理が下手です。 ************ を解析した場合、正しい計算値は {8.67×-0.056}+{8.97×-0.126}+{62.82×-0.042}+{2.56×-0.145}+{21.8×-0.044}+11.724=6.13848 です。 計算のもとは、 総形態素数 78 平均語数 8.67 漢語数 7 和語数 49 動詞数 2 助詞数 17 平均文長 8.67 漢語率% 8.974358974 (漢語数/総形態素数*100) 和語率% 62.82051282(和語数/総形態素数*100) 動詞率% 2.564102564(動詞数/総形態素数*100) 助詞率% 21.79487179(助詞数/総形態素数*100) です。 |
李在鎬 (2017-09-16 07:16)
ありがとうございます! |
khiroyuki (2017-09-17 05:15)
すみません、私は日本語学習者です。1つ質問がございます。
「日本語文章難易度判定システム」のテキスト解析結果の「語彙リスト」の語彙表の构成は、「日本語教育語彙表」(http://jisho.jpn.org)の1万7千920項目ですか?
申し訳ありません。
どうぞよろしくお願いいたします。
ハンウ (2017-07-28 09:19)
「語彙リスト」は入力されたテキストをUnidicとMeCabというプログラムを使って分割した結果です。
なお「語彙リスト」で「日本語教育語彙表」に含まれる語は青色で表示されており、クリックすると辞書引きができるようになっています。 お答えになりましたでしょうか。よろしくお願いいたします。 |
長谷部 (2017-07-28 13:26)
ハンウさん
こんにちは。プロジェクトメンバーの李在鎬です。 >「日本語文章難易度判定システム」のテキスト解析結果の「語彙リスト」の > 語彙表の构成は、「日本語教育語彙表」(http://jisho.jpn.org)の1万7千920 > 項目ですか? そうです。Mecabで解析した結果を「日本語教育語彙表」(http://jisho.jpn.org)と照合していますので、「日本語教育語彙表」で構成されています。 李 |
李在鎬 (2017-08-07 15:53)
ありがとうございました。 |
ハンウ (2017-08-14 08:18)
はじめまして。
名古屋大学大学院医学部整形外科の竹上靖彦ともうします。
私は、現在「患者さんが読みやすい医療機関のつくるホームページ」について現在調査中です。
医療機関のつくる患者さん向けのページは難しく、患者さんが利用しにくいのではないかと考えてこのような調査を行っております。
つきましては、学会発表でこのページをもちいて研究発表を行ってもよろしいでしょうか?
お返事お待ちしております。
竹上靖彦 (2016-05-04 20:42)
ご質問ありがとうごさいます。
もちろん研究のためにご使用いただいて問題ございません。 利用規約(http://jreadability.net/terms_of_use)をご確認のうえ、 論文や発表資料に本システムを利用した旨、明記いただければ幸いです。 今後ともよろしくお願いいたします。 |
長谷部 (2016-05-29 21:46)
すばらしいツールを公開していただいて日本語教育にも研究にも大変役立つものです。
さて、入力可能なテキストの文字数ですが、20000字限度となっていますね。それを超えた場合、どうすればよろしいでしょうか。そのテキストを分割し判定してから、合計したリーダビリティ値を平均値にしてよろしいでしょうか。
よろしくご解答をお願いいたします。
王華偉 (2016-03-14 10:14)
管理者です.
2万字を超えているということですが,1000字程度に分割して測定してください. 平均値で処理して問題ないと思います. |
李在鎬 (2016-03-30 22:25)
ご担当者様
素晴らしい研究成果を公開していただいて、ありがとうございます。
アンケートを作るために、質問項目の文章難易度を一致させるために、利用させていただいています。
一つ単純な質問ですが、検索のフォーマットについて、句読点をいれるかどうか、レベル判定に影響を及ぼすでしょうか。
実際検索の例:
会社は破綻の瀬戸際に来た。 中級前半
会社は破綻の瀬戸際に来た(句点なし) 中級後半
これはどう解釈すれば良いでしょう。そしてどのレベルにより適切でしょうか。
どうぞよろしくお願い致します。
李 ウェンシン (2016-03-01 21:29)
管理者です.
こちらのシステムでは,ある程度の字数(1000字前後)があるテキスト(文章)を解析することを想定しています.一文単位で結果がでたとしてもそれは信用すべき情報ではないと考えてください. |
李在鎬 (2016-03-30 22:24)
素晴らしい研究成果を公開していただき、本当にありがとうございます。
成人ビジネスマン向けの新聞読解教材を作成する際に、活用させて頂いています。
2点、質問です。
1、文章の処理を行うと、語彙レベル構成の部分で
「語彙レベル情報を持っている形態素だけを集計」と出てきますが、
集計されなかった(語彙レベル情報がデータベースになかった)語とその数も、
どこかで確認出来ますでしょうか。
2、語レベル、品詞の分布及び難易度の計算において、
使われているのは「総数」でしょうか。それとも「異なり(語or形態素)数」でしょうか。
1、に関しましては、
特に新聞記事の文章の場合、母語話者が感じる「難しさ」が、
時事用語、人名、地名等固有名詞やあまり一般的ではない慣用句や専門用語等(形態素による分解に合わない言語要素)に
かなり影響されているような印象を持っておりまして、
データからはじかれた語も確認できれば...と思った次第です。
サイト内どちらかの文献ですでにご紹介いただいていましたら
申し訳ありません。
どうぞよろしくお願いいたします。
小高葉子 (2016-02-22 12:21)
小高様
コメントとご質問をありがとうございました。お返事が遅くなり失礼しました。 1)最初に表示される[テキスト情報 | 語彙レベル構成]では語彙レベル情報を持っている形態素だけを集計していますが、上のタブの中から[語彙リスト]を選んで、[語彙レベルで並べ替え]のボタンを押していただくと、画面上のリストの下の方で語彙レベルを持たない語のデータを確認できます。 2)[テキスト情報]で示される各種分布でも、テキスト全体の難易度の計算でも、使われているのは「総数(述べ語数)」です。 ご不明な点がありましたらまたお知らせください。 |
長谷部 (2016-02-26 18:27)
長谷部様
ご返信ありがとうございました。 お礼が遅くなり、申し訳ありません。 1)のやり方でやってみます。 今後ともたくさん使わせていただきます。 ありがとうございました。 |
小高葉子 (2016-03-03 08:33)
非常に良いシステムを公開いただき、本当にありがとうございます。
私は日本語教育に興味を持っている中国の留学生ですけど、このシステムの学習者文章評価とはどういう意味ですか?母語話者文章評価との違いは何でしょうか?
宜しくお願い致します。
李テイ (2014-10-16 13:24)
李さま
お世話になります。管理者の李在鎬です。 学習者文章評価の場合,評価のための計算式が異なります。計算式は, ******************************************** 定数と係数の一覧(学習者文章評価) 定数×-3.391+平均文長LOG変換値×2.701+内容語率×13.81+中級後半語彙使用率×4.298+名詞率×-11.868+上級前半語彙使用率×14.749 ******************************************** です。 こちらの計算式は,まだ不完全なものですので,参考情報としてお考えください。 李在鎬 |
李在鎬 (2014-10-20 16:39)
教育、研究の双方で、このシステムにはいつもいつもお世話になっております。
1つうかがいたいのですが、「語彙レベル」の判定基準は何に依るのでしょうか。
リーディング・チュウ太の結果とは異なるので、旧日本語能力試験の基準そのままではないように思いますが、何かと組み合わせているのでしょうか。
また、「語彙レベル」で「上級後半」は設定されていないのでしょうか。
どちらかの文献に載っていることでしたら申し訳ありません。
よろしくお願いいたします。
和氣圭子 (2014-09-10 22:44)
和氣圭子さま
お世話になります。李です。 1. 語彙レベルは,http://jisho.jpn.org/ の成果物を利用しています。 プロジェクト内で独自に作成した語彙表です。 詳しい情報は, http://revije.ff.uni-lj.si/ala/article/view/174/149 をご覧ください。 2. 上級後半もありますが,使用頻度が低い語彙です。 例えば, 値する 厚紙 当て字 跡継ぎ 跡取り 暴く 甘んずる 編み出す などが上級後半の語彙です。 李 |
李在鎬 (2014-09-11 22:52)
李さま
わかりました。 参考文献等、ご親切にありがとうございました。 和氣 |
和氣圭子 (2014-09-13 18:33)
素晴らしいツールを公開して頂き、ありがとうございます。
私は、プログラミングの苦手な学生にコーパス言語学を教えているため、非常に重宝しております。
そこで、1つリクエストがございます。
各種の解析結果、特に、分かち書きの結果をcsvファイルか何かに出力するボタンがあると、より便利だと思います。
勿論、解析結果をコピー&ペーストすればよいのですが、行頭の数字とタブを手作業で削除する必要がありますし、コピペをする際にミスが起きる可能性もあります。
わがままなユーザーの意見ではございますが、今後バージョンアップなどをする際に、ご検討頂ければ幸いに存じます。
小林雄一郎 (2013-11-27 23:57)
小林様
お世話になります。李です。 コメントいただいた保存機能、確かにあると良いですね。 検討致しますので、よろしくお願い致します。 李 |
李在鎬 (2013-12-02 14:36)
李さま
早速ご対応いただき、まことにありがとうございました。 授業中に[結果保存]のボタンがあることに気づき、感激いたしました。 今後ともどうぞよろしくお願い申し上げます。 小林 |
小林雄一郎 (2013-12-04 17:14)
小林様
ご丁寧にありがとうございます。 また、お気づきのことなどありましたら、 ご連絡ください。 よろしくお願い致します。 李 |
李 (2013-12-06 18:14)
非常に使いやすく有用なシステムをありがとうございます。
全体的なレベル判定も「初級後半」などの大まかな区分のほかに数的評価もありますし、1文の語彙数、語彙の難易度割合の判定などどれもすばらしく、今後どんどん使わせていただこうと思っています。
ただひとつだけ希望を言いますと、査定した文章自体を語彙難易度別に色分けすることができれば、うっかりむずかしすぎる語彙を書いてしまう失敗もなくなるのでいいのですが。
文法・文型抽出は語彙抽出に比べてシステム上難しそうですが、本当にほしいのはそこですね。とうのも、私が教えているのは主に初級なのですが、後半になってくるとつい「まだ教えていないけれど日常的には非常に頻出し、また難しく感じない文型」というのをうっかり使いそうになるんです(笑)。そしてそれも語彙の場合気がつきやすいのですが、文型だと意外と見落としがちで・・・。
また、このシステムを生徒たちも使うことができるのであれば(中級以上)、自分で作成した作文の構成を見ることも可能かと思います。
いずれにせよ、読解文章は主に自作している身としましては(既存の書籍を教科書として使っていないのですぐに使える読解文章がなく)、非常にありがたいシステムです。
開発者の皆様に心からお礼申し上げます。
橋本実子 (2013-11-24 00:47)
橋本様
お世話になります。 コメントありがとうございました。 文法・文型抽出、確かにあると便利そうですが、ご承知のとおり 現状では難しいですね。 http://lias.intersc.tsukuba.ac.jp/ である程度のところまでは達成できますので、試してみてください。 語彙の色分けのほうは検討させていただきます。 ありがとうございました。 李 |
李在鎬 (2013-11-26 14:52)