質問掲示板 BBS

リーダビリティの算出式について 2017-09-15 10:44 2017-09-17 05:15 2
「日本語文章難易度判定システム」のテキスト解析結果の語彙表について 2017-07-28 09:19 2017-08-14 08:18 3
研究発表に使用してもよろしいでしょうか? 2016-05-04 20:42 2016-05-29 21:46 1
文字数について 2016-03-14 10:14 2016-03-30 22:25 1
検索のフォーマットについて 2016-03-01 21:29 2016-03-30 22:24 1
語彙レベル情報を持っていない語の数につきまして 2016-02-22 12:21 2016-03-03 08:33 2
学習者文章評価について 2014-10-16 13:24 2014-10-20 16:39 1
語彙レベルの判定 2014-09-10 22:44 2014-09-13 18:33 2
解析結果の出力 2013-11-27 23:57 2013-12-06 18:14 3
感激と個人的希望など。 2013-11-24 00:47 2013-11-26 14:52 1

リーダビリティの算出式について

はじめての投稿失礼します。
大変興味深い研究をありがとうございます。
jreadabilityの算出式について、
X={ 平 均 文 長 *-0.056}+{ 漢 語 率 *-0.126}+{ 和 語 率*-0.042}+{動詞率*-0.145}+{助詞率*-0.044}+11.724
となっており、李先生の論文(「日本語教育のための文章難易度に関する研究」)8ページにも下のような計算例が掲載されているのですが、その計算が合わないです。
{8.56×-0.056}+{0.12×-0.126}+{0.83×-0.042}+ {0.05×-0.145}+0.22×-0.044}+11.724=6.08
(僕の計算だと11.17になりました)
お忙しい中恐縮ですが、リーダビリティの算出の方法について誤りがあれば教えていただきたいです。
よろしくお願いします。

khiroyuki (2017-09-15 10:44)  


お世話になります。ご指摘ありがとうございました。
論文の数値に誤りがありました。申し訳ありません。

計算式そのものは、ウェブサイトの「システムの仕様」に掲載してある計算式ままです。値の数値の誤りです。

サンプルテキストとしては、
************
音楽がすきですから、よく CD を聞きます。日本がすきですから、日本語を勉強します。安かったですから、買いました。ディズニーランドは楽しかったです。教室は静かでした。わたしはラーメンがすきです。わたしはたばこがきらいです。ワンさんは日本語が上手です。わたしは料理が下手です。
************
を解析した場合、正しい計算値は
{8.67×-0.056}+{8.97×-0.126}+{62.82×-0.042}+{2.56×-0.145}+{21.8×-0.044}+11.724=6.13848

です。

計算のもとは、

総形態素数 78
平均語数 8.67
漢語数 7
和語数 49
動詞数 2
助詞数 17

平均文長 8.67
漢語率% 8.974358974 (漢語数/総形態素数*100)
和語率% 62.82051282(和語数/総形態素数*100)
動詞率% 2.564102564(動詞数/総形態素数*100)
助詞率% 21.79487179(助詞数/総形態素数*100)

です。

李在鎬 (2017-09-16 07:16)  


ありがとうございます!

khiroyuki (2017-09-17 05:15)  


「日本語文章難易度判定システム」のテキスト解析結果の語彙表について

すみません、私は日本語学習者です。1つ質問がございます。
「日本語文章難易度判定システム」のテキスト解析結果の「語彙リスト」の語彙表の构成は、「日本語教育語彙表」(http://jisho.jpn.org)の1万7千920項目ですか?
申し訳ありません。
どうぞよろしくお願いいたします。

ハンウ (2017-07-28 09:19)  


「語彙リスト」は入力されたテキストをUnidicとMeCabというプログラムを使って分割した結果です。

なお「語彙リスト」で「日本語教育語彙表」に含まれる語は青色で表示されており、クリックすると辞書引きができるようになっています。

お答えになりましたでしょうか。よろしくお願いいたします。

長谷部 (2017-07-28 13:26)  


ハンウさん

こんにちは。プロジェクトメンバーの李在鎬です。
>「日本語文章難易度判定システム」のテキスト解析結果の「語彙リスト」の
> 語彙表の构成は、「日本語教育語彙表」(http://jisho.jpn.org)の1万7千920
> 項目ですか?
そうです。Mecabで解析した結果を「日本語教育語彙表」(http://jisho.jpn.org)と照合していますので、「日本語教育語彙表」で構成されています。

李在鎬 (2017-08-07 15:53)  


ありがとうございました。

ハンウ (2017-08-14 08:18)  


研究発表に使用してもよろしいでしょうか?

はじめまして。
名古屋大学大学院医学部整形外科の竹上靖彦ともうします。
私は、現在「患者さんが読みやすい医療機関のつくるホームページ」について現在調査中です。
医療機関のつくる患者さん向けのページは難しく、患者さんが利用しにくいのではないかと考えてこのような調査を行っております。
つきましては、学会発表でこのページをもちいて研究発表を行ってもよろしいでしょうか?
お返事お待ちしております。

竹上靖彦 (2016-05-04 20:42)  


ご質問ありがとうごさいます。
もちろん研究のためにご使用いただいて問題ございません。
利用規約(http://jreadability.net/terms_of_use)をご確認のうえ、
論文や発表資料に本システムを利用した旨、明記いただければ幸いです。
今後ともよろしくお願いいたします。

長谷部 (2016-05-29 21:46)  


文字数について

すばらしいツールを公開していただいて日本語教育にも研究にも大変役立つものです。
さて、入力可能なテキストの文字数ですが、20000字限度となっていますね。それを超えた場合、どうすればよろしいでしょうか。そのテキストを分割し判定してから、合計したリーダビリティ値を平均値にしてよろしいでしょうか。
よろしくご解答をお願いいたします。

王華偉 (2016-03-14 10:14)  


管理者です.
2万字を超えているということですが,1000字程度に分割して測定してください.

平均値で処理して問題ないと思います.

李在鎬 (2016-03-30 22:25)  


検索のフォーマットについて

ご担当者様

素晴らしい研究成果を公開していただいて、ありがとうございます。
アンケートを作るために、質問項目の文章難易度を一致させるために、利用させていただいています。
一つ単純な質問ですが、検索のフォーマットについて、句読点をいれるかどうか、レベル判定に影響を及ぼすでしょうか。

実際検索の例:
会社は破綻の瀬戸際に来た。        中級前半
会社は破綻の瀬戸際に来た(句点なし)   中級後半

これはどう解釈すれば良いでしょう。そしてどのレベルにより適切でしょうか。
どうぞよろしくお願い致します。

李 ウェンシン (2016-03-01 21:29)  


管理者です.
こちらのシステムでは,ある程度の字数(1000字前後)があるテキスト(文章)を解析することを想定しています.一文単位で結果がでたとしてもそれは信用すべき情報ではないと考えてください.

李在鎬 (2016-03-30 22:24)  


語彙レベル情報を持っていない語の数につきまして

素晴らしい研究成果を公開していただき、本当にありがとうございます。
成人ビジネスマン向けの新聞読解教材を作成する際に、活用させて頂いています。

2点、質問です。

1、文章の処理を行うと、語彙レベル構成の部分で
「語彙レベル情報を持っている形態素だけを集計」と出てきますが、
集計されなかった(語彙レベル情報がデータベースになかった)語とその数も、
どこかで確認出来ますでしょうか。

2、語レベル、品詞の分布及び難易度の計算において、
使われているのは「総数」でしょうか。それとも「異なり(語or形態素)数」でしょうか。

1、に関しましては、
特に新聞記事の文章の場合、母語話者が感じる「難しさ」が、
時事用語、人名、地名等固有名詞やあまり一般的ではない慣用句や専門用語等(形態素による分解に合わない言語要素)に
かなり影響されているような印象を持っておりまして、
データからはじかれた語も確認できれば...と思った次第です。

サイト内どちらかの文献ですでにご紹介いただいていましたら
申し訳ありません。

どうぞよろしくお願いいたします。

小高葉子 (2016-02-22 12:21)  


小高様

コメントとご質問をありがとうございました。お返事が遅くなり失礼しました。

1)最初に表示される[テキスト情報 | 語彙レベル構成]では語彙レベル情報を持っている形態素だけを集計していますが、上のタブの中から[語彙リスト]を選んで、[語彙レベルで並べ替え]のボタンを押していただくと、画面上のリストの下の方で語彙レベルを持たない語のデータを確認できます。

2)[テキスト情報]で示される各種分布でも、テキスト全体の難易度の計算でも、使われているのは「総数(述べ語数)」です。

ご不明な点がありましたらまたお知らせください。

長谷部 (2016-02-26 18:27)  


長谷部様

ご返信ありがとうございました。
お礼が遅くなり、申し訳ありません。
1)のやり方でやってみます。

今後ともたくさん使わせていただきます。
ありがとうございました。

小高葉子 (2016-03-03 08:33)  


学習者文章評価について

非常に良いシステムを公開いただき、本当にありがとうございます。
私は日本語教育に興味を持っている中国の留学生ですけど、このシステムの学習者文章評価とはどういう意味ですか?母語話者文章評価との違いは何でしょうか?
宜しくお願い致します。

李テイ (2014-10-16 13:24)  


李さま

お世話になります。管理者の李在鎬です。
学習者文章評価の場合,評価のための計算式が異なります。計算式は,

********************************************
定数と係数の一覧(学習者文章評価)
定数×-3.391+平均文長LOG変換値×2.701+内容語率×13.81+中級後半語彙使用率×4.298+名詞率×-11.868+上級前半語彙使用率×14.749
********************************************
です。

こちらの計算式は,まだ不完全なものですので,参考情報としてお考えください。

李在鎬

李在鎬 (2014-10-20 16:39)  


語彙レベルの判定

教育、研究の双方で、このシステムにはいつもいつもお世話になっております。

1つうかがいたいのですが、「語彙レベル」の判定基準は何に依るのでしょうか。
リーディング・チュウ太の結果とは異なるので、旧日本語能力試験の基準そのままではないように思いますが、何かと組み合わせているのでしょうか。

また、「語彙レベル」で「上級後半」は設定されていないのでしょうか。

どちらかの文献に載っていることでしたら申し訳ありません。
よろしくお願いいたします。

和氣圭子 (2014-09-10 22:44)  


和氣圭子さま


お世話になります。李です。

1.
語彙レベルは,http://jisho.jpn.org/ の成果物を利用しています。
プロジェクト内で独自に作成した語彙表です。
詳しい情報は,
http://revije.ff.uni-lj.si/ala/article/view/174/149
をご覧ください。

2.
上級後半もありますが,使用頻度が低い語彙です。
例えば,

値する
厚紙
当て字
跡継ぎ
跡取り
暴く
甘んずる
編み出す

などが上級後半の語彙です。

李在鎬 (2014-09-11 22:52)  


李さま

わかりました。
参考文献等、ご親切にありがとうございました。

 和氣

和氣圭子 (2014-09-13 18:33)  


解析結果の出力

素晴らしいツールを公開して頂き、ありがとうございます。
私は、プログラミングの苦手な学生にコーパス言語学を教えているため、非常に重宝しております。

そこで、1つリクエストがございます。
各種の解析結果、特に、分かち書きの結果をcsvファイルか何かに出力するボタンがあると、より便利だと思います。
勿論、解析結果をコピー&ペーストすればよいのですが、行頭の数字とタブを手作業で削除する必要がありますし、コピペをする際にミスが起きる可能性もあります。

わがままなユーザーの意見ではございますが、今後バージョンアップなどをする際に、ご検討頂ければ幸いに存じます。

小林雄一郎 (2013-11-27 23:57)  


小林様


お世話になります。李です。
コメントいただいた保存機能、確かにあると良いですね。
検討致しますので、よろしくお願い致します。

李在鎬 (2013-12-02 14:36)  


李さま

早速ご対応いただき、まことにありがとうございました。
授業中に[結果保存]のボタンがあることに気づき、感激いたしました。
今後ともどうぞよろしくお願い申し上げます。

小林

小林雄一郎 (2013-12-04 17:14)  


小林様

ご丁寧にありがとうございます。
また、お気づきのことなどありましたら、
ご連絡ください。
よろしくお願い致します。

(2013-12-06 18:14)  


感激と個人的希望など。

 非常に使いやすく有用なシステムをありがとうございます。

 全体的なレベル判定も「初級後半」などの大まかな区分のほかに数的評価もありますし、1文の語彙数、語彙の難易度割合の判定などどれもすばらしく、今後どんどん使わせていただこうと思っています。

 ただひとつだけ希望を言いますと、査定した文章自体を語彙難易度別に色分けすることができれば、うっかりむずかしすぎる語彙を書いてしまう失敗もなくなるのでいいのですが。
 文法・文型抽出は語彙抽出に比べてシステム上難しそうですが、本当にほしいのはそこですね。とうのも、私が教えているのは主に初級なのですが、後半になってくるとつい「まだ教えていないけれど日常的には非常に頻出し、また難しく感じない文型」というのをうっかり使いそうになるんです(笑)。そしてそれも語彙の場合気がつきやすいのですが、文型だと意外と見落としがちで・・・。
 
 また、このシステムを生徒たちも使うことができるのであれば(中級以上)、自分で作成した作文の構成を見ることも可能かと思います。
 
 いずれにせよ、読解文章は主に自作している身としましては(既存の書籍を教科書として使っていないのですぐに使える読解文章がなく)、非常にありがたいシステムです。

 開発者の皆様に心からお礼申し上げます。

橋本実子 (2013-11-24 00:47)  


橋本様

お世話になります。
コメントありがとうございました。
文法・文型抽出、確かにあると便利そうですが、ご承知のとおり
現状では難しいですね。

http://lias.intersc.tsukuba.ac.jp/

である程度のところまでは達成できますので、試してみてください。
語彙の色分けのほうは検討させていただきます。
ありがとうございました。

李在鎬 (2013-11-26 14:52)