日本語を母語とする児童の作文を入れてみました | 2022-11-30 01:02 | 2022-11-30 13:58 | 1 | |
「はごろも」の英訳につきまして | 2022-07-07 11:28 | 2022-08-11 08:09 | 2 | |
非公開データセットについての質問 | 2022-07-02 18:41 | 2022-07-14 23:05 | 2 | |
このサイトを紹介するに当たって | 2022-03-22 07:27 | 2022-03-30 09:29 | 2 | |
ありがとうございます。 | 2022-02-22 14:38 | 2022-03-01 13:29 | 1 | |
利用規約についてのお問い合わせ | 2021-11-18 12:39 | 2021-11-19 00:39 | 1 | |
リーダビリティの判定式に関して | 2021-10-30 08:24 | 2021-11-03 00:55 | 1 | |
日本語文章難易度判定システムについて | 2021-10-27 15:18 | 2021-11-04 14:22 | 2 | |
ダウンロード版の品詞1はどういう分類ですか? | 2021-07-26 09:46 | 2021-08-07 08:15 | 2 | |
6つの語彙レベルについて | 2021-04-02 09:58 | 2021-04-15 05:05 | 1 | |
日本語教育語彙表のダウンロードについて | 2020-11-07 09:30 | 2020-11-24 08:20 | 2 | |
またHagoromoがダウンしています | 2020-09-06 00:39 | 2020-09-06 00:39 | 0 | |
「Hagoromo」はダウンしているみたいです。 | 2020-04-16 14:04 | 2020-04-18 01:58 | 1 | |
語彙特性の重要度について | 2019-11-20 05:43 | 2019-12-31 00:56 | 2 | |
品詞構成の「その他」について | 2019-05-03 08:38 | 2019-05-07 02:40 | 1 | |
リーダビリティスコアの難易度について | 2019-02-03 04:17 | 2019-02-03 23:53 | 1 | |
API | 2018-07-16 12:58 | 2018-07-17 00:22 | 2 | |
Reading Grade Level | 2018-05-23 04:58 | 2018-05-23 22:19 | 2 | |
jWriterの難解語使用率とは? | 2017-10-22 08:47 | 2017-10-24 11:38 | 2 | |
リーダビリティの算出式について | 2017-09-15 10:44 | 2017-09-17 05:15 | 2 | |
「日本語文章難易度判定システム」のテキスト解析結果の語彙表について | 2017-07-28 09:19 | 2017-08-14 08:18 | 3 | |
研究発表に使用してもよろしいでしょうか? | 2016-05-04 20:42 | 2016-05-29 21:46 | 1 | |
文字数について | 2016-03-14 10:14 | 2016-03-30 22:25 | 1 | |
検索のフォーマットについて | 2016-03-01 21:29 | 2016-03-30 22:24 | 1 | |
語彙レベル情報を持っていない語の数につきまして | 2016-02-22 12:21 | 2016-03-03 08:33 | 2 | |
学習者文章評価について | 2014-10-16 13:24 | 2014-10-20 16:39 | 1 | |
語彙レベルの判定 | 2014-09-10 22:44 | 2014-09-13 18:33 | 2 | |
解析結果の出力 | 2013-11-27 23:57 | 2013-12-06 18:14 | 3 | |
感激と個人的希望など。 | 2013-11-24 00:47 | 2013-11-26 14:52 | 1 |
「児童・生徒作文コーパス」の中から各学年のちょっと長い作文(600字から1000字くらい)をいくつか選んでチェックしてみました。1年生から3年生は中級が出ることが多く、それ以降は上級の判定が多くなります。さすが初級の判定は(今のところ)ありませんでした。中学生になると超級の判定が出ることもありました。母語話者のレベルも非母語話者の習得と似た段階を辿るのかもしれないですね。
低学年の作文は漢語もひらがなで書いてあることが多いので、和語が多いという判定になります。スポーツの用語が多いと、漢語が少なく難解語が多いという判定になりました。ゲームに関するカタカナ語が多かったからだと思います。ちょっと遊んだだけですけれど、面白かったです。ありがとうございました。またいずれ時間のあるときにゆっくり使ってみたいと思っています。
砂川有里子 (2022-11-30 01:02)
砂川先生
ご無沙汰しております。さっそく色々なテキストで試してくださってありがとうございます。文字数が全体の解析精度に影響する部分が多い点、今後、解決すべき課題だと感じています。I-JASのデータをもとに計算式を作っていますが、母語話者のデータに関してもそれなりの結果は返してくれると思います。また使ってみて、気づいたことなどありましたら、コメントください。よろしくお願いします。 李 |
李在鎬 (2022-11-30 13:58)
ポータルの質問リンクから参りました。
すばらしい研究成果を公開いただき、本当にありがとうございます。「ポータル」もとても見やすく、使いやすいです。
2016年に続き、2回目の質問です。
「はごろも」についている見出し語英訳、及び意味英訳はどのような基準(あるいは出典、参考資料、ネイティブチェックの有無等)でつけられていますでしょうか。
どこかでもうご説明頂いていたら申し訳ありません。よろしくお願いいたします。
小高葉子 (2022-07-07 11:28)
小高様
英訳は,メルボルン大学の先生に業務委託し,作成しました。ネイティブチェックも行っています。 ただし,一部の項目は,2020年からの科研での更新によるものもあります。 疑問などありましたら,このスレッドの返信として書いてください。よろしくお願いいたします。 李 |
李在鎬 (2022-07-17 03:04)
返信のお礼が遅くなり、申し訳ありません。ありがとうございました。 |
小高葉子 (2022-08-11 08:09)
初めまして。ドイツのハイデルベルク大学にて計算言語学を専攻している宇高と申します。
現在、学士の卒業論文のテーマとしてjReadabilityのようなツールを自分で一から構築してみようと考え、最初のステップとしてデータセットを探しているところです。
しかし、自分でリサーチした限りではこのテーマに使えるデータセットで公開中のものがほとんど見受けられず、少し途方に暮れています。
そこで質問させていただきたいのですが、jReadabilityに用いられたコーパスのデータは非公開、というのは商業利用の禁止というだけでなく、外部への共有自体をなさっていないということでしょうか。
もしも研究目的でのデータの提供なら可能ということであればご連絡いただけないでしょうか。
何卒よろしくお願い申し上げます。
宇高摩耶 (2022-07-02 18:41)
宇高さま
管理者の李です。お返事おそくなりました。 データセットというのは、リーダビリティ公式を作るための学習データのことだと思いますが、公開していません。 著作権上の問題から第三者に渡すことができないデータです。 李 |
李在鎬 (2022-07-14 03:58)
返信ありがとうございます。承知しました。 |
宇高摩耶 (2022-07-14 23:05)
初めまして。京都府総合教育センター特別支援教育部の伊家(いいえ)と申します。私たちは読み書きに困難のある児童生徒のICTを活用した学びの研究を進めています。府内から小中学校13校の協力を得て実践研究を進めていますが、ある学校の実践から語彙指導の大切さについてあがってまいりました。その際に、指導助言者の大学教授からそちらの「日本語教育語彙表」の紹介がありました。研究のまとめ冊子に参考として、サイトの紹介をさせていただいてもよいでしょうか。
伊家京子(いいえきょうこ) (2022-03-22 07:27)
伊家様
お返事遅くなってすみませんでした。 紹介、もちろんOKです。 刊行されましたらご一報いただけますでしょうか。 どうぞよろしくお願いいたします。 李 |
李在鎬 (2022-03-30 07:57)
李 様
お返事をありがとうございました。 本日なんとか今年度中に報告をまとめることができました。 京都府総合教育センター(ITEC)ホームページ今後にアップされますので、是非ともごらんいただきますようお願いいたします。 http://www.kyoto-be.ne.jp/ed-center/cms/index.php?page_id=343 |
伊家京子(いいえきょうこ) (2022-03-30 09:27)
私たちは論文を書いています。李先生のwebがとてもいいです。
イチゴ (2022-02-22 14:38)
ありがとうございました。 |
李在鎬 (2022-03-01 13:29)
今年度日本語の授業で作文評価システムを利用させていただき、大変感謝しております。
jWriterを利用させていただいた授業を研究ノートとして発表したいのですが、こちらの掲示板に提示されている利用規約のURLが見られず、困っております。他の場所から拝見できるか探しているのですが、見つけられませんでした。
申し訳ありませんが、利用規約についてお知らせいただけるでしょうか。
梅本佳子 (2021-11-18 12:39)
梅本様
李です。jWriterに関する利用規約はありません。 論文で言及する場合は,付記として「本研究では,学習者作文評価システムjWriter(https://jreadability.net/jwriter/)を利用した。」と書いてください。特に制限事項などはありませんので,自由に使ってください。 文献で確認し,引用する必要があれば,https://researchmap.jp/jhlee/published_papers/29476700 にあたってみてください。『ICT*日本語教育』については https://www.amazon.co.jp/dp/4894769441/ref=cm_sw_em_r_mt_dp_59BD9SE45NB8KGQVYZJ2 参照してください。 李 |
李在鎬 (2021-11-19 00:36)
このような素晴らしいシステムの開発並びに発展的な研究成果の公開,ありがとうございます。
私は現在,大学生でゼミのレポートに可読性指標を導入したく,論文を拝見いたしました。別分野に適用することということもあり,自ら多少の調整をすべく,python,mecab,unidicを用いてcodeを記述しました。
そこで,ご質問なのですが,「日本語教育のための文章難易度に関する研究」に記載されている
{8.56×-0.056} + {0.12×-0.126} + {0.83×-0.042} + {0.05×-0.145} +{0.22×-0.044}+11.724=6.08
という式は各変数をどのような解釈をすれば成り立つものなのでしょうか?
同様のsample1を自分のcodeで分析したところ,平均文長などの各種の変数は概ね一致したものを計算できたのですが,式通りに計算すると指標としては意味のなさそうな数字になってしまいます。(比較する分には使えそうですが)
可能であれば,各変数の分母に何を入れるか,など具体的に計算方法を含め,ご教授いただきたく願います。
お忙しい中,大変恐縮ですが,よろしくお願いいたします。
梨田 (2021-10-30 08:24)
梨田様
李です。 編集の解釈は,「日本語教育のための文章難易度に関する研究」(https://waseda.repo.nii.ac.jp/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=35923&item_no=1&page_id=13&block_id=21)のP.8の表4のモデル5をもとにしています。各変数の分母というのが何を指しているのか分かりませんのでお答えは難しいのですが,上記の論文を読んでみてください。その上で重回帰分析のことなど,別途,調べてみると良いと思います。 李 |
李在鎬 (2021-11-03 00:55)
初歩的な質問で失礼します。
①この「日本語文章難易度判定システム」の対象は
日本語を母語とした人の文章ですか?
それとも日本語を母語としない人で日本語を学習中の人の文章ですか?
②難易度の6段階を日本の学校教育課程での理解レベル:小学校X年、中学校、高校、大学・・に当て嵌る事が出来るでしょうか?
中村新一 (2021-10-27 15:18)
中村様
李です。システム作成に利用した文章を基準にいうと, 間違いを含んでいない,日本語の文章を解析することを目的としたシステムです(母語がどうかではなく)。 学校教育課程の理解レベルですが, https://researchmap.jp/jhlee/published_papers/4343793 に関連論文ありますので,ご参考ください。 李 |
李在鎬 (2021-11-03 00:47)
李様
ご教授有難うございます。ご紹介論文見させていただきます。 |
中村新一 (2021-11-04 14:22)
非常に便利なシステムですね。ありがとうございます。
ダウンロード版の表を研究目的で使いたいと思っています。
そこで、品詞について教えていただきたいことがあります。
たとえば、
曖昧 品詞1 ナ形容詞 品詞2 形状詞一般
案外 品詞1 ナ形容詞 品詞2 副詞
「曖昧」のほうは理解できるのですが、「案外」が品詞1はナ形容詞なのに品詞2は副詞になっています。
品詞2はUniDicに基づいているということですが、品詞1はどういうふうに分類しているのですか?
お忙しいところお手数でしょうが、ご教示くだされば、と思います。
よろしくお願いします。
あべしのぶ (2021-07-26 09:46)
あべしのぶ様
李在鎬です。 品詞2はUniDicのものです。 品詞1は、 https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-23242026/ のメンバーがUniDicの分類を参考にしつつ 日本語教育的観点から主観評価で入れたものです。 李 |
李在鎬 (2021-08-06 21:20)
李在鎬先生
お返事、ありがとうございます。 分かりました。 最初は品詞1が大分類で、品詞2が詳細分類だと思ったので、 大分類と詳細分類とで食い違うものがあるのが不思議だったのですが、 そういうことだったんですね。 ありがとうございました。 暑い日が続きますがお体に気をつけてお過ごしください。 あべしのぶ |
あべしのぶ (2021-08-07 08:15)
お聞きしたいですが、ここの6つの語彙レベルはJLPTのレベルに対応することはできるでしょうか。上級レベルをN1レベルと見なすことはできるでしょうか。
よろしくお願いいたします。
魏薇 (2021-04-02 09:58)
管理者の李です。
6レベルは,JLPTのレベルとは対応していません。 李 |
李在鎬 (2021-04-15 05:05)
こちらの表を研究に使用したいと考えたのですが、ダウンロードページとして指定されている、http://jhlee.sakura.ne.jp/JEV.html が使用できなくなっていました。そこで、復旧等の状況について確認したく思い、質問を投稿させて頂きました。
郷原聖士 (2020-11-07 09:30)
郷原聖士様
お世話になります。李です。 http://jhlee.sakura.ne.jp/JEV.html ,アクセスできるようになりました。 ご確認ください。 よろしくお願いいたします。 李在鎬 |
李在鎬 (2020-11-20 08:14)
李在鎬様
お世話になります、郷原聖士です。 先程確認した所、無事アクセスとダウンロードが出来ました。 お忙しい中、貴重なお時間をとっていただいたこと、 心より感謝申し上げます。 郷原 聖士 |
郷原 聖士 (2020-11-24 08:17)
先月末からずっと使えない状態です。
もし意図的な閉鎖でなければ、復旧をお願いします。
毎日のように使わせてもらっています。
素晴らしいシステムをありがとうございます。
宇野幸一 (2020-09-06 00:39)
「Hagoromo」はアクセスできない状態になっているみたいですが、サーバーがダウンしているのでしょうか。
党豪傑 (2020-04-16 14:04)
ご報告ありがとうございます。
担当者に連絡してみます。しばしお待ちください。 |
李在鎬 (2020-04-18 01:58)
素晴らしいシステムを作ってくださいまして、ありがとうございます。
重要度のところについて少しご確認したいですが、白い星と黒い星がわからなくて、「★★★★★」と「☆★★★★」と、どちらが重要度が高いですか?また、重要度の判断基準を教えていただけますか?
王曄雯 (2019-11-20 05:43)
王さん
黑の星が多ければ多いほど、重要という解釈です。 重要度の判断基準はBCCWJ(現代日本語書き言葉均衡コーパス)の使用頻度に基づいています。使用頻度が高ければ高いほど、重要という判定をしています。 李 |
李 (2019-12-16 07:37)
李さん
すみません。 写真、重要度:☆☆☆☆★ 新しい、重要度:☆☆☆☆★ 重要度低、ホントに? 花粉、重要度:☆★★★★(「日本語教育語彙表」システム) 花粉、重要度:☆☆☆☆★(李さんの論文、Sunakawa, Yuriko, Lee, Jae-ho, and Takahara, Mari (2012) The Construction of a Database to Support the Compilation of Japanese Learners Dictionaries, Acta Linguistica Asiatica 2(2), pp.97-115) 話す、重要度:☆☆☆☆★(「日本語教育語彙表」システム) 話す、重要度:★★★★☆(砂川有里子さんの研究成果報告書、汎用的日本語学習辞書開発データベース構築とその基盤形成のための研究) 「日本語教育語彙表」システムの重要度は ☆の数が多いほど、よく使われると思います。 「★は重要」は論文と報告の中の観点です 確認してください。 ありがとうございます。 |
ハンウ (2019-12-30 23:55)
品詞構成の「その他」には何が含まれるでしょうか?
ちょう (2019-05-03 08:38)
UNIDICの品詞で「普通名詞, 助詞, 助動詞, 形状詞, 動詞, 固有名詞」を除くものです。UNIDICの品詞はこちらをご覧ください。https://hayashibe.jp/tr/mecab/dictionary/unidic/pos
李 |
李在鎬 (2019-05-07 02:40)
素晴らしいシステムを開発してくださり、ありがとうございます。
お尋ねしたいのは、「よくある質問」にある、難易度のレベルわけのレベル感についてです。
このシステムは「文章の難易度」を数値で表してくれるものであると把握しておりますが、レべル感に記載されている文章を読む限り、この程度の数値の文章を理解できる人はこういうことができる人である」と捉えられると思います。
レベル感に対して、わたくしが何か勘違いしているかもしれませんが、レベル感とは、「この程度の数値の文章は、このぐらいの難易度の文章である」ということを文章で教えてくれるものではないのでしょうか?
kkc (2019-02-03 04:17)
開発者の李です。
レベル感は、ご指摘のとおりです。このシステムが上級後半と言っているのは、「高度に専門的な文章に関しても不自由なく、理解できる。日本語のあらゆるテキストに対して困難を感じない人」という意味です。また、システムの趣旨もおっしゃるとおり、文章の難易度を推定するものです。文章の難易度といっても、結局、人が読むわけですので、読み手のレベルをcandoとして記述しているわけです。 |
李在鎬 (2019-02-03 23:53)
Python辺りから呼べるような関数はありませんでしょうか?
開発者 (2018-07-16 12:58)
ご質問ありがとうございます。現在は公開APIを用意していません。外部プログラムとの連携については今後検討したいと思います。よろしくお願いします。 |
長谷部 (2018-07-16 22:16)
返信ありがとうございます。状況について把握しました。 |
開発者 (2018-07-17 00:22)
I was wondering if there was a list I could have of the equivalent reading grade level for native readers, eg. 2.1 = 6th grade etc
Zoe Alexander (2018-05-23 04:58)
Thanks for your suggestion/question. We don't have a conversion chart of that kind, but we'll think about it. |
Yoichiro Hasebe (2018-05-23 11:30)
Please try using "http://readability.nagaokaut.ac.jp/readability" |
Lee jaeho (2018-05-23 22:19)
いつもこのシステムを使わせていただいております。ありがとうございます。標記について質問させていただきます。jWriterの難解語とは何を指すのですか。また、難解語使用率はどんな計算式で割り出すのでしょうか?
お答えいただければ幸いです。
森川結花 (2017-10-22 08:47)
森川様
ご質問ありがとうございます。jWriterの難解語は,「日本語教育語彙表」の「中級後半レベル」の語彙の使用率のことです。 今度の日本語教育学会のポスター発表で,アルゴリズムの詳細を発表する予定ですので,お時間あるようでしたら,いらしてください。 よろしくお願いします。 李 |
李在鎬 (2017-10-24 04:26)
李先生
ご回答ありがとうございました。なるほどです。学習者の書いた作文で個々人の数値の変化を見ているととても面白いなと思っております。ご研究の成果を期待しております。これからもよろしくお願いします。 |
森川結花 (2017-10-24 11:38)
はじめての投稿失礼します。
大変興味深い研究をありがとうございます。
jreadabilityの算出式について、
X={ 平 均 文 長 *-0.056}+{ 漢 語 率 *-0.126}+{ 和 語 率*-0.042}+{動詞率*-0.145}+{助詞率*-0.044}+11.724
となっており、李先生の論文(「日本語教育のための文章難易度に関する研究」)8ページにも下のような計算例が掲載されているのですが、その計算が合わないです。
{8.56×-0.056}+{0.12×-0.126}+{0.83×-0.042}+ {0.05×-0.145}+0.22×-0.044}+11.724=6.08
(僕の計算だと11.17になりました)
お忙しい中恐縮ですが、リーダビリティの算出の方法について誤りがあれば教えていただきたいです。
よろしくお願いします。
khiroyuki (2017-09-15 10:44)
お世話になります。ご指摘ありがとうございました。
論文の数値に誤りがありました。申し訳ありません。 計算式そのものは、ウェブサイトの「システムの仕様」に掲載してある計算式ままです。値の数値の誤りです。 サンプルテキストとしては、 ************ 音楽がすきですから、よく CD を聞きます。日本がすきですから、日本語を勉強します。安かったですから、買いました。ディズニーランドは楽しかったです。教室は静かでした。わたしはラーメンがすきです。わたしはたばこがきらいです。ワンさんは日本語が上手です。わたしは料理が下手です。 ************ を解析した場合、正しい計算値は {8.67×-0.056}+{8.97×-0.126}+{62.82×-0.042}+{2.56×-0.145}+{21.8×-0.044}+11.724=6.13848 です。 計算のもとは、 総形態素数 78 平均語数 8.67 漢語数 7 和語数 49 動詞数 2 助詞数 17 平均文長 8.67 漢語率% 8.974358974 (漢語数/総形態素数*100) 和語率% 62.82051282(和語数/総形態素数*100) 動詞率% 2.564102564(動詞数/総形態素数*100) 助詞率% 21.79487179(助詞数/総形態素数*100) です。 |
李在鎬 (2017-09-16 07:16)
ありがとうございます! |
khiroyuki (2017-09-17 05:15)
すみません、私は日本語学習者です。1つ質問がございます。
「日本語文章難易度判定システム」のテキスト解析結果の「語彙リスト」の語彙表の构成は、「日本語教育語彙表」(http://jisho.jpn.org)の1万7千920項目ですか?
申し訳ありません。
どうぞよろしくお願いいたします。
ハンウ (2017-07-28 09:19)
「語彙リスト」は入力されたテキストをUnidicとMeCabというプログラムを使って分割した結果です。
なお「語彙リスト」で「日本語教育語彙表」に含まれる語は青色で表示されており、クリックすると辞書引きができるようになっています。 お答えになりましたでしょうか。よろしくお願いいたします。 |
長谷部 (2017-07-28 13:26)
ハンウさん
こんにちは。プロジェクトメンバーの李在鎬です。 >「日本語文章難易度判定システム」のテキスト解析結果の「語彙リスト」の > 語彙表の构成は、「日本語教育語彙表」(http://jisho.jpn.org)の1万7千920 > 項目ですか? そうです。Mecabで解析した結果を「日本語教育語彙表」(http://jisho.jpn.org)と照合していますので、「日本語教育語彙表」で構成されています。 李 |
李在鎬 (2017-08-07 15:53)
ありがとうございました。 |
ハンウ (2017-08-14 08:18)
はじめまして。
名古屋大学大学院医学部整形外科の竹上靖彦ともうします。
私は、現在「患者さんが読みやすい医療機関のつくるホームページ」について現在調査中です。
医療機関のつくる患者さん向けのページは難しく、患者さんが利用しにくいのではないかと考えてこのような調査を行っております。
つきましては、学会発表でこのページをもちいて研究発表を行ってもよろしいでしょうか?
お返事お待ちしております。
竹上靖彦 (2016-05-04 20:42)
ご質問ありがとうごさいます。
もちろん研究のためにご使用いただいて問題ございません。 利用規約(http://jreadability.net/terms_of_use)をご確認のうえ、 論文や発表資料に本システムを利用した旨、明記いただければ幸いです。 今後ともよろしくお願いいたします。 |
長谷部 (2016-05-29 21:46)
すばらしいツールを公開していただいて日本語教育にも研究にも大変役立つものです。
さて、入力可能なテキストの文字数ですが、20000字限度となっていますね。それを超えた場合、どうすればよろしいでしょうか。そのテキストを分割し判定してから、合計したリーダビリティ値を平均値にしてよろしいでしょうか。
よろしくご解答をお願いいたします。
王華偉 (2016-03-14 10:14)
管理者です.
2万字を超えているということですが,1000字程度に分割して測定してください. 平均値で処理して問題ないと思います. |
李在鎬 (2016-03-30 22:25)
ご担当者様
素晴らしい研究成果を公開していただいて、ありがとうございます。
アンケートを作るために、質問項目の文章難易度を一致させるために、利用させていただいています。
一つ単純な質問ですが、検索のフォーマットについて、句読点をいれるかどうか、レベル判定に影響を及ぼすでしょうか。
実際検索の例:
会社は破綻の瀬戸際に来た。 中級前半
会社は破綻の瀬戸際に来た(句点なし) 中級後半
これはどう解釈すれば良いでしょう。そしてどのレベルにより適切でしょうか。
どうぞよろしくお願い致します。
李 ウェンシン (2016-03-01 21:29)
管理者です.
こちらのシステムでは,ある程度の字数(1000字前後)があるテキスト(文章)を解析することを想定しています.一文単位で結果がでたとしてもそれは信用すべき情報ではないと考えてください. |
李在鎬 (2016-03-30 22:24)
素晴らしい研究成果を公開していただき、本当にありがとうございます。
成人ビジネスマン向けの新聞読解教材を作成する際に、活用させて頂いています。
2点、質問です。
1、文章の処理を行うと、語彙レベル構成の部分で
「語彙レベル情報を持っている形態素だけを集計」と出てきますが、
集計されなかった(語彙レベル情報がデータベースになかった)語とその数も、
どこかで確認出来ますでしょうか。
2、語レベル、品詞の分布及び難易度の計算において、
使われているのは「総数」でしょうか。それとも「異なり(語or形態素)数」でしょうか。
1、に関しましては、
特に新聞記事の文章の場合、母語話者が感じる「難しさ」が、
時事用語、人名、地名等固有名詞やあまり一般的ではない慣用句や専門用語等(形態素による分解に合わない言語要素)に
かなり影響されているような印象を持っておりまして、
データからはじかれた語も確認できれば...と思った次第です。
サイト内どちらかの文献ですでにご紹介いただいていましたら
申し訳ありません。
どうぞよろしくお願いいたします。
小高葉子 (2016-02-22 12:21)
小高様
コメントとご質問をありがとうございました。お返事が遅くなり失礼しました。 1)最初に表示される[テキスト情報 | 語彙レベル構成]では語彙レベル情報を持っている形態素だけを集計していますが、上のタブの中から[語彙リスト]を選んで、[語彙レベルで並べ替え]のボタンを押していただくと、画面上のリストの下の方で語彙レベルを持たない語のデータを確認できます。 2)[テキスト情報]で示される各種分布でも、テキスト全体の難易度の計算でも、使われているのは「総数(述べ語数)」です。 ご不明な点がありましたらまたお知らせください。 |
長谷部 (2016-02-26 18:27)
長谷部様
ご返信ありがとうございました。 お礼が遅くなり、申し訳ありません。 1)のやり方でやってみます。 今後ともたくさん使わせていただきます。 ありがとうございました。 |
小高葉子 (2016-03-03 08:33)
非常に良いシステムを公開いただき、本当にありがとうございます。
私は日本語教育に興味を持っている中国の留学生ですけど、このシステムの学習者文章評価とはどういう意味ですか?母語話者文章評価との違いは何でしょうか?
宜しくお願い致します。
李テイ (2014-10-16 13:24)
李さま
お世話になります。管理者の李在鎬です。 学習者文章評価の場合,評価のための計算式が異なります。計算式は, ******************************************** 定数と係数の一覧(学習者文章評価) 定数×-3.391+平均文長LOG変換値×2.701+内容語率×13.81+中級後半語彙使用率×4.298+名詞率×-11.868+上級前半語彙使用率×14.749 ******************************************** です。 こちらの計算式は,まだ不完全なものですので,参考情報としてお考えください。 李在鎬 |
李在鎬 (2014-10-20 16:39)
教育、研究の双方で、このシステムにはいつもいつもお世話になっております。
1つうかがいたいのですが、「語彙レベル」の判定基準は何に依るのでしょうか。
リーディング・チュウ太の結果とは異なるので、旧日本語能力試験の基準そのままではないように思いますが、何かと組み合わせているのでしょうか。
また、「語彙レベル」で「上級後半」は設定されていないのでしょうか。
どちらかの文献に載っていることでしたら申し訳ありません。
よろしくお願いいたします。
和氣圭子 (2014-09-10 22:44)
和氣圭子さま
お世話になります。李です。 1. 語彙レベルは,http://jisho.jpn.org/ の成果物を利用しています。 プロジェクト内で独自に作成した語彙表です。 詳しい情報は, http://revije.ff.uni-lj.si/ala/article/view/174/149 をご覧ください。 2. 上級後半もありますが,使用頻度が低い語彙です。 例えば, 値する 厚紙 当て字 跡継ぎ 跡取り 暴く 甘んずる 編み出す などが上級後半の語彙です。 李 |
李在鎬 (2014-09-11 22:52)
李さま
わかりました。 参考文献等、ご親切にありがとうございました。 和氣 |
和氣圭子 (2014-09-13 18:33)
素晴らしいツールを公開して頂き、ありがとうございます。
私は、プログラミングの苦手な学生にコーパス言語学を教えているため、非常に重宝しております。
そこで、1つリクエストがございます。
各種の解析結果、特に、分かち書きの結果をcsvファイルか何かに出力するボタンがあると、より便利だと思います。
勿論、解析結果をコピー&ペーストすればよいのですが、行頭の数字とタブを手作業で削除する必要がありますし、コピペをする際にミスが起きる可能性もあります。
わがままなユーザーの意見ではございますが、今後バージョンアップなどをする際に、ご検討頂ければ幸いに存じます。
小林雄一郎 (2013-11-27 23:57)
小林様
お世話になります。李です。 コメントいただいた保存機能、確かにあると良いですね。 検討致しますので、よろしくお願い致します。 李 |
李在鎬 (2013-12-02 14:36)
李さま
早速ご対応いただき、まことにありがとうございました。 授業中に[結果保存]のボタンがあることに気づき、感激いたしました。 今後ともどうぞよろしくお願い申し上げます。 小林 |
小林雄一郎 (2013-12-04 17:14)
小林様
ご丁寧にありがとうございます。 また、お気づきのことなどありましたら、 ご連絡ください。 よろしくお願い致します。 李 |
李 (2013-12-06 18:14)
非常に使いやすく有用なシステムをありがとうございます。
全体的なレベル判定も「初級後半」などの大まかな区分のほかに数的評価もありますし、1文の語彙数、語彙の難易度割合の判定などどれもすばらしく、今後どんどん使わせていただこうと思っています。
ただひとつだけ希望を言いますと、査定した文章自体を語彙難易度別に色分けすることができれば、うっかりむずかしすぎる語彙を書いてしまう失敗もなくなるのでいいのですが。
文法・文型抽出は語彙抽出に比べてシステム上難しそうですが、本当にほしいのはそこですね。とうのも、私が教えているのは主に初級なのですが、後半になってくるとつい「まだ教えていないけれど日常的には非常に頻出し、また難しく感じない文型」というのをうっかり使いそうになるんです(笑)。そしてそれも語彙の場合気がつきやすいのですが、文型だと意外と見落としがちで・・・。
また、このシステムを生徒たちも使うことができるのであれば(中級以上)、自分で作成した作文の構成を見ることも可能かと思います。
いずれにせよ、読解文章は主に自作している身としましては(既存の書籍を教科書として使っていないのですぐに使える読解文章がなく)、非常にありがたいシステムです。
開発者の皆様に心からお礼申し上げます。
橋本実子 (2013-11-24 00:47)
橋本様
お世話になります。 コメントありがとうございました。 文法・文型抽出、確かにあると便利そうですが、ご承知のとおり 現状では難しいですね。 http://lias.intersc.tsukuba.ac.jp/ である程度のところまでは達成できますので、試してみてください。 語彙の色分けのほうは検討させていただきます。 ありがとうございました。 李 |
李在鎬 (2013-11-26 14:52)