タイ人日本語学習者話し言葉コーパス(CTJC)
Corpus of Thai learners' Japanese Conversation
本コーパスは、タイ人日本語学習者に特化した、レベル情報付き話しことばコーパスです。タイ人日本語学習者の発話の特徴を捉えた本コーパスには、面接形式による日本語インタビュー・データ132本が、初級・中級・上級の各レベルにわたり収録されています。
初めての方はユーザー登録(無料)が必要です
ユーザー登録済みの方はこちらから
お知らせ
NEWS
サイトニューアルしました。
検索機能が使用可能になりました。
トップページ公開しました。検索機能はメンテナンス中です。
公開までの経緯
Detail
本コーパスは、2012年からプロジェクトメンバー、カノックワン・ラオハブラナキット・片桐、萩原孝恵、池谷清美の3名で、文字化の一次作業が行われ、チュラーロンコーン大学文学部助成金により、まず34本が作成されました。次に住友財団研究助成金により文字化の一次作業は34本より68本となりました。2014年から青山学院大学総合研究所プロジェクト「タイ人日本語学習者の学びを支援する−書く能力・話す能力向上へ向けたICT活用と日本語教育のコラボレーション−」(〜2017、代表者 稲積宏誠)によりさらに68本から132本となりました。このプロジェクトではあわせて文字化作業の二次チェックが行われました。このような取組の成果が、タイ人日本語学習者話し言葉コーパス(CTJC)という形になり、話す能力向上へ向けた支援の成果の一部として公開することができました。
4つの特徴
Feature
-
1.文字化の質の確保
本コーパスは、文字化の質を確保するために、タイ国での日本語教育経験を有し、タイ語・日本語の両言語を理解する者が、全データの2次チェックを行っています。
-
2.文字化規則の一貫性
本コーパスは、タイ語・日本語の両言語を理解するひとりの作業者による2次チェックの結果、文字化の揺れを最小限に抑え、文字化規則の一貫性を保持しています。
-
3.タイ人日本語学習者の特徴を捉えた文字化
本コーパスは、タイ人日本語学習者の発話に現れる特徴を、(a)~(g)のような文字化規則の基に再現しています。
-
a.音の伸び
長さが2モーラ分の場合は、「ー」+「かな」で表記
語末にプロミネンスがある場合は、音の伸びと区別して「かな」で表記
-
b.非言語要素との共起
非言語要素との共起がみられる発話は、その出現を忠実に再現
-
c.複数の読み方の漢字表記
複数の読み方のあるものは、漢字表記ではなく語彙の運用実態に合わせて可視化
-
d.逸脱した発音の解釈
逸脱した発音に対しては、理解可能な解釈を行わず聞こえたままに記述
-
e.発話の重複とターン
発話が重なった場合は、発話権の有無は問わず発話が遅かった方を〈 〉の中に記述、最小単位「文節」
-
f.タイ人特有のフィラー
タイ語のフィラーの出現については、タイ語において同一のフィラーと認められるものの表記を統一
-
g.フィラーの表記統一
フィラーの表記については、タイ語話者の発音上の特徴を捉えた分類に基づき表記を統一
-
-
4.レベル判定の信頼性
レベル判定は、ACTFL(The American Council on the Teaching of Foreign Languages)-OPI(Oral Proficiency Interview)の基準に則り、テスター資格保持者がそれぞれ2次判定まで行っています。
利用規約
Terms of Use
タイ人日本語学習者話し言葉コーパス(CTJC:Corpus of Thai Learners' Japanese Conversation)を利用するにあたり、以下の規約を遵守していただく必要があります。
-
1.【利用範囲】研究・教育のための利用に限定します。
-
2.【論文などを公表する場合】 タイ人日本語学習者話し言葉コーパスを利用して、論文や記事を執筆される場合は、必ず本システムを利用した旨を明記してください。
-
3.なお、本コーパスは,青山学院大学総合研究所プロジェクト「タイ人日本語学習者の学びを支援する − 書く能力・話す能力向上へ向けたICT活用と日本語教育のコラボレーション −」(2014〜2017、代表者 稲積宏誠)により開発され、その成果の一部として公開しています。
初めての方はユーザー登録(無料)が必要です
ユーザー登録済みの方はこちらから