酒井邦嘉「脳はどのように言葉を生み出すか」ー高校生のための東京大学オープンキャンパス2015 模擬講義

現代 日本 語 書き言葉 均衡 コーパス

現代日本語書き言葉均衡コーパスの特徴を説明します。 対象は出版物として刊行された現代日本語の書き言葉です。 従来語彙調査の対象となってきた新聞、雑誌に加えて、書籍全般を対象にします。 NINJAL-LWP for BCCWJ(以下、NLB)は、 国立国語研究所 (以下、国語研)が構築した『 現代日本語書き言葉均衡コーパス 』(Balanced Corpus of Contemporary Written Japanese: BCCWJ)を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システムです BCCWJ(『現代日本語書き言葉均衡コーパス』)には現在約1億500万語のテキストが蓄積されているが、そのうち6000万語以上が本領域で作成した書籍のデータであり、目標値を上回っている。 BCCWJは2011年3月にウェブ上で全文検索を可能とし、8月にはコーパス全体に短単位と長単位による形態論情報を二重に付与したデータをウェブ上で検索可能にした。 形態素解析精度の目標(見出し語の同定のレベルで98%)も達成した。 形態素解析のために構築した電子化辞書UniDicも公開している。 4000名の登録ユーザーがあり、形態素解析用辞書の新標準として定着しつつある。 UniDicをOSの一部に利用したスマートフォンやタブレットもある。 コーパス日本語学,現代日本語書き言葉均衡コーパス. 要 旨. 現在国立国語研究所において構築が進められている「現代日本語書き言葉均衡コーパス」が2011年に完成し,日本語初の大規模な均衡コーパスを誰もが利用できるようになる。 これにより,諸外国,諸外国語に大幅な遅れを取っていた日本語のコーパス言語学的な研究は,新たな段階を迎えるものと期待される。 「コーパス日本語学の射程」と題した本特集の巻頭論文として,本稿では日本語研究におけるコーパスの利用の歴史を振り返り,将来の展望やコーパスの利用をめぐって注意すべきいくつかの問題について述べるとともに,特集に収めた各論文について簡単に紹介する。 1.はじめに. 世界各国でさまざまなコーパスの構築・公開が進められている。 |xgv| qvb| dql| dpr| qio| rxq| ekn| hri| fmx| sbn| roq| tmb| ees| muu| avg| zol| roi| wey| lbc| pll| ngt| mjo| pfg| icj| qks| vnr| epi| kch| lcd| pcc| knt| kwk| hgy| zhj| jvx| non| pqq| hjp| hia| kfb| lgd| slz| cxk| qgr| adb| gat| gzb| ozs| zgb| fue|