お願い : このリストに掲載すべき言語資源やツールを御存知の方は下記の連絡先 まで御連絡下さい。
Usage Case フィールドについて :
言語資源の利用事例として、その言語資源を用いた研究発表論文の情報を掲載しています。現在、発表論文は以下の論文集から抽出しています。
・言語処理学会年次大会 発表論文集 (2005〜2022)
・情報処理学会全国大会 講演論文集 (2007〜2010)
・人工知能学会全国大会 論文集 (2005〜2008)
・電子情報通信学会総合大会 講演論文集 (2005〜2009)
なお、このフィールドの情報は自動抽出した結果であり、内容には誤りが含まれる可能性があることをご了承下さい。
誤りにお気づきの方はお手数ですが下記の連絡先 までご連絡下さい。
新聞記事
注釈付きコーパス
平文コーパス
シソーラス
辞書
テキスト(その他)
音声
形態素解析器
パーザ
アノテーション支援
可視化ツール
検索ツール
機械学習
ツール(その他)
毎日新聞CD-ROM
Type
Text
Type.linguistics
annotation/corpus
Description
1991年から2001年の毎日新聞の記事を収録したCD-ROM。
Annotation.document
keyword
Creator
毎日新聞社
Contact person
日外アソシエーツ (data-saleあっとnichigai.co.jp)
Price
126,000円 (1年当たり)
Subject.language
日本語
Date
1991-2001
Format
1 or 2 CD-ROM per year.
Format.encoding
Shift_JIS
Relation
HasPart 毎日新聞CD-ROM (1991年) HasPart 毎日新聞CD-ROM (1992年) HasPart 毎日新聞CD-ROM (1993年) HasPart 毎日新聞CD-ROM (1994年) HasPart 毎日新聞CD-ROM (1995年)
URI
http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html
Usage Case
(別ウィンドウに表示)
毎日新聞CD-ROM (1991年)
Type
Text
Type.linguistics
annotation/corpus
Description
1991年の毎日新聞の記事を収録したCD-ROM。約10,000記事。
Annotation.document
keyword
Creator
毎日新聞社
Contact person
日外アソシエーツ (data-saleあっとnichigai.co.jp)
Price
126,000円
Subject.language
日本語
Date
1991
Format
1 CD-ROM.
Format.encoding
Shift_JIS
Relation
IsPartOf 毎日新聞CD-ROM
URI
http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html
毎日新聞CD-ROM (1992年)
Type
Text
Type.linguistics
annotation/corpus
Description
1992年の毎日新聞の記事を収録したCD-ROM。約10,000記事。
Annotation.document
keyword
Creator
毎日新聞社
Contact person
日外アソシエーツ (data-saleあっとnichigai.co.jp)
Price
126,000円
Subject.language
日本語
Date
1992
Format
1 CD-ROM.
Format.encoding
Shift_JIS
Relation
IsPartOf 毎日新聞CD-ROM
URI
http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html
毎日新聞CD-ROM (1993年)
Type
Text
Type.linguistics
annotation/corpus
Description
1993年の毎日新聞の記事を収録したCD-ROM。約10,000記事。
Annotation.document
keyword
Creator
毎日新聞社
Contact person
日外アソシエーツ (data-saleあっとnichigai.co.jp)
Price
126,000円
Subject.language
日本語
Date
1993
Format
1 CD-ROM.
Format.encoding
Shift_JIS
Relation
IsPartOf 毎日新聞CD-ROM
URI
http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html
毎日新聞CD-ROM (1994年)
Type
Text
Type.linguistics
annotation/corpus
Description
1994年の毎日新聞の記事を収録したCD-ROM。約10,000記事。
Annotation.document
keyword
Creator
毎日新聞社
Contact person
日外アソシエーツ (data-saleあっとnichigai.co.jp)
Price
126,000円
Subject.language
日本語
Date
1994
Format
1 CD-ROM.
Format.encoding
Shift_JIS
Relation
IsPartOf 毎日新聞CD-ROM
URI
http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html
毎日新聞CD-ROM (1995年)
Type
Text
Type.linguistics
annotation/corpus
Description
1995年の毎日新聞の記事を収録したCD-ROM。約10,000記事。
Annotation.document
keyword
Creator
毎日新聞社
Contact person
日外アソシエーツ (data-saleあっとnichigai.co.jp)
Price
126,000円
Subject.language
日本語
Date
1995
Format
1 CD-ROM.
Format.encoding
Shift_JIS
Relation
IsPartOf 毎日新聞CD-ROM
URI
http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html
日経新聞CD-ROM
Type
Text
Type.linguistics
annotation/corpus
Description
1990年から2000年の日経新聞の記事を収録したCD-ROM。購入に関する情報は以下のURLを参照。 http://www.nikkeish.co.jp/gengo/zenbun.htm.
Annotation.document
keyword
Creator
日本経済新聞社
Contact person
日経出版販売 (eizoあっとnikkeish.co.jp)
Price
136,500円 (1年当たり)
Subject.language
日本語
Date
1990-2000
Format
1 CD-ROM per year.
URI
http://www.nikkeish.co.jp/shop/top.aspx
Usage Case
(別ウィンドウに表示)
日経産業・金融・流通新聞CD-ROM
Type
Text
Type.linguistics
annotation/corpus
Description
1994年から2000年の日経産業・金融・流通新聞の記事を収録したCD-ROM。購入に関する情報は以下のURLを参照。 http://www.nikkeish.co.jp/gengo/zenbun.htm.
Annotation.document
keyword
Creator
日本経済新聞社
Contact person
日経出版販売 (eizoあっとnikkeish.co.jp)
Price
136,500円 (1年当たり)
Subject.language
日本語
Date
1994-2000
Format
1 CD-ROM per year.
URI
http://www.nikkeish.co.jp/shop/top.aspx
読売新聞CD-ROM (邦文記事)
Type
Text
Type.linguistics
annotation/corpus
Description
1987年から2001年の読売新聞の邦文記事を収録したCD-ROM。記事の量は、1987年から1997年までが1年あたり110,000記事、1998年から2000年までが230,000記事、2001年が340,000記事である。購入に関する情報は以下のURLを参照。 http://www.ndk.co.jp/yomiuri/.
Annotation.document
keyword
Creator
読売新聞社
Contact person
日本データベース開発 (yomiuriあっとndk.co.jp)
Price
120,000-270,000円 (1年当たり, アカデミック), 190,000-490,000円 (1年当たり, 一般)
Subject.language
日本語
Date
1987-2005
Format
1 or 2 CD-ROM per year.
Format.encoding
Shift_JIS
URI
http://www.ndk.co.jp/yomiuri/
Usage Case
(別ウィンドウに表示)
読売新聞CD-ROM (英文記事)
Type
Text
Type.linguistics
annotation/corpus
Description
1989年から2001年の読売新聞の英文記事を収録したCD-ROM。記事の量は1年あたり約9,000記事。購入に関する情報は以下のURLを参照。 http://www.ndk.co.jp/yomiuri/.
Creator
読売新聞社
Contact person
日本データベース開発 (yomiuriあっとndk.co.jp)
Price
110,000-170,000円 (1年当たり, アカデミック), 170,000-270,000円 (1年当たり, 一般)
Subject.language
英語
Date
1989-2005
Format
1 CD-ROM per year.
URI
http://www.ndk.co.jp/yomiuri/
朝日新聞CD-ROM
Type
Text
Type.linguistics
annotation/corpus
Description
1985年から1997年までの朝日新聞の記事を収録したCD-ROM。記事の量は1年あたり約100,000記事。
Creator
朝日新聞社
Contact person
日外アソシエーツ (data-saleあっとnichigai.co.jp)
Price
126,000-189,000円 (1年当たり)
Subject.language
日本語
Date
1984-2005
Format
1 CD-ROM per year.
Usage Case
(別ウィンドウに表示)
知的障害者向け新聞『ステージ』テキストデータ
Type
Text
Type.linguistics
transcription/
Description
社会福祉法人全日本手をつなぐ育成会が1996年から2014年までに刊行していた知的障害者向けの機関誌「みんなが読める新聞『ステージ』」のテキストデータ。原文改行テキストデータと句点改行テキストデータの2種類のデータを収録している。
Creator
全国手をつなぐ育成会連合会
Contact person
GSK (言語資源協会)
Price
GSK会員は無料, 非会員は33,000円
Subject.language
日本語
Date
2018/03
Format
1 CD-ROM
Format.encoding
UTF-8
URI
https://www.gsk.or.jp/catalog/gsk2017-e
RWCテキストデータベース
Type
Collection
Description
RWCPによって作成されたテキストデータベースのセット。 現在、配布は一時停止されている。GSKにて配布を再開する予定。
Creator
Real World Computing Partnership
Subject.language
日本語
Language
日本語
Date
1998
Format
381 MB.
Format.encoding
EUC-JP
Relation
HasPart RWC-DB-TEXT-94-1 HasPart RWC-DB-TEXT-94-2 HasPart RWC-DB-TEXT-95-3 HasPart RWC-DB-TEXT-96-2 HasPart RWC-DB-TEXT-97-1 HasPart CRL-DB-TEXT-97-1
Usage Case
(別ウィンドウに表示)
RWC-DB-TEXT-94-1
Type
Text
Type.linguistics
annotation/corpus
Description
通産省の1993年から1995年の白書を形態素解析したコーパス。人手修正済。 現在、配布は一時停止されている。
Annotation.corpus
word segmentation, part-of-speech
Creator
Real World Computing Partnership
Subject.language
日本語
Language
日本語
Date
1994
Format
8.1 MB.
Format.encoding
EUC-JP
Relation
IsPartOf RWCテキストデータベース
RWC-DB-TEXT-94-2
Type
Text
Type.linguistics
annotation/corpus
Description
日本電子工業振興協会の「自然言語処理の動向に関する調査報告書」を形態素解析したコーパス。人手修正済。 現在、配布は一時停止されている。
Annotation.corpus
word segmentation, part-of-speech
Creator
Real World Computing Partnership
Subject.language
日本語
Language
日本語
Date
1994
Format
2.1 MB.
Format.encoding
EUC-JP
Relation
IsPartOf RWCテキストデータベース
RWC-DB-TEXT-95-3
Type
Text
Type.linguistics
annotation/text categorization
Description
毎日新聞の1994年の30000記事に対してUDCコードを付与したデータ。 現在、配布は一時停止されている。
Annotation.document
text category
Creator
Real World Computing Partnership
Subject.language
日本語
Date
1995
Format
1 MB.
Relation
IsPartOf RWCテキストデータベース Requires 毎日新聞CD-ROM (1994年)
RWC-DB-TEXT-96-2
Type
Text
Type.linguistics
annotation/corpus
Description
岩波国語辞典(第5版, タグ付き)を形態素解析したデータ。人手修正済。 現在、配布は一時停止されている。GSKにて配布を再開する予定。
Annotation.corpus
word segmentation, part-of-speech
Creator
Real World Computing Partnership
Subject.language
日本語
Language
日本語
Date
1996
Format
40.6 MB.
Format.encoding
EUC-JP
Relation
IsPartOf RWCテキストデータベース
RWC-DB-TEXT-97-1
Type
Text
Type.linguistics
annotation/corpus
Description
毎日新聞の1991年から1995年の全記事を自動的に形態素解析したコーパスの差分データ。 現在、配布は一時停止されている。
Annotation.corpus
word segmentation, part-of-speech
Creator
Real World Computing Partnership
Subject.language
日本語
Date
1997
Rights
research purpose
Format
280.5 MB.
Relation
IsPartOf RWCテキストデータベース Requires 毎日新聞CD-ROM (1991年) Requires 毎日新聞CD-ROM (1992年) Requires 毎日新聞CD-ROM (1993年) Requires 毎日新聞CD-ROM (1994年) Requires 毎日新聞CD-ROM (1995年)
CRL-DB-TEXT-97-1
Type
Text
Type.linguistics
annotation/corpus
Description
RWC-DB-TEXT-95-2のテキストを単文に分割し、係り受け関係を解析したデータ。人手修正済。
Annotation.corpus
syntax
Creator
通信総合研究所
Subject.language
日本語
Language
日本語
Date
1997
Source
jp:rwc95-2
Format
40 MB.
Format.encoding
EUC-JP
Relation
IsPartOf RWCテキストデータベース
URI
http://www.rwcp.or.jp/wswg/rwcdb/text/
EDR日本語コーパス
Type
Text
Type.linguistics
annotation/corpus
Description
約200,000の日本語文に対して、形態素情報、構文情報、意味情報を付加したコーパス。2010年に改訂版Ver.4.0がリリースされた。
Annotation.corpus
word segmentation, part-of-speech, syntax, word sense
Creator
日本電子化辞書研究所
Contact person
情報通信研究機構 (edr_infoあっとjsa.co.jp)
Price
50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
Subject.language
日本語
Language
日本語
Format
355 MB. 200,000 sentences.
Format.encoding
EUC-JP
Relation
IsPartOf EDR日本語共起辞書
URI
http://www2.nict.go.jp/ipp/EDR/JPN/J_indexTop.html
Usage Case
(別ウィンドウに表示)
EDR英語コーパス
Type
Text
Type.linguistics
annotation/corpus
Description
約120,000の英語文に対して、形態素情報、構文情報、意味情報を付加したコーパス。2010年に改訂版Ver.4.0がリリースされた。
Annotation.corpus
word segmentation, part-of-speech, syntax, word sense
Creator
日本電子化辞書研究所
Contact person
情報通信研究機構 (edr_infoあっとjsa.co.jp)
Price
50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
Subject.language
英語
Language
英語, 日本語
Format
218 MB. 120,000 sentences.
Format.encoding
EUC-JP
Relation
IsPartOf EDR英語コーパス
URI
http://www2.nict.go.jp/ipp/EDR/JPN/J_indexTop.html
Usage Case
(別ウィンドウに表示)
京都大学テキストコーパス
Type
Text
Type.linguistics
annotation/corpus
Description
毎日新聞の1995年の記事の40,000文に対して、形態素情報と構文情報を付与したコーパス。うち5000文については格関係, 照応・省略関係, 共参照の情報も付与されている。人手修正済。毎日新聞の1995年のCD-ROMを別途購入する必要がある。
Annotation.corpus
word segmentation, part-of-speech, syntax, case, anaphora, coreference
Creator
京都大学 黒橋・河原研究室
Contact person
京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
Price
フリー
Subject.language
日本語
Language
日本語
Format
6 MB.
Format.encoding
EUC-JP
Relation
Requires 毎日新聞CD-ROM (1995年)
URI
http://nlp.ist.i.kyoto-u.ac.jp/index.php?%E4%BA%AC%E9%83%BD%E5%A4%A7%E5%AD%A6%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9
Usage Case
(別ウィンドウに表示)
JEITAマルチモーダル対話コーパス
Type
Text
Type.linguistics
transcription/
Description
人間対人間のタスク対話を収録したコーパス。「顔課題」と「旅行課題」の2つのタスクについて9対話80分の動画データが収録されている。対話データの音声転記も配布される。また、音声転記には対話構造、統語構造、共参照、韻律、表情に関するタグが付与されている。GSKを通じて入手可能。
Annotation.corpus
word segmentation, part-of-speech, syntax, dialog structure, coreference, prosody, facial expression
Creator
電子情報技術産業委員会(JEITA) 知識情報処理技術委員会 マルチモーダルコンテンツ技術専門委員会
Contact person
GSK (言語資源協会)
Price
個人・GSK会員22,000円, 個人・非会員44,000円, 団体・会員44,000円, 団体・非会員88,000円
Subject.language
日本語
Format
2 CD-ROM
URI
http://www.gsk.or.jp/catalog/gsk2007-a/
IREX公開データ・ツール(最終版)
Type
Text
Description
1999年に開催されたIREXプロジェクトによる情報検索や情報抽出のテストコレクション
Creator
IREX実行委員会
Contact person
IREX実行委員会
Price
フリー
Subject.language
日本語
Date
1999
Format
gzipped file, 2.82MB
Format.encoding
EUC-JP
Relation
Requires 毎日新聞CD-ROM (1994年) Requires 毎日新聞CD-ROM (1995年)
URI
http://nlp.cs.nyu.edu/irex/index-j.html
Usage Case
(別ウィンドウに表示)
NTCIRテストコレクション
Type
Text
Description
NTCIRプロジェクトによる情報検索, 情報抽出, 質問応答システム, 自動要約等のテストコレクション
Creator
NTCIRプロジェクト
Contact person
国立情報学研究所・情報学資源研究センター NTCIR事務局: ntc-secretariatあっとnii.ac.jp
Price
フリー
Language
日本語
Date
1999-2007
Format
CD-ROM
Format.encoding
EUC-JP
URI
http://research.nii.ac.jp/ntcir/index-ja.html
Usage Case
(別ウィンドウに表示)
KNB コーパス (Kyoto-University and NTT Blog コーパス)
Type
Text
Description
4テーマ(京都観光、携帯電話、スポーツ、グルメ)、249記事、4,186文の解析済みブログコーパス。形態素、構文、格・省略・照応、評判情報がアノテーションされている。(現在、配信は停止されている)
Annotation.corpus
word segmentation, part-of-speech, syntax, case, ellipsis, opinion information
Creator
京都大学, NTTコミュニケーション科学基礎研究所
Contact person
京都大学 黒橋・河原研究室
Price
フリー
Subject.language
日本語
Format.encoding
EUC-JP
Usage Case
(別ウィンドウに表示)
新聞記事GDAコーパス2004
Type
Text
Type.linguistics
annotation/corpus
Description
本データは新聞記事テキスト(3,000記事、約37,000文、約910,000語)に対して形態素・統語構造・語義の情報を付与したコーパスである。これらの付加情報は全て人手修正されている。コーパスの記述形式はGDA(Global Document Annotation)に準拠する。本データは付加情報のみを提供し、テキスト自体は含まれていない。テキストを含む完全なコーパスを復元するには「CD-毎日新聞'94データ集」を別途購入する必要がある。
Annotation.corpus
word segmentation, part-of-speech, syntax, word sense, co-reference
Creator
三菱電機株式会社
Contact person
GSK (言語資源協会)
Price
配布終了
Subject.language
日本語
Date
2010/2
Rights
教育・研究目的に限る
Format
1 CD-ROM (60,7MB)
Format.encoding
Shift_JIS
URI
http://www.gsk.or.jp/catalog/gsk2009-b/
Usage Case
(別ウィンドウに表示)
岩波国語辞典第五版コーパス
Type
Text
Description
本データは岩波国語辞典第五版における約5万6千の辞書項目をXML形式で表現したコーパスである。見出し語、語義の階層構造、辞書構造などがマークアップされている。
Annotation.corpus
structure of the dictionary
Creator
株式会社岩波書店
Contact person
GSK (言語資源協会)
Price
個人・GSK会員22,000円, 個人・非会員44,000円, 団体・会員44,000円, 団体・非会員88,000円
Subject.language
日本語
Date
2021/12
Rights
商用利用不可。教育・研究目的限定。
Format
1 CD-ROM
Format.encoding
UTF-8
URI
https://www.gsk.or.jp/catalog/gsk2021-d
現代日本語書き言葉均衡コーパス
Type
Text
Type.linguistics
annotation/
Description
現代日本語のテキスト集合からランダムサンプリングによって収集された均衡コーパス。生産実態(出版)サブコーパス(3500万語)、流通実態(図書館)サブコーパス(3000万語)、非母集団(特定目的)サブコーパス(3500万語)から構成される。一部のデータについては短単位による形態素解析結果を人手で修正した情報が付与されている。
Creator
国立国語研究所
Contact person
国立国語研究所 (kotonohaあっとninjal.ac.jp)
Subject.language
日本語
Date
2006-
URI
http://www.ninjal.ac.jp/kotonoha/index.html
Usage Case
(別ウィンドウに表示)
日本語話し言葉コーパス
Type
Text
Description
日本語の自発音声を大量にあつめて多くの研究用情報を付加した話し言葉研究用のデータベース。660時間の自発音声の音声データ、700万語の書き起こしテキスト、その品詞が収録されている。さらに、45時間(50万語)のコアと呼ばれるデータについては、分節音ラベルとイントネーションラベルが付与されている。
Creator
国立国語研究所, 情報通信研究機構, 東京工業大学
Contact person
国立国語研究所
Price
25,000円(学術利用,学生), 50,000円(学術利用,大学・研究機関), 250,000円(学術利用,企業), 個別交渉(商用利用), 税別
Subject.language
日本語
URI
http://www.ninjal.ac.jp/products-k/katsudo/seika/corpus/
Usage Case
(別ウィンドウに表示)
NAIST Text Corpus
Type
Text
Description
京都テキストコーパスで利用されている毎日新聞1995年記事約4万文に対して、述語と表層格(ガ格,ヲ格,ニ格)の関係、事態性名詞と表層格(ガ格,ヲ格,ニ格)の関係、事態性名詞の名詞クラス、名詞句間の共参照関係、指示連体詞・代名詞の照応関係の情報を付与したコーパス。アノテーションのみ公開している。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学院大学 自然言語処理学講座
Price
フリー
Subject.language
日本語
Date
2006-
Relation
Requires 毎日新聞CD-ROM (1995年) Requires 京都大学テキストコーパス
URI
http://cl.naist.jp/nldata/corpus/
日本語言明間意味的関係コーパス Version 1.0
Type
Text
Type.linguistics
annotation/corpus
Description
対象の言明間の意味的関係を付与したコーパス。
Creator
東北大学 乾・岡崎研究室
Contact person
東北大学 乾・岡崎研究室
Subject.language
日本語
Rights
契約が必要
URI
http://www.cl.ecei.tohoku.ac.jp/stmap/sem_corpus.html
OpenMWE for Japanese - コーパス
Type
Text
Type.linguistics
annotation/corpus
Description
慣用句同定タスク(文中の句が慣用句なのか文字通りの意味の句なのかを区別するタスク)用に設計されたコーパス。各用例には慣用句が文字通りの意味なのかを示すラベルが与えられる。原則として1つの慣用句あたり1000個の用例が用意されている。
Creator
橋本力, 河原大輔
Contact person
橋本力, 河原大輔
Price
フリー
Subject.language
日本語
URI
http://openmwe.sourceforge.jp/pukiwiki-j/index.php?Corpus
日英中基本文データ
Type
Text
Description
京都大学格フレームをベースに日本語の基本的な文を自動抽出し、人手で修正を行った5304文。また、これら日本語基本文データを英語と中国語に翻訳した文のセット。
Creator
京都大学黒橋・河原研究室 / NICTマスタープロジェクト多言語翻訳研究室
Contact person
京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
Price
フリー
Subject.language
日本語, 英語, 中国語
Date
2011
Rights
Creative Commons Attribution 3.0 Unported
Format
Excel file
URI
http://nlp.ist.i.kyoto-u.ac.jp/index.php?%E6%97%A5%E8%8B%B1%E4%B8%AD%E5%9F%BA%E6%9C%AC%E6%96%87%E3%83%87%E3%83%BC%E3%82%BF
Usage Case
(別ウィンドウに表示)
Konan-JIEM Learner Corpus Sixth Edition
Type
Text
Description
日本人英語学習者の233エッセイから成るコーパス。付加情報として、文法誤り情報、品詞統語情報を含む。また、誤り検出・訂正ワークショップ(EDCW2012)の成果である自動誤り訂正情報、およびその際に使用されたシステム(ソースコード、実行形式)を収録している。
Annotation.corpus
part-of-speech, syntax, error correction
Creator
甲南大学知能情報学部永田研究室, 教育測定研究所
Contact person
GSK (言語資源協会)
Price
個人・GSK会員22,000円, 個人・非会員44,000円, 団体・会員44,000円, 団体・非会員88,000円
Subject.language
英語
Date
2019/5
Rights
商用利用不可。教育・研究目的に限る。
Format
1 CD-ROM
URI
http://www.gsk.or.jp/catalog/gsk2019-a/
模擬診療録テキスト・データ
Type
Text
Type.linguistics
annotation/corpus
Description
模擬患者診療記録からテキスト部分を抜粋したデータ。さらに、模擬テキストのうち医師が記述すべき文章について、年齢、症状名、病院名、場所名、人名、日時、などの情報が付与されている。使用期限は2016年3月31日までとなっている。
Creator
教育用電子カルテ共同利用協議会, 東京大学 知の構造化センター 荒牧研究室
Contact person
GSK (言語資源協会)
Price
GSK会員は無料, 非会員は33,000円
Subject.language
日本語
Date
2013/2
Format
1 file (220KB, zip archive)
Format.encoding
UTF-8
URI
http://www.gsk.or.jp/catalog/gsk2012-d/
Usage Case
(別ウィンドウに表示)
REXコーパス
Type
Text
Type.linguistics
annotation/corpus
Description
REXコーパスは2名が協力してコンピュータ上で図形パズルを解く過程を記録したコーパスである。REXコーパスには対話の条件設定によって6つのコーパスが含まれている。コーパスには音声、パズルを解く画面の動画、発話の書き起し、発話中のパズルピースを指す参照表現、対話者の視線、マウスの操作情報などが時間同期して記録されている。
Creator
東京工業大学 (大学院情報理工学研究科計算工学専攻 徳永研究室)
Contact person
GSK (言語資源協会)
Price
個人・GSK会員22,000円、個人・非会員44,000円、団体・会員44,000円、団体・非会員88,000円。(教育・研究・開発目的の場合)。GSK会員220,000円、非会員440,000円(商用目的の場合、別途契約が必要)。
Subject.language
日本語, 英語
Date
2013/5
Format
1 USB flash drive (14.9GB)
Format.encoding
UTF-8
URI
http://www.gsk.or.jp/catalog/gsk2013-a/
Usage Case
(別ウィンドウに表示)
アジア学術論文抜粋コーパス ASPEC
Type
Text
Type.linguistics
annotation/corpus
Description
約300万対訳文からなる日英論文抄録コーパス(ASPEC-JE)と約68万対訳文からなる日中論文抜粋コーパス(ASPEC-JC)から成る大規模な論文対訳コーパス。ASPEC-JE はJSTが所有する論文データベースの日本語と英語の抄録を集めたコーパスで、NICTが文の対応関係を自動的にタグ付けした。ASPEC-JCは日本語の学術論文の抜粋を中国語に人手で翻訳して作成された。
Annotation.corpus
sentence alignment
Creator
独立行政法人科学技術振興機構(JST), 独立行政法人情報通信研究機構(NICT)
Contact person
独立行政法人科学技術振興機構(JST)
Price
フリー
Subject.language
日本語, 英語, 中国語
Date
2014.1
Rights
研究目的のみ
URI
http://orchid.kuee.kyoto-u.ac.jp/ASPEC/
Usage Case
(別ウィンドウに表示)
拡張固有表現タグ付きコーパス
Type
Text
Type.linguistics
annotation/corpus
Description
国立国語研究所『現代日本語書き言葉均衡コーパス』(BCCWJ)のコアデータ(約2,000文書)および「CD-毎日新聞’95データ集」の新聞記事(約8,000記事)に対し、 関根の拡張固有表現階層を人手付与したコーパス。BCCWJでは、異なり約43,000(のべ約100,000)個、新聞記事では異なり約60,000(のべ約240,000)個の固有表現にタグ付けされている。本データは付加情報のみを提供し、テキスト自体は含まれていない。
Annotation.corpus
named entity
Creator
東京工業大学
Contact person
GSK (言語資源協会)
Price
GSK会員は無料, 非会員は33,000円
Subject.language
日本語
Date
2015/3
Format
1 CD-R
Relation
Requires 現代日本語書き言葉均衡コーパス Requires 毎日新聞CD-ROM (1995年)
URI
http://www.gsk.or.jp/catalog/gsk2014-a/
Usage Case
(別ウィンドウに表示)
「拡張固有表現+Wikipedia」データ
Type
Text
Description
日本語Wikipediaの全記事に拡張固有表現をタグ付けしたデータ。約2万項目は人手で作成、残りは機械学習でタグ付けをしている。
Annotation.corpus
named entity
Creator
ランゲージクラフト
Contact person
ランゲージクラフト (enewあっとlanguagecraft.com)
Price
有償
Subject.language
日本語
Date
2016.3
Format.markup
JSON
URI
http://www.languagecraft.com/enew/
Kyutechコーパス
Type
Text
Type.linguistics
annotation/
Description
4人の話者による意思決定タスク対話を収録したコーパス。書き起こした各発話にはその発話のトピックが振られている。また、議論内容の要約データも含まれている。
Creator
九州工業大学 嶋田研究室
Contact person
九州工業大学 嶋田研究室
Price
フリー
Subject.language
日本語
Date
2015
Rights
CC-BY-ND
URI
http://www.pluto.ai.kyutech.ac.jp/~shimada/resources.html
Usage Case
(別ウィンドウに表示)
JAISTタグ付き自由対話コーパス
Type
Text
Type.linguistics
annotation/
Description
人間同士の雑談における発話に対し、対話行為ならびに共感をタグ付けしたデータ。対話行為とは、話者の意図による発話の分類である。本コーパスでは「自己開示」「質問(YesNo)」「質問(What)」「応答(YesNo)」「応答(平叙)」「あいづち」「フィラー」「確認」「要求」の9種類の対話行為が付与されている。一方、共感は、ここでは相手に対する発話者の共感・非共感の有無による発話の分類を表す。本コーパスでは「共感」「非共感」「その他」の3種類のタグが付与されている。タグ付けした対話数は97、発話数は92,020である。
Annotation.corpus
dialog act, sympathy
Creator
北陸先端科学技術大学院大学(JAIST) 白井研究室
Contact person
GSK (言語資源協会)
Price
個人・GSK会員22,000円, 個人・非会員44,000円, 団体・会員44,000円, 団体・非会員88,000円
Subject.language
日本語
Date
2017/07
Rights
研究目的に限る
Format
1 CD-ROM
Format.encoding
EUC-JP
Format.markup
タブ区切りテキスト
Relation
Requires 日本語自然会話書き起こしコーパス (旧名大会話コーパス)
URI
http://www.gsk.or.jp/catalog/gsk2017-b/
Usage Case
(別ウィンドウに表示)
BTSJ日本語自然会話コーパス(トランスクリプト・音声) 2020年版
Type
Text
Type.linguistics
transcription/
Description
発話の重なりや沈黙など、語用論的分析に不可欠な情報を付与する『基本的な文字化の原則(BTSJ: Basic Transcription System for Japanese)』によって文字化した377の自然会話のトランスクリプトと音声を収録。
Creator
国立国語研究所(宇佐美まゆみ)
Contact person
『BTSJ日本語自然会話コーパス』事務局 (btsjcorpus(at)ninjal.ac.jp)
Price
無料
Subject.language
日本語
Date
2020/03/30
Rights
教育および学術的利用に限る
Format
xlsx
Format.encoding
EUC-JP
URI
https://ninjal-usamilab.info/btsj_corpus/
Usage Case
(別ウィンドウに表示)
ICNALE Learner Essays with Feedback Comments
Type
Text
Type.linguistics
annotation/
Description
ICNALE:The International Corpus Network of Asian Learners of English に対して、ライティング技術に関する解説文を人手で付与したコーパス。解説文の内容は、ライティング技術一般に関するものと前置詞の誤りのみを対象にしたものの二種類ある。解説文の記述言語は主に日本語である。追加情報として、一部の日本語解説文については、英語に翻訳するための対訳情報も提供する。
Creator
甲南大学知能情報学部言語処理研究室, 神戸大学石川慎一郎研究室
Contact person
GSK (言語資源協会)
Price
GSK会員は無料, 非会員は33,000円
Subject.language
英語, 日本語
Date
2019/10
Rights
教育・研究目的利用限定
Format
1 CD-R
Format.encoding
UTF-8
URI
https://www.gsk.or.jp/catalog/gsk2019-b
自然会話コーパス話題アノテーション情報
Type
Text
Type.linguistics
annotation/
Description
『名大会話コーパス』の文字化ファイルの全ての行に対する話題アノテーション情報。話題の種類や約100種類。(利用の際には『名大会話コーパス』を別途入手する必要がある)
Creator
J-TOCC科研研究者グル プ(代表者:京都教育大学 中俣尚己)
Contact person
GSK (言語資源協会)
Price
GSK会員は無料, 非会員は33,000円
Subject.language
日本語
Date
2020/7
Rights
教育・研究・開発(非営利)目的利用限定
Format
zip file (754KB)
URI
https://www.gsk.or.jp/catalog/gsk2020-b
訂正難易度情報付き文法誤り訂正システム評価データセット
Type
Text
Type.linguistics
annotation/
Description
文法誤り訂正システムの評価用データ。各誤りに訂正難易度の情報が付与されている。文法誤り訂正評価ツールGo-To-Scorerを用いることで、訂正難易度を考慮してシステムを評価することができる。また、同ツールにより、訂正難易度の情報を可視化することも可能である。なお、英文及び誤り情報は、 Konan-JIEM learner corpus 6th ed. (KJコーパス)から抽出したものである。
Creator
甲南大学知能情報学部言語処理研究室
Contact person
GSK (言語資源協会)
Price
個人・GSK会員22,000円、個人・非会員44,000円、団体・会員44,000円、団体・非会員88,000円。
Subject.language
英語, 日本語
Date
2020/12
Rights
商用利用不可。教育・研究目的限定。
Format
1 CD-ROM
Format.encoding
UTF-8
URI
https://www.gsk.or.jp/catalog/gsk2020-f
ICNALE-AS2R (ICNALE with Argumentative Structure and Sentence Reordering)
Type
Text
Type.linguistics
annotation/
Description
ICNALE (The International Corpus Network of Asian Learners of English)に収録されている英語エッセイから、文法誤りが修正されており、その評価が中程度のエッセイ434編を選択し、議論構造とエッセイを改善するための文順序の入れ替え情報を付与したデータ。
Creator
東京工業大学 情報理工学院 徳永健伸, 神戸大学石川慎一郎研究室
Contact person
GSK (言語資源協会)
Price
GSK会員は無料, 非会員は33,000円
Subject.language
英語
Date
2021/4
Rights
教育・研究目的利用限定
Format
Zip file (3.5MB)
Format.encoding
UTF-8
URI
https://www.gsk.or.jp/catalog/gsk2021-a
日本語小論文データ
Type
Text
Type.linguistics
annotation/
Description
日本語母語話者に対して小論文課題を提示して得られた小論文答案およびこれを採点したデータ。小論文のテーマは9つ、各テーマに対して1から3件の課題がある。小論文の字数制限は100字から800字の範囲で課題により設定されている。およそ4800件の採点済み小論文が収録されている。
Creator
岡山大学 阿保達彦, 飯塚誠也, 稲田佳彦, 上田均, 田口雅弘, 竹内孔一
Contact person
GSK (言語資源協会)
Price
GSK会員は無料, 非会員は33,000円
Subject.language
日本語
Rights
教育・研究・開発目的利用限定
Format
1 DVD-R (3.41GB)
URI
https://www.gsk.or.jp/catalog/gsk2021-b
Usage Case
(別ウィンドウに表示)
日本語学習者作文コーパス「なたね」
Type
Text
Type.linguistics
annotation/
Description
日本語学習者から収集した作文に対して2007年から2011年にかけて3名の日本語教師によって添削を行い、誤用タグを付与した学習者作文コーパス.学習者192人による285件の作文を収録している。作文テキストに対し、誤用タグの大分類として誤用の対象、内容、要因・背景、合わせて9,023件のアノーテーションがXML形式で記録されている。
Annotation.corpus
Error of learners
Creator
ひのきプロジェクト(代表: 仁科喜久子)
Contact person
GSK (言語資源協会)
Price
GSK会員は無料, 非会員は33,000円
Subject.language
日本語
Date
2021/10
Rights
教育・研究・開発目的利用限定。
Format
Zip file (1.6MB)
URI
https://www.gsk.or.jp/catalog/gsk2021-c
L2WS 2021 (L2 Written Summary 2021)
Type
Text
Type.linguistics
annotation/
Description
英語非母語話者に英語要約課題を提示して得られた要約とその元文書に対して、人手による Idea Unit アノテーションを付与したコーパスである。 本コーパスは、英語非母語話者である日本の大学学部生40名が作成した要約とその元文書1件を収録している。元文書は課題解決に関する解説記事であり、391語から成る。学生要約は英語アカデミック・ライティング授業の一環として、80語程度の要約課題を実施する形で収集された。
Annotation.corpus
Idea Unit
Creator
澤木 泰代 (早稲田大学)
Contact person
GSK (言語資源協会)
Price
GSK会員は無料, 非会員は33,000円
Subject.language
英語
Date
2022/08
Rights
研究目的利用限定。
Format
Zip file (152KB)
Format.encoding
UTF-8
URI
https://www.gsk.or.jp/catalog/gsk2022-a
ATR対話DB
Type
Text
Type.linguistics
transcription/dialogue
Description
会話の書き起こし文。同じ会話を日本語と英語で収録している。2種類のトピック(国際会議の予約, 旅行代理店と客の会話)、2種類の入力方法(電話会話、キーボード会話)の計4種類の会話がある。それぞれは1枚のCD-ROMに収録されている。
Creator
国際電気通信基礎技術研究所(ATR)
Contact person
ATR
Price
50,000円 (1 CD-ROM当たり, 研究用途)
Subject.language
日本語, 英語
Format
4 CD-ROM.
URI
http://www.red.atr.co.jp/database_main.html
英文ビジネスレター文例大辞典 CD-ROM版
Type
Text
Type.linguistics
annotation/corpus
Description
ビジネスレターを書くための日本語、英語の例文集。
Creator
日本経済新聞社
Contact person
日経出版販売(eizoあっとnikkeish.co.jp)
Price
70,000円
Subject.language
日本語, 英語
Date
1998
Format
1 CD-ROM.
Format.encoding
Shift_JIS
Format.markup
SGML
URI
http://www.nikkeish.co.jp/gengo/eibun.htm
勉誠データベース
Type
Text
Type.linguistics
annotation/corpus
Description
古文、和歌、漢文などのテキストデータ。約50テキスト。
Creator
勉誠データセンター
Contact person
勉誠データセンター(03-5351-3141)
Price
3,000-4,000円 (1フロッピーディスク当たり)
Subject.language
日本語
Format
1 floppy disk.
データノベルズ
Type
Text
Type.linguistics
annotation/corpus
Description
文学作品のテキストデータ。
Creator
コンピュータ出版
Publisher
コンピュータ出版
Contact person
コンピュータ出版(03-5486-9481)
Price
1,800 - 18,000円
Subject.language
日本語
Format
1 floppy disk.
青空文庫
Type
Text
Type.linguistics
annotation/corpus
Description
インターネットライブラリ。著作権の切れた文学作品など、多数の文学作品を入手することができる。
Publisher
http://www.aozora.gr.jp/
Contact person
aozoraあっとvoyager.co.jp
Price
フリー
Subject.language
日本語
URI
http://www.aozora.gr.jp/
Usage Case
(別ウィンドウに表示)
判例マスター
Type
Text
Type.linguistics
annotation/corpus
Description
1947年から1994年までの約95,000の判例を収録したテキストデータベース。半年に一度更新される。
Creator
新日本法規出版
Publisher
新日本法規出版
Contact person
新日本法規出版(052-211-1525)
Price
267,800円, 40,000円(更新)
Subject.language
日本語
特許公報類CD-ROM
Type
Text
Type.linguistics
annotation/corpus
Description
1994年からの特許の公開公報と公告公報のCD-ROM。年間約150枚のCD-ROMを発行している。
Creator
日本特許情報機構
Contact person
日本特許情報機構(03-3503-3900)
Price
13,500 - 20,600円 (1CD-ROM当たり)
Subject.language
日本語
Usage Case
(別ウィンドウに表示)
講談社和英辞典
Type
Text
Type.linguistics
annotation/corpus
Description
講談社和英辞典のテキストコーパス。38,000文の日英対訳例文を含む。産業技術総合研究所と使用のための誓約書を取り交わす必要がある。
Creator
講談社
Contributor
橋田浩一
Contact person
橋田浩一(hasida.kあっとaist.go.jp)
Price
フリー
Subject.language
日本語
Language
英語
Usage Case
(別ウィンドウに表示)
ZenBase CD-ROM
Type
Text
Type.linguistics
annotation/corpus
Description
禅籍テキストのCD-ROM。
Creator
国際禅学研究所
Contact person
国際禅学研究所(ursappあっとmbox.kyoto-inet.or.jp)
Price
1,000円
Subject.language
日本語
Format.encoding
ISO-2022-JP(JISコード)
パワーシフト コーパス G1-2009
Type
Text
Description
各年代性別の一般人を被験者=作者として、当社指定の会場内にて、ビジネス、及びプライベートな内容についてのメール文を当社指定の携帯電話・PCを利用して模擬的に作成してもらった収集文書。
Creator
株式会社 ストレードワード
Publisher
株式会社 パワーシフト
Contact person
株式会社 パワーシフト (http://www.powershift.co.jp/company/form.html)
Price
880,000円 (税別)
Subject.language
日本語
URI
http://www.powershift.co.jp/it/corpus.html
甲南大学 こどもコーパス
Type
Text
Description
こどもコーパスは、児童が書いた文章から成るコーパスである。小学生66人を対象にして、8ヶ月間にわたって収集した言語データを収録している。
Creator
甲南大学 知能情報学部 Edu-miningチーム
Contact person
GSK (言語資源協会)
Price
言語資源協会会員に限り無料配布
Subject.language
日本語
Date
2010/5
Rights
教育・研究目的に限る
Format
1 file (260KB, zip archive)
Format.encoding
EUC-JP
URI
http://www.gsk.or.jp/catalog/gsk2010-b/
CASTEL/J CD-ROM V1.5
Type
Text
Description
CASTEL/J(日本語教育支援システム研究会)が開発した日本語教育用データとデータベース。書籍、白書、映画の台本、漢字データベース、和英辞書データベースなどからなる。
Creator
日本語教育支援システム研究会 (CASTEL/J)
Contact person
GSK (言語資源協会)
Price
個人・GSK会員22,000円, 個人・非会員44,000円, 団体・会員44,000円, 団体・非会員88,000円
Subject.language
日本語
Date
2009/8
Rights
教育・研究目的に限る
Format
1 CD-ROM (594MB)
Format.encoding
Shift_JIS
URI
http://www.gsk.or.jp/catalog/gsk2009-a/
日本語自然会話書き起こしコーパス (旧名大会話コーパス)
Type
Text
Type.linguistics
transcription/
Description
日本語母語話者同士の雑談を文字化した会話データ。120件、合計約100時間分の会話が収録されている。
Creator
大曾 美恵子
Price
フリー
Subject.language
日本語
Date
2003
Format.encoding
EUC-JP
URI
https://nknet.ninjal.ac.jp/nknet/ndata/nuc/
Usage Case
(別ウィンドウに表示)
分類語彙表 増補改訂版 データベース
Type
Text
Type.linguistics
lexicon/thesaurus
Description
語を意味によって分類・整理したシソーラス(類義語集)。書籍版の『分類語彙表 −増補改訂版−』の元となったデータを加工したもの。レコード総数はおよそ100,000件。
Creator
国立国語研究所
Price
フリー
Subject.language
日本語
Rights
学術研究用
Format
zip file
Format.encoding
Shift_JIS
Format.markup
カンマ区切り形式
URI
http://www.ninjal.ac.jp/publication/catalogue/goihyo/
Usage Case
(別ウィンドウに表示)
現代日本語名詞シソーラス
Type
Text
Type.linguistics
lexicon/thesaurus
Description
70,000語を含む現代日本語名詞のシソーラス。
Creator
荻野綱男
Contact person
荻野綱男 (http://www.chs.nihon-u.ac.jp/jp_dpt/ogino/)
Price
フリー (研究目的)
Subject.language
日本語
日本語語彙大系
Type
Text
Type.linguistics
lexicon/thesaurus
Description
機械翻訳システムALT-J/Eのために開発された日本語シソーラス。30万語の単語が3000種類の意味分類によって定義されている。また、14,000件の日本語文型パタンも収録されており、その全てに英語文型パタンが付与されている。
Creator
NTTコミュニケーション科学基礎研究所
Publisher
岩波書店
Contact person
NTTコミュニケーション科学基礎研究所 自然言語処理グループ (mtあっとcslab.kecl.ntt.co.jp)
Price
60,000 円
Subject.language
日本語, 英語
Format
CD-ROM
URI
http://www.kecl.ntt.co.jp/icl/mtg/resources/GoiTaikei/
Usage Case
(別ウィンドウに表示)
BioCaster ontology
Type
Text
Type.linguistics
lexicon/thesaurus
Description
伝染病関連の語に関するSUMO形式のオントロジー。27の重要伝染病の情報を含み、伝染病の名前だけで なく、それらを引き起こす病原菌や症状といったものも含まれる。対象言語は中国語、英語、日本語、韓国語、タイ語、ベトナム語である。全ての語に対する異表記の情報、またMeSH, SNOMED CT, Wikipediaといった主要な外部情報源へのリンクも含まれている。
Creator
国立情報学研究所 Nigel Collier 研究グループ
Contact person
竹内孔一 (岡山大学, koichiあっとcl.it.okayama-u.ac.jp), Nigel Collier and AI Kawazoe (情報学研究所, collierあっとnii.ac.jp)
Price
フリー
Subject.language
中国語,英語,日本語,韓国語,タイ語,ベトナム語
Date
2007
URI
http://biocaster.nii.ac.jp/index.php?page=downloads&lang=jp
日本語 WordNet
Type
Text
Description
日本語のワードネット。Princeton WordNet 3.0のsynsetに対して日本語が付与されている。49,190個の概念(synset), 85,966個の単語, 156,684個の語義(synsetと単語のペア)が収録されている。
Creator
独立行政法人 情報通信研究機構
Contact person
Francis Bond (jwordnetあっとgmail.com)
Price
フリー
Subject.language
日本語
URI
http://nlpwww.nict.go.jp/wn-ja/index.ja.html
Usage Case
(別ウィンドウに表示)
動詞項構造シソーラス
Type
Text
Type.linguistics
lexicon/verb thesaurus
Description
自然言語処理用の動詞辞書。4425語、7473語義に対し、動詞の意味分類、格フレーム、代表例文が付与されている。また、動詞の意味分類は階層構造を持つ。
Creator
竹内孔一, 乾健太郎, 藤田篤, 竹内奈央
Contact person
竹内孔一
Price
フリー
URI
http://cl.it.okayama-u.ac.jp/rsc/data/index.html
Usage Case
(別ウィンドウに表示)
IPAL辞書
Type
Text
Type.linguistics
lexicon/subcategorization dictionary
Description
日本語の基本動詞861, 基本形容詞136, 基本名詞1081語を収録した辞書。語の意味、形態素情報、文法カテゴリ、格フレーム、イディオムなどの情報が記載されている。現在はGSKを通じて入手可能。
Creator
情報処理振興事業協会 (IPA)
Contact person
GSK (言語資源協会)
Price
GSK会員は無料, 非会員は33,000円
Subject.language
日本語
Language
日本語
Date
1998
Format
11 MB.
Format.encoding
EUC-JP
URI
http://www.gsk.or.jp/catalog/gsk2007-d/
Usage Case
(別ウィンドウに表示)
EDR電子化辞書
Type
Collection
Description
日本語単語辞書、英語単語辞書、概念辞書、日本語共起辞書、英語共起辞書、日英対訳辞書、日中対訳辞書、英日対訳辞書、専門用語辞書の9つからなる電子化辞書。また、共起辞書の付録としてEDRコーパスがある。2010年に改訂版Ver.4.0がリリースされた。
Creator
日本電子化辞書研究所
Contact person
情報通信研究機構 (edr_infoあっとjsa.co.jp)
Subject.language
日本語, 英語
Language
日本語, 英語
Format
9 CD-ROM.
Relation
HasPart EDR日本語単語辞書 HasPart EDR英語単語辞書 HasPart EDR日英対訳辞書 HasPart EDR日中対訳辞書 HasPart EDR英日対訳辞書 HasPart EDR概念辞書 HasPart EDR日本語共起辞書 HasPart EDR英語共起辞書 HasPart EDR専門用語辞書
URI
http://www2.nict.go.jp/ipp/EDR/JPN/J_indexTop.html
Usage Case
(別ウィンドウに表示)
EDR日本語単語辞書
Type
Text
Type.linguistics
lexicon/
Description
単語の意味(概念)や文法属性を記載した辞書。約260,000の日本語単語を収録している。2010年に改訂版Ver.4.0がリリースされた。
Creator
日本電子化辞書研究所
Contact person
情報通信研究機構 (edr_infoあっとjsa.co.jp)
Price
50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
Subject.language
日本語
Language
日本語, 英語
Format
103 MB. 260,000 entries.
Format.encoding
EUC-JP
Relation
IsPartOf EDR電子化辞書
URI
http://www2.nict.go.jp/ipp/EDR/JPN/J_indexTop.html
Usage Case
(別ウィンドウに表示)
EDR英語単語辞書
Type
Text
Type.linguistics
lexicon/
Description
単語の意味(概念)や文法属性を記載した辞書。約190,000の英単語を収録している。2010年に改訂版Ver.4.0がリリースされた。
Creator
日本電子化辞書研究所
Contact person
情報通信研究機構 (edr_infoあっとjsa.co.jp)
Price
50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
Subject.language
英語
Language
英語, 日本語
Format
86 MB. 190,000 entries.
Format.encoding
EUC-JP
Relation
IsPartOf EDR電子化辞書
URI
http://www2.nict.go.jp/ipp/EDR/JPN/J_indexTop.html
EDR日英対訳辞書
Type
Text
Type.linguistics
lexicon/bilingual lexicon
Description
約240,000の日本語単語について、その対訳となる英単語を記載した辞書。日本語単語は意味によって区別されている。2010年に改訂版Ver.4.0がリリースされた。
Creator
日本電子化辞書研究所
Contact person
情報通信研究機構 (edr_infoあっとjsa.co.jp)
Price
50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
Subject.language
日本語
Language
英語, 日本語
Format
85 MB. 240,000 entries.
Format.encoding
EUC-JP
Relation
IsPartOf EDR電子化辞書
URI
http://www2.nict.go.jp/ipp/EDR/JPN/J_indexTop.html
Usage Case
(別ウィンドウに表示)
EDR日中対訳辞書
Type
Text
Type.linguistics
lexicon/bilingual lexicon
Description
約230,000の日本語単語について、その対訳となる中国語単語を記載した辞書。日本語単語は意味によって区別されている。2010年にリリースされた。
Creator
情報通信機構
Contact person
情報通信研究機構 (edr_infoあっとjsa.co.jp)
Price
50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
Subject.language
日本語
Language
中国語, 日本語
Date
2010
Format
85 MB. 240,000 entries.
Format.encoding
EUC-JP
Relation
IsPartOf EDR電子化辞書
URI
http://www2.nict.go.jp/ipp/EDR/JPN/J_indexTop.html
EDR英日対訳辞書
Type
Text
Type.linguistics
lexicon/bilingual lexicon
Description
約160,000の英単語について、その対訳となる日本語単語を記載した辞書。英単語は意味によって区別されている。2010年に改訂版Ver.4.0がリリースされた。
Creator
日本電子化辞書研究所
Contact person
情報通信研究機構 (edr_infoあっとjsa.co.jp)
Price
50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
Subject.language
日本語
Language
英語, 日本語
Format
53 MB. 160,000 entries.
Format.encoding
EUC-JP
Relation
IsPartOf EDR電子化辞書
URI
http://www2.nict.go.jp/ipp/EDR/JPN/J_indexTop.html
EDR概念辞書
Type
Text
Type.linguistics
lexicon/thesaurus
Description
概念辞書は、単語辞書に含まれる410,000の概念に関する情報を記載した辞書で、概念見出し辞書、概念体系辞書、概念記述辞書の3つから構成される。概念見出し辞書は概念の定義を記述している。概念体系辞書は、概念間の上位下位関係を記述したシソーラスである。概念記述辞書は、agent, implement, placeなどの概念間の意味的関係を記述した辞書である。2010年に改訂版Ver.4.0がリリースされた。
Creator
日本電子化辞書研究所
Contact person
情報通信研究機構 (edr_infoあっとjsa.co.jp)
Price
50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
Subject.language
日本語, 英語
Language
日本語, 英語
Format
97 MB. 410,000 entries.
Format.encoding
EUC-JP
Relation
IsPartOf EDR電子化辞書
URI
http://www2.nict.go.jp/ipp/EDR/JPN/J_indexTop.html
Usage Case
(別ウィンドウに表示)
EDR日本語共起辞書
Type
Text
Type.linguistics
lexicon/cooccurrence database
Description
共起する日本語単語対とそれらの意味的関係を記述した辞書。約930,000の単語またはフレーズが記載されている。2010年に改訂版Ver.4.0がリリースされた。
Creator
日本電子化辞書研究所
Contact person
情報通信研究機構 (edr_infoあっとjsa.co.jp)
Price
50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
Subject.language
日本語
Language
日本語
Format
445 MB. 930,000 entries.
Format.encoding
EUC-JP
Relation
IsPartOf EDR電子化辞書 HasPart EDR日本語コーパス
URI
http://www2.nict.go.jp/ipp/EDR/JPN/J_indexTop.html
Usage Case
(別ウィンドウに表示)
EDR英語共起辞書
Type
Text
Type.linguistics
lexicon/cooccurrence database
Description
共起する英語単語対とそれらの意味的関係を記述した辞書。約460,000の単語またはフレーズが記載されている。2010年に改訂版Ver.4.0がリリースされた。
Creator
日本電子化辞書研究所
Contact person
情報通信研究機構 (edr_infoあっとjsa.co.jp)
Price
50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
Subject.language
英語
Language
英語, 日本語
Format
242 MB. 460,000 entries.
Format.encoding
EUC-JP
Relation
IsPartOf EDR電子化辞書 HasPart EDR英語コーパス
URI
http://www2.nict.go.jp/ipp/EDR/JPN/J_indexTop.html
EDR専門用語辞書
Type
Text
Type.linguistics
lexicon/technical terminology
Description
情報処理に関する日本語と英語の専門用語を収録した辞書。日本語専門語辞書、英語専門語辞書、日英専門用語対訳辞書、英日専門用語対訳辞書、専門用語概念辞書、日本語専門用語共起辞書、英語専門用語共起辞書から構成されrている。119,000に日本語専門用語と78,000の英語専門用語が収録されている。2010年に改訂版Ver.4.0がリリースされた。
Creator
日本電子化辞書研究所
Contact person
情報通信研究機構 (edr_infoあっとjsa.co.jp)
Price
50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
Subject.language
日本語, 英語
Language
日本語, 英語
Format
145 MB. 197,000 entries.
Format.encoding
EUC-JP
Relation
IsPartOf EDR電子化辞書
URI
http://www2.nict.go.jp/ipp/EDR/JPN/J_indexTop.html
古典対照語彙表
Type
Text
Type.linguistics
lexicon/
Description
「徒然草」「方丈記」など、14の古典に現れた約23,000の自立語を収録した辞書。語の使用頻度も記載されている。
Creator
笠間書院
Publisher
笠間書院
Contact person
笠間書院(+81-3-3295-1331)
Price
6,695円
Subject.language
日本語
ICOT形態素辞書
Type
Text
Type.linguistics
lexicon/
Description
約120,000語を収録した形態素解析用辞書。表記、読み、品詞の情報がある。
Creator
新世代コンピュータ技術開発機構(ICOT)
Publisher
ftp://ftp.icot.or.jp
Price
フリー
Subject.language
日本語
Language
日本語
Format.encoding
ISO-2022-JP(JISコード)
URI
ftp://ftp.icot.or.jp/ifs/README.j
Usage Case
(別ウィンドウに表示)
ライフサイエンス辞書
Type
Text
Type.linguistics
lexicon/
Description
ライフサイエンス用語の日本語と英語の辞書。
Creator
ライフサイエンス辞書プロジェクト
Contributor
京都大学薬学部 / 国立遺伝研究所
Publisher
http://lsd.pharm.kyoto-u.ac.jp
Contact person
ライフサイエンス辞書プロジェクト(lsdあっとlsd.pharm.kyoto-u.ac.jp)
Price
フリー
Subject.language
日本語, 英語
URI
http://lsd.pharm.kyoto-u.ac.jp/index-J.html
Usage Case
(別ウィンドウに表示)
英語基本単語リスト
Type
Text
Type.linguistics
lexicon/
Description
Woo Lindaさんによって作成された5,000語の英語基本単語のリスト。
Creator
Woo, Linda
Contributor
外池俊幸
Publisher
http://www.lang.nagoya-u.ac.jp/~tonoike/linda5000.html
Contact person
外池俊幸(f43633aあっとnucc.cc.nagoya-u.ac.jp)
Price
フリー
Subject.language
英語
URI
http://www.lang.nagoya-u.ac.jp/~tonoike/linda5000.html
北大英語語彙表
Type
Text
Type.linguistics
lexicon/
Description
北海道大学によって作成された7,500語の英語基本語彙表。
Creator
北海道大学
Contact person
園田勝英(ksonodaあっとilcs.hokudai.ac.jp)
Price
フリー
Subject.language
英語
EDICT
Type
Text
Type.linguistics
lexicon/
Description
フリーで利用可能な日英対訳辞書。
Creator
The Electronic Dictionary Research and Development Group, Monash University
Contact person
Jim Breen (jwbあっとcsse.monash.edu.au)
Price
フリー(研究目的に限る)
Subject.language
Japanese, English
Format
about 106,000 entries
URI
http://www.csse.monash.edu.au/~jwb/edict_doc.html
Usage Case
(別ウィンドウに表示)
CICCマレーシア語基本語辞書
Type
Text
Type.linguistics
lexicon/
Description
マレーシア語の基本語70,000語を収録した辞書。品詞や文法的性質、対応する英語等が記述されている。基本語辞書の他に専門語辞書などを含む。
Creator
財団法人国際情報化協力センター
Contact person
GSK (言語資源協会)
Price
個人・GSK会員22,000円, 個人・非会員44,000円, 団体・会員44,000円, 団体・非会員88,000円
Subject.language
マレーシア語
Date
1995
Rights
学術目的の利用に限る
Format
1 CD-ROM
Format.encoding
Ascii code
URI
http://www.gsk.or.jp/catalog/gsk2006-a-1/
CICCインドネシア語基本語辞書
Type
Text
Type.linguistics
lexicon/
Description
インドネシア語の基本語50,000語を収録した辞書。品詞や文法的性質、対応する英語等が記述されている。基本語辞書の他にインドネシア語イディオム辞書、アクロニム辞書、専門語辞書を含む。
Creator
財団法人国際情報化協力センター
Contact person
GSK (言語資源協会)
Price
個人・GSK会員22,000円, 個人・非会員44,000円, 団体・会員44,000円, 団体・非会員88,000円
Subject.language
インドネシア語
Date
1995
Rights
学術目的の利用に限る
Format
1 CD-ROM
Format.encoding
Ascii code
URI
http://www.gsk.or.jp/catalog/gsk2006-a-2/
CICC中国語基本語辞書
Type
Text
Type.linguistics
lexicon/
Description
中国語の基本語50,000語を収録した辞書。内容は読み方と文法的性質で、対訳はない。基本語辞書の他に中国語専門語辞書を含む。
Creator
財団法人国際情報化協力センター
Contact person
GSK (言語資源協会)
Price
個人・GSK会員22,000円, 個人・非会員44,000円, 団体・会員44,000円, 団体・非会員88,000円
Subject.language
中国語
Date
1995
Rights
学術目的の利用に限る
Format
1 CD-ROM
Format.encoding
GB code
URI
http://www.gsk.or.jp/catalog/gsk2006-a-3/
CICCタイ語基本語辞書
Type
Text
Type.linguistics
lexicon/
Description
タイ語の基本語50,000語を収録。対応する英語も記述されている。他に共起辞書、専門語辞書も含む。
Creator
財団法人国際情報化協力センター
Contact person
GSK (言語資源協会)
Price
個人・GSK会員22,000円, 個人・非会員44,000円, 団体・会員44,000円, 団体・非会員88,000円
Subject.language
タイ語
Date
1995
Rights
学術目的の利用に限る
Format
1 CD-ROM
Format.encoding
TIS0 620-2529
URI
http://www.gsk.or.jp/catalog/gsk2006-a-4/
CICC専門語辞書
Type
Text
Type.linguistics
lexicon/
Description
マレーシア語、インドネシア語、中国語、タイ語の専門語辞書。コンピュータ、電気、工学、および関連分野の専門用語が収録されている。対訳日本語用語ファイル、対訳英語用語ファイルも含む。品詞、読みや数量単位、構文情報などが記述されている。
Creator
財団法人国際情報化協力センター
Contact person
GSK (言語資源協会)
Price
個人・GSK会員22,000円, 個人・非会員44,000円, 団体・会員44,000円, 団体・非会員88,000円
Subject.language
マレーシア語、インドネシア語、中国語、タイ語
Language
マレーシア語、インドネシア語、中国語、タイ語、英語、日本語
Date
1995
Rights
学術目的の利用に限る
Format
1 CD-ROM
Format.encoding
ASCII code, GB code, TIS 620-2529, EUC, Shift-JIS
URI
http://www.gsk.or.jp/catalog/gsk2006-a-5/
MUST1: 日本語複合辞用例データベース v1.0
Type
Text
Type.linguistics
lexicon/
Description
複合辞とその用例を収集したデータベース。複合辞の数は337項目で、最大50件の用例が含まれる。用例は新聞記事から採取された。毎日新聞の1995年度版CD-ROMを別途購入する必要がある。
Creator
グループMUST
Contact person
グループMUST (松吉俊、宇津呂武仁、佐藤理史、土屋雅稔)
Price
free
Subject.language
日本語
Date
2007
Relation
Requires 毎日新聞CD-ROM (1995年)
URI
http://nlp.iit.tsukuba.ac.jp/must/
Usage Case
(別ウィンドウに表示)
鳥バンク
Type
Text
Type.linguistics
lexicon/
Description
「日本語表現意味辞書−重文複文編−」(日英対訳の意味類型パターン辞書:22.7万パターン対)、ならびにそれに関連したドキュメントやプログラム。
Creator
日本語表現意味辞書等管理委員会
Price
フリー(研究目的に限る)
Subject.language
日本語
Date
2007
URI
http://unicorn.ike.tottori-u.ac.jp/toribank/
Usage Case
(別ウィンドウに表示)
日本語機能表現辞書つつじ
Type
Text
Type.linguistics
lexicon/
Description
日本語の機能表現(機能語と複合辞)のリスト。辞書は9レベルの階層を持ち、最下層における機能表現の数は16,801である。
Creator
松吉俊, 佐藤理史
Contact person
tsu90tsu80ji%sslab.nuee.nagoya-75u.ac.jp (数字をすべて削除し、%をあっとに置き換えて下さい。)
Price
フリー
Subject.language
日本語
Date
2007
Rights
Creative Commons 3.0, Attribution-Noncommercial-Share Alike
URI
http://kotoba.nuee.nagoya-u.ac.jp/tsutsuji/
Usage Case
(別ウィンドウに表示)
UniDic
Type
Text
Type.linguistics
lexicon/word
Description
日本語テキストを単語に分割し、形態論情報を付与するための電子化辞書。形態素解析器「茶筌(ChaSen)」「和布蕪(MeCab)」の辞書として利用できる。語彙素・語形・書字形・発音形・アクセントの情報が付与される。2009年7月現在、およそ15,000の語彙素が収録されている。
Creator
伝康晴, 山田篤, 小椋秀樹, 小磯花絵, 小木曽智信
Contact person
unidicあっとninjal.ac.jp
Price
フリー
Subject.language
日本語
Date
2007-
Relation
References 茶筌 References 和布蕪(MeCab)
URI
http://www.tokuteicorpus.jp/dist/
Usage Case
(別ウィンドウに表示)
評価値表現辞書
Type
Text
Type.linguistics
lexicon/evaluation expressions
Description
評価を表すために使われる可能性のある表現を集めた辞書。およそ5,200表現を収録している。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学院大学 自然言語処理学講座
Price
フリー
Subject.language
日本語
Date
2006
URI
http://www.syncha.org/evaluative_expressions.html
Usage Case
(別ウィンドウに表示)
NAIST English Dictionary
Type
Text
Type.linguistics
lexicon/word
Description
Penn Treebank 体系の品詞タグつき英語辞書。原形情報も付与されている。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学院大学 自然言語処理学講座
Price
フリー
Subject.language
英語
Date
2007
URI
http://sites.google.com/site/masayua/p/naist-edic
NAIST Japanese Dictionary
Type
Text
Type.linguistics
lexicon/word
Description
IPAdicの後継となる日本語辞書。固有名詞以外の全エントリの品詞の見直しを行っている。また、表記ゆれ情報、複合語の構造が付与されている。茶筌、MeCab用の辞書として使用できる。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学院大学 自然言語処理学講座
Price
フリー
Subject.language
日本語
Relation
References 茶筌 References 和布蕪(MeCab)
URI
http://sourceforge.jp/projects/naist-jdic/
NAIST Chinese Dictionary
Type
Text
Type.linguistics
lexicon/word
Description
約12万語からなる中国語形態素解析用辞書。MeCabの辞書として使うことができる。語彙項目には単語と品詞体系が含まれる。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学院大学 自然言語処理学講座
Subject.language
中国語
Rights
契約が必要
Relation
References 和布蕪(MeCab)
URI
http://cl.naist.jp/~masayu-a/ncd/
NAIST Japanese ENE Dictionary on Wikipedia
Type
Text
Type.linguistics
lexicon/named entity
Description
Wikipedia 中の見出し語に対し、NYU の関根氏が提案している拡張固有表現階層を付与した辞書。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学院大学 自然言語処理学講座
Price
フリー
Subject.language
日本語
URI
http://sites.google.com/site/masayua/p/naist-jene
京都大学格フレーム (Ver 2.0)
Type
Text
Type.linguistics
lexicon/subcategorization dictionary
Description
Webテキストから自動構築した大規模格フレーム。格フレームとは、用言とそれに関係する名詞を用言の各用法ごとに整理したもの。データはWeb上の約100億文の日本語テキストから自動的に構築され、約11万用言から構成される。言語資源協会の会員にのみ配布される。
Creator
京都大学 言語メディア研究室
Contact person
京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
Price
GSK会員に限る。無料。
Subject.language
日本語
Format
11 MB.
Format.encoding
EUC-JP
URI
http://www.gsk.or.jp/catalog/gsk2008-b/
Usage Case
(別ウィンドウに表示)
OpenMWE for Japanese - 慣用句リスト
Type
Text
Type.linguistics
lexicon/idioms
Description
日本語の926個の基本慣用句のリスト。慣用句は構文的な柔軟性の有無、意味的な曖昧性の有無によって分類されている。
Creator
橋本力, 河原大輔
Contact person
橋本力, 河原大輔
Price
フリー
Subject.language
日本語
URI
http://openmwe.sourceforge.jp/pukiwiki-j/index.php?Idioms
日本語基本語彙表JC2
Type
Text
Type.linguistics
lexicon/basic word
Description
日本語の基本的な単語のリスト。レベルA約2,800語、レベルB約3,000語の合計約5,800語を収録。狭義の「語」だけでなく、機能表現(機能語と複合辞)や慣用句も収録対象としている。
Creator
名古屋大学 佐藤研究室
Contact person
佐藤理
Price
フリー
Subject.language
日本語
URI
http://kotoba.nuee.nagoya-u.ac.jp/jc2/base/list
Usage Case
(別ウィンドウに表示)
基本慣用句五種対照表
Type
Text
Type.linguistics
lexicon/idiom
Description
日本語の基本的な慣用句のリスト。五種類の資料に、どのような慣用句が掲載されているかを調べ、その結果を対照表として整理したもの。3,629表現が収録されている。
Creator
佐藤理
Contact person
佐藤理
Price
フリー
Subject.language
日本語
URI
http://kotoba.nuee.nagoya-u.ac.jp/jc2/base/list
Usage Case
(別ウィンドウに表示)
日本語評価極性辞書(用言編)
Type
Text
Type.linguistics
lexicon/evaluation expressions
Description
用言を中心に収集した評価表現約5千件に対し、人手で評価極性情報を付与したデータ。ポジティブかネガチィブか、客観的か主観的かの組み合わせからなる4つの分類を評価極性タグとする。
Creator
東北大学 乾・岡崎研究室
Contact person
東北大学 乾・岡崎研究室
Price
フリー
Subject.language
日本語
Relation
References 評価値表現辞書
URI
http://www.cl.ecei.tohoku.ac.jp/index.php?%E5%85%AC%E9%96%8B%E8%B3%87%E6%BA%90%2F%E6%97%A5%E6%9C%AC%E8%AA%9E%E8%A9%95%E4%BE%A1%E6%A5%B5%E6%80%A7%E8%BE%9E%E6%9B%B8
Usage Case
(別ウィンドウに表示)
日本語評価極性辞書(名詞編)
Type
Text
Type.linguistics
lexicon/evaluation expressions
Description
評価極性を持つ約8,500の(複合)名詞に対して評価極性情報を付与したデータ。人手によるチェック済み。
Creator
東北大学 乾・岡崎研究室
Contact person
東北大学 乾・岡崎研究室
Price
フリー
Subject.language
日本語
URI
http://www.cl.ecei.tohoku.ac.jp/index.php?%E5%85%AC%E9%96%8B%E8%B3%87%E6%BA%90%2F%E6%97%A5%E6%9C%AC%E8%AA%9E%E8%A9%95%E4%BE%A1%E6%A5%B5%E6%80%A7%E8%BE%9E%E6%9B%B8
Usage Case
(別ウィンドウに表示)
京都大学名詞格フレーム
Type
Text
Type.linguistics
lexicon/subcategorization dictionary
Description
大規模な名詞格フレーム辞書。名詞格フレームとは、名詞とその意味を解釈する上で必須となる要素を名詞の語義ごとに整理したもの。Web上の約16億文の日本語テキストから自動的に構築しており、約16万名詞から構成されている。
Creator
京都大学 黒橋・河原研究室
Contact person
京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
Price
フリー
Subject.language
日本語
Format
68MB.
URI
http://nlp.ist.i.kyoto-u.ac.jp/index.php?%E4%BA%AC%E9%83%BD%E5%A4%A7%E5%AD%A6%E5%90%8D%E8%A9%9E%E6%A0%BC%E3%83%95%E3%83%AC%E3%83%BC%E3%83%A0
日本語アプレイザル評価表現辞書 - 態度評価編 -
Type
Text
Type.linguistics
lexicon/
Description
「愛する」「非道」などの評価表現(8,544語義)を肯定的か否定的か(評価極性)だけでなく、評価基準(愛情に関する基準・倫理に関する基準など)の種類によって分類・集約するための電子化辞書。
Creator
国立国語研究所 コーパス開発センター
Contact person
GSK (言語資源協会)
Price
フリー
Subject.language
日本語
Date
2011/9
Rights
教育・研究目的限定
Format
zip file
Format.encoding
UTF-8
URI
http://www.gsk.or.jp/catalog/gsk2011-c/
Usage Case
(別ウィンドウに表示)
GSK地名施設名辞書 第2版
Type
Text
Type.linguistics
lexicon/
Description
地名辞書、施設名辞書、ウェブ施設名辞書の3種からなる。「地名辞書」は、日本国内の地名(住所)117,075件について、ヨミ、ローマ字表記、慣用的表記揺れ、緯度・経度等を記述している。「施設名辞書」は、日本国内の美術館、博物館、テーマパークの合計1,000件について、名称、住所、異称、緯度・経度等を記述している。「ウェブ施設名辞書」は、ウィキペディア日本語版から日本国内の施設の名称、よみ、住所、カテゴリを取得し、整形して収録した辞書である。一部の施設名については緯度、経度も記載されている。レコードの総数は32,419件(うち、正確な緯度・経度を含むものが24,859件)である。施設の情報収集ならびに整形は自動で行われているため、誤りが含まれている可能性がある。
Creator
GSK (言語資源協会)
Contact person
GSK (言語資源協会)
Price
個人・GSK会員22,000円、個人・非会員44,000円、団体・会員44,000円、団体・非会員88,000円。(教育・研究・開発目的の場合)。GSK会員220,000円、非会員440,000円(商用目的の場合、別途契約が必要)。
Subject.language
日本語
Date
2009/2
Format
1 CD-ROM
Format.encoding
Shift_JIS
URI
http://www.gsk.or.jp/catalog/gsk2012-c/
Usage Case
(別ウィンドウに表示)
日本語複単語表現レキシコン(JMWEL)
Type
Text
Type.linguistics
lexicon/
Description
日本語の複単語表現、複単語ユニット、応用言語学における定型言語に関する総括的なデータベース。以下の18個の辞書から構成される。No.18を除いて解説書、形態素情報ファイル付き。 1.日本語名詞性複単語表現辞書 2.0版 「真っ赤な嘘」、「甘い見通し」など、日本語の名詞相当慣用的フレーズ、約23500種を収録、異表記形、形態的構造、構文的機能・構造、分離可能性などを記載した辞書。(8000円) 2.日本語動詞性複単語表現(1類)辞書 2.0版 「油を売る」、「腹が立つ」など、『名詞』+「が、に、を」+『動詞』の形式の慣用フレーズ、約36000種を収録、異表記形、形態的構造、構文的機能と構造、分離可能性などを記載したレキシコン。(23000円) 3.日本語動詞性複単語表現(2類)辞書 2.0版 「玉の輿に乗る」、「化けの皮が剥げる」など、1類、3類を除く日本語動詞相当慣用フレーズ、約13800種を収録し、異表記形、形態的構造、構文的機能と構造、分離可能性などを記載したレキシコン。(15000円) 4.日本語動詞性複単語表現(3類)辞書 2.0版 「喚き立てる」、「活気-づく」などの日本語複合動詞、約3700種を収録し、異表記形、形態・構文的構造などを記載したレキシコン。(7000円) 5.日本語形容詞性複単語表現辞書 2.0版 「気が小さい」、「機嫌が良い」などの日本語形容詞相当慣用フレーズ、約3700種を収録し、異表記形、形態的構造、構文的機能と構造、分離可能性などを記載したレキシコン。(11000円) 6.日本語形容動詞性複単語表現辞書 2.0版 「詮索好き」、「謹厳実直」などの日本語形容動詞語幹相当慣用的フレーズ、約2600種を収録し、異表記形、形態的構造、構文的機能と構造、分離可能性などを記載したレキシコン。(7000円) 7.日本語複単語連用修飾表現辞書 2.0版 「思いもよらず」、「気を付けて」などの連用修飾機能を持つ日本語慣用的フレーズ、約16200種を収録し、異表記形、形態的構造、構文的機能と構造、分離可能性などを記載したレキシコン。(15000円) 8.日本語複単語連体修飾表現辞書 2.0版 「世に云う」、「筋の通った」など、連体修飾機能を持つ日本語慣用的フレーズ、約16500種を収録し、異表記形、形態的構造、構文的機能と構造、分離可能性などを記載したレキシコン。(15000円) 9.日本語複単語談話指標・文副詞性表現辞書 2.0版 「そうは言っても」、「驚くべきことに」など、談話指標的、文接続詞的、あるいは文副詞的慣用フレーズ、約1200種を収録し、異表記形、形態的構造、構文的機能と構造、分離可能性などを記載したレキシコン。(9000円) 10.日本語複単語文末表現(助動詞、終助詞相当表現)辞書 2.0版 「〜べきだったんだけど」、「〜て頂けませんかね」など、日本語の述語に後接させて使われる助動詞性、あるいは終助詞性複単語慣用表現(広義のテンス、アスペクト、モダリティ、ポラリティ、ムードなどを与える表現)、約4900種を収録し、異表記形、形態的構造、構文的構造、意味素性などを記載したレキシコン。(23000円) 11.日本語複単語関係表現(格助詞、係助詞、副助詞、接続助詞相当表現)辞書 2.0版 「〜に関して」、「〜を犠牲に」、「〜た後に」など、日本語の名詞や述語に後接させて使われる格助詞、係助詞、副助詞、接続助詞相当複単語慣用表現(広義の格関係、接続関係を指示する表現)、約2700種を収録し、異表記形、形態的構造、構文的構造、用例などを記載したレキシコン。(16000円) 12.日本語慣用句辞書 2.0版 「油を売る」、「要領が良い」、「目と鼻の先」など、日本語で一般に慣用句とされる複単語表現、約4500種を収録し、異表記形、形態的構造、構文的機能・構造、用法などを記載したレキシコン。(17000円) 13.日本語格言・諺・成句・決まり文句辞書 2.0版 「亀の甲より年の功」、「壁に耳あり」、「郷に入っては郷に従え」など、日本語における格言、諺、成句、決まり文句などの複単語表現、約4000種を収録し、異表記形、形態的構造、構文的機能・構造、用法などを記載したレキシコン。(9000円) 14.日本語オノマトペ表現辞書 2.0版 「カチカチに凍る」、「ブルブル震える」など、日本語における擬声語、擬音語、擬態語とそれらを含む典型・慣用表現、約13000種を収録し、異表記形、形態的構造、構文的機能・構造、用法などを記載したレキシコン。(20000円) 15.日本語四字熟語機械辞書 2.0版 「切磋琢磨」、「一石二鳥」など、日本語の四字熟語、約3500種を収録し、異表記形、形態的構造、構文的機能・構造、用法などを記載したレキシコン。(8000円) 16.日本語慣用的不完全句辞書 2.0版 「猫に小判」、「病は気から」など、省略を含んだままよく使われる日本語不完全句、約470種を収録し、異表記形、形態的構造、構文的機能・構造、用法などを記載したレキシコン。(5000円) 17.日本語クランベリー表現辞書 2.0版 日本語で意味や用法の不明確な形態素(「しがみ付く」、「後ろめたい」の「しがみ」、「めたい」など、クランベリー型形態素)を含んだ表現(候補)、約180種を収録し、異表記形、形態的構造、構文的機能・構造、用法などを記載したレキシコン。(3000円) 18.日本語呼びかけ・応答・挨拶・独言・間投表現辞書 2.0版 「あらまあ」、「ウソ」、「ありがとう」、「お疲れ様」など、日本語の呼びかけ・応答・挨拶・独言・間投表現、約1050種を収録し、異表記形、形態的構造、構文的機能・構造、種別、用法、意味素性ベクトルなどを与えたレキシコン。(18000円)
Creator
日本語処理研究工房ことばの森(代表首藤公昭)
Price
フリー (学術研究利用)
Subject.language
日本語
URI
http://jefi.info
mecab-ipadic-NEologd (MeCab用新語辞書)
Type
Text
Type.linguistics
lexicon/
Description
多数のウェブ上の言語資源から得た新語を追加することでカスタマイズした形態素解析器MeCab用のシステム辞書。ウェブ上の文書の解析をする際には、この辞書と標準のシステム辞書(ipadic)を併用することが推奨される。
Creator
佐藤 敏紀
Contact person
佐藤 敏紀
Price
フリー
Subject.language
日本語
Date
2015-
Rights
Apache License, Version 2.0
Relation
Requires 和布蕪(MeCab)
URI
https://github.com/neologd/mecab-ipadic-neologd
Usage Case
(別ウィンドウに表示)
実践医療用語_語構成要素語彙試案表 Ver.1.0
Type
Text
Type.linguistics
lexicon/
Description
医療記録に含まれる合成語7,192語を構成する語構成要素6,380要素のリスト。語構成要素には、医療の観点からみた80種類の意味ラベルと、各語構成要素の語頭、語中、語末に出現する頻度(合成語7,192語中)、フリガナが付与されている。上記の語構成要素6,380要素をまとめたシートに加えて、概要と用語の説明を記載したシート、語構成要素を抽出した対象合成語7,192語をまとめたシート、そして80種類の意味ラベルをまとめたシートの計4シートからなるExcelファイルの形式で公開している。
Creator
JP18H03499科研研究グループ(代表者:西南女学院大学 相良かおる)
Contact person
GSK (言語資源協会)
Price
無料
Subject.language
日本語
Date
2021/3/31
Format
zip file (936KB)
URI
https://www.gsk.or.jp/catalog/gsk2020-g
中学校・高校教科書の語彙調査
Type
Text
Type.linguistics
lexicon/
Description
1974年と1980年の中学校・高校の教科書の語彙の調査結果のレポート。 語彙表データは「テレビ放送の語彙調査CD-ROM」に再録されている。
Creator
国立国語研究所
Subject.language
日本語
Relation
IsPartOf テレビ放送の語彙調査 CD-ROM
テレビ放送の語彙調査 CD-ROM
Type
Text
Type.linguistics
lexicon/
Description
1989年の4月から6月のテレビ放送、CM放送を対象とした語彙調査。26,000単語。付録として「中学校・高校教科書の語彙調査」の語彙表データも再録されてい る。
Creator
国立国語研究所
Publisher
大日本図書
Contact person
大日本図書 (03-3561-8679)
Price
2,500円
Subject.language
日本語
Format
1 CD-ROM
Format.encoding
Shift_JIS
Relation
HasPart 中学校・高校教科書の語彙調査
語の共起関係データ
Type
Text
Description
新聞記事から抽出された「名詞-格助詞-動詞」などの共起関係のデータ。1,160,000エントリ。
Creator
田中康仁
Contact person
田中康仁 (0794-27-5111)
Price
郵送費のみ
Subject.language
日本語
女性のことば・職場編
Type
Text
Type.linguistics
transcription/dialogue
Description
20代〜50代の女性19名の、職場における会話データ(約9時間分)を書き起こして収録。 ISBN 4-938669-93-5
Creator
現代日本語研究会
Publisher
ひつじ書房
Contact person
ひつじ書房 (03-5319-4916)
Price
3675円
Subject.language
日本語
Format
1 FD
男性のことば・職場編
Type
Text
Type.linguistics
transcription/dialogue
Description
20代〜50代の男性21名の、職場における会話データ(約12時間分)を書き起こして収録。 ISBN 4-89476-161-0
Creator
現代日本語研究会
Publisher
ひつじ書房
Contact person
ひつじ書房 (03-5319-4916)
Price
2940円
Subject.language
日本語
Format
1 CD-ROM
戦時中の話しことば −ラジオドラマ台本から−
Type
Text
Type.linguistics
transcription/dialogue
Description
1936-1955年に、日本放送協会から放送された小林勝脚本のラジオドラマ台本。 ISBN 4-89476-222-6
Creator
遠藤織枝ほか
Publisher
ひつじ書房
Contact person
ひつじ書房(03-5319-4916)
Price
3990円
Language
日本語
Format
1 CD-ROM
日本語母語話者の雑談における「物語」の研究
Type
Text
Type.linguistics
transcription/dialogue
Description
19〜35歳までの女性日本語母語話者のペアによる雑談を15組(約10時間)分書き起こして収録。 ISBN 978-4-87424-194-3
Creator
現代日本語研究会
Publisher
くろしお出版
Contact person
くろしお出版 (frontier_seriesあっとnifty.ne.jp)
Price
3990円
Language
日本語
Date
2000
Format
PDF
科学技術 日英・英日コーパス辞典
Type
Text
Description
科学技術・産業実務関係の書籍・雑誌・パンフレットなどから収集した英文約15000文例に日本語対訳を付与。 ISBN 4-621-04991-7
Annotation.document
keyword
Creator
富井篤
Publisher
丸善株式会社
Contact person
丸善株式会社
Price
18900 円
Subject.language
英語, 日本語
Format
1 CD-ROM
URI
http://pub.maruzen.co.jp/cd_others/ko-pas/index.html
Web日本語Nグラム第1版
Type
Text
Type.linguistics
n-gram
Description
Nグラムは一般に公開されている日本語のWebページでGoogleがクロールしたものから抽出されている。抽出対象となった文数は約200億文で、出現頻度20回以上の1 7グラムを収録している。
Creator
グーグル株式会社
Contact person
GSK (言語資源協会)
Price
個人・GSK会員22,000円, 個人・非会員44,000円, 団体・会員44,000円, 団体・非会員88,000円
Subject.language
日本語
Date
2007
Rights
学術目的の利用に限る
Format
6 DVD-ROM
Format.encoding
Unicode
URI
http://www.gsk.or.jp/catalog/gsk2007-c/
Usage Case
(別ウィンドウに表示)
Textual Entailment 評価データ
Type
Text
Type.linguistics
data collection
Description
日本語のRTE(Recognizing Textual Entailment)の評価データ。評価データは約2700セットからなり、それぞれに4値の推論判定が付与されている。また、それぞれの評価セットを包含、語彙(体言)、語彙(用言)、構文、推論の5つのカテゴリに分類している。
Creator
京都大学 黒橋・河原研究室
Contact person
京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
Price
フリー
Subject.language
日本語
Date
2010
URI
http://nlp.ist.i.kyoto-u.ac.jp/index.php?Textual%20Entailment%20%E8%A9%95%E4%BE%A1%E3%83%87%E3%83%BC%E3%82%BF
Baidu ブログ・掲示板時間軸コーパス
Type
Text
Type.linguistics
n-gram
Description
バイドゥ株式会社によってクロールされた掲示板の書き込みおよびブログの本文から抽出された日本語形態素Nグラム(1グラム〜3グラム)。2000年1月 2010年7月の期間における1ヶ月ごとの統計。
Creator
Baidu Japan
Price
フリー
Date
2010
Format.encoding
UTF-8
URI
http://www.baidu.jp/corpus/
Baidu 絵文字入りモバイルウェブコーパス
Type
Text
Type.linguistics
n-gram
Description
バイドゥ株式会社がモバイル検索に収集したWebデータを元に作成された日本語形態素 N-gram(1グラム〜5グラム)。絵文字の情報も形態素として含めている。
Creator
Baidu Japan
Price
フリー
Date
2010
Format.encoding
UTF-8
URI
http://www.baidu.jp/corpus/
楽天データ
Type
Text
Description
楽天が所有している様々なデータ。(1)楽天市場の全商品データ(5000万商品)。(2)楽天トラベルの施設データ(11,468施設)、レビューデータ(35万レビュー、34万評価)。(3)楽天GORAのゴルフ施設データ(1,669施設)、レビューデータ(32万レビュー)。NIIもしくはALAGINを通じて入手可能。
Creator
楽天技術研究所
Subject.language
日本語
Date
2010
URI
http://rit.rakuten.co.jp/rdr/index.html
Usage Case
(別ウィンドウに表示)
通訳データベース(JNPCコーパス)
Type
Text
Type.linguistics
multimordal
Description
公益社団法人・日本記者クラブで行われた通訳付きの記者会見における、登壇者の原発話(英語・日本語)と通訳者の訳出(同)を、映像、音声、文字情報を組み合わせた形でデータベース化したコーパス。原発話と訳出の書き起こしには自動音声認識技術が用いられている。記者会見は平均約1時間で、冒頭の発言ならびに質疑応答からなる。会見数は79件で、そのうち同時通訳が71件、逐次通訳が8件となっている。
Creator
通訳コーパス作成共同研究者グループ(代表・立教大学 松下佳世)
Contact person
GSK (言語資源協会)
Price
個人・GSK会員22,000円、個人・非会員44,000円、団体・会員44,000円、団体・非会員88,000円。
Subject.language
英語, 日本語
Date
2020/4
Rights
学術研究・学校教育目的使用限定
Format
1 USB flash drive (74.45GB)
URI
https://www.gsk.or.jp/catalog/gsk2020-a
Usage Case
(別ウィンドウに表示)
「国語研日本語ウェブコーパス」n-gram データ・頻度表
Type
Text
Type.linguistics
n-gram
Description
国立国語研究所が開発した258億語からなる日本語ウェブコーパスから抽出した n-gram の頻度表。文字 1-gram 〜 3-gram、単語 1-gram 〜 6-gram、形態論情報つき 1-gram からなる。形態素解析は MeCab-0.996 と UniDic-2.1.2 による。
Creator
人間文化研究機構 国立国語研究所 コーパス開発センター
Contact person
GSK (言語資源協会)
Price
会員・個人利用11,000円、会員・団体(非営利)利用22,000円、会員・団体(営利)利用44,000円。非会員・個人利用22,000円、非会員・団体(非営利)利用33,000円、非会員・団体(営利)利用66,000円。
Subject.language
日本語
Date
2020/9
Format
1 USB flash drive (20.36GB)
Format.encoding
UTF-8
Relation
References 「国語研日本語ウェブコーパス」NWJC2Vec References 「国語研日本語ウェブコーパス」NWJC-BERT
URI
https://www.gsk.or.jp/catalog/gsk2020-c
「国語研日本語ウェブコーパス」NWJC2Vec
Type
Text
Type.linguistics
word-embedding
Description
国立国語研究所が開発した258億語からなる日本語ウェブコーパスから訓練した word2vec および fastText による単語埋め込みデータ。200次元 CBOW (word2vec), 200次元 skip-gram (fastText), 300次元 CBOW (fastText), 300次元 skip-gram (fastText)からなる。形態素解析は MeCab-0.996 と UniDic-2.1.2 による。
Creator
人間文化研究機構 国立国語研究所 コーパス開発センター
Contact person
GSK (言語資源協会)
Price
会員・個人利用11,000円、会員・団体(非営利)利用22,000円、会員・団体(営利)利用44,000円。非会員・個人利用22,000円、非会員・団体(非営利)利用33,000円、非会員・団体(営利)利用66,000円。
Subject.language
日本語
Date
2020/9
Format
1 USB flash drive (5.45GB)
Format.encoding
UTF-8
Relation
References 「国語研日本語ウェブコーパス」n-gram データ・頻度表 References 「国語研日本語ウェブコーパス」NWJC-BERT
URI
https://www.gsk.or.jp/catalog/gsk2020-d
Usage Case
(別ウィンドウに表示)
「国語研日本語ウェブコーパス」NWJC-BERT
Type
Text
Type.linguistics
BERT-model
Description
国立国語研究所が開発した日本語ウェブコーパスから事前学習したBERTモデル。事前学習に使用したのは6単語以上の文226億語である。語彙は UniDic の機能語(語彙素)と UniDic 分類語彙表対応表中の語彙素で、計48,914語彙素からなる。形態素解析は MeCab-0.996 と UniDic-2.1.2 による。
Creator
人間文化研究機構 国立国語研究所 コーパス開発センター
Contact person
GSK (言語資源協会)
Price
会員・個人利用11,000円、会員・団体(非営利)利用22,000円、会員・団体(営利)利用44,000円。非会員・個人利用22,000円、非会員・団体(非営利)利用33,000円、非会員・団体(営利)利用66,000円。
Subject.language
日本語
Date
2020/9
Format
1 USB flash drive (1.5GB)
Format.encoding
UTF-8
Relation
References 「国語研日本語ウェブコーパス」n-gram データ・頻度表 References 「国語研日本語ウェブコーパス」NWJC2Vec
URI
https://www.gsk.or.jp/catalog/gsk2020-e
ATR音声データベース
Type
Collection
Description
6つのデータセットから構成される音声データベース。
Creator
国際電気通信基礎技術研究所(ATR)
Contact person
ATR
Subject.language
日本語, 英語
Relation
HasPart ATR音声DB(セットA) HasPart ATR音声DB(セットB) HasPart ATR音声DB(セットC) HasPart ATR音声DB(セットD) HasPart ATR音声DB(セットE) HasPart ATR音声DB(セットF)
URI
http://www.red.atr.co.jp/database_main.html
Usage Case
(別ウィンドウに表示)
ATR音声DB(セットA)
Type
Sound
Type.linguistics
transcription/read speech
Description
日本語読み上げ音声データ。20話者。8,500単語。
Creator
国際電気通信基礎技術研究所(ATR)
Contact person
ATR
Price
600,000円 (研究用途)
Subject.language
日本語
Format
1 CD-ROM.
Relation
IsPartOf ATR音声データベース
URI
http://www.red.atr.co.jp/database_main.html
ATR音声DB(セットB)
Type
Sound
Type.linguistics
transcription/read speech
Description
日本語読み上げ音声データ。10話者。503文。
Creator
国際電気通信基礎技術研究所(ATR)
Contact person
ATR
Price
350,000円 (研究用途)
Subject.language
日本語
Format
1 CD-ROM.
Relation
IsPartOf ATR音声データベース
URI
http://www.red.atr.co.jp/database_main.html
ATR音声DB(セットC)
Type
Sound
Type.linguistics
transcription/read speech
Description
日本語読み上げ音声データ。20話者。84タイトル。
Creator
国際電気通信基礎技術研究所(ATR)
Contact person
ATR
Price
600,000円 (研究用途)
Subject.language
日本語
Format
1 CD-ROM.
Relation
IsPartOf ATR音声データベース
URI
http://www.red.atr.co.jp/database_main.html
ATR音声DB(セットD)
Type
Sound
Type.linguistics
transcription/read speech
Description
日本語読み上げ音声データ。4話者。400文書。
Creator
国際電気通信基礎技術研究所(ATR)
Contact person
ATR
Price
270,000円 (研究用途)
Subject.language
日本語
Format
1 CD-ROM.
Relation
IsPartOf ATR音声データベース
URI
http://www.red.atr.co.jp/database_main.html
ATR音声DB(セットE)
Type
Sound
Type.linguistics
transcription/read speech
Description
英語読み上げ音声データ。4話者。5,000単語。
Creator
国際電気通信基礎技術研究所(ATR)
Contact person
ATR
Price
270,000円 (研究用途)
Subject.language
英語
Format
1 CD-ROM.
Relation
IsPartOf ATR音声データベース
URI
http://www.red.atr.co.jp/database_main.html
ATR音声DB(セットF)
Type
Sound
Type.linguistics
transcription/read speech
Description
英語読み上げ音声データ。6話者。1,100文。
Creator
国際電気通信基礎技術研究所(ATR)
Contact person
ATR
Price
600,000円 (研究用途)
Subject.language
英語
Format
1 CD-ROM.
Relation
IsPartOf ATR音声データベース
URI
http://www.red.atr.co.jp/database_main.html
ATR自然発話・言語DB
Type
Sound
Type.linguistics
transcription/dialogue
Description
旅行代理店と顧客の模擬対話を収録した音声データ。5つのセットから成る。日本語での会話が892、日本語と英語での会話が618。書き起こし文と形態素情報も付加されている。
Annotation.corpus
word segmentation, part-of-speech
Creator
国際電気通信基礎技術研究所(ATR)
Contact person
ATR
Price
180,000円 (1セット当たり, 研究用途)
Subject.language
日本語, 英語
Format
4 CD-ROM.
URI
http://www.red.atr.co.jp/database_main.html
ATR多数話者音声DB
Type
Collection
Description
多数話者による音声データ。
Creator
国際電気通信基礎技術研究所(ATR)
Contact person
ATR
Subject.language
日本語
Relation
HasPart ATR多数話者音声DB(模擬会話) HasPart ATR多数話者音声DB(音素バランス文) HasPart ATR多数話者音声DB(辞書データ)
URI
http://www.red.atr.co.jp/database_main.html
Usage Case
(別ウィンドウに表示)
ATR多数話者音声DB(模擬会話)
Type
Sound
Type.linguistics
transcription/conversation
Description
多数の話者による音声データベース。3,774人の話者が会議のスケジューリングに関する模擬対話を行った。4つのセットから構成される。
Creator
国際電気通信基礎技術研究所(ATR)
Contact person
ATR
Price
180,000円 (1セット当たり, (研究用途), 1,000,000円 (1セット当たり, 商品化用途)
Subject.language
日本語
Format
3-5 CD-ROM per a set.
Relation
IsPartOf ATR多数話者音声DB
URI
http://www.red.atr.co.jp/database_main.html
ATR多数話者音声DB(音素バランス文)
Type
Sound
Type.linguistics
transcription/read sentence
Description
多数の話者による音声データベース。3,774人の話者が音素バランス文の読み上げを行った。4つのセットから構成される。
Creator
国際電気通信基礎技術研究所(ATR)
Contact person
ATR
Price
180,000円 (1セット当たり, 研究用途), 1,000,000円 (1セット当たり, 商品化用途)
Subject.language
日本語
Format
7-10 CD-ROM per a set.
Relation
IsPartOf ATR多数話者音声DB
URI
http://www.red.atr.co.jp/database_main.html
ATR多数話者音声DB(辞書データ)
Type
Sound
Type.linguistics
transcription/read sentence
Description
多数の話者による音声データベース。3,770人の話者が辞書データの読み上げを行った。
Creator
国際電気通信基礎技術研究所(ATR)
Contact person
ATR
Price
180,000円 (研究用途), 1,000,000円 (商品化用途)
Subject.language
日本語
Format
5 CD-ROM.
Relation
IsPartOf ATR多数話者音声DB
URI
http://www.red.atr.co.jp/database_main.html
日本音響学会研究用連続音声データベース
Type
Sound
Type.linguistics
transcription/dialogue
Description
次の3つデータから成る音声データベース。(a) ATR 音素バランス 503文, 64話者(男性30名, 女性34名), のべ9600文。(b) 案内タスク文, 36話者(男性18名, 女性18名), のべ12474文。(c) 模擬対話37対話, 書き起こしテキスト付き, 37話者(男性29名, 女性8名)
Creator
日本音響学会
Contact person
西垣繁雄(〒105 港区芝公園3-5-8 機会振興会舘内 (財)日本情報処理開発協会 AIファジー振興センター tel 03-3432-9390, fax 03-3431-4324)
Price
3090円+送料
Subject.language
日本語
Format
7 CD-ROM. Sampling: 16kHz, 16bits.
Usage Case
(別ウィンドウに表示)
日本音響学会 新聞記事読み上げ音声コーパス(JNAS)
Type
Sound
Type.linguistics
transcription/dialogue
Description
JNASとはJapanese Newspaper Article Sentencesの略。このコーパスは、毎日新聞記事とATR 音素バランス503文を306人の話者(男女そ れぞれ153名)が読み上げたデータとそのテキストから構成さ れている。発話はすべて日本語である。
Creator
日本音響学会
Contact person
メディアドライブ株式会社 宮井千代子 chiyokoあっとmediadrive.co.jp
Price
実費
Subject.language
日本語
Format
16 CD-ROM. Sampling: 16kHz, 16bits.
URI
http://www.milab.is.tsukuba.ac.jp/jnas/
Usage Case
(別ウィンドウに表示)
電総研道案内対話音声コーパス 1998
Type
Sound
Type.linguistics
transcription/dialogue
Description
Wizard of Oz (WOZ) 法によって、自動推論エンジンを実装した機械と人間との間の、道案内についての対話を記録したコーパス。人間と機械の間の自然なやりとりを可能にさせる要素、たとえば、発話の番の交換・うなずき・割り込み・割り込みへの適切な対応などを分析できるように設計されている。 33 名の話者による162 対話のデータを含んでおり、対話データは全部で1000 分以上になる。本コーパスは、音声データ・書き起こし・発話の始端と終端・発話の意味表現からなる。
Creator
独立行政法人 産業技術総合研究所
Contact person
GSK (言語資源協会)
Price
個人・会員33,000円, 個人・非会員66,000円, 団体・会員66,000円, 団体・非会員132,000円
Subject.language
日本語
Date
1998
Rights
研究目的使用限定
Format
1 DVD-R (3.66GB)
Format.encoding
UTF-8
URI
http://www.gsk.or.jp/catalog/gsk2012-b/
電総研音素バランス単語セット WD-I & II
Type
Sound
Type.linguistics
transcription/word
Description
音素バランス単語セットの単語を男性話者が読み上げた音声データ。WD-Iは492語、WD-IIは1,542語から成る。WD-IはWD-IIの部分集合である。
Creator
電子技術総合研究所(現 産業技術総合研究所)
Contact person
田中 和世(kaz.tanakaあっとaist.go.jp)
Price
郵送費
Subject.language
日本語
URI
http://unit.aist.go.jp/is/speech/etlwd12a.html
電子協日本語共通音声データ--DAT版--
Type
Sound
Description
このコーパスは110音節、178単語、35個の4桁数字、計323個の単語を4回ずつ読み上げたデータである。録音時間は120時間で、76本のDATカセットに収められている。それぞれの単語は20歳から60歳の男女各75名ずつによって発音されている。合計のサンプル数は193,800である。
Creator
日本電子工業振興協会(現 電子情報技術産業協会)
Contact person
佐々木氏( サンライズミュージック, 〒106 東京都港区六本木 4-11-10 六本木富士ビル4階, Tel: 03-3408-6541, Fax: 03-3408-1505)
Subject.language
日本語
Format
Sampling: 44kHz, 16bits.
連続音声(文科省 科研費 試験研究)
Type
Sound
Type.linguistics
transcription/
Description
様々な単音節, 単語, 短文, 文章を6名の男女によって読み上げた音声データ。
Creator
筑波大学 板橋研究室
Contact person
板橋秀一(itahashiあっとmilab.is.tsukuba.ac.jp)
Price
フリー(CD-ROM版, 研究者のみ), 70,000円(DAT版)
Subject.language
日本語
Format
CD-ROM or DAT. Sampling: 16kHz, 16bit.
方言音声データベース
Type
Sound
Description
日本語の方言の音声データベース。大学、官公庁研究所に限る。
Creator
田原 広史(大阪樟蔭女子大学), 江川 清(国立国語研究所)
Contributor
文科省 科研費 重点領域 「日本語音声」
Contact person
田原 広史(大阪樟蔭女子大学. Tel. 06-723-8181, Fax. 06-723-8881), 江川 清(国立国語研究所, Tel. 03-3900-3111, Fax. 03-3906-3530)
Subject.language
日本語
Format
19 Audio CD. 3 CD-ROM.
重点領域研究 音声対話コーパス
Type
Sound
Type.linguistics
transcription/dialogue
Description
93対話の音声データと書き起こしテキスト。
Creator
堂下修司
Contributor
文科省 科研費 重点領域 「音声・言語・概念の統合的処理による対話の理解と生成に関する研究」
Contact person
メディアドライブ株式会社(juten-corpusあっとmediadrive.co.jp)
Price
10,000 円
Subject.language
日本語
Format
4 CD-ROM.
URI
http://winnie.kuis.kyoto-u.ac.jp/taiwa-corpus/
RWCP-DB-SPEECH-96-I (RWC音声対話データベース)
Type
Sound
Type.linguistics
transcription/dialogue
Description
「海外旅行計画」24対話、「車の購入」24対話の音声波形と書き起こしテキスト。 現在、配布は一時停止されている。
Creator
Real World Computing Partnership, Japan
Subject.language
日本語
Format
4 CD-ROM.
東北大 -- 松下単語音声データベース
Type
Sound
Description
単語音声データベース。大学、官公庁研究所に限る。
Creator
牧野正三, 二矢田勝行, 真船裕雄, 城戸健一
Contact person
牧野 正三(東北大学, Tel. +81-22-262-3469, Fax. +81-22-262-3469)
早大白井研 100地名単語データベース
Type
Sound
Description
100個の地名の単語の音声データベース。12人の男性が2回ずつ読み上げた。
Creator
早稲田大学白井研究室
Contact person
大平 茂輝 (ohiraあっとshirai.info.waseda.ac.jp)
Subject.language
日本語
Format
Sampling: 12.5kHz, 12bit.
京大堂下研 音素バランス単語セット
Type
Sound
Description
音素バランス単語セットを男性28名、女性16名が読み上げたデータ。
Creator
京都大学堂下研究室
Contact person
河原 達也 (kawaharaあっとkuis.kyoto-u.ac.jp)
Format
Sampling: 16kHz, 16bit.
パワーシフト コーパス V1-2009
Type
Sound
Description
高齢者男女を被験者=話者として、当社指定のスタジオにて、「大正・昭和初期の思い出や子供の頃の遊びについて」という内容で、独白・自然発話の形で語ってもらった収録音声。
Creator
株式会社 ストレードワード
Publisher
株式会社 パワーシフト
Contact person
株式会社 パワーシフト (http://www.powershift.co.jp/company/form.html)
Price
550,000円 (税別)
Subject.language
日本語
URI
http://www.powershift.co.jp/it/corpus.html
対照群付き高齢者コーパス
Type
Sound
Type.linguistics
transcription/
Description
高齢者群(60-79歳)60名と対照群である非高齢者群(20-59歳)20名の合計80名の実験参加者に対し、インタビューの回答を収集したデータセット。インタビューの内容は「最近あった楽しい出来事を教えて下さい」など、自己のエピソードに関する10個の質問について語る自然文課題、呈示されたイラストについて描写するイラスト描写課題、呈示された短いアニメについて描写するアニメ描写課題の3種類である。回答の音声データが収録されている。一部の質問に対する回答についてはサンプルとして書き起こしテキストファイルが収録されている。
Creator
奈良先端科学技術大学院大学 ソーシャル・コンピューティング研究室
Contact person
GSK (言語資源協会)
Price
無料(GSK会員にのみ配布)
Subject.language
日本語
Date
2018/12
Format
1 DVD-R
Format.encoding
wav, Shift_JIS
URI
https://www.gsk.or.jp/catalog/gsk2018-a
Usage Case
(別ウィンドウに表示)
JUMAN
Type
Software
Type.functionality
morphological analyzer
Description
ユーザによる拡張可能な日本語形態素解析ツール。最新のバージョンは7.0 (2012年1月現在)。
Creator
京都大学 黒橋・河原研究室
Contact person
京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
Price
フリー
Subject.language
日本語
Format
4 MB.
Format.os
unix,MSWindows
Format.sourcecode
C
URI
http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN
Usage Case
(別ウィンドウに表示)
JUMAN++
Type
Software
Type.functionality
morphological analyzer
Description
言語モデルを利用した高性能な日本語形態素解析システム。言語モデルとして Recurrent Neural Network Language Model (RNNLM) を用いることにより、単語の並びの意味的な自然さを考慮した解析を行う。それにより JUMAN、MeCab に比べ大きく性能が向上している。文法・辞書・出力フォーマット等は JUMAN から引き継いだものを利用している。
Creator
京都大学 黒橋・河原研究室
Contact person
京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
Price
フリー
Subject.language
日本語
Format
631 MB.
Format.os
unix
Format.sourcecode
C++
Relation
References JUMAN
URI
http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN%2B%2B
茶筌
Type
Software
Type.functionality
morphological analyzer
Description
茶筌はフリーの日本語形態素解析ツールである。JUMANに改良を加え、ツールとしての完成度を飛躍的に向上させた。奈良先端科学技術大学院大学 情報科学研究科 計算言語学研究室によって1997年2月19日にver.1.0がリリースされた。最新のバージョンは2002年2月8日にリリースされたver. 2.2.9である。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学 自然言語処理学講座(chasenあっとis.aist-nara.ac.jp)
Price
フリー
Subject.language
日本語
Format
3.3MB.
Format.os
unix,MSWindows
Format.sourcecode
C
URI
http://chasen.naist.jp/hiki/ChaSen/
Usage Case
(別ウィンドウに表示)
すもも
Type
Software
Type.functionality
morphological analyzer
Description
日本語の形態素解析ツール。最適解のみを高速に出力するようにカスタマイズされている。単純な未知語処理も行う。
Creator
NTTコミュニケーション科学研究所
Contact person
鷲坂光一 (wasisakaあっとnttlabs.com), 山崎憲一 (yamazakiあっとt.onlab.ntt.co.jp)
Price
フリー
Subject.language
日本語
URI
http://www.t.onlab.ntt.co.jp/sumomo/index.html
Breakfast
Type
Software
Type.functionality
morphological analyzer
Description
高速な形態素解析ツール。使用者が形態素文法を自由に記述できる点が特徴。
Creator
富士通研究所
Contact person
颯々野 学 (bf-staffあっとling.flab.fujitsu.co.jp)
Price
フリー
Subject.language
日本語
Format.os
Windows 95, NT 3.51, NT 4.0
URI
http://www.labs.fujitsu.com/free/breakfast/index.html
和布蕪(MeCab)
Type
Software
Type.functionality
morphological analyzer
Description
形態素解析ツール茶筌の別バージョン。茶筌より3〜4倍高速に動作する。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
工藤拓(taku-kuあっとis.aist-nara.ac.jp)
Price
フリー
Date
2001
Format.os
unix
URI
http://taku910.github.io/mecab/
Usage Case
(別ウィンドウに表示)
KyTea (京都テキスト解析ツールキット)
Type
Software
Description
日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器。単語分割、読み推定、品詞推定の機能を持つ。ユーザが自分でモデルを学習することも可能。
Creator
Graham Neubig, 笹田鉄郎, 森信介
Contact person
Graham Neubig, 笹田鉄郎, 森信介
Price
フリー
Subject.language
日本語ほか
Date
2009
Rights
Apache License Version 2
Format.os
Linux, Mac OS X, Cygwin
URI
http://www.phontron.com/kytea/index-ja.html
Usage Case
(別ウィンドウに表示)
KNP
Type
Software
Type.functionality
syntactic analyzer
Description
日本語の構文解析ツール。最初に入力文を文節に区切り、次に文節間の係り受け関係を解析する。最新のバージョンは4.0 (2012年1月現在)。
Creator
京都大学 黒橋・河原研究室
Contact person
京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
Price
フリー
Subject.language
日本語
Format
145 KB.
Format.os
unix
Format.sourcecode
C
Relation
Requires JUMAN Requires 分類語彙表 増補改訂版 データベース Requires EDR日本語単語辞書 Requires IPAL辞書 (optional)
URI
http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP
Usage Case
(別ウィンドウに表示)
MSLRパーザ
Type
Software
Type.functionality
morphological and syntactic analyzer
Description
MSLRパーザとそれに関連するツールをまとめたツールキット。MSLRパーザは形態素解析と構文解析を同時に行うLRパーザである。日本語解析のための標準辞書と文法が含まれる。さらに、ユーザは独自の辞書や文法を用いることもできる。
Creator
東京工業大学
Contact person
東京工業大学 徳永研究室 (mslrあっとcl.cs.titech.ac.jp)
Price
フリー
Subject.language
日本語
Format
1.5 MB.
Format.os
unix
Format.sourcecode
C
Usage Case
(別ウィンドウに表示)
SAX
Type
Software
Type.functionality
Tool for syntactic analysis
Description
拡張文脈自由文法の一つであるDCG(Definite Clause Grammar)に基づいて記述された文法をコンパイルして、上昇型チャート法に基づく構文解析Prologプログラムを生成するシステム。SICStus Prolog が必要。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学院大学 自然言語処理学講座 (nltあっとis.aist-nara.ac.jp)
Price
フリー
URI
http://chasen.naist.jp/sax.html
Usage Case
(別ウィンドウに表示)
BUP
Type
Software
Type.functionality
Tool for syntactic analysis
Description
拡張文脈自由文法の一つであるDCG(Definite Clause Grammar)に基づいて記述された文法をコンパイルして、左隅構文解析Prologプログラムを生成するシステム。SICStus Prolog が必要。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学院大学 自然言語処理学講座 (nltあっとis.aist-nara.ac.jp)
Price
フリー
URI
http://chasen.naist.jp/bup.html
Usage Case
(別ウィンドウに表示)
南瓜(CaboCha)
Type
Software
Type.functionality
syntactic analyzer
Description
Support Vector Machine に基づく日本語係り受け解析器。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
工藤拓(taku-kuあっとis.aist-nara.ac.jp)
Price
フリー
Subject.language
日本語
Date
2001
Format.os
unix, windows
Relation
Requires 茶筌 Requires YamCha
URI
http://code.google.com/p/cabocha/
Usage Case
(別ウィンドウに表示)
VisualMorphs
Type
Software
Type.functionality
assistant tool for constructing POS-tagged corpora
Description
品詞タグ付きコーパス作成支援ツール。形態素解析システムの出力を表示・修正するためのGUIツール。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学院大学 自然言語処理学講座 (chasenあっとcl.aist-nara.ac.jp)
Price
フリー
Subject.language
日本語
Date
2001
Format.os
unix, windows
Format.sourcecode
java
URI
http://chasen.naist.jp/vm/index.html.ja
Usage Case
(別ウィンドウに表示)
Tagrin
Type
Software
Type.functionality
Annotation Tool
Description
任意のタグ体系でテキストにタグを付与可能なツール。タグ付テキストはSGML形式でimport/export可能。 参考文献:「アノテーションツール"Tagrin"の紹介」 言語処理学会第12回年次大会予稿集, pp.228-231
Creator
高橋哲朗
Contact person
高橋哲朗
Price
フリー
Format.os
windows, linux (Tcl/Tk)
URI
http://kagonma.org/tagrin/
Usage Case
(別ウィンドウに表示)
FuuTag
Type
Software
Type.functionality
Annotation Tool
Description
SGMLテキストにタグを付与するツール。初期設定では関根拡張NE体系に基づいているが、タグの種類は変更可能。
Creator
関根聡
Contact person
関根聡
Price
フリー
Format.os
unix, windows
URI
http://nlp.cs.nyu.edu/ene/
Usage Case
(別ウィンドウに表示)
茶器
Type
Software
Type.functionality
annotation tool
Description
自然言語コーパスの構築、検索、および言語要素へのタグ付けをサポートするツール群。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学院大学 自然言語処理学講座
Price
フリー
Format.os
Windows
URI
http://sourceforge.jp/projects/chaki/releases/
Usage Case
(別ウィンドウに表示)
PDFAnno
Type
Software
Description
PDFファイルに直接言語的な情報を付与できるブラウザベースのアノテーションツール。品詞、固有名詞、依存関係、共参照など様々なタイプの言語情報を付与できる機能を持つ。
Price
フリー
Date
2016
URI
https://github.com/paperai/pdfanno
Usage Case
(別ウィンドウに表示)
美寿満 (ViJUMAN)
Type
Software
Type.functionality
Visualization tool for morphological analyzer
Description
形態素解析ツール「JUMAN」の解析結果を視覚化するツール。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学院大学 自然言語処理学講座 (vijuman-admあっとcl.aist-nara.ac.jp)
Price
フリー
Subject.language
日本語
Format.os
unix
Relation
Requires JUMAN
URI
http://chasen.naist.jp/vi4ma.html
美茶 (ViCha)
Type
Software
Type.functionality
Visualization tool for morphological analyzer
Description
形態素解析ツール「茶筌」の解析結果を視覚化するツール。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学院大学 自然言語処理学講座 (vijuman-admあっとcl.aist-nara.ac.jp)
Price
フリー
Subject.language
日本語
Format.os
unix
Relation
Requires 茶筌
URI
http://chasen.naist.jp/vi4ma.html
Usage Case
(別ウィンドウに表示)
構文解析過程表示システム (VisIPS)
Type
Software
Type.functionality
Visualization tool for syntactic analyzer
Description
構文解析ツールのための視覚化ツール。CKY表や解析木を図示できる。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学院大学 自然言語処理学講座 (nltあっとis.aist-nara.ac.jp)
Price
フリー
Format.os
unix
Relation
Requires SAX
URI
http://chasen.naist.jp/visips.html
解析結果汎用表示ツールTableDisplay
Type
Software
Type.functionality
visualization tool
Description
自然言語の解析結果を視覚的にわかりやすく表示するツール。CGIで実装されているため、多くのプラットフォームに対応している。
Creator
京都大学 黒橋・河原研究室
Contact person
京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
Price
フリー
URI
http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/tabledisplay/index.cgi
Usage Case
(別ウィンドウに表示)
SUFARY
Type
Software
Type.functionality
Tool for string matching
Description
Suffix arrayを用いた文字列検索ツール。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学院大学 自然言語処理学講座 (sufaryあっとcl.aist-nara.ac.jp)
Price
フリー
Format.os
unix
Format.sourcecode
C
URI
http://nais.to/%7Eyto/tools/sufary/
Usage Case
(別ウィンドウに表示)
Minise: MIni Search Engine
Type
Software
Type.functionality
full text search tool
Description
Miniseは基本的な機能をサポートしたコンパクトな検索エンジン。検索対象の文章に対し索引を構築し,検索クエリに対する全文検索を行うことができる。 索引の種類として逐次検索、転置ファイル、N-gram、接尾辞配列をサポートする。主な利用用途として、小〜中規模(20万文書程度まで)の検索、また、研究用目的に使われることが想定されている。
Creator
岡野原大輔
Contact person
岡野原大輔
Price
フリー
Date
2009
Rights
研究利用に限る
Format.os
unix
Format.sourcecode
C++
URI
http://www-tsujii.is.s.u-tokyo.ac.jp/~hillbig/minise-j.htm
Bep: Associative Arrays for Very Large Collections
Type
Software
Type.functionality
library for associative array
Description
大規模なコレクションからなる連想配列を扱うためのライブラリ。内部に最小完全ハッシュ関数を利用し、従来の実装に比べ少ない作業領域量でコレクションを保持する。
Creator
岡野原大輔
Contact person
岡野原大輔
Price
フリー
Date
2007
Format.os
unix
Format.sourcecode
C++
URI
http://www-tsujii.is.s.u-tokyo.ac.jp/~hillbig/bep-j.htm
Tx: Succinct Trie Data structure
Type
Software
Type.functionality
library for Trie
Description
コンパクトなTrieを構築するためのライブラリ。従来のTrieの実装に比べ1/4〜1/10の作業領域量で辞書を保持することができ、数億〜十億キーワードなど大規模な辞書を扱うことが可能。
Creator
岡野原大輔
Contact person
岡野原大輔
Price
フリー
Date
2007
Format.os
unix
Format.sourcecode
C++
URI
http://code.google.com/p/tx-trie/
SimString
Type
Software
Type.functionality
library for string search
Description
類似文字列検索のための高速かつシンプルなライブラリ。文字列集合(データベース)の中から,クエリ文字列との類似度が閾値以上のものを見つけ出すことができる。スペル訂正、柔軟な辞書マッチング、重複レコード検出などが実現できる。
Creator
岡崎直観
Contact person
岡崎直観
Price
フリー
Date
2010
Format.os
Unix
Format.sourcecode
C++
URI
http://www.chokkan.org/software/simstring/
Usage Case
(別ウィンドウに表示)
SAGACE (サガス)
Type
Software
Type.functionality
Concordancer and collocation extraction
Description
日本語など、活用の(比較的に)少ない言語のコーパスの分析ソフト(コンコーダンサー)。主な機能は辞書を使用してコーパス中の語列のパターンを検索することである。CECILL(フリー)ライセンスで配布される。
Creator
Blin R.
Contact person
blinあっとehess.fr
Price
フリー
Subject.language
日本語, 活用の少ない言語
Format.os
Linux
URI
http://crlao.ehess.fr/japonais-coreen/corpus/sagace/sagace_jp.html
TinySVM
Type
Software
Type.functionality
tool for training of Support Vector Machine
Description
サポートベクターマシン(Support Vector Machine) の学習ツール
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
工藤拓(taku-kuあっとis.aist-nara.ac.jp)
Price
フリー
Date
2001
Format.os
unix
URI
http://chasen.org/%7Etaku/software/TinySVM/
Usage Case
(別ウィンドウに表示)
CRF++
Type
Software
Type.functionality
tool for training of Conditional Random Field
Description
シンプル、カスタマイズ可能でオープンソースな条件付き確率場のツール。汎用ツールとして設計されているため、多くの自然言語処理タスクに使用できる。
Creator
工藤拓
Price
フリー
URI
http://sourceforge.net/projects/crfpp/
ohmm: Online training for Hidden Markov Model
Type
Software
Type.functionality
library for training of Hidden Markov Model
Description
ohmmは隠れマルコフモデルのパラメタをOnline EMアルゴリズムを用いて学習するためのライブラリ。大規模なデータを利用した学習に対応し、数十万語規模の学習データを利用した学習が可能。また学習結果を他用途で利用できるような形で出力できる。
Creator
岡野原大輔
Contact person
岡野原大輔
Price
フリー
Date
2009
Format.os
unix
URI
http://www-tsujii.is.s.u-tokyo.ac.jp/~hillbig/ohmm-j.htm
OLL: オンライン学習ライブラリ
Type
Software
Type.functionality
library for online learning
Description
様々なオンライン学習(Perceptron, Averaged Perceptron, Passive Agressive, ALMA, Confidence Weighted Linear-Classification)をサポートした機械学習ライブラリ。自然言語処理など、大規模、かつ疎な学習問題に最適化されている。これらのオンライン学習手法は速度面、作業領域面で非常に効率的(学習サンプル数、素性種類数に比例)でありながら、SVMsやMEsなどのバッチ学習と同程度の精度を達成する。学習、推定を行なうプログラムとC++ libraryを提供する。
Creator
岡野原大輔
Contact person
岡野原大輔
Price
フリー
Date
2008
Format.os
unix
Format.sourcecode
C++
URI
http://code.google.com/p/oll/wiki/OllMainJa
CRFsuite
Type
Software
Type.functionality
tool for training of Conditional Random Field
Description
系列ラベリング問題を解く条件付確率場(CRF)を高速に学習するツール。
Creator
岡崎直観
Contact person
岡崎直観
Price
フリー
Date
2007
Format.os
Linux, Windows
URI
http://www.chokkan.org/software/crfsuite/
Usage Case
(別ウィンドウに表示)
Classias
Type
Software
Type.functionality
machine learning tool
Description
分類のための機械学習アルゴリズムのツール。分類モデルとして、L1/L2正則化ロジスティック回帰(最大エントロピー法)、L1/L2正則化L1損失線形カーネルサポートベクトルマシン(SVM)、平均化パーセプトロンをサポートしている。
Creator
岡崎直観
Contact person
岡崎直観
Price
フリー
Date
2009
Format.os
Unix, Windows
URI
http://www.chokkan.org/software/classias/
Usage Case
(別ウィンドウに表示)
MACCORI: Marginal Containers Covering Relevant Items
Type
Software
Type.functionality
tool for combinatorial optimization problem
Description
ナップザック問題に似た組み合わせ最適化問題の解を求めるツール。例えば、複数文書要約、すなわち与えられた文書集合から小数の重要文を抽出することに適用できる。
Creator
岡崎直観
Contact person
岡崎直観
Price
フリー
Format.os
Unix, Windows
URI
http://www.chokkan.org/software/maccori/
lda - a Latent Dirichlet Allocation package
Type
Software
Type.functionality
tool of Latent Dirichlet Allocation
Description
LDA(Latent Dirichlet Allocation)のパラメタ推定のためのツール。MATLABとC言語(コマンドライン)で実装されている。
Creator
持橋大地
Contact person
持橋大地
Price
フリー
Format.os
unix
Format.sourcecode
C, MATLAB
URI
http://chasen.org/~daiti-m/dist/lda/
YamCha
Type
Software
Type.functionality
chunker
Description
日本語の汎用chunker。カスタマイズが可能でオープンソース。Support Vectore Machineを利用している。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
工藤拓(taku-kuあっとis.aist-nara.ac.jp)
Price
フリー
Subject.language
日本語
Date
2001
Format.os
unix
URI
http://chasen.org/%7Etaku/software/yamcha/
Usage Case
(別ウィンドウに表示)
Lexical Chainers
Type
Software
Type.functionality
text processing
Description
テキスト中で互いに語彙的結束性を持つ語の連続である 語彙的連鎖(lexical chain)を計算するツール。
Creator
望月源
Contact person
望月源 (motizukiあっとtufs.ac.jp)
Price
フリー(研究目的に限る)
Subject.language
日本語
Format.os
unix
Format.sourcecode
C
URI
http://www.tufs.ac.jp/ts/personal/motizuki/software/chainers/
テキスト簡易要約器 Posum
Type
Software
Type.functionality
text summarizer
Description
重要文抽出の手法に基づいてテキストを要約するツール。
Creator
望月源
Contact person
望月源 (motizukiあっとtufs.ac.jp)
Price
フリー(研究目的に限る)
Subject.language
日本語
Format.os
unix
Format.sourcecode
C, perl
Relation
Requires Lexical Chainers
URI
http://www.tufs.ac.jp/ts/personal/motizuki/software/posumcl/
Usage Case
(別ウィンドウに表示)
DL-MT
Type
Software
Type.functionality
text summarizer
Description
日本語テキストを単語に区切り、各単語の英訳を表示する日本語学習者向け文書読解支援システム。
Creator
望月源
Contact person
望月源 (motizukiあっとtufs.ac.jp)
Price
フリー(研究目的に限る)
Subject.language
日本語
Format.os
unix
Format.sourcecode
perl
Relation
Requires 茶筌 Requires EDICT
URI
http://www-cl.tufs.ac.jp/pub/tools/dlmt/index-j.html
Julius
Type
Software
Type.functionality
speech recognition engine
Description
大語彙連続音声認識ソフトウェア。単語3-gramと文脈依存な隠れマルコフモデルを採用している。
Contact person
juliusあっとkuis.kyoto-u.ac.jp
Price
free
Subject.language
日本語
Date
2002
Format.os
unix, windows
Format.sourcecode
C
URI
http://julius.sourceforge.jp/
Usage Case
(別ウィンドウに表示)
新茶
Type
Software
Type.functionality
predicate argument structure analyzer
Description
日本語の述語項構造解析器。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
奈良先端科学技術大学院大学 自然言語処理学講座
Price
フリー
URI
http://syncha.sourceforge.jp/
Usage Case
(別ウィンドウに表示)
夕茶
Type
Software
Type.functionality
predicate argument structure analyzer
Description
日本語の述語項構造解析器。
Creator
奈良先端科学技術大学院大学 自然言語処理学講座
Contact person
林部祐太
Price
フリー
Date
2010
URI
http://hayashibe.jp/yucha/
意味役割付与システム
Type
Software
Type.functionality
semantic role labeling
Description
日本語入力文に対して述語項構造解析を行い,述語の語義を同定して,係り関係にある項の意味役割を付与するツール。
Creator
岡山大学 竹内研究室
Contact person
岡山大学 竹内研究室
Price
フリー
URI
http://cl.it.okayama-u.ac.jp/study/project/sea.html
Usage Case
(別ウィンドウに表示)
JACABIT Japanese term extraction system
Type
Software
Type.functionality
term extraction
Description
品詞のパターンマッチによって日本語テキストから用語を抽出するフリーのツール。
Creator
岡山大学 竹内研究室
Contact person
岡山大学 竹内研究室
Price
フリー
URI
http://cl.cs.okayama-u.ac.jp/rsc/jacabit/index.html
TETDM - Total Environment for Text Data Mining
Type
Software
Type.functionality
text mining tool
Description
テキストマイニングのための統合環境。10のマイニングツールと17の可視化ツールかなる。ユーザによるカスタマイズや改変が可能。
Creator
人工知能学会 近未来チャレンジ Total Environment for Text Data Mining
Contact person
砂山渡 (user-supportあっとtetdm.jp)
Price
フリー
Format.os
Windows (XP, Vista, 7), Mac OS X
Format.sourcecode
Java
Relation
Requires 茶筌
URI
http://www.sys.info.hiroshima-cu.ac.jp/people/sunayama/future/newfuture.html
専門用語(キーワード)自動抽出システム
Type
Software
Description
テキストから専門用語を自動的に抽出するツール。(1)形態素解析プログラムによる単語分割、(2)複合語の作成、(3)文章中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語を抽出する。日本語および英語を対象言語とする。ウェブサービス「言選Web」も提供している。
Creator
中川裕志, 前田朗, 小島浩之
Contributor
森辰則
Contact person
gs-webあっとmm.itc.u-tokyo.ac.jp
Price
フリー
Subject.language
日本語, 英語
Date
2003
Format.sourcecode
Perl module
Relation
References 茶筌 References 和布蕪(MeCab)
URI
http://gensen.dl.itc.u-tokyo.ac.jp/
Usage Case
(別ウィンドウに表示)
言語情報処理ポータルのページへ戻る