CICCによる国際研究プロジェクト (1987-1994)
CICC(Center of the International Cooperation for Computerization; 国際情報化協力センター)によって行われた機械翻訳に関する研究プロジェクト。中国,インドネシア,マレーシア,タイ,日本の5ヶ国の研究機関が参加し,これらの国々の言語を翻訳するシステムの開発が行われた。機械翻訳は中間言語方式で,中間言語の仕様の作成,各言語の電子化辞書およびコーパスの作成,機械翻訳システムの実証実験などが主な成果。資金は政府開発援助(ODA)によって提供された。(KS,01/11/1)
LDC (Linguistic Data Consortium)
言語リソース(データ・ツール・標準化)の作成と共有によって,言語に関連する教育・研究・技術開発を支援するコンソーシアム。会員(商用年会費US$20,000,非商用年会費US$2000)に対して,その年発行の音声・言語データが配布される。
1992年設立,ペンシルバニア大学にオフィスがあり,ARPAおよびNSFからのサポートを受けている。(SK,01/10/23)
ELRA (European Language Resources Association) (1995-)
ヨーロッパにおける言語資源の集積・流通に関して、現在、中心的な役割を果たしている非営利組織である。ELRAは、RELATORプロジェクトの提言に基づき、ヨーロッパにおける言語資源の開発、評価、頒布を目的として、1995年に設立され、主にEU出資プロジェクトなどにより開発された言語資源を管理する。ELDA ( European Language resources - Distribution Agency ) は、ELRAの実務を担当する機関として、言語資源の収集、評価、配布を行なう 。
対象とするデータは、音声DB、( 単言語/多言語 )辞書、テキストコーパス、用語集である。テキストデータとしては、BNC, CRATER, ECI, MULTEXT, PAROLE, AMARYLLIS, EuroWordNet, LRsP&P, CLEFなどのプロジェクトの成果が利用可能になっている。
ELRA/ELDA は、フランスのAmaryllisプロジェクト、EUのCLEFプロジェクト、世界的なAuroraプロジェクトなどの評価プロジェクトに積極的に関与してきた。それらにおいて使用された言語資源のいくつかは、すでに配布カタログに掲載されているが、近く、評価関連ツールも追加される予定である。
隔年で開かれるLREC(1998,
2000,
2002)を主催。
(YF,02/03/05)
TELRI (Trans European Language Resources Infrastructure) I(1995-1998) and II(1999-2001)
PECO/COPERNICUSプログラムの下で実施されたプロジェクトを基にしたイニシアティブで、ヨーロッパ全域およびNIS諸国の言語処理技術の拠点を結び多言語の言語資源を提供しようとするものである。第一期の活動は95年1月〜98年12月に行なわれた。第二期の活動は,、当初1999年1月〜2001年12月の3年間の予定であったが、2002年6月まで6ヶ月延長されている。
PAROLE/SIMPLEプロジェクトと共に、ELAN ( European Language Activity Network ) プロジェクト ( 1998-1999 ) の推進にも貢献した。
アーカイブとして、TRACTOR ( TELRI Research Archive of Computational Tools and Resources ) を有し、中・東欧の言語も含めた言語資源の作成・収集・管理・頒布を行なっている。扱っている言語は、ブルガリア語、クロアチア語、チェコ語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、イタリア語、ラトビア語、リトアニア語、ルーマニア語、ロシア語、セルビア語、スロバキア語、スロベニア語、スウェーデン語、トルコ語、ウクライナ語、ウズベク語。MULTEXTプロジェクトによるCES を中・東欧諸言語に適用したMULTEXT-EASTプロジェクトの成果CD-ROMもその中に含まれている。 TRACTORアーカイブについては、、収録データの単/多言語オンライン検索が計画されている。商業利用には、別途著作権者との交渉が必要。(YF,02/03/05)
ACQUILEX (Acquisition of Lexical Knowledge)(1989-1995) ESPRITプログラム(欧州委員会による情報技術促進プログラムの一つ)の一環として、多言語語彙知識データベース構築に取り組んだプロジェクト。第一期 ( 1989-1992 ) においては、既存の電子辞書からの多言語語彙知識データベース構築ツール作成、第二期 ( 199201995 ) においては、機械可読なコーパスからの語彙情報の抽出に取り組んだ。開発されたツール群が 公開されている。成果は、LRE(Linguistic Resources and Engineering)プログラムのプロジェクトなどで利用されている。
(YF,01/10/30)
MULTILEX (A Multi-Functional Standardised Lexicon for European Community Languages) (1990-1993)
ヨーロッパの言語のための、汎用の標準的な辞書記述仕様を作成することを目的としたプロジェクト。
出版、機械翻訳、文字認識、音声理解、情報言語資源の再利用性の向上を目的とする。
単言語・多言語・用語辞書のための仕様記述である、MULTILEX internal format (MLEXd)を定義した。
MLEXdは、SGMLに則っている。MLEXdは、EUREKAプログラムにおける、汎用辞書記述形式開発を目指したGENELEXプロジェクト、
機械翻訳システムの開発を目指したEUROLANGプロジェクトでも採用された。利用のための数多くのソフトウェアも作成。
(YF, 02/03/05)
CEGLEX ( CENTRAL EUROPEAN GENELEX MODEL )(1995-1996)
GENELEXプロジェクトで開発された汎用の辞書モデルを基に、
中欧言語(チェコ語、ハンガリー語、ポーランド語)の辞書記述の標準を作ることを目的とした
PECO/COPERNICUSプログラムのプロジェクト。
形態素レベルのタグ付与プログラム開発を行なった PECO/COPERNICUSのGRAMLEXプロジェクトにおいて、形態素レベルでの結果が使われている。
(YF, 02/03/05)
EAGLES (The Expert Advisory Group on Language Engineering Standards)(1993-)
テキストコーパス、計算機用辞書、音声コーパスなどの大規模言語資源、および計算言語学的形式化・マークアップ言語・各種ソフトウェアによる処理、および評価のための標準化推進を目的とした、LREプログラムのプロジェクトの一つ。
EAGLES Guidlines を提唱。
EAGLES Guidlinesは、PAROLE、SIMPLE、EUROWORDNETなど多くのプロジェクトで採用されており、コーパス記述のためのデファクトスタンダードとなっている。
1999年に終了し、活動は、ISLE ( International Standards for Language Engineering ) に引き継がれた。
(YF,02/03/05)
ELSNET (the European Network of Excellence in Human Language Technologies) (1991-)
ヨーロッパにおける広義のHLT( Human Language Technologies ) 促進を目的とし、言語・音声技術および関連分野の研究・開発・応用に携わる人々の交流を促進するネットワークとして、各種セミナー、ワークショップの開催や、ウェブサイト、メイリングリストの運営を行う。実験用の言語資源の構築・配布も目的の一つとしている。1991年に ESPRITプログラムの下で設立された。現在、約20あるISTのNetwork of Excellenceの一つである。現在、ヨーロッパの26ヶ国をカバーしている。メンバは、言語および音声処理技術の開発・利用を目的とする、公的あるいは民間の研究機関、企業であり、約135のメンバのうち、60%が大学などの学術的機関であり、40%が産業界からの参加となっている。ウェブサイトは、http://www.elsnet.org/ 。
(YF,02/03/05)
CLASS (Collaboration in Language and Speech Science and technology) (2000-2002)
ISTプログラムのHLT関連プロジェクト群に含まれる関連するプロジェクトどうしの結び付け(クラスタリング)による
活動の調整を目的とした、ISTプログラムのHLT関連プロジェクトの一つ。
クラスタ内およびクラスタ間の調整・意見交換・協力、外部との協力、国際的な活動および成果の普及促進、欧州委員会との連携を行なう。
主要な課題に関して、付加価値を生むようなプロジェクト間の協力を促進し、プロジェクトがより多くのよりよい成果を
もたらし、より大きな効果を生み、成果がより目に見えるようにすることを目指す。
研究の相乗効果、規模による効果の発揮、プロジェクト間の知識・経験・ノウハウの共有を図る。
次の4つのクラスタが作られている:
Network-DC (
Network of Regional and International Data Centers ) (2000-2002)
ELDAと、LDCの協力による、全世界的な多言語言語資源ネットワークの構築を目指すMLIS
プログラムのプロジェクトの一つ。
研究および技術開発のための、大規模な音声ならびにテキストデータの作成、獲得、標準
化、正当化、配布を行なう。
NETWORK-DCでは、データセンタ間のネットワークを構築し、現在各地の様々なデータセン
タにおいて管理されている電子化された言語資源の利便性を向上することを目指す。
ELDA側は、最大5つのニュース放送の多言語コーパスを、LDC側は、Voice of Americaで放
送された45言語のデータの主要なサンプルを含む、言語的なコーパスを作成する予定で
ある。
(YF, 02/03/07)
OTA (Oxford Text Archive) (1976-)
テキストを集積・分配することにより,テキスト作成者と使用者の両方の利便を図るプロジェクト。オックスフォード大学によって運営されている。Lou Burnardによって1976年に活動が始められた。OTAへのテキストの登録,OTAからのテキストのダウンロードは基本的にはフリーである。現在,25言語,2,500以上のテキストが登録されている。(KS,01/10/26)
OLAC (Open Language Archives Community) (2000-)
web上で言語資源を公開することを推奨し,言語資源のフォーマットの共通化や共通のカタログ作成などを通して,言語資源流通に関する国際的な協力体制を作り上げるためのプロジェクト。Unicodeの使用やXMLでの言語資源のマークアップの推奨,メタデータ(言語資源の名前,対象言語,作成者,作成日時,内容など,言語資源の内容に関する記述)のフォーマットの統一,言語資源のカタログの作成などが主な活動内容である。2000年12月に設立.NSFからサポートを受けている。(KS,01/10/26)
WordNet (1985-)
WordNetはフリーで公開されている英語のシソーラスである。プリンストン大学のGeorge A. Miller教授が中心となって開発が進められた。1985年から現在に至るまで改良が加えられている。最新のバージョンは1.7である。その活動の一部については,NSFからのサポートを受けている。(KS,01/10/26)
EuroWordNet (1996-1999)
EuroWordNetは,WordNetと同じ方式でヨーロッパ言語のシソーラスを作成するプロジェクトである。各ヨーロッパ言語のSynset(意味クラス)は,対応する英語のWordNetのSynsetへのリンクを持ち,これにより任意の言語対について同義語を検索することを可能にした。また,シソーラスの上位の構造は完全に共有されている。対象言語はオランダ語,イタリア語,スペイン語,ドイツ語,フランス語,チェコ語,エストニア語の7つ。1996年3月から1999年6月の約3年間,ヨーロッパのHuman Language Technologiesというプロジェクトの一環として活動が行われた。(KS,01/10/26)
KORTERM
による研究プロジェクト (1998-)
KORTERM(Korea Terminology Research Center for Language and Knowledge Engineering)は、Terminologyに関する韓国の研究センターである。
KAIST(Korea Advanced Institute of Science and Technology)のChoi Key-Sun教授を中心に、韓国語の専門用語辞書の開発、流通、標準化などを主な活動内容としている。その研究計画は4つのフェーズから構成され、専門用語辞書の整備を段階的に進めている。また、
ISO/TC37
(専門用語およびその他の言語資源に関する種々の国際規格制定を目指すISOの技術委員会)の活動にも携わっている。(KS,02/01/10)
TIDES (Translingual Information Detection, Extraction, and Summarization)
(DARPA site,
NIST site) (1999-)
TIPSTER Text Programの後継。Translingualという語に見られるように、TIPSTER以上に多言語という側面を強調している。多言語で提供される膨大な情報へ効率良くアクセスすることを目指し、文書検索、情報抽出、文書要約に加え機械翻訳も視野に入れる。現在、DUC、TREC、TDTを開催している。(MI,02/01/23)
一般に要約は、indicative(原文書を読むかどうかの指標として役立てばよい要約)とinformative(原文書のかわりになる要約)に分けることができるが、上記のad hoc task、categorization taskはindicativeな要約を評価し、Q&Aはinformativeな要約を評価していることになる。また、ad hoc taskとcategorization taskの違いは、検索要求といった特定の観点があるかないかであり、前者はquery-biased、後者はgenericと呼ばれることが多い。SUMMACはTIPSTER終了後、DUCに引き継がれている。(MI,02/01/29)
NTCIR(NII-NACSIS Test Collection for IR Systems)ワークショップ (1998-)
国立情報学研究所(NII)が主催する評価型会議。約1年半おきに開催され、現在はNTCIR-3が進行中である。基本的にはTRECの随時検索タスクに相当するタスクを行う。対象文書は、NTCIR-1では学会発表論文の概要のみであったが、NTCIR-2では科学研究補助金実績報告書の概要も加わった。また、文書集合の約1/3は日英の対訳となっているため、日英の言語横断検索も実行された。最新のNTCIR-3では、以下のタスクが提案されている。
SEU (The Survey of English Usage)(1959-)
1959年にUniversity College LondonではじめられたSEUは、後述のBrown Corpusとともに、世界初の大規模な英語コーパスデータであって、コーパス言語学の始まりを示すものであるが、データの機械可読化は行われなかった。資料はすべて手作業でカードに記録され、最終的には様々なジャンルの各5,000語のテキスト200よりなる100万語のコーパスとなった。このうち話し言葉部分は、1975年に電子化されLLC(London-Lund Corpus of Spoken English)となった。
(TC,02/02/27)
ICE (The International Corpus of English)(1990-)
英語を母語または第二言語とする18の国・地域の1989年以降の英語を各100万語づつ(1990-1994年間の話し言葉(60%)と書き言葉(40%)のテキスト)を集めたコーパス。15の研究グループが協力して世界の英語のバラエティを収集し、言語ならびに音声研究資料として整備。
(TC,02/02/27)
The Cambridge-Leeds Corpus of Early Modern English
1600-1800年間の初期近代英語構文のフルテキストコーパス。
(TC,02/02/27)
COPC (The Century of Prose Corpus)
「散文の世紀」(1680-1780)の英語散文50万語を集めた文体研究用コーパス。
(TC,02/02/27)
The Corpus of Early American English
1620-1720年間の初期アメリカ英語のコーパス。1987時点で約50万語規模。現在はHelsinki Corpusに組入れられている。
(TC,02/02/27)
CEEC (The Corpus of Early English Correspondence)
1420-1681年間の私信のコーパス。1987時点で240万語規模。
(TC,02/02/27)