日英パラレルニュース記事URL集

本データについて

ウェブ上のニュースサイトに掲載されている記事を対象に、日本語記事が掲載されているウェブページのURLと、その翻訳元となっている英語記事のURLの組を収集したデータベースです。同じページに日本語と英語の両方の記事を含むページのURLも収集されています。本データから、日英パラレルコーパス/コンパラブルコーパスをウェブから容易に収集することができます。

本データで収集の対象としているニュースサイト、ならびに収録されている日英ニュース記事対の数は以下の通りです。
CNET Japan 7759記事対
WIRED.jp 14098記事対
EICネット 1739記事対
ニュースで英会話(NHK) 950記事対
ABCニュースシャワー(NHK) 444記事対

使用上の注意


収集方法

日英対訳記事対を収集したニュースサイトと、その収集の手続きについて説明します。
CNET Japan
主に CNET Networks が提供するIT関連のニュース記事を日本語に翻訳して配信しているサイトです。
WIRED.jp
WIRED Magazine の英語記事を日本語に翻訳して配信しているサイトです。記事の多くは原文の英語記事の抄訳になっています。
EICネット
環境に関する海外のニュースを日本語に翻訳して配信しているサイトです。翻訳元の英語記事は様々なサイトから取得しています。日本語記事が完全な翻訳ではなく要約になっている場合が多いです。
ニュースで英会話(NHK)
同名のテレビ番組で紹介されたニュースを日本語と英語で掲載しているサイトです。
ABCニュースシャワー(NHK)
同名のテレビ番組で放映されたABCのニュースを英語と日本語で掲載しているサイトです。

フォーマット

本データはXMLファイルとして提供します。XMLの仕様は parallel_web_page.dtd というDTDファイルで定義されています。以下、XMLファイルのフォーマットの概要について説明します。

ファイル一覧


その他


言語情報処理ポータル管理人: e-mail address