【翻訳会社】インターブックスの翻訳外注ノウハウ

外国語の対応にお困りの方のために、「翻訳を外注する」上で役立つことを語っています。

言語変換データという資産の有効活用について

2020-06-08 09:34:39 | 日記
こんにちは
【翻訳商社】マンです

日本では
日々膨大な量の
日本語が外国語に
外国語が日本語に
変換されています

もちろん世界でも
日々膨大な量の
外国語が外国語に
変換されています

しかしながら
それらすべてがある特定の場所に
保管されているわけではありません

発信者や保管者
著作権保有者がそれぞれ異なるから
当然です

でも

「もしこれら膨大な量の」
「言語変換データを共有できたら」

そう思われたことありませんか?


ないですよね

まあ
それに関するお仕事でも
していないかぎりは普通
考えもしないでしょう

しかし
繰り返しますがもしこの

「膨大な量の言語転換データすべてが」
「ある特定の場所に保管されていて」
「いつでも誰でも自由に使えるとしたら」

素晴らしいと思いませんか?

ちなみにここで指す
膨大な量のデータとは
読む、書くの「翻訳」と
聞く、話すの「通訳」を含む
とにかく

"ある言語とそれが他の言語に変換された"
"テキストデータや音声データの"
"ペア(対)のことです"
(ただし音声データの活用には、音声認識によるデータのテキスト化(またはその逆工程)が必要となるので、このあとの話の前提はテキストデータのみとなります)

この膨大なデータのこと
対訳コーパス
と言います

対訳コーパス
についての詳しいご説明は
こちらにお任せするとして

この
対訳コーパス
最近流行りのAI翻訳(ニューラル機械翻訳)
ポケトーク(自動通訳機)などの要となる
データベースとして使われているのですが
根幹となるデータはすべて
"集められたり"
"作られたり"
したものなのです

恥ずかしながら私【翻訳商社】マン
法律に詳しいわけではないので
詳しくはお伝えできませんが
とかくこの世で
書かれたものや話されたことには
"著作権"
という厄介なものがつきまとうので
"膨大な量の言語変換データ"
という
"他人様の創作物"
安易に使用できないのです
(著作権が発生するのはもちろん言葉だけではありません)

よってそれらデータはひとつひとつ
著作権保有者に許可を取るか
一から作る(自ら言語変換する)しか
集める方法がないのです

だから

「膨大な量の言語転換データすべてを」
「ある特定の場所に保管すること」

できないのです

しかし官公庁を筆頭に
世の中には素晴らしい組織が多々あり
一定のデータが集積されているサイト
いくつかあったりします

"対訳集"

というキーワードで検索すると
対訳コーパス
公開されているところがありますので
ぜひ参考にしてみてください

"そのまま使える長文"の数は少ないですが
(文章例として公開されているものはよくあります)
用語や品詞などの短いものであれば
結構な数(データ)の無料利用が可能です

・Google(機械)翻訳では心許ない
・しかし翻訳に費用は掛けられない
・でも公式にはどう変換(翻訳)されるのか知りたい

といったときにはそれら
一般公開無料データの活用
強くお勧めします