コーパス言語学とは、「言語学」の一分野であり、
コーパス(言語資源;言語研究に使用するために大量に収集された
「書き言葉」および「話し言葉」のテキスト)をある種の処理
(キーワードを中心に前後に文脈を表示する)を施して分析するという
言語分析一般を指します。
この分析の有効性の前提として、「人間が使用する言語の殆どが
“決まり文句の組み合わせ”である」という事実があります。
特許翻訳のためのコーパスとしては、
特許庁のデータベースに公開・搭載されている特許明細書を使用します。
ここでは、実際に特許明細書を収集してどのような分析ができるのか、
その分析の有効性、そして分析結果を特許翻訳に
どのように役立てることができるのかについて具体的にお話しましょう。
目次
翻訳者のためのコーパスの収集
コーパスとは、実際に使用されている言葉です。
となると、特許翻訳に必要なコーパスは「特許全部」
ということになりますが、それではコーパスとして活用できません。
なぜなら、目的に合致した良質なコーパスを集める必要があるからです。
なお、「良質」とは、これから特許翻訳する上で役立つもの
ということになりますから、その目的に合致しないコーパスを
準備しても無意味です。
ここでは、ある分野の特許翻訳をする前提でコーパス収集をしてみましょう。
ちなみに、英語表現全般とか、日本語表現全般とかを対象としたコーパスは
商用のものがいくつか存在しておりますので、そちらをご確認ください。
下表は、対訳収集ソフトE’Storage2016を使って取得した
3M社の粘着テープの特許一覧です。
いろいろな会社がある中で3M社を選んだのは、
3M社が粘着テープの特許を大量に出しているためです。
つまり、このコーパスを収集する人は、粘着テープ関連の特許翻訳の仕事を
しようとする人(又はこれからこの分野を得意分野にしようとする人)で
この分野では3M社がメジャープレーヤーであることを知っている
ということが前提です。
ここまでの絞り込みが自力でできない初心者は、
まずはそこをクリアするための勉強をしてください。
ここで使用した検索式は、
「adhesive and tape in the title AND 3M as the applicant」で、
特許のタイトル部分に「adhesive」及び「tape」を含むものという意味です。
もし、既にE’Storage2016をお使いでしたら、
同一環境を構築しながら読み進めていただければと思いますが、
仮に現在お持ちでなくても、その先の分析は行っていただけますので
そういうソフトがあるのだと認識して、読み進めていただければ大丈夫です。
では、上記表中で一番上にある特許をコーパスとして
使用してみることにします。
「PRESSURE-SENSITIVE ADHESIVE COMPOSITION,
CONDUCTIVE ADHESIVE COMPOSITION AND ADHESIVE TAPE
MADE THEREFROM」(US2016230052)ですね。
このファイルを開き、「Abstract」以下を秀丸などのエディタへ
コピー&ペーストして、任意の場所にテキストファイル形式で保存して下さい。
コンコーダンサーの導入とファイル指定
コンコーダンサーとは、コーパス分析ソフトです。
この種のソフトはいくつか存在しますが、
ここでは、KWIC Concordanceを使用します。
こちらのソフトは「フリーウェア」で無料ですので、
ダウンロードしてお使いのPCにインストールしてみてください。
起動すると、以下のようなウィンドウが表示されます。
「File」→「Open」と選択して、
「Corpus Files」タブを開き、
先ほどテキスト形式で保存したファイルを指定します。
ここでは、デスクトップ上に保存してあったファイルを
ウィンドウの中にある大きな枠内へドラグ&ドロップして、
分析対象のファイルとして追加しました。
コーパス分析ソフトを使った分析
では、実際に分析してみましょう。
「Wordlist」をクリックすると、左に縦長のウィンドウが表示されます。
ここでは、「アルファベット順」に表示されていますので、
これを出現頻度順に変更してください。
単語の出現頻度というのは、その文書を特徴づけているものです。
ただし、下表でベスト3になっている「the」「of」「and」などは
文章の内容を特徴づけてはいませんので、あくまで文章の内容と
関連性の高いものを選択する必要があります。
ここで関連性の高いものとその出現頻度を上位10個書き出してみると、
以下のようになります。
この中で一番特徴的(特異的)な言葉は、benzoxazineでしょう。
「benzoxazine ベンゾ」で検索してみると、
「ベンゾオキサジン」と読むことが分かります。
次に、特徴的なのは、「methacrylate=メタクリレート」でしょう。
これらが、化合物であることが分かりますから
(「ベンゾオキサジン メタクリレート 粘着 テープ」等で検索すれば、
化合物であることは分かるはずです。)これらが成分として含まれていて、
熱的に(thermally)に硬化する(curable)のであろうと推測できます。
問題は、「electrically」(電気的に)ですが、
「conductive」と組み合わされて「electrically conductive」という表現で
使われる場面が多ければ、「導電性」という性質を持つ材質(テープの素材)
なのではないか、と推測可能です。
そこで次に、「Collocate」をクリックし、
「Keyword」ウィンドウを表示させ
そこに「conductive」と入力して、「OK」をクリックします。
そうすると、下表が表示されます。
「conductive」のすぐ左側(L1)には、「electrically」が74個あり、
本明細書中では「electrically conductive」(導電性)の意味で
使われていることが判明しました。
先ほどの推測が正しかったことになります。
このことから、本発明は組成物中に
「メタクリレート」と「ベンゾオキサジン」とを含む、
「導電性」の「粘着テープ」であると推測できます。
翻訳前作業の省力化
次に、「methacrylate」(メタクリレート)で同様に検索すると、
下表が得られます。
この表で見えてくるのは、
モノマー成分としてのMMA(メタクリレート)と
重合体のPMMA(ポリメタクリレート)、そして
共重合体成分の「ベンゾオキサジン」の性質や比率がポイントなのではないか
ということです。
もし、この分析ができないとすると「高校レベルの化学」の基礎が
できていないということですから、そこを補強する必要があります。
当該分野の専門家(当業者)でない翻訳者が、
翻訳対象が概ねどのような内容なのかを初見で短時間で把握できるかどうかは
その後の翻訳作業に大きな影響を与えます。
ここまでの分析から、
翻訳前作業(準備作業)の一環としての内容把握に対して、
「コンコーダンサー」が威力を発揮することが
おわかりいただけたのではないかと思います。
コーパスの改善
コーパスは一回作成して終わりではありません。
どんどんファイルを追加し、また余計な(無関係なファイル)を削除して
バージョンアップしていくことで、より当業者の頭の中に
近づくことができます。
今回は、3M社の特許を取り上げましたが、
同じ3M社の粘着テープ関連のファイルを大量に収集して
コーパスとすることで、3M社の粘着テープ関連特許の出願傾向を
分析することもできますし、
また、キーワードを中心としたコーパスにすれば、当該分野における
開発動向を複数社にまたがって包括的に分析することも可能です。
また、今回は英文を扱いましたが、日本語のコーパスを別途用意し
同様に分析し、両者の分析結果を比較することで、
対訳集として活用したり、用語集収集の素材として
活用したりすることも可能です。
要は、「クライアント特化型」にするか、「開発テーマ特化型」にするか、
コーパスの性格を選ぶことができるわけです。
まとめ
短時間で当業者の知識レベルに近づくために、
コーパスやコンコーダンサーは利用価値がとても高いです。
もしプロの特許翻訳者を目指すなら、初期の段階から
コーパス言語学に慣れ親しんでおくことが望ましいと思います。
<追伸>
この他にも「翻訳者になるために」役立つ情報をお送りしています。
よろしければ、メルマガにご登録ください(筆者)
私が講師を務めている「レバレッジ特許翻訳講座で、
どのような講義をやっているのか見てみたい」
という声にお応えして、「講座の動画30本」を無料でプレゼントする
キャンペーンを行っていますので、ぜひ下記からご利用下さい。
(必須事項はピンクのお名前とメアドだけで、あとは任意ですので
差し支えない範囲でご記入下さい)