松尾ぐみの論文の書き方:英語論文

私が2005年10月からスタンフォードに滞在していることもあって、松尾ぐみでは、この1年、国際会議への論文投稿、 国際コミュニティへの情報発信に力を入れています。たくさんの学生や研究者の方との共同研究・共同執筆を通じて、 この1年でたくさんの国際会議に論文を通すことができました。 その経験を通じて、英語論文における一般的な問題点が明らかになってきました。 ここでは、そういった知見を形式知化し整理しています。

日本から投稿される情報系(特に人工知能、Web等の分野です)の論文は、主要な国際会議にほとんど通りません。研究者人口や研究費の額を考えると、国際コミュニティにおける日本人のプレゼンスは非常に低いです。この一番の理由は、論文の完成度の問題です。私の知る限り、ほとんどの論文が十分に完成度が上がらないまま投稿され、その結果として不採択になっています。一般的な国際会議では通ることがあっても、グレードの高い国際会議に完成度が低い論文が通ることはまずありません。完成度が上がらないこと、これが日本の情報系の論文が海外で通用しない最大の理由です。

研究の内容自体は、ほとんどの場合、問題ないです。たとえば、私は、人工知能学会論文誌に載るほぼ全ての論文、そして人工知能学会全国大会で発表される論文の3分の1は、きちんと書けばAAAIに通ると思います。(AAAIは人工知能の分野で最もレベルの高い国際会議のひとつです。)日本の情報系の研究は面白いものが多いです。英語論文を読んで、こんなのが通るの?と思うことが良くあると思いますが、裏返せばそれは、日本の研究のレベルの高さ、そしてそれを補って余りある(?)プレゼンテーションのまずさを意味しています。日本から投稿される論文の多くは、中身の勝負に行く前に門前払いされてます。ここでは、中身の勝負にもっていくために、論文の完成度を上げるとはどういうことか、どのように論文を投稿していけばよいかを説明しています。

完成度を上げるということ
執筆の手順

論文を執筆する手順は、基本的には、次のようになります。だいたい締め切りの1ヶ月前からアクションしましょう。

  • [執筆準備]
    • 〆切を把握して、フォーマット(ページ数)を調べましょう。 まずはスタイルファイルを入手して、タイトルや著者名を書き込んでみましょう。すべてはここから始まります。スタイルファイルの入手は分量の把握に欠かせません。
    • 国際会議のCall For Paper(CFP)や過去の論文を見てみましょう。CFPをよく読むと、Area of Interest、募集する論文のキーワード等、ヒントになる情報がたくさん書かれています。
  • [ストーリー作り]
    • タイトル、アブストラクトを考えます。タイトルとアブストラクトは非常に重要ですから、後回しにせずに真っ先に考えましょう。タイトルとアブストラクトは論文の「顔」です。
    • 関連文献やその会議の過去の論文をサーベイして、論文のストーリー(論旨展開と構成)を考えます。この段階で、先生や先輩にアドバイスをもらっておくことも良いと思います。
  • [初稿完成まで]
    • 初稿を作ります。ここが一番時間がかかる部分です。
    • まずは、ひたすら埋めます。 分量を確保するのが最優先です。いまある材料、結果などをすべて詰め込みます。日本語論文が元になってるなら、がんがん英訳してください。スペルや文法、整合性、文のつながりなど、細かいことは何も考えなくていいです。とにかく、言いたいことを全て詰め込みます。ごちゃごちゃ言ってないで、埋めてください!とにかくまずは埋めてください!これをすばやくやるのが本当に大事です。この時点で、規定のページ数から±2ページくらいになっているといいと思います。
    • ひらすら埋め終わったら、また関連文献をサーベイした上で、最初から通しで修正します。段落を移動したり、冗長な部分を削っていきます。
    • これが終わった状態が初稿です。つまり、ページを全て埋め終わり、一通り最初から最後まで修正した状態が初稿です。
  • [推敲]
    • この段階が最も重要で、かつおろそかになりがちな部分です。
    • 2回目の修正(第2稿の執筆)をします。全体を通して足りない部分を追加してください。章立ての構成に変更が必要であれば、読みやすくなるように変更してください。論文の意義をはっきりさせてください。他の論文との関係をはっきりさせてください。一貫した主張をしてください。
    • 3回目の修正(第3稿)をします。また最初から通しで修正します。研究のスコープを明記し、弱い部分をきちんと議論してください。統一的な記述にしてください。図表や数式を直してください。他の人に見てもらってコメントをもらってください。
    • 4回目の修正(第4稿)をします。さらに通しで修正します。この分野の研究者が最初に読んだらどう思うか、想像してください。考えられる反論に対する予防線を張ってください。文のつながり、表現に気を遣ってください。
    • 5回目の修正(第5稿)をします。最初から読んで、読者がスムーズに読めるか確認してください。論文がself-contained(すべての情報がきちんと入っている)になっているか気をつけてください。acronymの説明、初出の語の説明など気をつけてください。スペルチェックをしてください。図表をもっと見やすくしてください。
    • 6回目の修正(第6稿)をします。最初から読んで、一貫性のない点があれば修正してください。細かい文法に気を遣ってください。特に、冠詞(名詞の単複、aかtheか)、動詞(3単元のs)などに気をつけてください。
    • 7回目の修正(第7稿)をします。論文を音読してください。文法の間違い、スムーズに読めない箇所が、もしあれば直してください。直すところがなくなるまで繰り返してください。
    • 稿を上げるたびに、必ず、サーベイをすることが必要です。関連文献をさらに探したり、重要な論文を読み返しましょう。第7稿以上になって、直すところが見つからなくなったら終わりです。
    • この基準で言って、投稿して良いのは、少なくとも第3稿以上です。
  • [英文校正]
    • 英文校正の業者に出します。
    • 返ってきたのを最後にチェックします。おかしくなっているところは修正してください。
  • [投稿]
    • 投稿します。ビールを飲んで、満足感に浸ります。

基本的には、これだけです。これをきちんとやると、まあ、たいてい通ります。なんか当たり前ですね。要は、修正を繰り返すだけです。では、実際に、多くの人が投稿するときはどんな感じでしょう?再現してみましょう。

(※)国際会議に投稿しようと決めました。2週間後です。がんばるぞ!最初、どう書こうか考えます。Introductionが書けずに悩みます。うーん、どう書けばいいかなぁ。特に書き出しが難しい。全然筆が進みません。実験結果ももっとよくないといけないような気がします。もう少し結果を良くしよう、というわけで、少しプログラムを書き換えて再実験をやったりします。そうこうしてるうちに、残り1週間です。まだ1ページ半です。やばい!だんだん大胆になってきます。残り4日です。まあいいや!意を決して、がんがん書き始めます。だいぶ調子に乗ってきました。半分までいきました。あと2日です。間に合うか!残り1日です。あと規定のページ数まで2枚。あと6時間、なんとか最後のページまで来て、Conclusionを書ききりました。残り3時間です。ふぅ、なんとか間に合った。まだ時間あるな。ちょっと読み直してみます。あれ?結構、最初と言いたいこと変わってるなぁ。少し修正していきます。結構、直すところあります。あー、よく見ると図も変だなぁ。数式も直そう。とりあえず半分くらい直したところで時間が来ました。投稿します。ふぅ、大変だった。でもよく頑張った。ビールでも飲んで満足感に浸ろう。通るといいなぁ。。

で、落ちます。

あー、やっぱりこの国際会議は難しいな。日本人ほとんど通ってないしなぁ。結構頑張ったんだけどなぁ。でも査読者、なんか良く分からないことを言ってる。こいつ分かってないな。こんな査読者に当たるとは運が悪い。3人中1人はすごくいいコメントなのになぁ。ま、いいや、研究会論文でも書こう。(※に戻る)

私も以前はこんな感じでした。主要な国際会議のレベルは高いと思ってました。今では、そうは思いません。何といっても、まずは完成度の問題です。

完成度を上げることの重要性

完成度を上げるとは、自分で修正するところがなくなるまで、修正を繰り返すことです。 上の例では、初稿の段階で投稿していますね。これで通せる人は誰もいません。ここで私がよく目安に使っている2つの経験則を紹介しましょう。

執筆時間の法則: 経験上、次のような法則があります。「書こう」と思ってから、初稿ができるまでの時間をa0とします。すると、第2稿ができるまでの時間は a0/2 です。(半分の時間。) さらに第3稿までの時間は、a0 / 2**2 です。 第4稿は、a0 / 2**3 です。・・・。 すると、等比級数になりますから、稿数nまでの執筆時間は t(n) = Σ a0 / (1-(1/2)**n) = 2 a0 (1-0.5^n) かかり、全体では、

T = 2 a0
の時間がかかることになります。右図は執筆時間と稿数の関係を表しています。2a0付近で一気に稿があがるのが分かります。

質の法則: 第何稿かに比例して、論文の質は上がります。 初稿より第2稿、第2稿より第3稿が大幅に質が上がります。採択される確率pは、稿数をnとするとだいたいこんな感じです。
p(n) = p0 * ( 1 - exp( - n**2 /16 ) )

ここでp0は、 論文が潜在的に持っている「通る確率」で、研究の内容と会議のレベルから決まります。expの部分は、正規分布と同じ式で、係数の16は経験的なものを当てはめています。通る確率と稿数の関係を図示してみると右図のようになります。 初稿(n=1)では、通る確率はp0のわずか6%に過ぎません。第2稿になると、23%と一気に4倍、確率があがります。第3稿では45%、第4項では65%まであがり、第7稿までいくと96%と、ほぼ完全にポテンシャルを発揮できます。(ちなみに、この式の妥当性の検証は今後の課題です。)

この2つの法則から言えるのは、論文のもつポテンシャルをほぼ発揮する原稿ができるまで、最初に書こうと思って埋め終わるまでの、さらに倍の時間がかかるということです。 英語論文の完成度が十分に上がらない理由のひとつはここにあります。「とりあえずページ数を埋めて、体裁を整えるところをゴールにしてしまう。」ということです。 日本語で考えれば分かりますが、とりあえず埋めた原稿というのはやっぱりひどいです。英語だと、そのひどさが実感として分かりにくい。ぱっと見た感じ、ちゃんとできてるじゃん、みたいな印象をうけてしまいます。でも、実は、そこからさらに同じだけの時間がかかります。日本語論文では、言葉の間違いや論理的におかしなところは、「ちらっと」見れば気づきますから、自然に納得できるまで校正してると思います。校正の時間を含めて、執筆時間の見積もりをすることが大切です。

しかし、実際にはこれはなかなかできることではありません。その理由は、a0が日本語論文と比べて、とても大きいことです。私の場合だと、a0は英語論文(ダブルカラム10ページ)だと丸4日です。(もちろん材料はすべて揃っている状態からです。)日本語論文だと丸2日くらいでしょうか。でも、はじめて英語論文を書く人、ほとんど書いたことのない人だと、a0は15日とかかもしれません。(日本語論文でも最初はa0は15日とかだと思います。)15日かかって書いて、さらに15日かけて校正しないと十分に完成度は上がらないわけです。これを予測しておくのは相当大変です。しかし、それを理解して適切に見積もっておく必要があります。

p0は、良い研究(例えば日本語ジャーナルクラスの研究で国際会議はAAAIクラス)なら0.7とか0.8、そこそこの研究でも0.5くらいでしょう。つまり、日本基準ですばらしい研究であれば、まず通ります。なので、p0については心配しなくて大丈夫です。だからこそ、日本でも、毎年、レベルの高い国際会議に通せる人がいるのです。実際は、p0=0.7の良い研究でも、初稿で投稿すると0.7×6%=4.2%、さらに英文校正しない割引(後述)で2.1%。50年に1回通るかどうかということになります。

というわけで、気をつけるのは3点です。

  • a0をできるだけ小さくする。とにかく、まずは埋める。これは全体の時間を短くする上で、とても効率的です。
  • 校正を繰り返す。自分でそれ以上校正できなくなるまで稿を上げます。最低で第3稿、できれば第6稿、7稿までいきましょう。
  • 校正を含めた執筆時間を適切に見積もる

何度も英語論文を書いているうちにa0は小さくなってきます。日本語論文なみに小さくなるのが目標だと思いますが、なかなか難しいかもしれません。さらに難しいのが、校正まで考えた上で〆切までの日数と合わせて、いけるかどうか判断することです。〆切まであと1週間あると思うと、いけるかなと思ってしまいますが、この理論によると、私の執筆時間の見積もりはa0×2=8日なので、すでに無理です。こういう状態で執筆をはじめると、結局、初稿ないしは第2稿あたりで収束しないまま投稿ということになります。論文を通すという点からは、これは時間の無駄ですし、極限までいってないので自分の力も上がりにくいです。書くなら時間を取って、十分に完成度を上げましょう。 そのためには、自分のa0が何日なのか、知ることが大切だと思います。

稿を上げないまま出すことがいかに非効率かを示したのが右図です。通る確率p(n)を、その稿までの執筆時間t(n)で割ったものをy軸にとっています。(稿を上げると無限に執筆時間が小さくなるのは現実的でないので、稿をひとつ上げるのに少なくともa0の10%の時間が定常的にかかるとしています。そうじゃなければ、稿数は無限に上げたほうが良くなります。)この場合、第6稿あたりが一番いいことが分かります。忙しくて時間が取れないという人もいるかもしれませんが、時間当たりの効率で見ても、初稿や2稿で投稿するのが、なんと効率の悪いことか分かると思います。極端に言えば、稿を上げられないくらい忙しければ、そもそも執筆しないほうがいいということですね。それより、先の国際会議に狙いを定めて、時間を十分とって書くといいと思います。
最後は一字一句の修正

論文の完成度が十分上がってない状態を簡単に判断する方法があります。ページ数の遷移です。完成度の高い論文は、例えば、10ページの原稿であれば、一時的に12ページくらいまで膨らんで、その後、不必要なところを削除、不十分なところを追加する過程を経て、10ページぎりぎりに持っていきます。規定のページ数に届かないのは問題外です。ページ数の時間遷移を見たときに、1ページ⇒…⇒8ページ⇒9ページ⇒10ページ⇒投稿という、ページ数単調増加論文は完成度を上げきってないです。良い論文は、ページ数が一旦膨らんだ後、不必要な部分が削られ、最終的に規定のページ数いっぱいになります。単調増加の後、圧縮と拡張を何度か繰り返すことで、書くべきことが完全に書かれ、無駄な部分がなくなるのです。

論文執筆の最後のフェーズ、第6稿とか第7稿の修正では、規定のページ数をはみ出る最後の数行をどこで詰めるかという作業になります。もう、どの部分も重要なので削れません。どの一文も大切です。でも、あとちょっと長い。私がよく使うのは、

  • \vspace{-4mm}などを使って、図表の上下のスペース、キャプションの上下のスペースを詰める、
  • 数式を1行ではなく本文中に埋め込む(\[ \]ではなく、$ $にする)、
  • 1語削るだけで1行減るようなら、削除可能な語(形容詞や副詞)を削る、
  • 表のフォントを{\footnotesize}などを使って小さくする、
  • \setlength{\topsep}{0pt}, \setlength{\topskip}{0pt}などを使ってセクションの1ページ目のスペースをかせぐ、

などです。本当にどうしようもなくなったら、\renewcommand{\baselinestretch}{0.99}という技もありますが、やや禁じ手に近いです。ともかく、最後はこういった一字一句を修正する段階に至るわけです。図のちょっとした改善、表現のちょっとした改善を最後の最後まで繰り返します。

海外の研究室でも、ハイレベルの国際会議に通る論文は、締め切り間際の1日、2日は細かい字句の調整だけやってます。そして、直すところがほとんどない状態で投稿しています。これが完成度を上げるということです。a0×2の時間、集中してやれば、必ず収束します。最後まで粘り抜いてください。

英文校正について

自分で稿を上げきったら、英文校正の業者に出して、英文校正をしてもらいましょう。英文校正は、ほぼ必須です。英語は自分で考えているよりもずっと下手です。どんなに英語がうまい人でも、日本人の英語は間違いがたくさんあります。もちろん、英語のうまい人で、稿を十分に上げておけば英文校正しなくても通る場合もありますが、英文校正しないと通らない、いや英語力を上げれば通るなどといった議論は無意味だと思います。なぜなら英文校正せずに投稿するということは、ノンネイティブな我々にわざわざハンデを課して勝負していることであって、国際コミュニティでは「あの人はノンネイティブなのにすごい」などと誰も思ってくれません。ですから、普通に英文校正をするのが王道だと思います。通る確率 p は、英文校正してないと50%引きです。

英文校正をしてくれる会社はたくさんありますが、私が使っている会社(Fastek)は、6ページダブルコラム(≒15ページシングルコラム)でだいたい2、3万円からです。費用は、研究費で出すことができれば、それほど高額ではないと思います。また、研究費で出してもらえなければ、知り合いのネイティブの人や留学生の友達に頼むと良いかもしれません。(私が学生のときには、石塚研にいたHelmutさんによく頼んでいました。)

英文校正には3〜4日(急ぎでも2日程度)かかります。その分を見込んで、早めに原稿を仕上げる必要があります。英文校正後に自分で大幅に変更を加えると、うまい部分と下手な部分が混ざって、おかしな文章になることが多いです。英文校正に出す前に、完成版の原稿にしておきましょう。つまり、自分が死にそうになっている時期は、論文締め切りの3、4日前です。

英文校正から返って来た原稿はきちんと確認しましょう。意味が伝わらず、異なった意味に修正されていることもありますし、その研究コミュニティのスタンダードと異なる表記になっていることもたまにあります。また時間が経っているので、客観的に見ることができます。ひと通り内容をチェックし、必要であれば部分的に修正、細かい図表の調整等をして最終版の出来上がりです。

論文の意義と貢献
巨人の肩に乗って

完成度を上げることが、英語の論文執筆で一番重要であることは分かっていただけたかと思います。では、次に、内容について説明します。書く内容に気を遣うことで、通る確率をさらに上げることができます。

英語論文が日本語論文と一番異なると私が思うのは、研究の貢献についての意識です。研究は、自分ひとりでできるものではありません。自分の研究でも、いろいろなツールを使ったり、先行研究で分かったことを使ったりしてると思います。つまり、他の人の研究やツール化・データ整備の努力、理論構築等の長年の努力があってはじめて、我々の研究が可能になっているのです。まさに「巨人の肩に乗って」(Standing on the shoulders of giants)の意識です。自分が遠くまで見通せるのは、これまでの偉大な先人の研究の成果のおかげなのです。日本ではこういった意識を持つことはあまり多くないかもしれませんが、国際コミュニティではこの意識が非常に強いです。

したがって、論文を書くときは、逆に、自分の研究が他の研究にどう役立ってもらえるかを書く必要があります。つまり、自分の肩の上に、他の研究者が立ってもらえることを示すわけです。自分の研究(だけ)はこんなにすごい!と独りで言ってても認められません。国際コミュニティでは、手法や知見を着実に積み上げる意識が高く、投稿する論文の内容(例えば、すごい手法、新しい知見など)が、他の研究、研究コミュニティ、そして産業にどう役立つかを書きます。例えば、

  1. この研究は、従来の手法の精度を何パーセント上げた。これは、一連の研究のこういった応用や他の研究に対してとても有用なことである。
  2. この研究は、従来の手法をこのように拡張した。これで、こういった応用の可能性が広がった。同時に従来手法を利用した他の研究の応用可能性も広げることができた。
  3. この研究は、全く新しい方法を提案した。これは、今までの想定していた環境だけでなく、こういうときに使える代替法として役立つ。
  4. この研究は、他の分野のこの方法を応用した。この研究は両方の分野をつなげる試みであって、今後、お互いの分野の手法を使うための第一歩である。
  5. この研究は、新しい問題を定義した。結果はうまくいかなかったが、少なくともこの試みを通じてこういった知見が得られ、それは他の研究のこの部分を改善するのに役立つ。

などです。論文は1の形しかないと思ってる人もいると思います。でも、精度が上がることは、それによってもたらされる意義を明確に述べてはじめて、論文の意義となります。また、そういった意味で言うと、別に結果が良くなくてもいいのです。それによって、その研究コミュニティの人が新しい方法に気づいたり、重要な知見(こうやってもうまくいかない、ここに改善のヒントがある)が分かれば、それは論文の意義であり、研究コミュニティにとって意義のある論文は採択されるべきなのです。

私が良くやる方法ですが、1章(Introduction)の最後に、この論文の貢献(contribution)を2、3、列挙しましょう。その研究コミュニティの研究者が論文の成果をどう役立てることができるのか、論文を採択してもらうと研究コミュニティにどういう意義があるのかを書きます。それによって、論文全体で主張すべきことが明確になります。

研究コミュニティに貢献するという意識が強いわけですから、関連研究を安易に否定してはだめです。否定するには、それなりの覚悟をもってきちんと書く必要があります。それよりは、既存の手法を増強するものである、相補的である、代替的であるなどと主張するほうがよいでしょう。

全訳法と再構成法

英語の論文を書いていく上でいくつかのスタイルがあります。まず、英語の論文を書いたことがない人は、次の全訳法が一番良いのではないかと思います。

[全訳法] 日本語論文(論文誌に採択されたもの)を英訳します。まずはせっせと英訳です。そして、関連文献を読んで、それを真似しながら推敲し投稿します。特に、意識するのは、各段落がトピックセンテンスを持つようにすること、論文の貢献と位置づけをはっきりさせることです。

格の高い国際会議だとそうすんなり通りませんが、内容を読んでもらえる完成度に達していれば、不採択であっても有益なコメントを返してくれることが多いです。コメントをよく読んで、論文の内容を修正・推敲し、また次の会議に投稿します。こうしていればそのうち通ります。まずは、これで1本通して、発表する経験を積むとよいと思います。松尾ぐみでは、1本目の論文は私がかなり手をかけて、協力して書くようにしています。で、完成度をぎりぎりまで上げるのを1回体験してもらいます。後は、徐々に自分で書けるようになります。

全訳法でもそのうち良い国際会議に通ると思いますが、実は日本語論文の構成と、英語論文の構成は全く違います。日本語の論文では論文単体での自己完結性が求められ、なぜそれをやるのか、それ自体でどういう応用があるのかなどを書くことが必要です。日本語論文をそのまま英語に訳したものを海外の人が読むと、おそらくこういった印象を持つと思います。

「なんだか大きなテーマについて語ってるけど、それについてはこれまでにいろいろな研究があるし、そういった研究との関係がよく分からない。評価も独自のものだし、いいのか悪いのか判断できない、よって不採録!」

要するに、研究コミュニティへの貢献、位置づけが不明確ということですね。したがって、研究した内容を、研究コミュニティのそれまでの研究や問題意識を踏まえて、再構成することが必要です。

[再構成法] コミュニティでの問題意識と自分がやったことを制約として、その間をつなげる論旨展開を考えます。難しいですが、うまくいけばきれいな論文になります。そのためには、サーベイが圧倒的に重要です。論文を書いていく中で、独自の用語をコミュニティで使われている語に置き換えたり、既存のデータセットや評価手法を用いて再実験をする必要がある場合もあります。

この2つの方法(全訳法と再構成法)を別の見方で説明しましょう。全訳法によって、日本語論文と同じ構成で英語論文を書くと、こういう論旨構成になることが多いです。

イントロ ⇒ すばらしい洞察 ⇒ 手法の提案 ⇒ 評価 ⇒ ちょっとした関連研究 ⇒ 結論

このパターンになると、論文はほとんど読んでもらえません。なぜか分かるでしょうか?それは「すばらしい洞察」が、コミュニティの意識から飛躍しすぎるのです。日本の研究コミュニティでは、こうした洞察を持つことが非常に評価され、こうしたパターンの論文もよい論文とされますが、国際的な論文ではそうではありません。勝率を上げるには、

イントロ ⇒ 共有された問題意識 ⇒ 手法の提案 ⇒ 評価 ⇒ 完全な関連研究 ⇒ (すばらしい洞察) ⇒ 結論

という形に変える必要があります。これが、英語論文の必勝パターンです。問題意識の時点で飛躍しすぎてはいけないのです。

つまり日本人の感覚からすると、当たり前のことをきちんとやればいいのです。これが、日本の研究が海外でも十分通用するはずだと私が主張する理由です。レベルの高い会議で、どうしてこれが通るのかなぁ、つまらない研究だなぁと思うことも多いかもしれませんが、要するにその背景には、知識は積み上げるものであり、したがって共有された問題に対して着実な解決を繰り返すことが重要であるという意識があります。国際的なコミュニティは、まさに異文化のコミュニティですから、当たり前のことを当たり前に書くしかないのです。それさえ気をつければ、日本の研究は十分、いえ十二分に通用します。

その他、気をつける点
図表と結果、再現性

論文を見渡して真っ先に目に入るのが図表です。極端に言えば、図や表だけ見れば論文の内容が分かるくらい気を遣いましょう。図は十分に見やすい大きさでしょうか?解像度は十分でしょうか? 自分がプリントアウトして見えなければ、査読者や読者にも見えません。当たり前のことなのですが、できてない場合も多いです。全く見えない解像度の図を使っていたり、日本語満載の図を使っている場合もあります。

論文中に日本語を使うのはできるだけやめましょう。データとして日本語の文書等を使っている場合など、結果や例の説明で日本語(+英訳)を書きたくなりますが、実際、PDFにすると海外のプリンタでは漢字が出ません。どうせ読んでもらえないのですから、書くだけ無駄です。もちろん厳密を期すために書いても構いませんが、問題は自分が目で見て分かるために英語での説明がおろそかになることです。標準的には、日本語の文字を使ってはいけない、完全に英語だけで説明しないといけないと思った方がいいと思います。

結果の良さをはっきり書きましょう。読者が真っ先に知りたいのは、良かったのか、悪かったのかです。日本語論文では、「良い面と悪い面があって、それは論文に書いているのだから読み取ってください」と言えるのですが、英語論文では、良いところをことさら良いと主張しないと伝わりません。例えば、「結果は提案手法の良さを示している」「提案手法はそれほど良くはなかったが重要な知見をもたらしている」など、主張したいことをはっきりと書きましょう。Introduction、結果の節のはじめ、実際の内容の部分に、主張したいことを何度も書くことが大事です。

客観的にすごさが理解できる数字をアピールしましょう。例えば、500人規模のユーザに使ってもらったとか、センサーを1000個配置したとか、100万人のコミュニティを分析したとか、そういった数字は国や文化を問わず理解してもらえます。

再現性に気を遣いましょう。読んだ人が完全に再現できるように、正確な説明(アルゴリズムの記述など)を論文中に1箇所は作るようにしましょう。

参考文献

参考文献は非常に重要です。論文の質は、参考文献を見るだけで、ほぼ言い当てることができます。 良い論文は、まず参考文献のスタイルが統一的で正しいです。例えば、Y. MatsuoとYutaka Matsuoが両方混ざっている、In Proc. WWW2007とIn Proceedings of the International WWW Conference (WWW2007)が混ざっているなどということがありません。どちらのスタイルでもいいですが、統一的に書くことが必要です。

それから、良い論文は良い論文を引用します。レベルの高い国際会議の論文を引きましょう。例えば、WWW conferenceに出すのであれば、過去のWWW conferenceの論文をできるだけ引くといいと思います。ワークショップとかTechnical noteとか、相当自信がない限りやめましょう。(たいてい良い論文であれば、同じ研究が国際会議、ジャーナルに出ています。その人のHPを調べましょう。)

同じ研究グループの論文をたくさん引きすぎるのは避けましょう。逆に、その研究テーマで、この人を引かないのはおかしい、というくらい有名な人が、必ず数人はいます。そういった人の研究をきちんと抑えましょう。そのためには、研究テーマに関する研究動向を完全に網羅しておきましょう。(ちなみに、私はWeb上の情報抽出、ソーシャルネットワーク、タギング、Blog等に関する文献をこの1年で400件以上リストアップしています。)

チェック項目

できたと思ってもまだまだです。次に挙げるのは、よく出てくる注意点です。チェックしましょう。

  • [スタイルファイル]
    • スタイルファイルの定義に従いましょう。たまに自分で太字にする、改行するなどしている人がいますが、極力避けましょう。列挙するには、itemize環境、description環境、enumerate環境などを使いましょう。
  • [タイトル]
    • タイトルは適切ですか?論文の内容がうまく表されていますか?
    • 章や節のタイトルは適当ですか?大文字、小文字の使い分けはスタイルに沿ってますか?節のタイトルでは冠詞はあまりつけなくても良いです。
  • [図表]
    • 図表のキャプションは適当ですか? 通常、行頭は大文字、あとは小文字、最後はピリオドで終わります。つまり、文です。
    • 図表は、figureもしくはtable環境で[tb](トップかボトム)を使います。[h]はなるべく避けましょう。通常は論文の本文と図表は別のものです。
    • 図や表中の用語は説明してますか?図や表の中の用語と本文中の用語は揃ってますか?
  • [本文]
    • ダブルクオーテーション("")はあまり使いません。太字も一般的ではありません。強調はイタリックです。({\em }を使います。)また、初出の重要な用語もイタリックにしましょう。
    • あまりに短い段落はやめましょう。(前後とくっつけるかなどしましょう。)各段落がトピックセンテンスを持つように、そしてそれができるだけ先頭に来るようにしましょう。
    • 本文内の数式はきちんと$$で囲みましょう。(つまり数式モードです。) また、後で参照しない数式に式番号をつける必要はありません。
    • 本文中の数字は、10までは英字、11以上は数字で書きます。one, two, three, ..., ten, 11, 12, ...です。 行頭に数字や記号がくるのはできるだけ避けましょう。文の構造を変えて対応します。
    • 図表でいいたいことは、本文中にすべて丁寧に書きましょう。例えば、グラフから一見してある値が高いと分かる場合でも、その値が一番高い、これは良いことであると丁寧に説明する必要があります。(読者は、一旦、本文を読み始めると、図表に目がいかないこともあります。)
    • スペルチェックをしましょう。英文校正に出す場合でももちろん必要です。EmacsやWordでもできますし、最近ではGoogle docsにコピペしてスペルチェックするのが便利です。思ったよりたくさん間違えていますので、必ずスペルチェックをしましょう。
  • [整合性]
    • アブストラクト、Introduction、Conclusionで言っていることが整合していますか?書いているうちに、言っていることが違ってくることもあります。この3つは論文で一番読まれる部分ですから、特に整合性に気をつけましょう。
    • 用語が一貫していますか?初出の用語、数字は定義されていますか?一貫していますか?アルゴリズム、数式は間違っていませんか?
    • 論文はSelf-containedですか?つまりそのコミュニティの一般的な読者が理解するために必要な説明がすべて入っていますか?
  • [PDF]
    • 論文はPDFで提出することがほとんどですが、PDFの作り方も注意する必要があります。Type 1フォントだけを使うのが最も確実です。いくつか方法がありますが、私はdvips -P pdfとやって作っています。
国際会議のグレード
情報系の事情

最後に、情報系を取り巻く事情と、国際会議のグレードについて説明します。情報系では、日本語論文と英語論文があります。これは、実は理系の分野としてはやや特殊で、物理や化学などの分野は国内でも国外でも完全に英語だけですし、逆に文系の分野はほぼ日本語論文が主体です。しかし、情報系(計算機科学:Computer Science)では、日本の学会と国際的な学会が並立しています。これは、「情報」という対象が、文化や言語と密接な関係を持つ一面があると同時に、抽象的なレベルでは普遍的な性質が存在することが理由だと思います。したがって、論文を日英両方で書かないといけないという状況は、ここしばらくは続くでしょう。(日本語論文の執筆については、こちらも参考にしてください。)

国際的な学会での論文の出版形態には国際会議とジャーナル(論文誌)がありますが、Computer Scienceの分野では、ジャーナルよりも国際会議の方が速報性が高く権威が高いという側面があります。(もちろん、ジャーナルは研究成果を最終的に報告する重要な場です。) 例えば、Semantic Webの分野では、ISWC(International Semantic Web Conference)という国際会議があり、Journal of Web Semanticsというジャーナルがあります。人工知能では、IJCAI(International Joint Conference on Artificial Intelligence)などの国際会議と、Artificial Intelligence誌Jounal of Artificial Intelligence Research(JAIR)IEEE Inteligent Systemsなどあります。通常は、国際会議で発表された論文の一部がジャーナルに投稿されますが、ジャーナルに掲載されるのは1年〜2年程度遅れるため、実際に引用されるのは国際会議の論文が多いです。

国際会議は千差万別です。最高水準の国際会議から、どうしようもないレベルの国際会議まであります。(こんな事件もありました。)もちろん、よい論文を集めることだけが国際会議の目的ではなく、研究者と交流し意見交換するのも重要ですし、知名度の低い会議でもよい論文がたくさん集まることもあります。しかし、知名度の低い国際会議では、論文を多くの人に読んでもらえませんから、研究を国際的にアピールするには、レベルの高い国際会議に通すことが大切です。

端的に言えば、国際コミュニティの研究の方が国内のコミュニティの研究のレベルより高いです。個々の研究者のレベルは遜色ないのですが、研究者の厚みが違います。考えてみれば当然なのですが、これは単純に人口の差に帰着するのではないかと思います。日本人の研究者は1億人の人口を背景にしてますが、国際会議では65億の人口の中からその分野に興味を持つ研究者が集まっています。この人数の差が、トップクラスの研究者のレベルの差、人材の厚みの差を生んでいます。

研究分野によって日本の研究が優位な分野もあります。ロボット系やユビキタス系でも日本は強く、 国際会議で日本人が大変活躍しています。言語系でも日本勢は強く、多くの先生が活躍されています。これは、結果が分かりやすい、つまり完成度をある程度上げれば、研究の中身の勝負にもっていきやすいというところが大きいのではないかと思います。逆に、人工知能、知識処理、Web, Semantic Web, ネットワーク理論などでは、日本の研究グループは苦戦しています。これは、概念の話をするには、完成度を上げきること、論文のプレゼンテーションを良くすることが、必要不可欠な要因だからです。決して、日本のレベルが低いわけではありません。こういった研究分野でも、日本の研究がもっと海外に発信されてしかるべきだと思います。

重賞レース

国際会議のレベルも年によって多少変動しますし、長い年月の間に大きく変化しますが、各研究分野でのトップ会議を知っておくことは重要だと思いますので、以下に列挙します。特に松尾ぐみが関係する分野が中心ですので、他にもたくさんレベルの高い会議はあります。行ったことのない会議もいくつかあるので、間違った評価等あるかもしれませんが、参考になればと思います。

  • 人工知能系
    • IJCAI: Internationoal Joint Conference on Artificial Intelligence (G1 東京芝2400): 隔年開催で、AIでは最も権威ある国際会議。最近はトピックがやや散逸ぎみですが、レベルは高いです。
    • AAAI: National Conference on Artificial Intelligence (G1 東京芝1600): アメリカの人工知能学会(Amercan Association for Artificial Intelligence, AAAI)の全国大会。良い論文とそうでない論文の差は大きいが、きちんと書かないと通りません。
    • AAMAS: International Joint Conference on Automonous Agents and Multi-agent Systems (G1 中京芝1200):マルチエージェントのトップ会議。
    • ECAI: European Conference on Artificial Intelligence (G2 中山芝1800) : ヨーロッパ版の人工知能学会
    • PRICAI: Pacific-Rim International Conference on Artificial Intelligence (G3 福島芝1200): 環太平洋版の人工知能学会。最近、レベルが下がりつつある。
    • FLAIRS: International FLAIRS conference (G3 新潟芝1200):いつもフロリダでやるフロリダ人工知能学会(The FLorida Artificial Intelligence Research Society)の会議。フロリダは軍事施設が多いので、AI研究が盛んです。
  • Web系
    • WWW: International World Wide Web Conference (G1 東京芝2000):メディアからの注目度も高い会議。W3C主催。Sir Tim-Berners Leeもよく現れます。
    • SIGIR: International ACM SIGIR conference (G1 中山芝2000):情報検索のトップ会議 。SIGIRは、Special Interest Group on Information Retrievalです。
    • ISWC: International Semantic Web Conference (G1 京都芝1600): セマンティックウェブの国際会議。これもSirがよく現れます。
    • ESWC: European Semantic Web Conference (G2 京都芝1400):セマンティックウェブのヨーロッパ国際会議。欧州が本場なのでレベルはISWCとあまり遜色ない。
    • ASWC: Asian Semantic Web Conference (オープン 福島ダ1600):アジア版 セマンティックウェブ国際会議。また1回やっただけなのでグレード外。
    • WI: International Conference on Web Intelligence (G3 小倉芝1600):名前は良いのですがレベル低下中。アジアの会議でよくあるパターン。
    • Hypertext: ACM Conference on Hypertext and Hypermedia (G2 中京芝2000):行ったことないが、このくらい?たまによい論文を見かけます。
    • ICWSM: International Conference on Weblog and Social Media(G2 新潟芝1400):ブログとソーシャルメディアに関する会議で、2007年が第1回です。面白かったのでG3→G2に昇格。
  • 言語系
    • ACL:Association for Computer Linguistics Annual Meeting (G1 京都芝3200):言語系のいわずと知れたトップ会議です。
    • COLING: International Conference on Computer Linguistics (G1 京都芝2200):これもレベルが高いです。
    • HLT/NAACL (G2 東京芝1800):ここらへんはいろいろ共催が変わりますが、HLTはHuman Language Technology、NAACLは北米の言語処理学会(North American chapter of the Association for Computer Linguistics)です。
    • IJCNLP: International Joint Conference on Natural Language Processing (G3 札幌芝2600) :アジア中心の会議。まだ2回開催。
  • データマイニング系
    • KDD: ACM SIGKDD conference on Knowledge Discovery and Data mining (G1 阪神芝2200):よい論文が目白押しです。
    • ICDM: International Conference on Data Mining (G3 福島芝1600):中国の研究者が中心です。(日本では鐘先生)
    • PKDD: European Conference on Principles and Practice of Knowledge Discovery in Databases (G3 函館芝1400): ヨーロッパ版。
    • PAKDD: Pacific-Asia Conference on Knowledge Discovery and Data Mining (オープン 福島芝1200) :アジア版。PCをしましたが、レベルの低い論文が多くて困りました。
  • HCI系 ほか
    • CHI: International Conference for Human-computer Interaction(G1 阪神芝1600):すごいらしい。
    • CSCW: ACM Conference on Computer Supported Cooperative Work (G1 中山芝1200):隔年開催。すごいらしい。
    • UbiComp: International Conference on Ubiquitous Computing (G1 東京ダ1600):ユビキタスの会議。ややレベル低下傾向?
    • User Modeling: International Conference on User Modeling (G1 中山芝1600):ユーザモデリングのトップ会議
    • SIGGRAPH: International Conference on Computer Graphics and Interactive Techiniques (G1 東京芝2000):グラフィックとインタラクション。伝統と権威ある、メディアの注目も高い会議です。

なお、G1とかG3とか書いてあるのは、私が勝手に主観的につけた格付けです。(不当に評価が低いものもあるかもしれませんが、ご容赦ください。)基本的には、そのトピックでトップの会議をG1にしてます。長距離はスタミナがいる=既存の枠組みでまじめに研究することが必要、短距離はアイディア一発勝負ありの国際会議です。また、ローカル開催は展開にまぎれが多く、主要競馬場の開催はまぎれが少ないです。あとはG1の格を連想してください。

一般的な傾向として、あるトピックで最高レベルの国際会議がひとつあって(G1)、それのアメリカ版(G1〜G2)、ヨーロッパ版(G2)、アジア版(G3)という構造になっていることが多いように思います。

国際会議の特徴と研究の決め手

国際会議にも特徴があります。例えば、自然言語処理系は一般的に「まじめ」な会議が多いです。既存の問題設定で、精度を挙げる手法を提案し、完全に評価する必要があります。逆に、WWWは観客重視の学会です。トレンドに乗った研究で誰しもが聞きたいと思う、面白い研究が通ります。もちろん、手法や評価も必要ですが、相対的な重要性は低いです。ISWCは、珍しくコンセプト論文が通りやすい学会です。IJCAKやKDDは手法が重視されます。

私は、論文の手法のすばらしさを決め手と呼んでいます。例えば、最新の学習理論や最新の確率モデルを使う研究は決め手に優れています。決め手のある馬(研究)は強いです。他にも、着眼点のすばらしさ、データの面白さ、評価の良さなど、研究の良さに関わるさまざまな要件があるわけですが、優れた決め手を持つ研究は、論文を通す上で有利です。なぜなら、根本的には、理論に裏付けられた手法のすばらしさが、情報系の研究コミュニティが社会(産業)に対して持つ根源的な意義であるからだと思います。 でも、レース(国際会議)によっては、決め手が生きるものと、そうじゃないものがあります。出す予定の会議がどういった傾向なのか、決め手重視なのか、着眼点重視なのか、評価重視なのか、これをよく理解してから、論文を書いていくとよいと思います。

上のリストを参考にしながら、目標とする国際会議を決めていきましょう。出走予定のレースを、ローテーションを考えながら決めていきます。実際には、時系列の締め切りリストを作る必要があります。(これは松尾ぐみの2006-2007シーズンのものです。)基本的には、秋(10月ごろ)から翌年の春(4月ごろ)までが投稿のシーズンで、初夏(5月ごろ)から晩秋(11月ごろ)にかけてが国際会議の開催シーズンです。

日本にはすばらしい情報系の研究がたくさんありますし、優秀な研究者もたくさんいます。人工知能の分野でも世界に情報を発信して活躍されている先生方もたくさんいます。ここで書いたことが、日本の多くの研究が国際的にアピールするために、何らかの役に立てば幸いです。

2006.12.14 松尾 豊