松尾ぐみの論文の書き方

松尾ぐみの論文の書き方 論文を書くことは、研究を進める上で重要なプロセスのひとつです。 研究者の業績も論文によって評価されます。ここでは、松尾ぐみの学生と一緒に論文を書いていく中で、よく注意点として出てくることをまとめて整理してみました。なお、松尾ぐみのテーマに即していますので、違う分野の人は参考にならないかもしれません。

研究を論文にするということ

自分の研究をきれいな形に切り取る

論文は、自分の研究日記でも苦労日記でもありません。卒論や修論は、自分がやったことをできるだけ主張する、 苦労した点を伝えるという点で、 ある意味、研究日記でも構わないでしょう。しかし、ジャーナルの論文や国際会議の論文は違います。 こういった論文は、新しい知見を読者に伝えるためにあります。読者が必要としている情報、知りたい情報を、過不足なく書く必要があります。 自分の苦労話や、横道に入るような研究は書く必要はありません。

自分がやった研究の中で、どこをどのように切り取れば読者に面白いか、学術コミュニティに貢献できるかを考えて、研究のこの部分を論文で伝えよう、と考えます。 これを、「論文のストーリーを考える」と言います。 どこまでを論文の前提として、どこを論文の主張点として切り取るかを考えましょう、ということです。
(参考:素人のように考え玄人として実行する

論文は、前提+主張+ディフェンス

論文は、大まかに言って、前提+主張+ディフェンスで構成されます。まず、前提を設定します。例えば、「与えられた文書からキーワードを取り出すことを目的とする」というのは前提のひとつです。 さらに、文書が100個与えられるのか、10万個なのか、1個なのか、カテゴリ情報がついているのか、他のメタ情報がついているのかなども、前提です。 こういうことをまず初めに前提としますと言ってしまえばよい部分です。

次に、主張は、論文で新規に主張する点です。他の論文で今までに言われてないこと(新規性)が必要ですし、 設定した目的に有効であること(有効性)が必要です。論文の評価は、主に

で判断されます。(例えば、これは電子情報通信学会の査読基準です。)主張の部分が、新規であり有効であるかは、論文を書く上でまず最初に考えるべき点です。 そのために、サーベイをして従来研究を把握しておくことが不可欠になります。

最後のディフェンスは、主張した点を裏付ける理論や評価実験です。読者は、まずは論文の主張はおかしいのではないかと疑惑を持って読むわけですが、 これに負けないような理論的・経験的根拠を準備する必要があります。

したがって、論文の前提、主張、ディフェンスをどう構成するかは、論文のストーリーを考える上で最も重要なポイントです。 例えば、自分としては、Web上の文書について有効であることを示したい、でも、評価実験・理論的根拠をもってしても、そこまで言うことは難しそうだ、という場合、 「Web上のGoogleディレクトリの文書について有効である」と主張を縮小し、Googleディレクトリの文書に適用するという目的は前提にしてしまうわけです。もちろん、手法の有効範囲は大きいほうが良いわけですが、大きければ大きいほど理論的・経験的根拠はたくさん必要になります。無謀にも大きな主張をしようとする論文をよく見かけますが、主張を適切なサイズまで縮小することは重要です。

もちろん、主張を縮小した場合、その分、前提は厚く記述する必要がありますが、論文の主張とするのとは違って、完全にディフェンスしきらないといけないわけではありません。 著者が、こういう前提ですと言ってしまえば、査読者としては、その前提が現実に有効性を欠くことを根拠を持って言う必要があります。これは査読者にとって大変なことなのです。

論文は、max 説明性 s.t. 現在の研究

論文を書こうという段階になって、研究をやり直し始める人がよくいます。 まだここが気になるから論文を書けないという人もいます。 研究は終わりのないものです。 ほとんどの研究者が自分の研究に満足していないでしょう。 研究は常に進み続けるものですし、研究者たるもの、自分の研究に満足する瞬間はほとんど訪れません。 研究トピックも深まったり、移り変わるものです。 では、終わらない研究のなかで論文を書くというのはどういうことでしょうか?

論文を書くことは研究のひとつのプロセスです。 いまの研究の状態をひとまず仮に固定してみて、それが研究コミュニティにどう貢献するのか、 できるだけ他の人に分かってもらうために整理して書くわけです。 したがって論文を書くという作業は、現在の研究の状態を固定して制約とした上で、 説明性を最大化する作業ということができます。 アルゴリズムを修正したり、評価実験をやり直すのは、そうそうやってはいけません。(それは別のフェーズの作業です。) いまある材料を、文献の引用や理論展開で補いながら、論文の主張をサポートしていきます。

何にせよ、論文を書いた後は、自分の研究がどう位置づけられるのか、 もっと説得力を出すためには何を実験しないといけないのか、 アルゴリズムの不足している要素は何かということが、よりクリアになっていると思います。 つまり、研究⇒論文⇒研究⇒論文というのが交互に行われることで、「効率的に」研究が進むわけです。 これは、アカデミックの世界が論文という出版の形態をずっと取り続けていること、 一流の研究者でも論文の締め切りがよい動機として機能していることからも分かると思います。

手法を改良しすぎない。シンプルに。

システムを作るという点からは、とにかく良い性能を出すことが求められます。当たり前ですよね。 ところが、おかしなことに、論文を書くという観点からは違います。 例えば、(ア)と(イ)の2箇所を従来手法から改良したとしましょう。 このとき、(ア)の有効性と、(イ)の有効性を別々に示す必要があるわけです。 そうでないと、いったいどちらの改良が効果的であるのか、読者には分かりません。したがって、論文では、主張すべき点を決めて、他の部分は同一条件にして比較する必要があります。この場合、例えば、

などのパターンが考えられます。 (ア)と(イ)の2つならまだいいですが、細かい改良をたくさん積み重ねていると大変です。 論文で主張することはできるだけシンプルにしましょう。

To Pagetop

読みやすい論文を書くために

難しいことを簡単に書く

難しいことを難しく書くのはだれでもできます。 簡単なことを難しく書く人もたくさんいます。これもつまらないです。 すばらしいのは、難しいことを簡単に書くことです。 よい研究者ほど、すごく難しいことを驚くほど簡単に説明してしまいます。 最初は、論文というとどうしても難しく書かなければ、と思うかもしれません。 しかし、論文は 最終的に読者が読むものですし、読者に伝わってなんぼです。 できるだけ分かりやすく書きましょう。

ただ、気をつけないといけないのは、分かりやすく書くことと、初歩的なことを丁寧に説明することは違います。論文は学部生を相手に書いているわけではなく、研究者を相手に書いているわけですから、「その専門分野の一般的な教科書に載っている程度のことは読者は(概要は)知っている」と仮定してよいわけです。しかし、似たような分野でも研究トピックは驚くほど細分化されていますから、細かい説明は必要です。例えば、情報検索の分野でtfidfについて説明する必要はありませんが、式を書いておくほうが分かりやすいでしょう。クラスタリングについて一般的な説明をする必要はありませんが、どんな階層的クラスタリングがあるのか、最近はどういう傾向にあるのかは書いたほうがよいでしょう。このように、読者の知識を考えながら、できるだけ分かりやすく書くように努力しましょう。

論文内で使うシステムや手法の用語は、初出時に説明・定義していきましょう。いったん説明・定義した語は、読者は意味が分かってるとして使って構いません。逆に、同じ説明を2回する必要はありません。(概要、はじめに、結論は別です。)どの語(概念)から先に説明していくかも読みやすい論文を書くために考慮すべき点です。

トピックセンテンスを意識する

ひとつの段落には、トピックセンテンスと呼ばれる中心的な文があります。 その段落のほかの文は、トピックセンテンスを支持するために書きます。 トピックセンテンスがどれかを明確に意識して書きましょう。 トピックセンテンスはできるだけ先頭に持ってくる方が良いとされています。
(参考:理科系の作文技術

論文は、文献引用、理論展開、評価実験などの武器を使って論旨を組み上げていきます。 個々の段落は、ひとつひとつのピースになるわけですから、 それぞれの段落がおかしなことを言っていないか、 全体の山の中できちんと他の段落の上につみあがっているか、気をつけましょう。

流れるように書く

「~において」「~については」などは極力使わないようにしましょう。 また、「前述の」「後述するように」「~節で述べた」などの指示詞も極力使わない方がよいです。 これらの語は、読者の注意を特定の部分に向ける語ですが、 よい文章は、こういう語を使わなくても、注意の対象を読者が自然に意識できるものです。 文章というのは、複雑な思考の直線化(linearization)ですから、 ポインタをたくさん使わないといけないというのは、直線化がうまくないということです。

ひとつの文の主語と述語を意識することも大事です。英語では特に大切ですが、「~は~である。」の両側でのクラスが揃っているか気をつけましょう。例えば、「この手法は、Webにおける情報の多さに対応した新規な考えである。」という文は、「手法は考えである。」と言ってるのでおかしいですよね。「考えに基づいたものである。」などとすると良いわけです。自分で何を書いているか分からなくなったら、主語と述語が何であるか、考えましょう。(厳密に言えば、日本語の主語というのは簡単ではありません。
参考:日本語に主語はいらない

また、細かいことですが、 「どの語とどの語を関連語とみなすかは、」「どのように実装するかを述べる」など、 wh節は、できるだけ名詞節で書く方が良いです。 例えば、「関連語とみなすべき語のペアは」「実装法を述べる」などです。 wh節は、長いし、幼稚な印象を与えます。 「など」を使うときは、2つ以上を例に挙げましょう。「SNSなどのWeb上のサービスが流行している。」言いことは分かりますが、1個しか例を挙げられないなら、「など」を使うのはやめましょう。

全部書き終わって3分の1

論文の校正は非常に大事です。 一通り書き終わると、かなり終わった気になる人が多いですが 、論文は、一字一句、気を配って作り上げる研究者の作品です。 例えば、

など、 いろいろなところに気を配る必要があります。 校正は、平均して5、6回は必要ですし、投稿にあたっては投稿票を書いたり共著者に見せたりといろいろなプロセスがあります。 まず一通り書き終わって、だいたい全工程の3分の1が終わったと思ってちょうどよいでしょう。 (逆に言うと、最初の段階で考えすぎても無駄です。)何回も何回も読み直して、改良していくことが重要です。

論文を書くプロセスは次のようにやると効率的でしょう。

To Pagetop

落とされない論文を書くために

査読者との戦い

投稿した論文は、専門分野の近い複数人(2人から3人)の査読者によって査読されます。査読者の中にも、できるだけ採択しようという考えの査読者もいますし、厳しい査読者もいます。ですから、査読結果はある程度は運に左右される面もありますが、基本的には、論文の前提・主張がはっきりしていて、新規性・有効性があり、きちんと書かれていれば採択されます。

査読のプロセスについて、少し知っておいた方が論文は書きやすいと思いますので説明します。査読者は、論文を査読してくださいとお願いされて引き受けます。引き受けると、論文と査読フォームが送られてきます。これは、論文の新規性・有効性や、書き方の正確性・信頼性などを点数で評価するものです。あと、照会事項を書く欄、不採録理由を書く欄などがあります。査読者は、標準的には1ヶ月の間にこれを読んで評価して返さなくてはいけません。複数の査読者の判定を合わせて、論文の採否が決まります。基本的に、査読者は忙しい人です。1ヶ月の査読期間がありますが、1ヶ月かけて読むわけではなくて、良くて数日、短いと1時間くらいで判定をしてしまいます。

さて、査読者はどういう風に論文を読んでいくのでしょうか?まず、論文のタイトル、概要を見ます。その時点で、面白そうとか、つまんなそうとかの印象はあります。 そして、最初から読んでいくわけですが、細かいタイポ、細かい論理矛盾などがあると、少しずつ不信感を強めていきます。 何をやっている論文かなかなか分からない、どこまでが今までの話でどこからがやったことか分からないと、書き方が悪いなぁと思います。 逆に、研究の背景や主張がすっきり書かれていたり、文献引用がしっかりしていれば、なるほどねーと思って読み進みます。 具体的な手法の中身に読み進んでいくと、この手法はいいな、悪いなといった印象が強くなります。最後まで読んで、おかしな記述が多かったり、この手法はどうもねぇと思えば、不採録にする理由を探し始めます。また、書き方も分かりやすいし、手法もいいのでは、と思えば、基本的には採択の方向で照会事項を考えます。

ここでのポイントは2点です。

つまり、分かりやすく丁寧に記述しているかどうかは、査読者の印象ひいては論文の採否に直結します。また、不採録理由を書くというのは、査読者にとって 荷の重い仕事です。簡単に書ける不採録理由を与えないというのも、論文が採択になる上で重要です。

失点を少なく、守りの野球を

内容は面白いのだが、粗が非常に多い論文をよく見かけます。 査読する側からすると、いくら面白いことを言っていても、論旨展開がおかしかったり、根拠がなかったりすると、どうしても採録にすることはできません。査読者は研究者ですから、根拠のない主張を含んだものを、自分が認めたとするわけにはいかないのです。

逆に、言っていることはそれほど面白くなくても、 論旨展開がしっかりしており、有効範囲と限界が明示されており、 実験でもそれを裏付ける結果が出ていれば、そう簡単に不採録判定をすることはできません。 そういった論文は、本心では、「つまらない」から不採録にしたいのですが、 それをきっちりと理論立てて不採録の理由とすることは、査読者にとって難しいのです。 実際、私が書いた論文の中で、査読が非常にスムーズだった論文は、自分の中でもつまらないなぁと感じているものでした。(こういった状況を踏まえて、もっと面白い論文を採録しようという動きも一部の学会ではあります。)

したがって、自分が論文で主張する範囲をはっきりさせること(広げすぎないこと)、 そして、その範囲内で自分の主張が正しいことを、 文献の引用、理論展開、実験を通して、確実にディフェンスしきることが重要です。 この「有効範囲と限界」を明確にすることは、英語の論文ではさらに重要です。

野球に例えて、面白い主張点を得点、つっこまれどころを失点とすると、2-0とか3-0とかいう試合をすべきで、10-8とか15-12とかの大味な試合をしてはいけません。 失点を少なくです。 (さらにレベルの高い国際会議に通すには、5-0とか7-0で圧勝する必要があります。)研究中に見つけたことをいろいろ書きたいこともあると思います。 しかし、それは、試合の終盤に、大勢が決した後に、まあ、あっても良い程度のことです。 論文で主張する範囲と分けて、議論の章に書くなどが良いでしょう。

淡々と述べる

論文は、えらそうに書いても、へりくだって書いてもだめです。 (えらそうに書けるのは、本当に偉い一部の先生だけです。)いくら著者がその研究トピックについて読者や査読者より知識があるといっても、その研究トピックの範囲内の話です。あくまでも、事実や理論を淡々と述べることで、論文の説得力にしていきます。

不必要な副詞、形容詞を多用してはいけません。 例えば、「非常に」「極めて」「大変」などを使う人がよくいますが、 こういった主観的で根拠のない副詞や形容詞は、論文の信憑性を下げ、 結果的に論文の説得力を落とす結果になります。

また、査読結果の回答には、できるだけ丁寧に応えましょう。あまりにも丁寧すぎるのは、個人的には気持ち悪いですが、まあ、丁寧すぎるに越したことはないと思って間違いないと思います。査読者の言ったことには反論せず、修正します。査読者は、専門分野が近い人です。その人の伝わらなかったのは、相手が悪いのではなく、自分の書き方が悪いのです。

論理的飛躍をなくする

論理的飛躍をなくすこと、間違ったことを書かないことが重要です。例えば、「AするにはBが必要である。」といった表現を使う人が多いですが、これには多くの場合、注意が必要です。 というのは、これを言うには、AをするのにB以外でうまくいかないことを示さないといけないからです。 こういった、「他にない」ことを示すのは大変で、査読者からすると、 「BでなくCでも良いではないか」と非常に簡単なつっこみどころを与えます。 言ってみれば、これは守備の失策です。セカンドゴロエラーです。 多くの場合、言いたいことは単に「BはAするのに有効である。」でしょうから、 そう書くだけで、失策を防ぐことができます。

また、 論文中で、少し大まかなことを言いたいことがあると思います。 例えば、「言語処理にはコーパスが有効である。」「個人化した情報処理が必要である。」などです。 これを、文献引用なしにするのは危険です。 一般的な教科書でも、偉い先生の論文でも何でもいいので、 こういった論文の前提条件に関することは、文献を引用しましょう。 これも失策を防ぐひとつの基本的な技です。 これがきちんとできるには、日ごろからいろんな論文や本を読んでおく必要がありますね。 言いたいことを支持する論拠をすぐに出せるというのは、研究者として重要な力のひとつでしょう。

勝負は評価実験前に

評価実験というのは、変なものです。 私は前から疑問を持っており、そういった研究者の方も多いですが、 評価実験というのは多くの場合、非常に大きなバイアスがかかっており、 たとえ評価実験の条件で手法が有効であっても、他の条件では結果が変わる可能性もあります。 評価方法に関して大幅な仮定がおかれることも多く、 それが本当に適切なのかと言いはじめたらキリがありません。

これは情報系に特有のものかもしれませんが、 はっきり言って、評価実験は怪しいです。 しかし、この評価実験が必要とされていることも確かです。 査読者として、「評価実験がないので、実験をしたうえで再投稿をお勧めします。」というのは、 不採録理由として非常に書きやすいです。

では、評価実験はどう考えるべきでしょうか? 私は評価実験には2種類あると思っています。 1つ目は、手法自体の性質をきちんと把握するための、自分のためにやる評価実験です。 これは、研究の中で、手法を改良していくためのものであり、 手法がどのような対象にどのように有効なのか明らかにしていきます。 新しい発見があれば突っ込んで調べていきます。 しかし、必要以上に緻密な実験をする必要はありません。

2つ目は、論文に載せるための評価実験です。 この評価実験の目的は、手法の良さを他の人に示すことです。 できるだけ標準的な手法と、標準的なタスクに対して比較し、少しでも自分の手法がいいことを主張する材料を見つけます。 自分の手法が有効性を発揮するように、評価実験を工夫することも必要です。 (これに対して、査読者は他の条件での実験を求めることもあります。ここらへんはせめぎあいになります。)

自分がやっている評価実験が、前者なのか後者なのか、はっきり意識しましょう。 後者だとしたら、あまりくよくよ考えても無駄です。どんな限定された条件でも、良さを示すための証拠をそろえましょう。 前者だとしたら、結果を良く見せるための工夫(ごまかし)をやってはいけません。そして本質的によい結果になる改善を模索しましょう。

このように、そもそも怪しい評価実験ですから、 その評価実験に勝敗の行方を担わせるのは危険です。 評価実験は、肯定的に見ようと思えば見れますし、あらを探そうとされるといくらでも出てきます。 したがって、私は、評価実験の前までに勝負をつけること、つまり、読者が 「なるほど、確かにこういう手法だと良い結果がでるだろうなぁ・・・」と思わせることが重要だと思っています。 そこまでの論旨展開をきちんと構成することで、評価実験を肯定的な目で見てもらうのです。 終盤にもつれこむまでにリードを作っておく、というわけです。 レベルの高い国際会議なのでは、 標準的な評価法が定着している場合もありますから、それに従うことは重要でしょう。 また、自分の手法内だけでの比較をしている研究もありますが、 これは学術的にはほとんど無意味です。 なんでもいいので、既存の手法と比較しましょう。

最後の一文は大切に

これは私の主観かもしれませんが、 論文の最後の章の最後の一文、ここは唯一、著者に許された自由な場所です。 ここは何を書いてもいいです。例えば、 「本論文が、人間の知能を究明するひとつの手がかりになればと願っている。」でも、 「本論文が実際に役立って、多くの人の命を救うとすばらしいだろう。」 でもいいです。(あまり変だとだめかな?) そこまで慎重に慎重に論拠を積み重ねて、自分の主張を守りきったわけです。 査読者もほとんどの場合、結論の最後の部分については何も言いません。自分の研究者としての大きな理想でも夢でも何でもかける場所ですので、大事にしましょう。

To Pagetop

最後に

論文を書くには技術があります。私ももっと技術を磨く必要がありますし、こういった技術を身につけていくことは研究者としてやっていく上で重要でしょう。 ただ、情報系の研究として、論文を出すことが唯一の最終的な目標になってしまうことには危惧を覚えます。情報系の研究は、役に立つ知見やシステムを世の中に出していく必要があるでしょう。論文の主張を縮小すれば、論文が通りやすくなることは確かです。しかし、それでは本来的な社会的・学術的貢献は小さくなります。システムの開発と論文の執筆は、研究の両輪として進めていくべきではないかと私は思います。

参考資料:

2005.11.22

To Pagetop