[0] Stochastic Relational Models for Discriminative Link Prediction (2006)
Kai Yu, Wei Chu, Shipeng Yu, Volker Tresp, and Zhao Xu
NIPS2006
NEC lab America, Columbia U. (USA), Siemens (Germany)
[1] Supplement to inferring network structure from co-occurrences
a
たぶん、ネットワークを外部指標で評価するという話。
[2] Learning Bayesian networks: The combination of knowledge and statistical data. Machine Learning (1995)
D. Heckerman, D. Geiger, and D. Chickering
Machine Learning, 1995
[3] Being Bayesian about Bayesian network structure: A Bayesian approach to structure discovery in Bayesian networks. (2003)
N. Friedman and D. Koller.
Machine Learning, 50(1.2):95.125, 2003.
[4] When are links useful? experiments in text classification. (2003)
M. Fisher and R. M. Everson.
Proc. European Conference on IR Research, 2003
[5] Learning structured prediction models: A large margin approach (2005)
B. Taskar, V. Chatalbashev, D. Koller, and C. Guestrin
ICML2005
[6] Why collective inference improves relational classi ̄cation (2004)
D. Jensen, J. Neville, and B. Gallagher
KDD2004
[7] Inferring Network Structure from Co-Occurrences (2006)
Michael G. Rabbat, Mario A.T. Figueiredo, and Robert D. Nowak
NIPS2006
U. Wisconsin
遺伝子から信号伝達の経路のネットワークを出している。難しい定式化。
[8] Information Bottleneck for Non Co-Occurrence Data (2006)
Y. Seldin, N. Slonim and N. Tishby
NIPS2006
[9] Efficient Structure Learning of Markov Networks using L1-Regularization (2006)
Su-In Lee, Varun Ganapathi, and Daphne Koller
NIPS2006
Stanford U.
マルコフネットワークを学習する。
4章 Incremental Feature Introduction
[10] Tempering for Bayesian C&RT (2005)
Nicos Angelopoulos and James Cussen
ICML2005
U. York, UK
[11] Link-based classification using Laveled and Unlabeled Data (2003)
Q. Lu and L. Getoor
ICML2003 Workshop on The Continuum from Labeled to Unlabeled Data, 2003
U. Maryland
Naive Bayesモデルではなく、ロジスティック回帰によるlink-based classificationの手法。同名の論文(using以降がない)が同年の本会議にある。mode-link(最頻のカテゴリにする), count-link, binary-linkという属性を定義していて、唐門くんオペレータで実現できる。
Coraデータセット、Citeseerのデータセット。
ベースライン(Content-Only)とリンク(Mode-link, Binary-link, Count-link)を組み合せた方法で比較している。トレーニングセットとテストセットの間のリンクを全部削除するTest Links Only、それを保持したままにするComplete Link(当然こちらの方が精度が高い)。Count-Linkがやや精度が高い。
[12] Link-based classification

Tech report, 2007
[13] Learning the Structure of Markov Logic Networks (2005)
Stanley Kok and Pedro Domingos
ICML2005
U. of Washington
[14] Online Learning over Graphs
Mark Herbster, Massimiliano Pontil, and Lisa Wainer
University College London (UK)
ICML2005
[15] Feature Subset Selection Bias for Classification Learning (2007)
Surendra K. Singhi, Huan Liu
ICML 2007
Arizona State Univ.
属性選択に、分類の学習と同じ学習データを使うのはバイアスがかかる。それを解決する。
[16] Full Bayesian Network Classifiers (2007)
Jing Su and Harry Zhang
ICML 2007
U. of New Brunswick
[17] Bayesian Learning of Measurement and Structural Models (2007)
Ricardo Silva, Richard Scheines
ICML 2007
Catsby Computational Neuroscience Unit, UK
[18] Hierarchical Classification: Combining Bayes with SVM (2006)
Nicolo Cesa-Bianchi, Claudio Gentile, Luca Zaniboni
ICML2006
U. Milano
[19] Ranking on Graph Data (2006)
Shivani Agarwal
ICML2006
MIT
エンティティのランキング。
[20] Graph Model Selection using Maximum Likelihood (2006)
Ivona Bezakova, Adam Kalai, Rahul Santhanam
ICML2006
U. Chicago
Monte Carlo Markov Chain (MCMC)
Power lowランダム、優先選択、スモールワールド、一様ランダム等に適用している。
[21] Higher Order Learning with Graphs (2006)
Sameer Agarwal, Kristin Branson, and Serge Belongie
ICML2006
UCSD
[22] Fisher Kernels for Relational Data (2006)
Uwe Dick, Kristian Kersting
ECML2006
U. Freiburg (Germany)
リレーショナルフィッシャーカーネルは、(生成モデルの)確率P(x|λ*, M)の勾配を使ったカーネル関数である。フィッシャーカーネルとSVMを使うと、精度が大幅にあがることを示す。Webページ分類タスク(KDD Cup 2001)で62.34%が75.28%に。
syntax-drivenカーネルとmodel-drivenカーネルがある。
[23] Improving Bayesian Network Structure Search with Random Variable Aggregation Hierarchies (2006)
John Burge, Terran Lane
ECML2006
[24] Bayesian Learning of Markov Network Structure (2006)
Aleks Jakulin, Irina Rish
ECML2006
Columbia Univ., IBM T.J. Watson Research Center
方向なし確率的分類モデル(マルコフネットワーク)を効率的に構築するアプローチを示す。
[25] Bayesian Active Learning for Sensitivity Analysis (2006)
Tobias Pfingsten
ECML2006
[26] Exploring Multiple Communities with Kernel-Based Link Analysis (2006)
Takahiko Ito, Masashi Shimbo, Daichi Mochihashi, Yuji Matsumoto
PKDD2006
[27] Tractable Models for Information Diffusion in Social Networks (2006)
Masahiro Kimura, Kazumi Saito
PKDD2006
[28] Improving Functional Modularity in Protein-Protein Interactions Graphs Using Hub-induced Subgraphs (2006)
Duygu Ucar, Sitaram Asur, Umit Catalyurek, Srinivasan Parthasarathy
PKDD2006
Ohio state univ.
タンパク質間の相互作用ネットワーク(PPIグラフ)で、ハブを複製することでクラスタリングのモジュラリティを高める。
[29] Bayesian Inference for Transductive Learning of Kernel Matrix Using the Tanner-Wong Data Augmentation Algorithm (2004)
Z. Zhang, D. Yeung, J. Kwok
ICML 2004
Hon Kong U. of Science and Technology
適切なカーネルを選ぶ方法。カーネル行列を学習する。
[30] Network Flow for Collaborative Ranking (2006)
Ziming Zhuang, Silviu Cucerzan, C. Lee Giles
PKDD2006
[31] Graph Based Semi-Supervised Learning with Sharper Edges (2006)
HyunJung (Helen) Shin, College of Medicine, Nicholas Jeremy Hill, Gunnar Ratsch
ECML2006
Max Planck Institute (Germany)
エッジに方向性を考えるグラフのsemi-supervised learning
[32] Distributional Features for Text Categorization (2006)
Xiao-Bing Xue, Zhi-Hua Zhou
ECML2006
[33] Web Communities Identification from Random Walks (2006)
Jiayuan Huang, Tingshao Zhu, Dale Schuurmans
PKDD2006
スペクトラルクラスタリングについて分かりやすく書かれている。スペクトラルクラスタリングは、滞留確率を対角成分とした行列をΠとするとΘ=(Π^0.5 P Π^-0.5 + Π^-0.5 P^T Π^0.5)/2で、このΘの第2固有値の固有ベクトルの正負を見る。このときの遷移確率行列Pを、one-stepにしたりtwo-stepにしたりして、オーソリティやハブだけをクラスタリングしたりする。
[34] Finding patterns in blog shapes and blog evolution (2007)
Mary McGlohon, Jure Leskovec, Christos Faloutsos, Matthew Hurst and Natalie Glance
ICWSM 2007
blogの引用のカスケード。カスケードのタイプをたくさん列挙して、PCAをする。
カスケードモデルをいろいろ調べている。時系列のフラクタル性。
[35] Large-Scale Sentiment Analysis for News and Blogs (2007)
Namrata Godbole, Manja Srinivasaiah and Steven Skiena
ICWSM 2007
UMBC
blogのリンク(エントリ間)のpositive/negativeを判定。
bag-of-wordsでプラス/マイナスをつける。さらにトラストと考えて、トラストを伝播するモデルを比較。
隣接行列をMとすると、M, M^T, M^T*M, M*M^Tなどを足し合わせる。
結構面白い。
[36] Looking at the Blogosphere Topology through Different Lenses (2007)
Xiaolin Shi, Belle Tseng and Lada Adamic
ICWSM 2007
U. Michigan
いろんなデータセットのネットワークがconsistentかどうか。異なるデータ、異なる収集方法、異なる時間などを比較。次数分布、C, WCC/SCCなどの値で比較。
[37] Structural Link Analysis from User Profiles and Friends Networks: A Feature Construction Approach (2007)
William Hsu, Joseph Lancaster, Martin Paradesi and Tim Weninger
ICWSM 2007
LiveJournalで、link prediction。
[38] MySpace is *my* space (2007)
danah boyd,
ICWSM 2007
UC Berkeley
面白い。Frendsterの話、バンドをはじめユーザがmyspaceに移行した。
teens、breakup, メールは大人との会話、8人のbest friendsの機能
symbiotic behavior
[39] QA with Attitude: Exploiting Opinion Type Analysis for Improving Question Answering in On-line Discussions and the News (2007)
Swapna Somasundaran, Theresa Wilson, Janyce Wiebe and Veselin Stoyanov
ICWSM 2007
U. Pittsburg, U. Edinburgh, Cornell Univ.
positive/negativeのpolarityや**などを、単純なbag of words + SVMよりもきちんと取る。
[40] Sentiment Analysis: Adjectives and Adverbs are Better than Adjectives Alone (2007)
Farah Benamara, Carmine Cesarano, Antonio Picariello, Diego Reforgiato and VS Subrahmanian
ICWSM 2007
形容詞の前にある副詞で、形容詞のスコアを調整して、positive/negativeのスコアを修正。単純。deadなどはどうするのか。
[41] Building Trust with Corporate Blogs (2007)
Paul Dwyer
ICWSM 2007
Texas A&M Univ.
結構面白いかも。tribalism。コメントを良く返すという性質。flocking。
[42] Impact Facotors: Use and Abuse
M. Amin & M. Mabe
Elsevier Science
[43] How to build a webfountain: An architecture for very large-scale text analytics. (2004)
D. Gruhl, L. Chavet, D. Gibson, J. Meyer, P. Pattanayak, A. Tomkins, and J. Zien.
IBM Systems Journal, 2004
IBM
[44] Semtag and seeker: Bootstrapping the semantic web via automated semantic annotation (2003)
S. Dill, N. Eiron, D. Gibson, D. Gruhl, R. Guha, A. Jhingran, T. Kanungo, S. Rajagopalan, A. Tomkins, J. Tomlin, and J. Y. Zien.
WWW2003
IBM
[45] Organizing and Searching the World Wide Web of Facts - Step Two: Harnessing the Wisdom of the Crowds (2007)
M. Pasca
WWW2007
Google
Step Oneの次は、Step Two。誰かの発表みたいで笑える。でも内容はすごいに違いない。
[46] Optimizing Scoring Functions and Indexes for Proximity Search in Typeannotated Corpora (2006)
S. Chakrabarti, K. Puniyani, S. Das
WWW2006
IIT Bombay
type=distance NEAR Hamburg Munichというタイプのクエリーを処理する。
[47] Maximum entropy discrimination
[48] Structure and Evolution of Online Social Networks (2006)
R. Kumar, J. Novak, A. Tomkins
poster KDD2006
Yahoo! Research
良いメンバーの論文だが、内容はポスターだけあって、完成度が低い。
[49] How to upgrade propositional learners to first order logic: A case study. (2001)
W. V. Laer and L. D. Raedt.
In S. Dzeroski and N. Lavrac, editors, Relational Data Mining. Springer-Verlag, 2001.
[50] Statistical Relational Learning for Document Mining
Alexandrin Popescul, Lyle H. Ungar, Steve Lawrence, and David M. Pennock
U. Pennsylvania, Google, Overture
ICDM-2003
Structural Logistic Regression (SLR)というタスク。2つのプロセスから成る。属性の生成、統計的モデル選択基準による選択。ILPとほぼ同様。赤池情報量基準(AIC)やBICなど。CiteSeerのデータで検証。
[51] Propositionalization-based relational subgroup discovery with RSD (2006)
Filip Zelezy, and Nada Lavra
Machine Learning, 2006
Institute Jozef Stefan, Slovenia
Relational Subgroup Discovery (RSD). East-West Train問題では、西行き、東行きの電車というかたまりを見つける。WRA_cc search heuristicで重み付ける。
[52] Distribution-based aggregation for relational learning with identifier attributes (2006)
Claudia Perlich, and Foster Provost
Machine Learning 2006
[53] PRL: A probabilistic relational language (2006)
Lise Getoor, and John Grant
Machine Learning, 2006
U. of Maryland
PRMを論理プログラミングの枠組みで解釈している。PRLはpearlと読むらしい。対応付けるための定義がずーっと並んでいる。内容はPRMのほかの論文と同じ。entity uncertaintyとかreference uncertaintyなど。
[54] Introduction to the Special Issue on Link Mining (2005)
Lise Getoor, and Christopher Diehl
SIGKDD Explorations, 2005
[55] Introduction to the Special Issue on Multi-Relational Data Mining and Statistical Relational Learning (2006)
Hendrik Blockeel, David Jensen, Stefan Kramer
Machine Learning, Volume 62, Numbers 1-2, 2006
Jozef Stefan Institute (Slovenia)
複数のテーブルからのデータマイニング(Multi-Relational Data Mining)。例えば、ユーザテーブルと購買テーブルなど。
ILPの概説とそれとの関係が述べられている。わりといい解説。
Relational association rules, Relational decision tree, Relational distance-based approach。
[56] Probabilistic Frame-based Systems (1998)
D. Koller and A. Pfeffer
AAAI98
Stanford
PRMの最初の構想のような論文。Bayesian Networkとframe表現を結びつける。slot chain、reference uncertaintyなどの話。
[57] ObjectRank: Authority-based Keyword Search in Databases (2004)
A. Balmin, V. Hristidis, and Y. Papakonstantinou
VLDB 2004
IBM Almaden, Florida Univ, UC San Diego
DBのスキーマから、authority transfer schema graphを作る。キーワードを入れてObjectを得るみたいだが。
[58] Learning Parameters in Entity Relationship Graphs from Ranking Preferences (2006)
Soumen Chakrabarti and Alekh Agarwal
PKDD 2006
IIT, Bombay
ER(Entity-Relation)グラフのランキング。
PageRank (もしくはUnweighted Conductance)の詳細な計算が4ページにあり。
SynthDBLP(21000ノード), SynthIMDB(21000ノード)。隠れ変数βを設定する。unweightedのPageRankと隠れ変数を用いたもので、結果が異なるペアを1:1で混ぜて、テストセットを作る。グラフと訓練データの選好(<)を与え、βを推定する。
[59] Cluster-based concept invention for statistical relational learning (2004)
Alexandrin Popescul , Lyle H. Ungar
KDD 2004
U. Pennsilvania
CiteSeerのデータで、venue(会議等)を予測する、citationがあるかどうかを予測するという2つのタスク。k-meansでクラスタリング。新しい属性を作る。
ClustDocsByAuthorsとかClustDocsByCitingDocs、ClustDOcsByWordsなど。(wordはTFIDFを用いる。)手法は非常にシンプル。評価もそんなに大したことない。
[60] Gene classification: issues and challenges for relational learning (2005)
Claudia Perlich , Srujana Merugu
the 4th international workshop on Multi-relational mining, 2005
IBM T.J. Watson Research Center, and U. Texas at Austin
Yeast genome Sachharomyces Cerevisiaeという分類問題にSRLを適用する。ACORAというシステム(既存のもの)を使う。ドメインにあわせた説明と結果が中心。
[61] Mining product reputations on the Web (2002)
Satoshi Morinaga, Kenji Yamanishi, Kenji Tateishi, Toshikazu Fukushima
KDD 2002
NEC
特徴語、共起、典型的な文、コレポン等の分析を統合したもの。PDA、携帯などのcase studyが評価代わりになっている。
[62] Aggregation Based Feature Invention and Relational Concept Classes
Claudia Perlich, and Foster Provost
New York Univ
KDD 2003
非常に重要な論文。関係を使った属性生成。IPOのデータに対して、提案手法をgeneralizationのパフォーマンスで比べている。ILPのシステム:FOIL, Tidle, Lime, Progolと比較。most common categorical, vector distance, negative gategoriesなどをどんどん追加してパフォーマンスがあがることを示している。唐門くん論文と非常に似た構成。
[63] Dynamic Social Network Analysis using Latent Space Models (2005)
Purnamrita Sarkar and Andrew Moore
SIGKDD Explorations: Special Edition on Link Mining, 2005
CMU, Autonlab
Dynamicモデル。2次元(多次元)平面状に点があるとして、点が動いていく。近い点にはリンクが張られやすいというモデル。アイディアとしては面白い。式は複雑。
[64] Fast Discovery of Connection Subgraphs (2004)
Christos Faloutsos, Kevin S. McCurley, and Andrew Tomkins (IBM)
Proc. 10th ACM SIGKDD Conference, 2004
大規模なネットワークを簡単に表示する方法。
Webから得られた人名のネットワーク(1500万人)が使われている。
10語以内に出てくるものはエッジとする。抽出自体は主眼ではない。
[65] Maximizing the Spread of Influence through a Social Network (2003)
David Kempe, Jon Kleinerg, Eva Tardos
SIGKDD 2003
最適化問題はNP困難。近似解法を提案する。
[66] Enhanced Word Clustering for Hierarchical Text Classification (2002)
Inderjit Dhillon, Subramanyam Mallela, and Rahul Kumar
In Proceedings of the 8th ACM SIGKDD, 2002
U. of Texas, Austin
文書をクラスに分けるときの相互情報量の損失がもっとも少なくなるように、語をクラスタリングしていく。Jensen-Shannonを使ったdivisive clustering。2章の関連研究は非常に参考になる。20 Newsgroups dataと、Open Directoryの5000ページ(3階層)のデータ
[67] Graphs over Time: Densification Laws, Shrinking Diameters and Possible Explanations (2005)
J. Leskovec, J. Kleinberg, and C. Faloutsos
Proc. KDD 2005
CMU, Cornell Univ.
いろいろなネットワークを調べると、ネットワークの成長とともに(i)degreeが増える(つまりエッジの数がノードの数の線形以上に増える)、 (ii)直径が小さくなるという傾向がある。
これを説明するCommunity Guided Attachment(コミュニティ内ではリンクしやすい)、Forest Fire Model(どこかに向かって火が燃え移っていく。前方向と逆方向の確立が定義される)を提案している。詳細なデータ、プロフェッショナルな分析。
[68] Evaluating similarity measures: a large-scale study in the orkut social network (2005)
E. Spertuxs, M. Sahami, O. Buyukkokten
KDD 2005
Millis College and Google
すばらしい。Orkutのデータで、コミュニティの推薦。どの類似度のメジャーが優れているか。L1, PMI, Log-oddsなど。結果的にL2がいい。明快な構成、きちんとしたデータ、言うことなし。
[69] Mining Knowledge-Sharing Sites for Viral Marketing (2002)
M. Richardson and P. Domingos
KDD'02
U. of Washington
ユーザのnetwork valueを確率モデルで定義。Epinionのデータで検証している。
[70] Mining the network value of customers (2001)
P. Domingos and M. Richardson.
In Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, CA, 2001
KDD02のものの前のバージョン。
[71] Learning to Rank Networked Entities (2006)
A. Agrawal, S. Chakrabarti, S. Aggarwal
KDD2006
IIT Bombay
ネットワークでのランキングの学習。面白い。
[72] Group Formation in Large Social Networks: Membership, Growth, and Evolution (2006)
L. Backstrom, D. Huttenlocher, J. Kleinberg, and X. Lan
KDD2006
Cornell Univ.
MySpaceとLive Journalの分析。知り合いのコミュニティ内でのリンクが強いほうが、そのコミュニティに入りやすい。
[73] The predictive power of online chatter (2006)
D. Gruhl, R. Guha, R. Kumar, J. Novak, A. Tomkins
SIGKDD 2006
IBM Almaden Research / Google
面白い。amazonでのランキングとblogでの言及を比較している。
[74] Measuring and Extracting Proximity in Networks (2006)
Yehuda Koren, Stephen North, Chris Volinsky
KDD2006
cycle-free effective conductance (CFEC)によってproximityを求める方法。
[75] Using Structure Indices For Efficient Approximation of Network Properties (2006)
Matthew Rattigan, Marc Maier, David Jensen
KDD2006
U. of Massachusetts Amherst
Closeness centralityとBetweenness centralityを高速に出すindexを作る。正確な値ではなくて、approximation。10000ノードの共演グラフ。
[76] Simultaneous Record Detection and Attribute Labeling in Web Data Extraction (2006)
Jun Zhu, Zaiqing Nie, Ji-Rong Wen, Bo Zhang, Wei-Ying Ma
KDD2006
Tsinghua Univ., Microsoft Research Asia (Beijing)
かなり良さそうな論文。Hierarchical Conditional Random Fieldモデルを用いて、レコードの検出と属性のラベリングを行う。
[77] Acclimatizing Taxonomic Semantics for Hierarchical Content Classification (2006)
Lei Tang, Jianping Zhang, Huan Liu
KDD2006
[78] Hierarchical Topic Segmentation of Websites (2006)
Ravi Kumar, Kunal Punera, Andrew Tomkins
KDD2006
[79] Topics over Time: A Non-Markov Continuous-Time Model of Topical Trends (2006)
Xuerui Wang, Andrew McCallum
KDD2006
[80] Beyond Streams and Graphs: Dynamic Tensor Analysis (2006)
Jimeng Sun, Dacheng Tao, Christos Faloutsos
KDD2006
[81] Extracting Key-Substring-Group Features for Text Classification (2006)
Dell Zhang, W. S. Lee
KDD2006
[82] A Unified Knowledge Based Approach for Sense Disambiguation and Semantic Role Labeling (2006)
Peter Z. Yeh, Bruce Porter, and Ken Barker
AAAI 2006
U. of Texas, Austin (USA)
Semantic Role Labelingを利用して、word-sense disambiguationをする。
Bakerらによって作られたCLib (Component Library)というのを用いる。CLibでは、2500以上のドメインスペシフィックな概念から構成される。イベントとエンティティ、エンティティ間、イベント間の関係などが記述される。
Shallow parserでsyntactic relationshipを出して、CLibのコンセプトから可能なものをすべて列挙する。で、invalidなものを省く。
[83] Inexact Matching of Ontology Graphs Using Expectation-Maximization (2006)
Prashant Doshi and Christopher Thomas
AAAI 2006
U. of Georgia, Athens
Ontologyのマッピングを見つける方法。アルゴリズムの数学的な説明が中心。
[84] OntoSearch: A Full-Text Search Engine for the Semantic Web (2006)
Xing Jiang and Ah-Hwee Tan
AAAI 2006
[85] Social Network-based Trust in Prioritized Default Logic (2006)
Yarden Katz and Jennifer Golbeck
AAAI 2006
[86] Trust Representation and Aggregation in a Distributed Agent System (2006)
Yonghong Wang and Munindar P. Singh
AAAI 2006
[87] Bookmark Hierarchies and Collaborative Recommendation (2006)
Ben Markines, Lubomira Stoilova, and Filippo Menczer
AAAI 2006
Indiana Univ. Bloomington (USA)
GiveALinkというシステム。ブックマークを入れると、それに近いURLを返してくれる。リンクの類似度を用いる。
[88] Mixed Collaborative and Content-Based Filtering with User-Contributed Semantic Features (2006)
Matthew Garden and Gregory Dudek
AAAI 2006
[89] Overcoming the Brittleness Bottleneck using Wikipedia: Enhancing Text Categorization with Encyclopedic Knowledge (2006)
Evgeniy Gabrilovich and Shaul Markovitch
AAAI 2006
Israel Institute of Technology, Haifa (Israel)
Wikipediaの知識を用いてテキスト分類の精度を上げる。feature generationのひとつだと説明されている。
[90] WikiRelate! Computing Semantic Relatedness Using Wikipedia (2006)
Michael Strube and Simone Paolo Ponzetto
AAAI 2006
Semantic Relatednessを測る。Google countsやWordnetよりもWikipediaを使ったほうが良いことを示す。データセットは、例のMiller & Charles, Rubenstein & Goodenough, あと、353 Test Collectionというもの。WordNetは小さいデータセットには良いが、大きなデータセットにはWikipediaがいいそうだ。GoogleCountの関連度はJaccardを用いている。でも他のがいろいろ設定してるのに、GoogleCountはひとつの設定だけで、平等な比較ではない。ダヌ論文と比較するべき。
[91] Organizing and Searching the World Wide Web of Facts Step One: The One-Million Fact Extraction Challenge (2006)
Marius Pasca, Dekang Lin, Jeffrey Bigham, Andrei Lifchits, and Alpa Jain
AAAI 2006
[92] Mining Comparative Sentences and Relations (2006)
Nitin Jindal and Bing Liu
AAAI 2006
U. of Illinois at Chicago
「キャノンの光学はソニーやニコンのより良い」というような比較文をWebから探す。(,,,)という用言。
[93] Table Extraction Using Spatial Reasoning on the CSS2 Visual Box Model (2006)
Wolfgang Gatterbauer and Paul Bohunsky
AAAI 2006
[94] Using Semantics to Identify Web Objects (2006)
Nathanael Chambers, James Allen, Lucian Galescu, Hyuckchul Jung, and William Taysom
AAAI 2006
Florida Institute for Human and Machine Cognition, FL, USA
Webオブジェクトというのは、テキストフィールドとか、リンク、ボタンなど。なので、関係ない。
[95] Cross-Domain Knowledge Transfer Using Structured Representations (2006)
Samarth Swarup and Sylvian R. Ray
AAAI 2006
[96] Identification and Evaluation of Weak Community Structures in Networks (2006)
Jianhua Ruan and Weixiong Zhang
AAAI 2006
Washington Univ.
Newmanらのコミュニティ抽出の方法を改良。weak communityでもstrong communityでも抽出できる。spectral clusteringと組み合せる。重みつきグラフも扱う。良さげ。
[97] From Pigeons to Humans: Grounding Relational Learning in Concrete Examples (2006)
Marc T. Tomlinson and Bradley C. Love
AAAI 2006
[98] Names and Similarities on the Web: Fact Extraction in the Fast Lane (2006)
M. Pasca, D. Lin, J. Bigham, A. Lifchits, A. Jain
ACL 2006
Google, U. Washington, UBCなど
Seed factを与えると、candidate factsを返す。Person-BornIn-Yearのデータで評価。パターンの取得とデータの取得を繰り返すのではなくて、よいパターンをrankingする。そのために語の類似度を使う。PMIで他の語との共起を取り、コサイン類似度。
[99] A Composite Kernel to Extract Relations between Entities with both Flat and Structured Features (2006)
Min Zhang Jie Zhang Jian Su Guodong Zhou
ACL 2006
Institute of Infocomm Research
Relation extractionとKernel法。難しいけどとても重要そうな論文。
[100] Semantic Role Labeling via FrameNet, VerbNet and PropBank (2006)
Ana-Maria Giuglea and Alessandro Moschitti
ACL 2006
Univ. of Rome
[101] A Study on Automatically Extracted Keywords in Text Categorization (2006)
Anette Hulth and Be´ata B. Megyesi
ACL 2006
Uppsala Univ.
自動的に抽出したキーワード(タイトルやフルテキストではなく)がテキスト抽出にどのように役立つか。
[102] A Comparison of Document, Sentence, and Term Event Spaces (2006)
Catherine Blake
ACL 2006
U. of North Carolina
IDFではなくISF(Inverse Sentence Frequency)の方が良い。
[103] Selection of Effective Contextual Information for Automatic Synonym Acquisition (2006)
Masato Hagiwara, Yasuhiro Ogawa, and Katsuhiko Toyama
ACL 2006
Nagoya Univ.
[104] Expressing Implicit Semantic Relations without Supervision (2006)
Peter D. Turney
ACL 2006
National Research Council Canada
X=ostrich, Y=birdとすると、X is the largest Yとか Y such as the Xとかのパターンが上位に来るようにする。どちらかというとダヌシカくんの方法に近い。
[105] Automated Japanese Essay Scoring System based on Articles Written by Experts (2006)
Tsunenori Ishioka and Masayuki Kameda
ACL 2006
[106] Efficient Unsupervised Discovery ofWord Categories Using Symmetric Patterns and High Frequency Words (2006)
D. Davidov and Ari Rappoport
ACL2006
Hebrew Univ. (Jerusalem)
High Frequency Word (HFW)とContent Word(CW)の組み合わせでメタパターンを作る。
[107] Novel Association Measures Using Web Search with Double Checking (2006)
Hsin-Hsi Chen, Ming-Shun Lin and Yu-Chuan Wei
ACL2006
National Taipei Univ.
コンセプトは悪くないけど。引用してくれてるから感謝。再試すると、この精度は出ない。(f(Y@X)+f(X@Y)) / (f(X) + F(y))
[108] An Approach for Measuring Semantic Similarity between Words Using Multiple Information Sources (2003)
Yuhua Li, Zuhair Bandar, David McLean
IEEE TKD, 2003
[109] Methods and techniques of adaptive hypermedia (1996)
Peter Brusilovsky
User Modeling and User Adapted Interaction, 1996
CMU
[110] Formal Models for Expert Finding in Enterprise Corpora (2006)
K. Balog, L. Azzopardi, and M. de Rijke
SIGIR 2006
U. Amsterdam (Amsterdam), U. Strathclyde (Glasgow)
Expertを見つける方法には、人の知識を登録しておくこと、それから文書をみつけてそれに関連した方法を見つける方法の2つがある。ここでは後者。TRECのEnterpriseコーパスを用いて評価している。人(ca)とquery(q)の結びつきp(ca|q)を文書を介して計算する。候補抽出の方法、smootingの方法など、さまざまな角度から評価している。よい論文。
[111] Unraveling the Taste Fabric of Social Networks (2006)
Hugo Liu, Pattie Maes, Glorianna Davenport
International Journal on Semantic Web and Information Systems, 2006
Media Lab., MIT
SNSのプロファイルのテキストをとってきて、taste fablic(嗜好が織り成されたもの?)を出している。
[112] Social Networks and Social Networking (2005)
Elizabeth F. Churchill, and Christine A. Halverson
IEEE Internet Computing, 2005
PARC and IBM
特集記事、3篇。
- Using Egocentric Networks to Understand Communication
- Social Networks as Health Feedback Displays
- P3 Systems: Putting the Place Back into Social Networks
[113] danahのブログ
danah boyd
UC Berkeley
よいまとめになってる。
[114] Integrating Open User Modeling and Learning Content Management for the Semantic Web
[115] Exploiting Probabilistic Latent Information for the Construction of Community Web Directories
[116] Task-Oriented Web User Modeling for Recommendation
[117] Non-intrusive User Modeling for a Multimedia Museum Visitors Guide System
[118] An Economic Model of User Rating in an Online Recommender System (2005)
F. Maxwell Harper, Xin Li, Yan Chen, and Joseph A. Konstan
Proc. User Modeling 2005
[119] Modeling User’s Opinion Relevance to Recommending Research Papers* (2005)
Marco Degemmis, Pasquale Lops, Gianni Semeraro, University of Bari
Proc. UM2005
[120] GUMO The General User Model Ontology
[121] Social Navigation Support Through Annotation-Based Group Modeling (2005)
UM05
[122] Evaluation of a System for Personalized Summarization of Web Contents*
[123] From customization to ubiquitous personalization: digital identity and ambient network intelligence (2004)
Norman Lewis
Interactions, 2004
Wanadoo SA (part of the France Telecom Group)
なんか漠然とした話。
[124] Accurate is not always good: How Accuracy Metrics have hurt Recommender Systems (2006)
S. McNee, J. Riedl, and J. Konstan
CHI2006
U. of Minnesota
[125] Amazon.com Recommendations -- Item-to-Item Collaborative Filtering (2003)
G. Linden, B. Smith, and J. York
IEEE Internet Computing, 2003
Amazon.com
[126] Web Mining for Web Personalization (2003)
MAGDALINI EIRINAKI and MICHALIS VAZIRGIANNIS
ACM Transactions on Internet Technology, 2003
Athens University of Economics and Business
Web Usage Miningをパーソナライゼーションに生かす。
3章 User Profiling: Cookieを使う方法、identd, IPアドレスを使う方法。各Webサイトの概要。(Yahoo, Alta-vista, DouleClickなど)
4章 Log analysisとWeb usage mining。Webのログ、相関をとったりクラスタリング、分類をする。
[127] Improving recommendation lists through topic diversification (2005)
Cai-Nicolas Ziegler , Sean M. McNee , Joseph A. Konstan , Georg Lausen,
WWW2005
[128] Taxonomy-driven computation of product recommendations (2004)
Cai-Nicolas Ziegler , Georg Lausen , Lars Schmidt-Thieme,
Proc. ACM international conference on Information and knowledge management, 2004
[129] Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions, (2005)
Gediminas Adomavicius , Alexander Tuzhilin
IEEE Transactions on Knowledge and Data Engineering, v.17 n.6, p.734-749, June 2005
Content-based methods, collaborative methods, ハイブリッド。この分け方は定着しているものの、特に新しくない。
一般的な問題として、New User Problem, New Item Problem, Sparcityを指摘している。
最近の話題:Multidimensionality of Recommendation(複数の文脈に関する要素を入れる)、Multicriteria Ratings(レストランの推薦などいくつかの評価項目がある)、Nonintrusiveness(たとえば滞在時間を評価の代わりに用いるなど)、Flexibility(カスタマイズできること)、Recommendationの効果など。
[130] A New Approach of Shannon Entropy in Recommender Systems (2006)
J. Lopez Herrera
Artificial Intelligence and Soft Computing 2006
[131] A Collaborative Filtering Algorithm and Evaluation Metric that Accurately Model the User Experience (2004)
M. R. McLaughlin and J. L. Herlocker
SIGIR 2004
Oregon State Univ.
従来の評価法には2つの欠点がある。ひとつは、良く使われる評価指標Mean Absolute Error (MAE)は、予測したアイテムごとに計算するので、たくさんアイテムを出す手法に有利である。(トップアイテムをうまく出す手法には向いていない。)2つ目は、ほとんどの文献はオフラインのデータセットを用いていて、実ユーザの反応ではない。
この論文では、MAEに加えて、Precision/Recallを用いることが重要であることを述べる。
[132] An Automatic Weighting Scheme for Collaborative Filtering (2004)
R. Jin, J. Chai, L. Si
SIGIR 2004
Michigan State University
ユーザをクラスタリングしてから推薦する。Memory-basedでよく使われるのはPearson Correlation Coefficient(PCC)とベクトルスペース類似度(VS)アルゴリズム。
Model-basedでよく使われるのはaspect model(AM)とpersonality diagnosis model(PD)。
AMは、ユーザがクラスに属する確率p(z|y)とそのクラスでのアイテムの評価p(r|z,x)をかけあわせる。ユーザy, アイテムx, 評価r, クラスz。
PDは、評価の違いによって正規分布を仮定して、そのユーザに近いユーザ(=モデル)を見つける。それの重ね合わせでッ評価を決める。(k-NNに近いのでは。)
PDが良いのが知られているらしい[5]。
重みをつける方法で知られているのは、IDFと、分散を用いる方法。(3章)
[133] Using Bayesian Priors to combine Classifiers for Adaptive Filtering (2004)
Y. Zhang
SIGIR04
CMU
[134] Multi-Layered Ontology-Based User Profiles and Semantic Social Networks for Recommender Systems (2006)
Ivan Cantador, Pablo Castells
2nd International Workshop on Web Personalization, Recommender Systems, and Intelligent User Interfaces, 2006
映画の嗜好が似ている人でもスポーツに嗜好が似ているとは限らない。multi-layeredのソーシャルネットワークを作って、それを使って推薦をする。
[135] A Nonparametric Hierarchical Bayesian Framework for Information Filtering (2004)
K. Yu, V. Tresp, and S. Yu
SIGIR04
U. of Munich, Germany
[136] Scalable Collaborative Filtering Using Cluster-based Smoothing (2005)
G. Xue, C. Lin, Q. Yang, W. Xi, H. Zeng, Y. Yu, and Z. Chen
SIGIR05
Microsoft Research Asia and Shanghai Jiao-Tong University
ユーザのクラスタを作ってからcollaborative filteringをする。Hamaモデルに近い。MovieLens, EachMovieのデータセットによる評価。
[137] Unifying User-based and Item-based Collaborative Filtering Approaches by Similarity Fusion (2006)
Jun Wang, Arjen de Vries, Marcel Reinders
SIGIR 2006
Delft University of Technology
User-basedとitem-basedの協調フィルタリングをマージする方法。
[138] Using Web Graph Distance for Relevance Feedback in Web Search
Sergei Vassilvitskii, and Eric Brill
Stanford University, Microsoft research
Relevance feedbackを使って検索結果を良くする際に、Webグラフ上の距離が効くこと。Avarage-clickを似た内容。
[139] Personalized Recommendation Driven by Information Flow (2006)
Xiaodan Song, Belle L. Tseng, Ching-Yung Lin, Ming-Ting Sun,
SIGIR 2006
University of Washington, NEC Labs America
[140] Analysis of a Low-Dimensional Linear Model Under Recommendation Attacks (2006)
S. Zhang, Y. Ouyang, J. Ford, and F. Makedon
SIGIR 2006
Dartmouth College
[141] Social networks, incentives, and search (2006)
J. Kleinberg
SIGIR 06
Cornell Univ., Ithaca, NY
キーノート。Social netowrkの重要性を書いている。
[142] Consumer Taste Sharing Is Driving the Online Music Business and Democratizing Culture (2005)
M. McGuire and D. Slater
2005
[143] Using viewing time to infer user preference in recommender systems. (2004)
Parsons, J., Ralph, P., & Gallagher K.
AAAI Workshop in Semantic Web Personalization, 2004
[144] Social Information Filtering: Algorithms for Automating "Word of Mouth" (1995)
U. Shardanand, P. Maes, P.
Proceedings of ACM CHI'95
[145] Empirical Analysis of Predictive Algorithms for Collaborative Filtering (1998)
J. Breese, D. Heckerman, and C. Kadie
Technical Report, Microsoft Research, 1998
よいレビューペーパーらしい。
[146] Collaborative Filtering by Personality Diagnosis: A Hybrid Memory- and Model-Based Approach (2000)
D. M. Pennock, E. Horvitz, S. Lawrence and C. L. Giles,
Proc. the Sixteenth Conference on Uncertainty in Artificial Intelligence (UAI), 2000.
memory-basedとmodel-basedのハイブリッドなアプローチ。
[147] Combining Collaborative Filtering With Personal Agents for Better Recommendations (1999)
N. Good, B. Schafer, J. Konstan, A. Borchers, B. Sarwar, J. Herlocker, and J. Riedl
AAAI99, 1999
[148] Application of Dimentionality Reduction in Recommender System -- A case Study (2000)
B. Sarwar, G. Karypis, J. Konstan, J. Riedl
ACM WebKDD 2000 workshop, 2000
LSIを使っているようだ。
[149] Item-based Collaborative Filtering Recommendation Algorithms (2001)
B. Sarwar, G. Karypis, J. Konstan, and J. Riedl
WWW10, 2001
U. of Minnesota
1章はサーベイ。Sparsity problemや次元を圧縮する方法について1.1の最後に書かれている。k-NNでは、SparsityとScalabilityの問題がある。
3.1はItem間の関連を(良い評価をつけたユーザの)コサイン類似度、ピアソン相関等をつかってもとめる。(k-NNでは、ユーザ同士の関連を見つけていることになる。)
3.2はこの関連を使って出力を決める。行列の概念、入力、出力の定義が非常に分かりやすい。
MovieLensデータセットを使って評価。
[150] Evaluation of Item-based Top-N Recommendation Algorithms (2000)
G. Karypis
Technical Report CS-TR-00-46, Univ. of Minnesota, 2000
[151] User profiling for web page filtering (2005)
Godoy Daniela, and Amandi Analia
IEEE Internet Computing, 2005
[152] Recommender Systems: Special issue of Communications of the ACM (1997)
P. Resnick and H. R. Varian
CACM 1997
AT&T, UC Berkeley
一般的な解説。いくつかのシステムが表になっている。だれが評価を作るか、そのコスト。free riderが起こる。また誰でも評価してよいようにすると、コンテンツホルダーが良い評価ばかり作る。プライバシーの問題。(ユーザはあまり習慣を知られたくない。)ビジネスモデル。ユーザの評価と広告は区別しなければいけない。ひとつのシステムが他を排除することなど。
[153] GroupLens: Applying Collaborative Filtering to Usenet News (1997)
J. Konstan, B. Miller, D. Maltz, J. Herlocker, L. Gordon, and J. Riedl
CACM, 1997
[154] Evaluating Collaborative Filtering Recommender Systems (2004)
J. Herlocker, J. Konstan, L. Tervenn, and J. Riedl
ACM Transactions on Information Systems (TOIS), 2004
[155] Recommending and Evaluating Choices in a Virtual Community of Use (1995)
W. Hill, L. Stead, M. Rosenstein, and G. Furnas
CHI 95
[156] Coauthorship networks and patterns of scientific collaboration (2004)
M. E. J. Newman
PNAS (Proceedings of the National Academy of Sciences), 2004
U. Michigan
[157] Scientific collaboration networks. I. Network construction and fundamental results (2001)
M. E. J. Newman
Physical Review E, 2001
[158] Clustering and preferential attachment in growing networks (2001)
M. E. J. Newman
Physical Review E, 2001
[159] Application of Semantic Technology for Social Network Analysis in the Sciences (2006)
Peter Mika, Tom Elfring, and Peter Groenewegen
Scientometrics, 2006
Free Univ.
2章はContextでSemantic Webについて。3章が手法。
4章が分析。4.1は中心性の分析など。(descriptive analysis)
4.2は、パフォーマンスとの相関を見ている。
仮説1a: tieの数は、パフォーマンスに正の相関がある。
仮説1b: closed networkはパフォーマンスに負の相関がある。
仮説2a: 認知的な多様性へのアクセスは、(特に若い研究者の)パフォーマンスに正の相関がある。
簡単な仮説を立てた検証だけという感じ。
[160] Academic communication and Internet Discussion Groups: transfer of information or creation of social contacts? ? (2004)
Uwe Matzat
Social Networks 2004
[161] The Invasion of the Physicists
Phillip Bonacich
バラバシのLinkedとWattsのSix Degreeの書評。2モードネットワークを「発見した」など、関連研究を引いていないことなどについて、皮肉たっぷり。
[162] Structure and time evolution of an Internet dating community (2004)
P. Holme, C. Edling, and F. Lijeros
Social networks 2004
Umea Univ., Stockholm Univ. (Sweden)
オンラインのデートコミュニティの分析。スウェーデンのpussokram.com (英語ではkiss'n'hugという感じ)のコミュニティ。2002年春夏の時点で3万ユーザ。2001年のはじめから約1年半の期間。比較のために、nioki.com(フランスのコミュニティ)とscientific collaboration(共著関係)のネットワークを使う。(いずれもスナップショット)。時系列のリンク数、平均次数の変化(図2)。Reciprocity(両方向のタイがどのくらいあるか):図3。次数相関、assortative mixing。次数分布。geodesic (shortest path) distanceの平均。short circuitsの密度。で、議論で終わり。
一連の分析は非常に初歩的。特に仮説もない。
[163] Friends and neighbors on the Web (2003)
L. Adamic and E. Adar
Social networks, 2003
HP lab
次数分布。きれいなグラフ。少なくとも1本のリンクのある人の数などの集計。簡単なケーススタディ。
リンクのあるなしの予測。similarityを共通アイテムの数(の対数の逆数)で計る。(Likeness score)。パフォーマンスと実例を少し。で終わり。
やはり、ざっといろいろ分析して解釈して終わりという印象。
[164] Tribal regimes in academia: a comparative analysis of market structure across disciplines (2003)
Shin-Kap Han
Social networks, 2003
[165] Statistical analysis of network data?an application to diffusion of innovation (2003)
J. Nyblom, S. Borgatti, J. Roslakka, and M. Salo
Social networks 2003
[166] VIP-club phenomenon: Emergence of elites and masterminds in social networks (2006)
Naoki Masuda and Norio Konno
Social networks 2006
[167] A Graph-theoretic perspective on centrality (2006)
S. P. Borgatti and M. G. Everett
Social networks 2006
[168] Consumer referral in a small world network (2006)
T. Jun, J. Kim, B. Kim, and M. Choi
Social networks 2006
[169] Actor network utilities and network evolution (2006)
P. Doreian
Social networks 2006
[170] Are social networks technologically embedded?: How networks are changing today with changes in communication technology (2005)
C. Licoppe and Z. Smoreda
Social networks 2005
[171] How to search a social network (2005)
L. Adamic and E. Adar
Social networks, 2005
分かりやすい説明。モデルを立てて、実データで検証。2つのネットワークを使っている。1つはHP labのe-mailのネットワーク(Pajekで描画)。もうひとつはsocial networking site(Club Nexus)から取ったもの。物理的距離でどう変わるかなど。
[172] Toward ethical guidelines for network research in organizations (2005)
S. P. orgatti and J. Molina
Social networks, 2005
[173] Who benefits from network analysis: ethics of social network research (2005)
C. Kadushin
Social networks 2005
[174] Modeling social influence through network autocorrelation: constructing the weight matrix (2002)
R. Leender
Social networks, 2002
[175] Distance and cosine measures of niche overlap (2001)
M. Sohn
Social networks, 2001
[176] Utility and dynamic social networks (2000)
N. Hummon
Social networks, 2000
[177] Dynamical systems to define centrality in social networks (2000)
R. Poulin, M. Boily and B. Masse
Social networks, 2000
[178] Some analyses of Erds collaboration graph (2000)
V. Batagelj and A. Mrvar
Social networks, 2000
簡単なコンポネント等の図示。Core、Lordの分析。Blockmodel。Clustering(7章にJaccard, Dice等の記述あり。)Cluster分析。
[179] Personal network integration: transitivity and homophily in strong-tie relations (2000)
H. Louch
Social networks, 2000
[180] Alex Popescul
Alex Popescul
U. of Pennsylvania
Yahoo! inc. にいるらしい。2004年ごろPhD終了?
Feature constructionの論文等。Lyle Ungarという人が教授でデータマイニングの研究。
[181] http://www.cis.upenn.edu/~popescul/home.html
[182] Application of Semantic Technology for Social Network Analysis in the Sciences (2006)
P. Mika, Tom Elfring, and Peter Groenewegen
Scientometrics, 2006
[183] Trust and Nuanced Profile Similarity in Online Social Networks (2006)
Jennifer Golbeck
JAIR, 2006
[184] Googlearchy: How a Few Heavily-Linked Sites Dominate Politics on the Web (2003)
M. Hindman, K. Tsioutsiouliklis, and J. A. Johnson
Annual Meeting of the Midwest Political Science Association, 2003
[185] Structure and evolution of blogspace (2004)
R. Kumar, J. Novak, P. Raghavan, and A. Tomkins
CACM 2004
IBM Almaden
100万人以上のLivejounalのbloggerの分析。
主に、年齢や国などの分析。興味のクラスタができること、地理的なクラスタができることなど。後半は、時系列の変化。
[186] The quality of online social relationships (2002)
J. Cummings, B. Butler, and R. Kraut
CACM 2002
MIT, U. of Pittsburgh, and CMU
オンラインの関係は、オフラインの関係を形成・維持するには弱いことが書かれている。1991年の979人の銀行従業員の調査。81%がe-mailを使っている。ピッツバーグの93人の主婦の調査。204のメーリングリストの分析。
[187] Computer networks as social networks
B. Wellman
Science,
[188] Relationship formation on the Internet: What's the big attraction? (2002)
K. McKenna, A. Green, and M. Gleason,
Journal of Social Issues, 2002
[189] Blogging as a social activity, or would you let 900 million people read your diary? (2004)
B. Nardi, D. Schiano, and M. Gumbrecht
CHI 2004
ブロガー23人にサーベイ調査。ブログを書く目的についてなど。
1. 他の人に自分の活動や状況を知らせる。
2. 他人に影響させるように意見を書く。
3. 他の人の意見やフィードバックを求める。
4. 書くことで考える。
5. 感情の高まりを発散する。
[190] Internet paradox revisited (2002)
R. Kraut, S. Kiesler, B. Boneva, J. Cummings, V. Helgeson, and A. Crawford,
Journal of Social Issues, 2002
[191] Expressing Social Relationships on the Blog through Links and Comments (2006)
Noor Ali-Hasan, and Lada A. Adamic
たぶん2006
U. of Michigan
面白い!Kuwaitブログ、Dallas/Fort Worthブログ、United Arab Emiratesブログのコミュニティで、リアルライフの関係とオンラインの関係を調べる。blogrollとコメントを調べた。その結果、オンラインの関係は実世界の関係を反映してないこと、オンラインの関係はbloggingを通じて形成されることがわかった。
分析はそれほどしっかりしてない感じ。
[192] How Blogging Software Reshapes the Online Community (2004)
Rebecca Blood
CACM 2004
Weblog Handbookという本を書いた人らしい。A-listのblogger。Weblogの歴史など。特に内容なし。
[193] How Do Blog Gardens Grow? Language Community Correlates with Network Diffusion and Adoption of Blogging Systems (2006)
Gu, L., P. Johns, T. M. Lento and M. A. Smith.
AAAI symposium on computational approaches to analyzing weblogs, 2006
[194] Conversations in the Blogosphere: An Analysis "From the Bottom Up" (2005)
Susan C. Herring, Inna Kouper, John C. Paolillo, Lois Ann Scheidt, Michael Tyworth, Peter Welsch, Elijah Wright, and Ning Yu
Proc. of HICSS-38, 2005
Indiana University Bloomington
A-listのblogではなくて、普通のblogをランダムにピックアップして、どのくらいつながっているかなど、ネットワーク分析をしている。A-listは、中心的だが、他のブログは密に固まっている。他のサンプルのblogはほとんど参照してない。つまり、局部的に固まっているが、それぞれはばらばらになっている。
[195] Discovering the iceberg of knowledge work: A weblog case (2004)
Lilia Efimova
OKLC2004
Telematica Instituut, オランダ
[196] Finding the life between buildings: An approach for defining a weblog community (2005)
Lilia Efimova, Stephanie Hendrick, and Anjo Anjewierden
2005
Telematica Instituut (Netherlands)
バーチャルな空間でのコミュニティの定住という比喩。研究の方法論自体についていくつか議論したあと、コミュニティのメンバーを同定する研究が少し書かれている。
Regular reading of a weblogについて5ページに少し記述がある。
[197] On the bursty evolution of blogspace (2003)
R. Kumar, J. Novak, P. Raghavan, and A. Tomkins
WWW2003
[198] Experiments on Persian Weblogs
Kyumars Sheykh Esmaili, Mohsen Jamali, Mahmood Neshati, Hassan Abolhassani and Yasaman Soltan-Zadeh
Sharif Univ of Technology (Teheran, Iran)
ペルシャのblog分析。次数分布、ページランク等。
[199] Online personal networks: Size, composition and media use among distance learners. New Media (2000)
Haythornthwaite, C
Society 2(2):195226, 2000
[200] Investment and Attention in the Weblog community (2006)
Cameron Marlow
AAAI symposium on computational approaches to analyzing weblogs, 2006
MIT
面白い。readership relationと実際の関係をサーベイしている。
[201] Information Diffusion through Blogspace (2004)
D. Gruhl, R. Guha, D. Liben-Nowell, and A. Tomking
WWW2004
長大な論文。
[202] Leave a Reply: An Analysis of Weblog Comments
Gilad Mishne, Natalie Glance
?
U. Amsterdam, Nielsen BuzzMetrics
コメントの分析。誰が投稿したかは分からない。68万ポスト、そのうちコメントがあるのが10万ポスト(15%)。3万6千Weblog, そのうちコメントがあるのが1万(28%)。次数分布、キーワードで検索したときの分析、コメントと人気の関係など。
[203] Implicit Structure and the Dynamics of Blogspace (2004)
E. Adar and L. Zhang and L. Adamic and R. Lukose
Workshop on the Weblogging Ecosystem, 2004
HP Information Dyanmics Lab
blogrollとurlの言及のネットワーク。iRankを提案。
[204] The Political Blogosphere and the 2004 U.S. Election: Divided They Blog (2005)
Lada Adamic and Natalie Glance
LinkKDD-2005, 2005
HP labs, and Inteliseek Applied Research Center (Pittsburgh)
Blogrollのスナップショット。
1494のブログ(759が自由、735が保守)のネットワーク。
特に40のA-listブログ(20ずつ)を選んで、40日間観察。詳細に分析している。
[205] Audience, structure and authority in the weblog community (2004)
Cameron Marlow
CA 2004
MIT media labo
Blogdexというプロジェクトでblogを収集してくる。このデータで、
permalink, blogrollのソーシャルネットワークを作る。degreeの中心性のランキング、次数分布、2つのソーシャルネットワークの中心性の相関など。3ページ目に、4つのsocial tie(permalink, blogroll, comment, trackback)があることを述べている。まあ、大したことないが参考になる。
[206] Discovery of Blog Communities Based on Mutual Awareness
Yu-Ru Lin, Hari Sundaram, Yun Chi, Jun Tatemura and Belle Tseng
WWW2006 Workshop
NEC labs
面白い。Mutual awarenessを測る。それによって、コミュニティを同定する。やり方は、コメント、引用、blogrollの変更など。時間も見ている。
[207] The Ties that Blog: Examining the Relationship Between Social Ties and Continued Participation in the Wallop Weblogging System (2006)
Thomas Lento, Howard T. Welser, Lei Gu, and Marc Smith
WWW2006 workshop on weblog, 2006
Cornell Univ., U. of Washington, and Microsoft
Wallopというホスティングサービス。中国人が多い。commentネットワーク、invitationネットワーク、その組み合わせの3つのネットワークを調べている。中心性の分析、やめるかどうかの予測など。
[208] Memeta: A Framework for Multi-Relational Analytics on the Blogosphere. (2006)
Pranam Kolari, Tim Finin:
AAAI 2006
[209] Characterizing the Splogosphere (2006)
P. Kolari, A. Java, and T. Finin
WWW2006
U. Maryland
splogをSVMを使って検出。blog同定のF1は97%、splog検出は90%。BlogPulseの130万エントリ(2005/7の3週間のデータ)
確率でAuthenticBlog, Splog度を出している。時間帯の分析、次数分布の分析など。
[210] The TREC Blogs06 Collection : Creating and Analysing a Blog Test Collection (2006)
Craig Macdonald, ladh Ounis
Univ. Glasgow Technical Report, 2006
Univ. Glasgow Scotland, UK
Blogs06のテストコレクションをどうやって集めたか。Top blogs(7万), Splog(1万8千), その他(1万2千)。2005/12/6-2006/2/21まで。期間ごとの集計、時間ごとの集計(splogとの違い)、offensive wordがどのくらい含まれるか(splogのほうが多い)、次数分布など、簡単な統計分析。
[211] SVMs for the Blogosphere: Blog Identification and Splog Detection (2006)
Pranam Kolari et al.
AAAI Spring Symposium on Computational Approaches to Analyzing Weblogs, 2006
SVMを使ったsplogの同定。
[212] Tracking Information Epidemics in Blogspace (2005)
Eytan Adar and Lada A. Adamic
WI2005
HP Labs, Information Dynamics Lab
1.2のRelated Worksはすばらしい。
Blog BとBlogAが同じ話題(URLを引く)であって、しかもその周りにそれに言及したBlogがないときに、
infectしたとみなしている。direct linkがあるか(双方、片方、ない)、infectしているかなどを分類する。
属性としては、テキストの類似度(共通のURL、TFIDF)やタイミングを用い、SVMやロジスティック回帰を使う。
可視化についても4章で言及されている。
[213] Quantitive and sociological analysis of blog networks
W. Bachnik他
ACTA PHYSICA POLONICA B
Gdansk University (Poland)
ポーランド語のブログの分析。Small worldであるとか。質は低いので引く必要なし。

[214] Exploring Social Annotations for the Semantic Web (2006)
Xian Wu, Lei Zhang, Yong Yu, Shanghai
WWW2006
Shanghai JiaoTong University, IBM China Research Lab,
tagging guyの論文。
[215] Emergent Semantics (2002)
S. Staab eds. (Simone Santini (UC San Diego), Frank Nack (CWI Amsterdam), Luc Steel (U. Brussels), Alexander Maedche (U. of Karlsruhe))
IEEE Intelligent Systems 2002
すばらしい。
前書きと3番目の記事にヴィトゲンシュタイン、
4番目の記事にソシュールが出てくる。
[216] On How to Perform a Gold Standard Based Evaluation of Ontology Learning (2006)
K. Dellschaft, and Steffen Staab
ISWC2006
Univ. Koblenz-Landau
オントロジの評価について。(i)アプリケーションでの評価、(ii)エキスパートによる評価、(iii)Gold standardによる評価。3つの基準があって、複数の評価尺度を重ね合わせたものでなければいけない、木の根元のエラーは大きくなければならない、エラーを付け加えると評価尺度が下がらないといけない。4章は木のマッチングの方法。
[217] Ontology-driven Information Extraction with OntoSyphon (2006)
Luke McDowell and Michael Cafarella
ISWC2006
US Naval Academy and U. of Washington
検索エンジンを使ってインスタンスを見つける研究。
[218] A Method for Learning Part-Whole Relations (2006)
Willem Van Hage, Hap Kolb, and Guus Schreiber
ISWC2006
TNO science and industry Delft, and Virije Univ. Amsterdam
[219] Mining Information for Instance Unification (2006)
Niraj Aswani, Kalina Bontcheva, and Hamish Cunningham
ISWC2006
U. of Sheffield
[220] A Framework for Schema-Driven Relationship Discovery from Unstructured text (2006)
C. Ramakrishnan, K. Kochut, and A. Sheth
ISWC2006
LSDIS, U. of Georgia
Bio-medicalのテキストからエンティティ間の関係を見つける。RDFに変換。
[221] Augmenting Navigation for Collaborative Tagging with Emergent Semantics (2006)
M. Aurnhammer, Peter Hanappe, and Luc Steels
ISWC2006
Sony Paris, Vrije Universiteit Brussel
タグと画像の特徴を合わせた画像の閲覧ナビゲーション。タグの可視化。輪郭(colour)とテクスチャの特徴を組み合わせた特徴量を用いる。
[222] Ontology-Driven Automatic Entity Disambiguation in Unstructured Text (2006)
J. Hassel, B. Aleman-Meza, and I. Budak Arpinar
ISWC2006
LSDIS, U. of Georgia
前にメリーランド大で聞いたやつかも。
[223] Toward Knowledge Acquisition from Information Extraction (2006)
Chris Welty and J. William Murdock
ISWC2006
IBM
KITEというシステム。テキストからOWLやRDFを生成。きちんとした議論、大まかな枠組み。ケーススタディをしている。かなり小さい規模。
[224] Toward Principles for the Design of Ontologies Used for Knowledge Sharing (1993)
Thomas R. Gruber
In Formal Ontology in Conceptual Analysis and Knowledge Representation, 1993
Stanford Kwnoledge Systems Laboratory
オントロジの定義。"An ontology is an explicit specification of a conceptualization. "(p.1)
オントロジのデザイン基準。1. Clarity, 2. Coherence, 3. Extendibility, 4. Minimal encoding bias, 5. Minimal ontological commitment. 2つのケーススタディ(物理量のモデル、書誌データの共有)について書かれている。
[225] Knowing the User's Every Move - User Activity Tracking for Website Usability Evaluation and Implicit Interaction (2006)
Richard Atterer, Monika Wnuk, and Albrecht Schmidt