一人前になってもらう方法

示唆に富む記事。

 


候補者選びについて

いきなりそもそも論みたいな話になってしまって恐縮ですが、ゼロからデータサイエンティストを育成するのであれば「どんな候補者が良いか」というのは結構重要なポイントです。これは、考え方としては3つあって

・データサイエンスの素養がある人たち
・現在の仕事で新たにデータサイエンスを使う必要性が出てきた人たち
・素養の有無を問わず強い課題意識を持って「データサイエンスを習得したい」という意欲のある人たち
のいずれかを選抜するというやり方が考えられます。

そして、見込みがあるのは、3番目だけという。2番目がダメな理由は、

2番目に、新たにデータサイエンスを仕事で使う必要性が出てきた人たち。これは1番目に比べると明確にデータサイエンスを仕事で必要とされているので、モチベーションは決して低くない人たちです。実際、そういう人たちは比較の問題で言えばデータサイエンスの習得には熱心です。ただ、以前の記事でも書きましたが、往々にしてヒトは易きに流れるもの。データサイエンスを使わなくても仕事上の課題を解決できるのであればデータサイエンスは無しで済ませたい、というメンタリティの人はやはり勉強に身が入らないものです。

共感できる。自分の場合は所属企業の自社内へのアプライだが、エンジニアに多変量のデータ解析の良さを示しても、自分たちがこれまでやってきた単一変量の解析手法しか使おうとしない。そのような事は多々あった。彼らは、データサイエンスが主の仕事ではないから、勉強する敷居は高い。さらに、周りの人間も単一要因でみることに慣れているため、たとえ多変量の手法で解析できたとしても、彼ら自身が周りを説得しにくい。結局、元の木阿弥。または、全く逆に、解析手法の中身を全く理解せずに、予測精度のよさだけで判断して、完全にブラックボックスで使ってしまう。

自分の場合は、3番目の強い課題意識を持った人たちへフォーカスしても失敗した経験がある。彼らは自然科学系の人間だが、データ解析による新たな示唆を期待していた。一緒に研究を進めていたが、結局、当初想定していたような大きな成果がなかなか得られなかったためか、研究幹部層からなかなか研究の重要性や面白さが認められないためか、辞めてしまった。ショックは大きかった。自分だけが一人取り残された気がした。自分の力が及ばなかったことが要因として大きいが、データサイエンスの1次ブーム前で社会的な認知もほとんどなかったことも影響したのだろう、と今更ながら思う。当時は、まだ若かったためか、出る杭になって尖った技術の追求こそが研究と考えていたが、この記事を読んで、うまくいかない要因が組織的な価値観の違いから来るのであれば、スパッと活動の場を変えるというのもありだと思った。

 

指導について、

メンターの方法論は僕自身まだまだ模索中なのでとても偉そうに例示なんか出来ませんが(笑)、やはりメンター自身も多くの試行錯誤を行なっているという過程を候補者たちに見せることが大事だと思います。その点である意味ペアプロミングみたいな要素があると個人的には思っていて、

まずメンター自身が候補者から見える形でデータ分析課題へのアプローチを行なってみせて
次に候補者がメンターの行なった分析プロセスに対して批判的考察を行い、改善する方法を考えて実践してみせる
その候補者の提案&実践に対して、メンターは効果測定を行い、さらに文献や自身の学識・経験に基づいて論評する
という一連のプロセスを何度もループさせて、候補者の見識を深めるというフェーズを作るというのは個人的には良い方法なんじゃないかと思っています(候補者のレベルが上がってきたら順番を逆にすると良い)。

これも同感。山本五十六ではないが、「やってみせ、言って聞かせて、させてみせ、ほめてやらねば、人は動かじ」という順序なんだなと。概念的な説明をしただけでは、どうしても伝わらない。結局、まずは、やってみせる、ということに落ち着いた。ただし、もともとセンスと好奇心があり勝手に動ける人は、放置で良い。

面白かったデータサイエンス関係ブログ

渋谷駅前で働くデータサイエンティストのブログ。多分超有名。人のブログを続けて見ることはあまりないが、これは読み始めると止まらなかった。おかけで会議をすっぽかした。実務の面からデータサイエンスを解説してくれている。技術理論とビジネス実務がバランスしているようで技術に傾くという絶妙な感覚で書かれている。また、「統計的因果推論 」についても書かれており、「なんでそうなるの?」というサイエンスの思考を大事にしていることが窺い知れる点が好き。データサイエンス界隈の人を「データサイエンティスト(アナリスト)」、「機械学習エンジニア」、「おしゃべり課題解決コンサル おじさん」の3分類にクライファイしている点もセンスを感じた。

 

 

データロボット社のブログ。データロボットは、ウェブベースの機械学習ツールで、展示会でも大きなブースを設けているため、特に企業関係の人に取ってはおそらく有名。データロボットは、誰でも最先端の機械学習が使えるように、機能を絞り込み、インターフェイスを簡素化し、パラメータ調整やモデル選択の自動化している。「データサイエンスの民主化」をうたっていつつもライセンス費用をガンガン上げてきたのはさておき、確かに使いやすい。本記事は、そのデータロボットを使った要因分析の解説記事。「交絡がある中での介入の効果をみたい」という悩ましい問題を解決する方法について書かれている。傾向スコアによって交絡因子を1つにまとめ、傾向スコアマッチングによって交絡の影響を抑え、介入の効果を分析するという手順。理論1、2と実践の3つに分かれているが、必要十分に書かれて読みやすい。マルチコ(多重共線性)についてもきちんと触れられており議論に隙がない。どうしてこのブログに興味をもったかというと、まわりでここまでデータロボットを使いこなしている人を見かけなかったため。教えてあげよう。

 


AI 専門のnews media のAINOW。技術だけでなくカンファレンス情報も載してくれている。また、AIに対する批判記事やデータサイエンティストのネガティブな面も取り上げており、ためになる。そして、最先端のAI記事を人力で仕分けているという実利志向が良い。更新されればチェックするようにしている。続けていってほしい。

データサイエンスで役になった洋書(和訳本なし)

おすすめの和書はいろんな人が紹介しているが、洋書の紹介は少ない。

 

以下、和書ではあまり書かれていないことが書かれていて面白かった書籍をリストアップ。若干古めだが。

 

"Causality: Models, Reasoning and Inference" by Judea Pearl 

f:id:kumikomiyank:20191118221333j:plain

ベイジアンネットワークや統計的因果推論の立役者である Judea Pearl 先生の古典的名著。「因果 〜モデル・論理・推論〜」。先生の研究において、実験データの解析における交絡や介入の効果を数学的記述からきちんと基礎づけされた。その功績が認められてチューリング賞。その研究をまとめた書籍。ただし、実務者が勉強として手に取るにはフィロソフィカルすぎるかもしれない。(和訳なしと思っていたが、横浜国立大学の黒木先生が訳されていた。ならばこの本、もっと有名になってもいいはずなのに)

 

"An Introduction to Probabilistic Graphical Models" by Michael I. Jordan

勉強を始めるのに、まずはネットに転がっている無料資料から漁る。そして、見つけたグラフィカルモデルにまとめた解説記事。統計学の Michael Jordan 先生。統計学の先生は、資料もソースコードも無料で提供されていることが多いため、ありがたい。

 

"The Elements of Statistical Learning" by Trevor Hastie, Robert Tibshirani and Jerome Friedman

f:id:kumikomiyank:20191118221658j:plain

これは研究室のポスドクのリサーチャが教えてくれた。Trevor Hastie 先生ら大御所先生が書かれた統計的機械学習の集大成本。セオリからきちんと解説。しかもただでpdfで落ちている。これも和訳なしと思っていたが、杉山先生、井出先生たちが訳されていた。和訳はただではないが。

 

"Bayesian Reasoning and Machine Learning" by David Barber

f:id:kumikomiyank:20191118221944j:plain

機械学習系は、アメリカ西海岸の大学の先生が多い中、David Barber 先生は UCL。ベイズ統計の推論や学習への応用について書かれており、研究始めに、このテキストを読み込んで勉強した。これも、古いバージョンならばpdf化されていた。当時、Deep neural networkが話題になっていた時期だが、イギリス含む西ヨーロッパの大学の先生は、 流行りに乗らず Bayesian を貫いているなと思った記憶がある。

 

"The Book of Why: The New Science of Cause and Effect" by Judea Pearl and Dana Mackenzie

f:id:kumikomiyank:20191118222141j:plain

Causality について一般向けに書かれた Pearl 先生の書籍。研究室のphD学生に教えてもらって買ったが、実はまだ全て読んでいない。ざっと見ると面白そうなトピック(因果の3段階など)が書かれている。しかし、訳されていないよう。

 

" The Master Algorithm : How the Quest for the Ultimate Learning Machine Will Remake Our World" by Pedro Domingos

f:id:kumikomiyank:20191118222835j:plain

 

2015年刊行の書籍。当時、機械学習の全体観を知りたく、レビュー記事を漁っていたら、この書籍にたどり着いた。機械学習を、そのアルゴリズムのコンセプトによって、Evolutionaries, Connectionists, Symbolists, Bayesians, Analogizersの5つに分類している。それらを統合した真の機械学習アルゴリズムを設計する必要があることを説いている。アルゴリズム研究そのものが evolutionary であるため、 1直線に統合できるかは疑問だが、示唆に富み面白い。

 

"Risk Assessment and Decision Analysis with Bayesian Networks" by Norman Fenton and Martin Neil

f:id:kumikomiyank:20191118225508j:plain

ベイジアンネットワークのリスクアセスメントへの応用について書かれた教科書。実応用を意識しており、具体例を上げて解説。使い込んだ。

 

こうしてみると、専門的すぎる書籍は、翻訳出版が難しいのだなと思わさせられる。

とりあえず以上。思い出したら更新する。