こんにちはsatoshiです。
最近、データサイエンティストについての書籍も増え、プログラミングスクールでも教えていることが多いようです。しかしながら、プログラマーと言っても、得意不得意があり、データサイエンスを中心にコードをゴリゴリ書いているプログラマーはそう多くはいません。大きな理由の一つは、数学(統計学)の理解が困難ということが挙げられます。学習器と呼ばれる様々な学習モデルのロジックを理解するには、どうしても統計学の理解(ベルヌーイ分布、ポアソン分布、カイ2乗分布・・・)が必要になり、学生時代に数学が苦手だった人は、どうしてもデータサイエンティスト方面には進みづらくなります。この辺りが、GoogleやAmazonのエンジニアには博士号を持っている人が多く、高収入になる理由なんだと思います。
(ちなみに、日本では高卒や専門学校卒のプログラマーが欧米に比べて多くいます。しかし、数学を苦手とするプログラマーは多くの場合、ホームページ制作やゲーム制作、ブロックチェーン作成などの方向に進みます。言い換えれば、データサイエンティストのポジションはどの業界でも空きが多く、少し学習したレベルでも多くの企業で重宝される傾向があります。また、これから需要の伸びも予想されるため、目指すべき職業の一つであることは間違いありません)
そこで今回は、データサイエンティストをこれから目指す人におすすめのコンペサイト「SIGNATE(シグネイト)」の良いところベスト3を発表したいと思います。
SIGNATEとは、企業や病院、政府機関(経産省など)から提供されたデータを利用し決められたテーマの予測をプログラミング言語Python(パイソン)を使って学習モデルを作り予測するというものです。(例えば、病院の血液検査のデータを使って、将来、病気になるかどうかの予測をするとか)
1位:SIGNATEは日本語で理解できる
これは日本人データサイエンティストにはうれしいことです。一番有名なコンペサイトはKaggle(カグル)ですが、すべて英語です。与えられるデータも説明文も全部英語なので、英語嫌いだと理解するのにかなり時間が必要です。日本語で理解できるというのは、かなり大きなメリットです。
2位:ビギナー用のコンペがある
これからデータサイエンティストを目指す人は、まずビギナー用のコンペから始めましょう。ビギナー用コンペの特徴として、データ量が少なく扱いやすい(データが少ないと過学習になり易いという問題もありますが・・・)、欠損値がなくデータクレンジング(データを整えること)や特徴量エンジニアリング(言葉のデータを数字に変換すること、例えば「男性」を1、「女性」を0に変換するなど)がほぼ不要という点があります。特にデータクレンジングはかなり面倒で初心者にはかなり辛いため、これをしなくて良いのは大きな利点の一つです。
3位:Questと呼ばれる学習動画がある(有料)
完全な初心者にはうれしい点だと思います。私は、無料部分しか見ていないのですが、初心者の取っ掛かりとしては良いのではないでしょうか。もう既にある程度、学習している人にとっては少し基本的すぎるかもしれませんので、見極める必要はありますが、無料部分を視聴して判断すると良いかもしれません。
以上、今回はデータサイエンスのコンペSIGNATEの良いところベスト3を発表しましたがいかがだったでしょうか?
今後、ますますデータサイエンティストが重宝される時代が来ることは多くのエンジニアが予想しています。まずは、SIGNATEの登録から始めてみましょう!
コメント