IoTや人工知能の活用が必要とされる現代において、データを分析しビジネスに活用する仕事であるデータサイエンティストという職種はとても注目を集めています。その傾向は世界的にも見て取れるもので、米国では将来性のある職業ランキング1位と言われているほど、データサイエンスが活用される業界の幅は広く今需要のある仕事です。この記事ではデータサイエンティストの仕事内容から必要とされる能力やスキル、これまでの歴史やこれからデータアナリストを目指したいという人に向けて市場価値などについて詳しく解説していきます。
データサイエンティストとは、ビッグデータという膨大なデータの中から統計学や数学的な知識を利用しデータを抽出・分析しビジネスやサービスの改善に向けた問題や施策の立案を行う仕事のことを指します。このようにデータサイエンティストの定義だけを聞くとあまりイメージが湧きづらいですが、データサイエンスの技術は私達の身近にたくさん活用されています。例えば、ネット通販で出てくるレコメンド機能もその技術の一つです。膨大なデータの中から統計学に基づき「Aのような商品を買う人はBのような商品も買う傾向にある」という分析を元に、消費者にオススメ商品を提示しています。
他にもサービス業界では来店者数のデータを元に売上予測を出すことで在庫量の最適化に役立てたり、農業分野においては、天候や季節ごとの収穫量に応じて蓄積したデータを活用し効率化に役立てたりとその技術が応用される業界は多岐に渡ります。
ここではデータサイエンティストのより具体的な仕事内容について解説していきます。データサイエンティストの仕事は数学的な知識、統計学、様々な分析手法を用いて膨大なデータを解析しクライエントの事業戦略やサービス改善に提言までを行う仕事です。データ分析に必要な専門的な知識を深く知っておく必要があるだけでなく、コンサルタントのように事業がより良くなるための提案も行うため担当する領域の広い仕事になります。
まずデータ分析を行う前に問題定義を行います。分析するサービスや事業の課題の洗い出しや優先順位付けをしその中から最も注力すべき課題をターゲティング、そして達成目標を予め立ててからの計画立案を行います。こういった仕事は従来であれば戦略コンサルタントの仕事でしたが、コンサルタント要素の強いデータサイエンティストであれば問題定義から携わります。
次にどういったデータを収集するかを決めてそのデータを整理するという作業になります。システムやSNSなどからデータを収集します。あらゆる基盤データから必要なデータをまとめなければいけないため、その作業を行うためにプログラム(パッチ)の作成やシステムの構築などの環境づくりを行うケースもあります。収集環境が出来上がり整理をすることが出来たらデータの分析に入ります。様々な分析手法を用いてより効果的なデータを大量のデータの中から見つけ出しそのデータに意味づけをしていきます。
分析した結果を元に、事業やサービスの課題解決に役立つ為の施策や戦略を考えていきます。体系的に考えてクライエントのサービスに合った提案を行うのが仕事です。より良い施策を立案するためにはデータを分析する能力だけでなく効果的に活かすためのマーケティングの知識やより利益を出していくという観点から経営的なビジネス知識が必要になります。そして立案した施策をクライエントに分かりやすく伝えて行くというのもデータサイエンティストの業務になります。
次にデータサイエンティストに必要な能力を見ていきましょう。「一般社団法人 データサイエンティスト協会」はデータサイエンティストに必要な能力を「ビジネススキル」「データサイエンススキル」「データエンジニアリングスキル」の3つに分類しています。
データを用いてビジネスの経営課題を解決する必要のあるデータサイエンティストという仕事にはビジネススキルは必須です。その中でも具体的に必要なスキルは「ロジカルシンキング」、「コミュニケーションスキル」、「プレゼンテーションスキル」の3つに分類されます。まず、分析したデータから施策を立案するためには分析対象のサービスや事業の仕組みを深く理解する必要があります。
そしてより有効な結論を出すためにはロジックツリーやMECEといったロジカルシンキングの手法やマーケティング手法を用い、物事を体系的に考える思考が必要になります。そして立案した施策をITや統計学の知識のないクライエントに分かりやすく伝えるのもデータサイエンティストの仕事になります。したがって「コミュニケーションスキル」や「プレゼンテーションスキル」といった戦略コンサルタントやマーケティングに必要な最低限のビジネススキルが必要になります。
データサイエンススキルとは情報処理、人工知能、統計学などの情報科学系の知識を理解し利用する力と定義されています。データ分析のベースとなる知識は数学と統計学で構成されています。高校卒業レベルの数学の知識(確率・微分積分など)や統計用語の理解や統計手法について学んでおく必要があります。またデータ分析は一般的にBIツールと呼ばれるシステムを用いて行われます。したがってなにを用いて分析を行うか、どんな手法で行うかなどの自らが出す結論にはどのような分析手法が有効なのか選定をする分析設計スキルも必要になります。
BIの歴史、メリットなどの基礎知識について解説された記事はこちら>>
データエンジニアリングスキルとはデータサイエンスを意味のある形に使えるようにし、実装・運用出来るようにする力のことをいいます。データサイエンティストの仕事では、自らコーディングを行い統計ツールを作成することもありますし、データ収集の際にも最低限のR言語やPythonなどの統計処理向けのプログラミング言語を用いてデータの形式を統一を行う必要も出てきます。
またビッグデータの取り扱いには特別なツールやプラットフォームを利用することが多いため専門ツールの利用についても知識が必要です。たとえばHadoopとMapReduce.はよく使われるオープンソースになりますのでビッグデータの処理についてのスキルも学んでおく必要があります。
Pythonとはグイド・ヴァンロッサム氏によって1991年に開発された汎用的に使用されるプログラミング言語です。サーバサイド言語としてWebアプリケーションやデスクトップアプリケーションの開発に使われるだけでなく、組み込み開発、自動処理、統計・解析、機械学習など幅広い領域に対応出来るプログラミング言語として親しまれております。
Pythonの特徴などの基礎知識について解説された記事はこちら>>
R言語とはニュージーランドにあるオークランド大学のロス・イハカ氏とロバートクリフォード氏によって1995年に開発された統計解析向けのプログラミング言語です。R言語の大きな特徴はJavaやC言語などの代表的なオープン系開発言語とは違い『データ解析・統計解析』の専門言語ということが挙げられます。そのためデータ解析・統計解析においてはその他のプログラミング言語と比べても非常にパフォーマンスが高いと評価されております。
R言語の特徴などの基礎知識について解説された記事はこちら>>
データサイエンティストという職業が注目されはじめたのは2010年頃といわれています。しかし用語自体は50年以上前から存在しており、統計解析をサービスに活かすということ自体は昔から行われています。2010年前後にAI技術やビッグデータの活用が主流になった際にそれを扱う職業としてデータサイエンティストがより注目を集める職業になりました。
もともとデータサイエンティストという言葉は1974年頃デンマークのコンピューター学者が自身の著書の中で「データサイエンス」という言葉を多用したことで広まったとされています。その後1990年頃に入り、機械学習分野に欠かせない言語であるPythonが誕生したり、データマイニングと呼ばれる解析手法が広がりました。2000年代に入るとWindowsXPが発売されSaaSが普及したことで1人1台パソコンを持つ時代になり、生活にインターネットサービスが根付いたことで行き交うデータの量が格段に増えていきました。
2010年頃になるとiPhoneの発売やYou TubeなどのSNSの普及もあり、インターネット上にあるデータの量も膨大になり「ビッグデータ」という言葉が誕生しました。以降データサイエンスの技術は現在に至るまで拡大と成長を続けています。
データエンジニアとはデータサイエンス部門において、エンジニア業務を担当します。データサイエンティストやデータアナリストといった分析の専門技術者が必要に応じでデータを取り出せるように分析環境を構築したり、データの収集に必要なアプリケーションの開発を担当します。
一方データアーキテクトは、データサイエンティストやデータアナリストが収集したデータを使いやすいように整備や管理を担当する仕事になります。データサイエンティストとデータエンジニアの間を取り持つような立ち位置のイメージです。データエンジニアがシステムを構築しやすいようにフレームワークを可視化・概念化したり構築しやすいように整える仕事になります。この3つの職種は密接に関わっており、協力が必要な職種になります。
次にデータサイエンティストの平均年収や今後の将来性など、市場価値について詳しく解説していきます。
データサイエンティストの平均年収は約730万と言われています。日本人の平均年収は約440万円なので非常に高給な職種と言っていいでしょう。ただしデータサイエンティストという職種自体が定義が幅広いため、持っているスキルや経験によっても幅があります。
日本国内においてデータサイエンティストという職種は人手不足でもあるため年収は高いですが、上記でも記載した通り、米国では最も注目されている職種1位とも言われているくらいなので年収1000万円を超えるケースもざらにあります。それだけ世界的にみても伸びている市場であるといえます。スキルや実務経験さえあればフリーランスとして独立する人も多い職種のためさらに高収入が目指せる仕事です。
ここでは代表的なものを解説していきますが、多くの企業や官公庁がビッグデータを活用する時代になったため、データサイエンティストの活躍の場は多岐に渡ります。まずはIT業界です。システム開発を受託している会社ではAI機能を搭載したシステムの需要が高まっています。そういった開発現場においてデータサイエンティストはなくてはならない存在です。コンサルティング業界でも根拠となるデータの分析を行うデータサイエンティストの需要は高まっています。
データの分析だけではなく統計に基づいた経営戦略への助言も求められるスキルになります。また広告業界やマーケティング領域での顧客動向の分析や金融業界、不動産業界などでもデータサイエンティストの需要は高まっています。
AI技術の急速な発展に伴い、長い目で見たときに将来性を危惧する声もあるデータサイエンティストですが、今後も将来性はあるといっていいでしょう。その理由として挙げられるのは、データサイエンティストの仕事はデータ分析をすることだけが仕事ではないからです。
データ集積やデータ分析だけを行うデータサイエンティストであれば淘汰されていきますが、データに基づいて開発に活用する業務や分析したデータを活用し経営戦略を立案出来るようなスキルを身に着けておけば市場から淘汰されることはありません。幅広い専門知識や新しい技術の習得は勿論のこと、データを分析するだけでなく発展的に活用が出来る自分の強みといえるスキルを身に着けておくことが大切です。
次にデータサイエンティストを目指すにあたり学んでおくと良い資格について詳しく説明していきます。
一般的に日本の技術者でよく知られているのが情報処理技術者試験です。レベル1~4に分かれているため未経験で技術者を目指すのであれば基本情報技術者試験から勉強し応用情報技術者試験の取得を目指すことをおすすめします。国家試験に認定されている資格のため、業界の認知度も高い資格になるため、参考書も簡単に書店で入手することが出来、独学でも取得が目指しやすいといえます。
日本統計学会が認定している統計学に関する検定試験です。4級~1級までレベルが分かれていますが、データサイエンティストの実務に役立つのは準1級レベルといわれています。データサイエンティストで一番大事なスキルである「分析力」を培うための試験内容になっています。この試験も書籍を使って独学で勉強することが可能ですが、準1級レベルは難易度も高いため、4級から勉強し基礎を固めていくと良いでしょう。
データスペシャリスト試験は実務経験がある技術者向けの難易度の高い試験内容になります。国家資格に認定されており、データベース設計や管理に関するものが出題内容です。データベースに関する体系的な知識だけでなく、より高品質な設計運用スキルを取得したい人は取得を目指すと良いでしょう。出題内容の中にはデータベースを操作するためにヒウ様なSQLの知識を問う問題もあるため、なかなか独学で勉強することが難しい内容となっています。実務で操作しながら覚えていくことが有効でしょう。
データサイエンティストを理解するために初心者でも分かる仕事内容、必要な能力、市場価値について簡単に解説させていただきました。幅広い専門知識と分析スキルを要する仕事であるため、難易度は高い職種ですが、ビッグデータの活用が必須の時代背景からも世界的にも非常に注目を集めているデータサイエンティスト。日本国内でもまだまだその需要は高まり続け、さらに活躍の場は拡がり続けるでしょう。データサイエンティストについてこの記事に記載されている最低限の内容は理解をしておくようにしましょう。