統計分析において最も注目を集めているR言語には数多くのパッケージが存在します。このパッケージを上手に選択し、活用することで統計分析をさらに効率よく実現することが出来ます。またご自身でプログラムを組んでいく中で再利用が想定される機能(ソース)はパッケージ化してまとめておく習慣をつけておくことが良いでしょう。R言語のプログラムに携わる方であれば人気を集める代表的なパッケージについては把握をしておきたいものですよね。この記事ではR言語におけるパッケージ人気どころ9選をそれぞれの特徴を踏まえて簡単にご紹介させていただきます。
『R言語における統計分析をさらに効率よく実現するために独自にまとめられた機能群』
R言語にはアプリケーションや関数群、ライブラリなどが独自にまとめられたパッケージが多数存在しております。これらはR言語に基本搭載される統計分析手法とは別に、様々なユーザーが分析手法を作成・更新して公開をしてくれたものを指します。代表的なパッケージとしてdplyer、ggplot2、stringrなどが挙げられます。
R言語とはニュージーランドにあるオークランド大学のロス・イハカ氏とロバートクリフォード氏によって1995年に開発された統計解析向けのプログラミング言語です。S言語というプログラミング言語を元にC言語やFORTRANを用いて開発されました。種別はPHPやRuby、javaScriptと同じインタープリタ言語です。R言語の大きな特徴はJavaやC言語などの代表的なオープン系開発言語とは違い『データ解析・統計解析』の専門言語ということが挙げられます。そのためデータ解析・統計解析においてはその他のプログラミング言語と比べても非常にパフォーマンスが高いと評価されております。
R言語は専門分野が分野なだけあり、元々研究や学術において活用されておりましたが、近年は企業においても様々なシーンで活用されております。また応用統計の分野である機械学習や金融工学などでも利用されるシーンが増えており、2020年7月に『TIOBE Software』によって発表されたTIOBE Programming Community Index (PCI)によるとR言語は様々な検索エンジンにおける話題性において第8位と同社ランキングにおいて過去最高の順位を挙げております。用途が専門的な言語であるものの、近年大きな注目を集めている機械学習やビッグデータの分野で活用できることが人気を集める理由と言えます。
R言語の歴史、特徴、できることについて解説された記事はこちら>>
R言語による統計解析に用いられる代表的なパッケージを9つ紹介させていただきます。
dplyrとはデータフレームの操作に特化したR言語に用いられるパッケージです。dplyrはC++で実装されており高速に動作するため、R言語の処理速度の遅さを賄います。dplyrには、表型データの中からサブセットを抽出するための関数や抽出したサブセットに対して集計を行う関数などが多数用意されております。
dplyrのGitHubはこちら>>
curlとはURLを使用してファイルのダウンロードやデータの転送などを実行するためにR言語に用いられるパッケージです。こちらのパッケージの登場時期は1998年のことで当初は『cURL』という名称でしたが後に『Curl』に変更となりました。Curlという同様の名称でプログラミング言語が存在しております。
curlのGitHubはこちら>>
ggplot2とはデータ可視化のためにR言語に用いられるパッケージです。こちらのパッケージを使用することでR言語に基本搭載されているplotよりも見やすい綺麗なグラフを簡単にかる合理的に作成することができます。ヒストグラムや折れ線グラフ、ヒートマップなど様々な種類が用意されております。
ggplot2のGitHubはこちら>>
stringrとは文字列処理のためにR言語に用いられるパッケージです。こちらのパッケージをりようすることでR言語に標準搭載されているbaseよりもより高度な文字列処理を実現ことができます。特別な知識を保たずとも統一的な表現により簡単に扱えるようにしたパッケージとして人気を集めております。
stringrのGitHubはこちら>>
devtoolsとはパッケージ作成補助のためにR言語に用いられるパッケージです。再利用する可能性のある関数は、まとめてパッケージ化することで効率を高められます。devtoolsの目的は、一般的なタスクを簡素化および迅速化するR関数を提供することにより、パッケージ開発を容易にすることとGitHubに掲げております。
devtoolsのGitHubはこちら>>
lubridetaとは日付操作をするためにR言語に用いられるパッケージです。通常R言語で日付や時刻を含むデータを操作することは容易ではないのですが、こちらのパッケージを使用することで簡易的に日付・時刻の操作をすることが出来ます。
devtoolsのGitHubはこちら>>
qlcMatrixとはテキストマイニングを行うためにR言語に用いられるパッケージです。こちらのパッケージには文字列を分解するために便利なコマンドが数多く搭載されております。
qlcMatrixのGitHubはこちら>>
BigQueryとはデータ読み込みを行うためにR言語に用いられるパッケージです。Google社が提供する「BigQuery」APIへのインターフェースです。
BigQueryのGitHubはこちら>>
doParallelとは並列処理を補助するためにR言語に用いられるパッケージです。もともとR言語では並列処理にsnowやmulticoreが使用されてきましたが、バージョン2.14以降それらを統合したParallelが標準ライブラリに搭載される形になりました。doParallelは標準ライブラリであるParallelのバックエンドとしての役割があります。
doParallelのGitHubはこちら>>
R言語におけるパッケージ人気どころ9選をそれぞれの特徴を踏まえてご紹介させていただきました。R言語パッケージを一言で表すと『R言語における統計分析をさらに効率よく実現するために独自にまとめられた機能群』です。皆さんの既にご存知のパッケージや新たな発見は有りましたでしょうか。こちらでご紹介させて頂いた代表的なパッケージの特徴を理解し必要なものを正しく取捨選択することで関わることでより効率的なプログラムを進めることができるでしょう。