データ分析、AI構築支援、AI教育事業を手がけるAMBL株式会社のAIfileld Company2年目の傍示健太です。好きな色は黄色です。
現在は会社の自社プロダクトの登録を一括で管理するシステムの開発と、SQLを用いたデータ抽出の受託案件の仕事を行っています。
この記事を書こうと思ったきっかけは、私自身がデータサイエンスを学ぶために教材探しをしていた際に無料でも良質な教材が多いことに気付き、実際に今回紹介した教材が仕事の役に立っているからです。データサイエンスに関連する書籍や研修は高額なものが多いとお困りの方もいると思うので、データサイエンスの自主学習のハードルを下げるために、自分が有益だと思った教材をシェアします。
まずはこうした無料教材で学び、その後は自分の興味に応じてそれぞれの専門分野の参考書を購入して、学習を進めていくのがコスパ的に正解だと思います。
役に立った教材が多いため、「テキスト編」(資料がPDFでアップされているもの)、「Webサイト編」、「100本ノック集編」の3本に分けて記事を作成します。
本記事ではその中の「テキスト編」を紹介していきます。
■高等学校における「情報II」のためのデータサイエンス・データ解析入門
まず最初にご紹介するのが、高校で教鞭を取る先生向けに作成された教科書の「高等学校における「情報Ⅱ」のためのデータサイエンス・データ解析入門」です。データサイエンスの体系的な知識が分かりやすくまとめられているのでデータサイエンス初心者の方の1冊目の教科書としてオススメです。
本書は「データサイエンス(機械学習のアルゴリズム)によるデータ解析が社会にもたらす変化」から始まり、「データサイエンスとは」、「機械学習の基本概念」などの基本となる概念や社会への変化といった内容について網羅的に説明されています。
その後の第3、4章では機械学習のそれぞれの手法を「スマートフォンの故障は予測できる?(サポートベクターマシン)」、「一緒に買われるケーキはどれ?(アソシエーション分析)」といった具体的なテーマを用いて分かり易く解説しています。
本書の内容についてGoogle colabで実行できるPythonファイルや実際のデータセットもあるので、自分で手を動かしながら機械学習の手法やPythonについて学習を進めることができます。
■データ分析のための統計学入門
おすすめテキストその2は、アメリカのデータサイエンティスト3名が執筆した『データ分析のための統計学入門 原著第4版』の日本語版PDFファイルです。
本書は「データ分析への誘い」「統計データの記述」「確率」「確率変数の分布」「統計的推測の基本」「カテゴルリカル・データの統計的推測」「量的データに対する推測」「線形回帰への入門」「重回帰とロジスティック回帰」といった9章で構成されており、それぞれの章で豊富な事例と練習問題が用意されています。
そのため、ただ統計学の手法を学ぶだけでなく、統計学を実データに対してどのように活用するのかについても知ることができます。
本書で利用されているデータは日本統計協会のホームページからダウンロードすることができるので、本書を読んだ上で自分なりの解釈でデータを分析してみるのもオススメです。
■プログラミング演習 Python 2021
おすすめテキストその3は、京都大学の全学共通科目の授業で利用されているPythonの教科書「プログラミング演習2021」です。
本教材の到達目標として以下の三点が挙げられています。
・Pythonによるプログラムの実行についての基本操作ができるようになる
・Pythonプログラムを構成する基本的要素の機能と書式について説明し、例題を用いて実 行例を構成できるようになる
・Pythonを用いて簡単なプログラムを自ら設計、実装、テストできるようになる
具体的にはPythonの開発環境の構築から変数と演算、リスト、制御構造、関数、クラスなどに加え、TurtleモジュールやTkinterで作るGUIアプリ開発、三目並べ開発など幅広い内容が盛り込まれています。
■Pythonプログラミング入門
おすすめテキストその4は、東京大学が公開している「Pythonプログラミング入門」です。
「Colabratoryによるノートブックの使い方」、「条件分岐」、「関数」や機械学習でよく用いられる「pandasライブラリ」、「numpyライブラリ」、「scikit-learnライブラリ」など実際にすぐ活用できる内容を学習することができます。
本教材は、Colab / HTML / PDF / Project Jupyterの4つのファイル形式に対応しており、自分の好きな形式で閲覧できます。特にColab形式だとGoogleアカウントがあれば誰でもPythonの環境を構築して学習を進められるのでオススメです。
また教材内では画像がふんだんに使用されており、自分の画面と教材を照らし合わせながらPythonの学習を進めることができます。
■機械学習帳
おすすめテキストその5は、 東京工業大学情報理工学院の機械学習の講義ノート「機械学習帳」です。この教材はJupyter Notebookファイル(.ipynb)を静的サイトとして出力する「Jupyter Book」で作られており、Pythonのコードを実行結果を見ながら学習することができます。
学習できる内容は、単回帰、重回帰、ロジスティク回帰、ニューラルネットワーク、クラスタリング、主成分分析といった機械学習の教科書に必ずと言ってもいいほど出てくる重要項目となっており、それらについて初学者向けに原理も丁寧に解説されています。
この教材の大きな特徴として、Pythonによって書かれたグラフが学習回数やパラメータによって変動したり3次元の場合にはアニメーションとして視覚化されていることがあり、機械学習モデルがどのような過程で学習を進めているかを直感的に知ることができます。
■コードで学ぶAWS入門
おすすめテキストその6は、東京大学計数工学科で2021年度S1/S2タームに開講されている「システム情報工学特論」の講義資料として作成された「コードで学ぶAWS入門」です。機械学習を行うためには、大量のデータを処理する必要があり、自前のコンピューターで処理をするためには高性能なGPUを搭載したPCを用意するなどそこそこのスペックが必要になってきます。
しかし、クラウドサービスを利用することで、瞬間的に高いスペックのコンピューターと同じようにデータ解析を行えるようになります。作成したAIモデルを組み込んだWebサイトを公開する際にもクラウドサービスを活用することによって、自分で環境を用意するより手軽に行えるようになるため、これからデータサイエンスを学びたいと考えている方にはクラウドの勉強をすることをオススメします。
本教材は有名なクラウドサービスであるAmazonのAWSを用いてクラウドの概要や具体的な利用方法をハンズオン形式で学習できるものとなっています。
具体的にはMNISTでの画像分類や、チャットボットの作成など様々なプロダクトを作成することができ、またDockerを用いた環境構築についても学べます。
無料枠から外れてしまうのですが、本教材の内容に書籍限定の書き下ろしを追加した書籍が販売されているので、こちらも紹介させて頂きます。
「AWSではじめる クラウド開発入門」
■おわりに
今回はデータサイエンスについて無料で学べるテキスト教材について紹介しました。
今回紹介したテキストで勉強することで、データサイエンスや統計の基本的な知識、Pythonでの文法、AWSを用いたクラウド開発を身に着けることができると思います。
残りの2記事ではこうした知識は勿論、画像データやテキストデータなど分野別に必要となる知識を学べる教材について紹介していきます。
本記事がデータサイエンスを学習したい人にとって参考になれば幸いです。
あなたもAMBLで働いてみませんか?
AMBLは事業拡大に伴い、一緒に働く仲間を通年で募集しています。
データサイエンティスト、Webアプリケーションエンジニア、AWSエンジニア、ITコンサルタント、サービス運用エンジニアなどさまざまな職種とポジションで、自分の色を出してくださる方をお待ちしています。ご興味のある方は、採用サイトもご覧ください。
-メンバーインタビュー (1日の仕事の流れ/やりがい/仕事内容)
-プロジェクトストーリー (プロジェクトでの実績/苦労エピソード)
プリセールス/ エンジニア/ クリエイター/ データサイエンティスト /営業・コンサルタント /コーポレート /サービス企画 /教育担当