データ分析、AI構築支援、AI教育事業を手がけるAMBL株式会社の傍示健太です。好きな色は黄色です。
AMBLには21年度の新卒として入社し、現在では画像系AIを使ったプロダクトのシステム構築とSQLを使った大手通信会社のデータ抽出の受託案件の仕事を行っています。
本記事ではデータサイエンスに関連する問題を多数集めた問題集(100本ノック)をご紹介します。100本ノックでは基礎的な問題から発展的な問題まで体系的に学ぶことができます。ご自身の勉強したい分野に応じてぜひ挑戦してみてください。
■ データサイエンス100本ノックサイト3選(構造化データ加工編)
・The-Japan-DataScientist-Society/100knocks-preprocess
https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess
一般社団法人データサイエンティスト協会が公開している、データサイエンティスト初学者向けの表形式データの加工や集計について学べる100本ノックです。
使用言語はPython、R、SQLから選択することができ、幅広い言語で学習することが大きな特徴です。
教材の環境構築にはDockerを用いていますが、インストールの方法から丁寧に解説されているので初心者の方にも簡単に環境構築ができるようになっています。
・Google Colabでデータサイエンス100本ノックに挑戦https://qiita.com/noguhiro2002/items/de49db61b69c3dbc9282
また、有志の方がGoogle Colabで実行できる環境を作成してくださっているのでお手軽に試してみたい人にはこちらをオススメします。
・データサイエンス100本ノック構造化データ加工編ガイドブックhttps://www.hanmoto.com/bd/isbn/9784802613569
こちらは無料から外れてしまうのですが、2022年4月から「データサイエンス100本ノック(構造化データ加工編)」の解説本が販売されているので、より深く学びたい人にはこちらの購入も検討してみて下さい。
■言語処理100本ノックサイト
・言語処理100本ノック 2020 (Rev 2)
https://nlp100.github.io/ja/
言語処理100本ノックとは、プログラミング、データ分析、研究のスキルを楽しく習得することを目指した問題集です。
具体的にはLinux環境での開発や、Pythonで綺麗なコードを書くための作法に加えテキストデータの処理の方法、CNNやRNNなどのディープラーニングのモデルを用いた手法や機械翻訳に至るまで幅広く学ぶことができます。
もし、こちらのサイトが専門的で難しいと感じる場合は、以下のURLを参考に必要なスキルについて学習しておくことをオススメします。
・言語処理100本ノックを解き始める前にhttps://gist.github.com/reiyw/9155edf600e85417e82d2e4e4bc9e637
言語処理100本ノックには公式の解答が存在しないので、他の方の解答例をいくつか載せておきます。
解答例を参考にしつつ自分のペースで挑戦してみてください。
・【言語処理100本ノック 2020】Pythonによる解答例まとめ
・「ギークなエンジニアを目指す男 機械学習系の知識を蓄えようとするブログ」
-機械学習-自然言語処理-言語処理100本ノック 2020
https://www.takapy.work/archive/category/Python-%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92-%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E5%87%A6%E7%90%86-%E8%A8%80%E8%AA%9E%E5%87%A6%E7%90%86100%E6%9C%AC%E3%83%8E%E3%83%83%E3%82%AF%202020
・「言語処理100本ノック 2020」をPythonで解く
https://upura.hatenablog.com/entry/2020/04/14/024948
■画像処理100本ノックサイト2選
・yoyoyo-yo/Gasyori100knock
https://github.com/yoyoyo-yo/Gasyori100knock
yoyoyo_さんという方が作ってくださっている画像処理に特化した100本ノックです。
画像処理をOpenCV等の便利なモジュールを利用せずスクラッチで処理する事で中身の計算処理やアルゴリズムを良く深く知ることができる問題集になっています。
過去にはAI実装検定のS級の公式問題集として採用されていたこともあり、画像に対する前処理についてや簡単な画像認識について体系的に学ぶことができます。
ただ初学者の方にとってデータサイエンス100本ノックと同じく環境構築がハードルになってくるかと思います。
GithubのREADMEに環境構築の方法について詳しく説明されているのですが、環境構築が面倒だと感じる方は下記のGoogle Colabで実行できる環境を利用してみてください。
・画像処理100本ノックを「Google Colaboratory」で楽々学習
https://qiita.com/karaage0703/items/e0b57b63dbebed908b2f
■おわりに
今回はデータサイエンスについて無料で学べる100本ノックサイトを紹介しました。
以前執筆したテキスト編、Webサイト編も含めるとそこそこの数の教材を紹介したので、
この中から自分の興味に沿って勉強を進めていって頂ければ幸いです。
身に着けた知識を確認したい場合は、統計検定やG検定・E検定などの資格に挑戦してみるのが良いと思います。
また実践的なスキルを身に着けたい方はKaggle(https://www.kaggle.com/)や、SIGNATE(https://signate.jp/)が開催する、データ分析コンペティションに参加してみるのもオススメです。
本記事がデータサイエンスを学習したい人にとって参考になれば幸いです。
あなたもAMBLで働いてみませんか?
AMBLは事業拡大に伴い、一緒に働く仲間を通年で募集しています。
データサイエンティスト、Webアプリケーションエンジニア、AWSエンジニア、ITコンサルタント、サービス運用エンジニアなどさまざまな職種とポジションで、自分の色を出してくださる方をお待ちしています。ご興味のある方は、採用サイトもご覧ください。
●AMBL採用ページ
-メンバーインタビュー (1日の仕事の流れ/やりがい/仕事内容)
-プロジェクトストーリー (プロジェクトでの実績/苦労エピソード)
●募集ページ
プリセールス/ エンジニア/ クリエイター/ データサイエンティスト /営業・コンサルタント /コーポレート /サービス企画 /教育担当