株式会社エム・フィールグループでAIに特化した、株式会社エイアイ・フィールド(以下、AIF)でプロダクト開発を担当している若林勇人です。好きな色は、ターコイズブルーです。
私が担当している近日リリース予定のAIプロダクトの開発のために、世界に存在しない5,000人分の顔データを作成し、APTO社の「harBest」というプラットフォームを用いて、アノテーションデータを作成し、AIの機械学習に用いました。今回はこのデータの中から1,000人分のデータを無償で提供することといたしました。ダウンロードの方法は記事の最後に記載しております。
■データを無償配布する狙い・想い
「多くの学習データを集めること」は、AIの質をダイレクトに決めるが故にとても大切です。しかし、時間や金銭的な制約により、それがなかなか難しい団体様も多くいらっしゃるかと思います。
今回配布するデータは、「AIによって人工的に生成した、この世に存在しない顔画像1,000枚に、年齢、性別がアノテーションされたデータ」です。顔画像のデータセットは、顔認証や属性判定(年齢や性別の判定)のAIを作る際に非常に重要なものです。
特に、学習データの「量」に関しては、モデルの精度、すなわち「AIの質」に大きく関わってくる部分です。世の中にはいくつか顔画像のデータセットが公開されていますが、それだけでは十分な精度が出せないという問題があります。また、年齢や性別のラベルがアノテーションされたデータは特に限られています。実際に存在する人物の顔画像のデータを収集するのは、企業にとっても学術機関にとっても非常に骨の折れる作業となりますが、AIによって人工的に生成した顔画像を用いておりますので、その点はクリアしています。研究目的としてですら無償のデータセットの提供は限られている現状だからこそ、今回提供するデータは非常に価値のあるものだと考えています。
今回のデータセットの提供を通して、多くのAI研究のお役に立てればと考えています。
■今回配布するデータの活用方法
今回、データセットは研究目的に限定して公開させていただきます。学術機関の方や、AIの開発に興味を持っていて研究のノウハウを蓄積したい企業様に、ご活用いただければと考えています。前述したように、顔画像、年齢、性別が揃ったデータセットは限られているので、学習データをより増やし、AIの精度を向上させるために、このデータセットを使用していただければ幸いです。
■APTO様との協働
APTO様には2021年の3月から、顔画像の年齢、性別のラベルのアノテーションにご協力していただいております。
今回、APTO様の「harBest」というAI開発プラットフォームを利用させていただき、客観性が担保された、年齢、性別のアノテーションデータを作成することができました。
AIFが、この世に実際に存在しない顔画像5,000枚をAIによって自動的に生成し、APTO様には、その5,000枚の「年齢、性別」のアノテーションを行なっていただきました。
APTO様は、アノテーションの際に、複数人に顔画像を判定してもらい、Aさんが「30歳」、Bさんが「40歳」、Cさんが「50歳」と判定したら、その平均である「40歳」をその画像の年齢のラベルとする平均値を使ってアノテーションを行います。
仮にAさん1人でアノテーションを行なってしまうと、その方の主観が入ってしまいますが、平均値を使うことで、客観性のあるデータを入手することができたと思います。
■無償データの入手方法
提供期間:2021年6月23日(水)〜2021年9月30日(木)
提供内容:存在しない顔写真1,000名分の画像とアノテーションデータ。
提供方法:以下のURLにアクセスし、必要事項を記入。
URL:https://harbest.io/annotation-data-download
提供価格:無償で提供いたします。
利用用途:研究目的に限ります。企業の方にも研究目的に限ってご利用いただけますが、
商用での利用は禁止とさせていただきます。
株式会社エイアイ・フィールド
Planning & HR Department
info@aifield.jp