LAC WATCH

セキュリティとITの最新情報

RSS

株式会社ラック

メールマガジン

サイバーセキュリティや
ラックに関する情報をお届けします。

ラックピープル | 

社内のAI人材を育成しよう!AIハンズオン研修で50名の「Kaggler」を輩出

金融事業部プロダクト開発グループの與五澤よごさわです。

昨年7月に、某研究所への2年間の業務から帰任して、現在はAI開発や分析業務を行っています。

研究所での業務期間中、AIのプロフェッショナル集団に混ざって、AIの技術検証や分析業務を行いながらスキルアップできる素晴らしさを経験しました。社内でも同様の経験を多くの方に提供できないかと考えていたところ、「AI人材を育成するにはどのような取り組みを行うと良いか」という相談を受けました。試行錯誤の末、ゼロからAIを学ぶことができるオンラインのハンズオン研修を企画、提供した経験をお話しします。

AIを学ぶ最適なオンライン研修を模索

研修を企画するにあたり、AI人材の育成について関係者とディスカッションしました。「AIとは何か」「AIでどんなことができるのか」という基礎知識を得てもらうことはもちろんですが、実際に手を動かしてAIモデルを構築することができる、ハンズオン研修が最適だと考えました。

ハンズオンを行うためのテーマは、以下の2点を重視しました。

  • 問題設定がわかりやすく、馴染みのあるテーマ
  • 研修受講後もさらなる精度向上を目指して取り組めること

さまざまな問題設定のコンペティションやデータセットが提供されているKaggleの中でも、上記2点を満たす「Titanic」をテーマに選びました。「Titanic」コンペティションは、Titanic号の乗客データから機械学習モデルを作成して、沈没後に各乗客が生存できるかどうかを予測する問題です。また、「Titanic」はKaggleの中でもコンペティションのチュートリアル的な立ち位置のため日本語の参考情報が多く、本研修受講後も引き続き精度向上を目指した取り組みが望めます。

※ Kaggle(カグル):企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社。Kaggleに取り組む人々はKaggler(カグラー)と呼称される。
Kaggle: Your Machine Learning and Data Science Community

理解をより深めるために欠かせない座学

研修はハンズオンがメインですが、最初は座学で知識を習得してもらうことにしました。理解を深めていくために、やはり座学は外せません。内容としては、そもそもAI(人工知能)とは?という話から始めます。その後、後半のハンズオンで行う機械学習・教師あり学習の話や、そのアルゴリズム、精度評価の手法について学びます。

座学ではハンズオンで必要な知識を習得することが主な目的なので、数式での表現や理論的な説明は極力省き、図や言葉でわかりやすく説明することに専念しました。「AI」「機械学習」「ディープラーニング」などといった単語はよく目にすると思いますが、それらがどういった関係性なのか、は若干ややこしいところがあります。しかし、図として関係性を表すことによって直感的に理解できるようにしました。

「AI」「機械学習」「ディープラーニング」という単語の関係性

精度評価の章は本座学の中で一番難しい内容になると思われますが、自分で作成したAIモデルがどの程度正しく予測を行えるのかを把握する必須の知識です。分類問題でよく使われる評価指標を5つも紹介するので受講者も理解するのが大変ですが、評価指標を利用する際の"気持ち"を理解してもらい、これから自分で作成する機械学習モデルが、どのような予測を行っているのかがわかるように説明します。

AIの泥臭いところも体験するハンズオン

ハンズオンでは、実際に実務でのデータ分析やコンペティションで行われるような、一連の分析作業を体験できることにこだわりました。「AI」という言葉を聞くと、なんとなくキラキラしたイメージを持つ方も多いかと思いますが、AIを構築するための"地道な前処理作業"も体験することで、AIの泥臭い部分も感じてもらおうと思います。

そのため、機械学習モデルを構築するだけでなく、テーブルデータをPythonで読み込むところからデータを観察・吟味するフェーズ、データの加工作業もしっかり実施するようにしました。

また、参加者が作成する機械学習モデルについても、現場でプロが使うような、今後の実務でも利用できる実践的なアルゴリズムを選択しました。ハンズオン研修を行うための実行環境は悩みましたが、簡単かつ無料でPythonの分析環境を構築できるGoogle Colaboratoryを利用します。

ついにハンズオン研修が完成!

様々な模索を経て、座学が30分、ハンズオンが2時間の研修ができました!資料を作成する中で大変だったことは、幅広い層の社員に向けて資料を作るという点です。機械学習初学者、または未経験の方を置きざりにせず、かつ経験者の方も退屈させないよう心がけました。例えば、Pythonの文法的な話に時間を割くのは本研修の主旨から外れるため資料で補足やヒントを丁寧に記載し、口頭ではあまり時間をかけないようにしました。

また、Notebook上でPythonの制御構文とLinuxコマンドを組み合わせてシェルスクリプトのような使い方ができるなど、経験者の方も「へぇ」と感じる豆知識や余談も交えるようにしました。(Notebook上にコーギーや猫を走らせる「コーギーモード・猫モード」の話......、制作者がしっかり楽しんだ部分です!)

Notebook上でコーギーや猫を走らせている様子

出来上がったハンズオン研修は次のような内容になりました。

AIハンズオン研修の内容

研修の最後には、自分で予測した結果を実際にKaggleに提出して精度評価をするところまで行いました。つまり、研修を最後まで受講すると、Kagglerデビューまで果たすことができるのです!

セミナー準備から本番。受講者のKagglerデビューなるか!?

ハンズオン研修を社内でリリースする前に、テストとしてプレ実施をしました。ラックのCTOを含む有志5名が参加し、ディスカッション形式で研修の良かった点、修正した方が良い点などをフィードバック。資料とハンズオンのソースコードを改良しました。また、本研修を受講したあとにどのような学習を行えば良いのか、おすすめの書籍紹介なども追加しました。

準備は万端。いよいよ社内で、参加者の募集を行っていきます。各回10名の募集を行いましたが、毎回定員を超えた応募があり、募集スタートしてすぐに締め切りになりました!参加申し込みは新入社員からベテランまでと幅広く、社内のAIへの注目度が高いことを改めて実感します。

ついに本番。オンライン研修特有の難しさとして、受講者の手の動きや表情を確認しながら進めることができない点があります。しかし、サブ講師がチャットで「〜が完了しましたか?」という投げかけを行い、受講者にリアクションを取ってもらうことで、足並みを揃えながら研修を進めることができました。

また、オフラインの場合は会話をしている相手にしか話を伝えられませんが、オンラインの場合は全員に話を聞いてもらえる点がメリットだと感じました。一人がしてくれた質問への回答の流れで、こぼれ話のように話題をつなげられる効果もありました。

研修で印象に残った質問の1つとしては、「機械学習モデルの学習が一瞬で終わってしまうのはなぜか?」という質問です。機械学習モデルの学習を行うために、データの観察や前処理に時間を掛けて頑張ったのに、学習が一瞬で終わってしまって肩透かしを食らったのかもしれません(笑)。回答としてはいくつか考えられますが、「データが少量だから」「アルゴリズムが優秀だから」ということに加え、「データ分析は大体そんな感じです」という率直な話もできて良かったです。

受講後のアンケートでは、「学習を継続していきたい」「業務でも関わっていきたい」といった声も多く、当初の「AI人材を育成する」という目標に大きく貢献できたと言えるでしょう。

今後の活動予定

2021年3月現在、社内では既に4回の研修を実施しましたが、各回とも多くの参加をいただき、既に50名ほどの社員がKagglerデビューを果たしました。今後も引き続き、本ハンズオン研修を実施して、さらに多くの方に受講いただきたいと思っています。

また、今回の「Titanic」を終えた受講者を対象とした、次の研修準備も考えています。次回テーマの候補としては、アンケートの回答で興味のある方が多かった、「ディープラーニング講座」や「自然言語処理講座」などを考えています。他にも、今回の研修で作成したAIモデルの精度を、さらに向上させるためのテクニックを詰め合わせた研修も面白いかもしれません。やってみたい研修テーマは尽きませんが、AIのトレンドや社内での需要、難易度などを考慮しながらテーマを選択して今後の研修につなげ、引き続き社内のAI人材育成に取り組みたいと思います。

この記事は役に立ちましたか?

はい いいえ

関連記事

LAC WATCH

関連記事をご紹介します

  • AIで+Oneを目指す技術者を発掘する「LAC AI Day 2020」レポート

  • CDLEハッカソン2020に入賞しました!~提出期限ギリギリまで考えた、未来の雲の変化を予測するAIとは?~

  • 言語AIを使った開発チャレンジ、3,000万編を超える論文の中から未知の検索結果を導く