2016年2月25日

リクルートテクノロジーズ、機械学習の"未来"を開拓
機械がパラメーターをチューニング、自動で精度が向上する仕組みを実現

PDFダウンロード
528KB

株式会社リクルートテクノロジーズ(本社:東京都千代田区、代表取締役社長:中尾隆一郎、以下:リクルートテクノロジーズ)は、大量の画像データを機械学習モデルにより解析する仕組みを開発し、リクルートグループのサービスに実装してきました。 今回は機械学習によるビッグデータ活用の一環として、機械学習モデルの精度向上の「自動化」に取り組みました。2015年12月から2016年1月にかけて約10日間、 既存の機械学習モデルにおいて数万回のチューニングを自動で行い、約3%の精度向上を実現しています。

①ますます実用化が見込めるDeepLearningを活用した機械学習モデル

これまでリクルートテクノロジーズでは、Deep Learning※1 を活用した独自の画像解析システムを構築し、リクルートグループのサービスにおいて実装してきました。 例えば、リクルートライフスタイルが提供する「ホットペッパービューティー」のネイルデザインの類似画像判別や、キュレーションメディアである「ギャザリー」において不適切画像を校閲する機能などでも活用されており、 今後もますますその需要の高まりが見込まれています。今回、リクルートテクノロジーズは、システム運用のさらなる効率化を目指し、 画像解析における判別精度向上の「自動化」を実現しました。これまで IT エンジニアの「職人技」に頼ってきたプロセスを自動化することにより、システムの精度やスピードの向上、IT エンジニアの大幅な負荷軽減が期待できます。

※1 Deep Learning・・・「ニューラルネットワーク(人間の脳内の神経回路網とそのプロセスを模倣したもの)」という機械学習ロジックを多層にして組み合わせたもの

②機械学習モデルにおけるパラメーターチューニングを自動化
~人手をかけずに自動で精度が向上する仕組みを実現~

リクルートテクノロジーズが採用している画像認識の機械学習モデルは、以下の流れで構成されています。まず、大量の「教師画像」を用意し、そこに「正解カテゴリ」を付けます。 そして、学習用の画像を用いて、画像から繰り返し特徴を抽出し、判別モデルを作成します。そこに未知の画像を投入し、カテゴリの判定を行うという仕組みです。 今回、自動化が成功したパラメーターチューニングは 「2判別モデルの作成」における精度向上のプロセスです。精度向上においては、十数種類のパラメーターを繰り返しチューニングする必要があります。 これまでは、この繰り返しのチューニングは全て人手によって対応されてきました。今回、リクルートテクノロジーズがこのパラメーターチューニングの自動化に成功したことで、 人手をかけずに自動で精度が向上する仕組みが実現しました。

仕組みの概要

<リクルートテクノロジーズが採用している機械学習モデルの全体像>

①「教師画像」を用意し、「正解カテゴリ」を付ける
:例えば、大量の虎の画像を用意し、その一つ一つの画像に対し、 「その画像は虎である」という正解カテゴリをつける
②判別モデルの作成
:学習用の画像を用いて画像から特徴を抽出し、予測・分類を行う
③未知画像をモデルに投入
:学習用の画像とは別の新しい画像を判別モデルに投入する
④未知画像の判定を行う
:新しい画像がどのカテゴリに属するのか確率で判別する

リクルートテクノロジーズは、2の判別モデル作成において「Convolutional Neural Net(以下CNN)」という画像解析手法を採用しています。 これは Deep Learning のロジックの中でも、主に画像解析を目的に使用されるものであり、 画像の特徴を抽出・識別するための手法です。この手法は、「画像データ全体を小さなパーツに分類し、その特徴の集合体によって画像を識別する」という概念に基づいています。 CNNは主に下記の二つのフェーズを繰り返すことにより特徴抽出を行います。

仕組みの概要

1つ目は、画像を分析するプロセスです。左図のように画像から一定の大きさのパッチを形成し、これらをスライドさせてパッチごとに複数の特徴を抽出していく処理を行います。

仕組みの概要

2つ目は、分解したパーツをまとめるプロセスです。上記で抽出された特徴量をまとめ上げ、圧縮して計算量を削減します。

この2つのフェーズを繰り返すことで、複雑で抽象的な特徴を取り出すことができます。このように抽出した特徴量を関数により統合した判別モデルによって、 未知の画像は4のように判別されます。そして、この時の「誤判定率」が小さくなればなるほど、識別力が高い判定モデルが作成されたということになります。

CNN の精度向上プロセス

CNN において、誤判定率を最小にするためには、上記の処理を実施する際に、処理を実施する順番と、各層におけるハイパーパラメーター(複数のパラメーター)の設定値が重要になります。このような各種ハイパーパラメーターの調整や学習用画像の 追加などを行う作業を「チューニング」といいます。これまでは、このチューニングが IT エンジニアに多くの負荷を課してきました。 Deep Learning では調整すべきハイパーパラメーターの種類が非常に多く、代表的なものを挙げるだけでも下記のようなパラメーターが存在します。

<ハイパーパラメータの例>

パッチサイズの調整
画像認識の際のパッチサイズを調整して、 特徴抽出を細分化するチューニングです。

仕組みの概要

スライドサイズの調整
パッチのスライドサイズを調整し、特徴抽出領域を設定するチューニングです。

仕組みの概要

ハイパーパラメーターのチューニングを自動化

画像判別の精度を向上させるためには、上記の他にも「学習係数」や「イテレーション数」、「モーメンタム」など多くのパラメーターを調整する必要があります。 これらのパラメーターを変更後、逐次モデルを作成し精度を見るという方法を幾度か繰り返します。リクル ートテクノロジーズは、 これらのプロセスを DFO(Derivative Free Optimization)※2 を用いて自動化し、人手をかけずに繰り返しのチューニングが行われる仕組みを開発しました。 これにより、IT エンジニアの工数を最小限に抑えることができ、より多くのサービスに対して機械学習を実装することが可能になります。

※2 DFO・・・現実世界の問題を数理計画問題として取り扱う際、目的関数の微分に関する情報を用いることができない場合に用いる求解手法を総称して DFO という

③機械学習におけるリクルートテクノロジーズの挑戦
~実際のサービスの継続的なクオリティアップを目指す~

機械学習においては、通常「斬新な機械学習モデルや、その活用方法を考案した」という時点で開発が止まってしまうケースが多々あります。 これは、一度機械学習モデルを作成し、ある程度まで精度が上がってしまうと、それ以上に精度を上げるためには多大な労力や時間を要してしまうためです。 これにより投資対効果が低いと判断されてしまい、開発が進まなくなるケースは珍しくありません。 これに対し、リクルートテクノロジーズでは、自動で精度が向上する仕組みを実現したことにより、 精度向上にかかる労力を大幅に削減することが可能になりました。

これが成し遂げられた背景には、メンバーの飽くなき探求心がありました。「より多くのユーザーに、より質の高いサービスを提供したい」というこだわりが、今回の取り組みにつながっています。

会社概要

株式会社リクルートテクノロジーズは、リクルートグループのビジネスにおける IT・ネットマーケティングテクノロジーの開発・提供を 行う機能会社です。 IT・ネットマーケティング領域の専門力・イノベーション力で、リクルートグループのビジネスを進化させることが ミッションであり、 「次世代技術の R&D・新ソリューションの開拓」「ビジネスの実装」といったテーマに取り組んでいます。

社名:株式会社リクルートテクノロジーズ
設立:2012年10月1日
資本金:1億円
従業員数:498 名(2015年10月1日現在)
事業内容:IT・ネットマーケティングテクノロジーの開発・提供
Webサイト:http://recruit-tech.co.jp/

先端技術の研究開発を行う、リクルートテクノロジーズの取組み

リクルートテクノロジーズは、これまでにない体験価値をユーザーへ提供することを目指し、先進的な技術をリクルートグループのサービスに実装する取組みを行っています。 ビッグデータ活用や機械学習に関連した取組みを、以下に紹介します。

ビッグデータに関連した講演実績

◆WebDB フォーラム 2015(2015年11月25日)

『ディープラーニングを応用した『画像解析』システム』
リクルートテクノロジーズ ビッグデータ部では、人工知能の実現技術として注目を集める Deep Learning をビジネスに適用する取組みの一環として、画像検索システムを構築し、 サービスに実装しました。Deep Learning による画像解析と Active Learning によるモデル改善を組み合わせることによって、 継続的に検索精度を上げることができる仕組みを実現しています。システム導入の結果、複数のWebサービスにおいて検索精度が向上したり、ユーザーの平均閲覧数が向上する結果となりました。

◆データ活用事例セミナー(2015年9月1日)
『リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理 Web のご紹介』リクルートのビジネスを支えるビッグデータ活用基盤とメタデータ管理システム【METALOOKING(メタルキング)】について紹介。複数サービスを事業ごとに運営する中、データの定義情報が企画/開発間で分散管理されるなどしてデータを十分に活用できないという課題が顕在化。システム管理者の視点から、データ定義(=「メタデータ」)の統合管理システムを開発し、分析者目線で必要な機能を見極めて常に情報更新される運用の定常化までを一気通貫で実施。分析プロセスの効率化に成功しました。

◆人工知能学会 2015(2015年5月31日)
『ユーザーとの長期伴走を考慮したブライダル・ウェディング情報の情報推薦システムの構築』短時間で効率良くマッチングしアクションに結びつける一般的なレコメンドに対し、「一定期間(数ヶ月〜1年)、継続的にサービスを利用する」型のサービスにおける、「伴走型レコメンドアルゴリズム」を独自に開発。機械学習の手法の一つ、「転移学習」を用い、アプリの一部におけるユーザーの行動から、アプリ全体をパーソナライズ。これによって各フェーズで最適なタイミングで適切な情報をレコメンドし、ユーザー心理を初期段階から育成することで、ユーザーのタイムシェアの獲得と、CV 向上を実現した事例を発表しました。

◆Hadoop ソースコードリーディング(2015年5月21日)
『レコメンドバッチ高速化に向けた Spark/MapReduce の機械学習ライブラリ比較検証』 蓄積データ量の増加に伴うバッチの長時間化を背景に、次世代のデータ分析処理基盤としての Spark の実用可能性をアプリ面から検証した 際の検証方法と結果を発表。 現状の基盤からレコメンド精度を損なうことなく、実行時間を大幅に短縮する結果となり、スケール性も同等であることから、 次世代のレコメンド処理基盤としての Spark の有用性が確認できました。

未来のスマートホーム技術を実証実験
IoT 技術を普及させる標準規格として、PhysicalWeb※3 に注目。「家の中で Physical Web を活用したらどんな体験が可能か?」を実証する研究の一環として、 URL を発信する仮想の家電を用意。スマートフォンの Web ブラウザ上で URL を受信し、コントローラとして操作できるデモを行いました。 コーディング等に馴染みがないデザイナーでも、簡単にコントローラを開発できるよう、独自のコンポーネントライブラリも開発・提案しています。

※3 グーグルが2014年10月3日に発表したグーグルが公開する、Web 技術を利用して IoT でモノと対話できる仕組みをつくることを目的としたプロジェクト。

仕組みの概要

本件に関するお問い合わせ先

https://www.recruit.jp/support/form/