Azure Cognitive Service の　Custom Vision Service を使った学習する図鑑 Bot を作ってみた

こんにちは。
コンサルティング & テクノロジー部の吾郷です。

前回の記事では、//Build 2017 でリリースされました、Microsoft Azure の機械学習系サービスの
Cognitive Service に新しく増えた Custom Vision Service を紹介しました。
これを利用した Bot を作ってみようと思います。
(前回の記事を先に見て頂けると、読みやすいと思います。)

完成のイメージとしては、みんなで作成する高山植物図鑑 Bot みたいになるはずです。

f:id:nextscape_blog:20210910203213j:plain

開発環境

開発環境は、以下のとおりです。
・Visual Studio 2017 Version 15.2
・Bot Framework

Bot Framework を利用した開発環境の作成は、以下のドキュメントを参考にしました。
https://docs.microsoft.com/en-us/bot-framework/dotnet/bot-builder-dotnet-quickstart
また、松永さんの記事「Bot × Recommendations APIを試してみたい。～Bot Framework編～」も参考にしました。

完成イメージ

完成イメージは以下のようなシナリオです。

１．高山植物の画像を要求
２．すでに学習済モデルで識別し、一番スコアが高い植物名(タグ名)を返事する。
３．あっているか確認し、あっていれば終わり。違っていれば、学習用データに使っていいか確認。
４．学習用データとして使ってもいい場合は、この植物名を聞く。
５．教えてもらった植物名を画像にタグ付けし、Trainを実行。

f:id:nextscape_blog:20210910203255j:plain

ちなみに、Custom Vision Service の Train の実行条件に、タグ毎に5枚以上の学習データが必要ですが、
今回は、この考慮はしてないです。
ちゃんと実装する場合は、5枚以下のタグがある場合は、一度どこかのデータストアに一時保存しておく必要があります。

実装の説明

今回は、Custom Vision Service を利用するところを中心に作り方を紹介し、Bot Framework 周りのことは割愛します。
なお、プログラムは「さいごに」に掲載しています。

プロジェクトの作成

Visual Studio を起動し、新しいプロジェクト → Bot Application を開きます。
起動したら、Nuget パッケージマネージャで、Custom Vision Service のライブラリをインストールします。

f:id:nextscape_blog:20210910203323j:plain

ユーザが見せてくれた画像の識別

MessageReceivedAsyncで実装しています。
処理の概要は、こんな感じです。

画像識別だけなら、Key は Prediction Key を使います。
Training Key を使って SDK から Prediction Key を取得することもできるみたいですが、
今回は何のキーを使うのか明示したかったので、この構成としています。
画像の識別は以下のコード1行です。

var cvResult = await predictionEp.PredictImageAsync(projctId, photoStream);

この後に、一番スコアが高いものを、Bot に回答させてます。
また、スコアが0.8以上なら自信満々に、0.8未満なら自信なさげにと、ちょっと人格っぽいのをつけてみました。
この辺の表現がうまくできると、人間味のある Bot になるんでしょうね。
外れていた場合に学習するために、識別用に登録した画像のIDを覚えておきます。

context.ConversationData.SetValue<Guid>("PredictImageId", cvResult.Id);
あってるかユーザに確認する。

PromptDialog.Confirm(context, AfterMessageAsync, "あってますか？", "？？？", promptStyle: PromptStyle.Auto);

今回は Yes or No の2択で確認します。2択以外が応答されると、「？？？」となっちゃいます。

画像の学習

LearningMessageReceivedAsyncで実装しています。
処理の概要は、こんな感じです。

画像の学習に関連する処理を行う場合は、Training Key を使います。
まずはタグの有無をチェックしてタグがなければ登録します。
識別したときに登録された画像IDを取得します。
画像IDとタグの紐づけをします。
紐づけする情報は、ImageIdCreateBatch型に入れてあげる必要があります。
Train を実行します。
本当はこれを実行する前に、すべてのタグが5枚以上になっているかチェックが必要です。
Train が成功したら、次の画像識別をされた場合に学習後のモデルを利用するために IsDefault を True にしておきます。

さいごに

今回利用した SDK ですが、ドキュメントがないんですよね。。。。
でも、メソッド名からだいたい処理内容は予測つけられますので、是非、みなさんも Custom Vision Service を使った Bot を作ってみてください。

最後に、RootDialog.cs の全体のソースを掲載します。
冗長なところはあしからず。

using System;
using System.Threading.Tasks;
using Microsoft.Bot.Builder.Dialogs;
using Microsoft.Bot.Connector;
using Microsoft.Cognitive.CustomVision.Models;
using Microsoft.Cognitive.CustomVision;
using System.Net.Http;
using System.Threading;

namespace botcvs.Dialogs
{
    [Serializable]
    public class RootDialog : IDialog