VisionFrameworkSamples

概要

以下に機械学習におけるオンデバイスAPI として公開されている Vision フレームワークの処理内容やサンプルをまとめました。

多くの処理については公式のサンプルが公開されていますが、以下の処理についてはサンプルがなかったため本リポジトリで公開しています。

輪郭検出
人体検出
体の姿勢
動物認識
水平検出
オプティカルフロー
書類検出

以下表の処理内容を確認したい場合は、サンプル番号の項目のリンク先にあるプロジェクトをビルドすることで実行することができます。（番号は便宜上つけたものです、どのようなサンプルかについては表の下に記載している「Vision フレームワークサンプル一覧」の内容を参照ください）

Vision フレームワークオンデバイスAPI

Vision フレームワークは利用方法がどれもほぼ同じで、リクエスト時のパラメータと出力されるオブジェクトに注目すれば良い

処理内容	サンプル番号	リクエスト	出力オブジェクト
画像識別	3	VNClassifyImageRequest	[VNClassificationObservation]
画像の顕著性認識	6	VNGenerateAttentionBasedSaliencyImageRequest VNGenerateObjectnessBasedSaliencyImageRequest	[VNSaliencyImageObservation]
画像の位置合わせ	15, 19	VNTranslationalImageRegistrationRequest VNHomographicImageRegistrationRequest	[VNImageTranslationAlignmentObservation] [VNImageHomographicAlignmentObservation]
画像の類似性判定	4	VNGenerateImageFeaturePrintRequest	[VNFeaturePrintObservation]
オブジェクトの検出	2	(複数のリクエスト)	(複数のオブジェクト)
オブジェクトのトラッキング	8	(複数のリクエスト)	(複数のオブジェクト)
軌道検出	11	VNDetectTrajectoriesRequest	[VNTrajectoryObservation]
輪郭検出	-	VNDetectContoursRequest	[VNContoursObservation]
テキスト検出	2	VNDetectTextRectanglesRequest	[VNTextObservation]
テキスト認識	12, 13, 14	VNRecognizeTextRequest	[VNRecognizedTextObservation]
顔検出	2, 5, 7	VNDetectFaceRectanglesRequest	[VNFaceObservation]
フェイストラッキング	7	(複数のリクエスト)	(複数のオブジェクト)
顔のランドマーク	2, 7	VNDetectFaceLandmarksRequest	[VNFaceObservation]
顔のキャプチャクオリティ	9	VNDetectFaceCaptureQualityRequest	[VNFaceObservation]
人体検出	-	VNDetectHumanRectanglesRequest	[VNHumanObservation]
体の姿勢	-	VNDetectHumanBodyPoseRequest	[VNHumanBodyPoseObservation]
手の形	10	VNDetectHumanHandPoseRequest	[VNHumanHandPoseObservation]
動物認識	-	VNRecognizeAnimalsRequest	[VNRecognizedObjectObservation]
バーコード検出	2, 19	VNDetectBarcodesRequest	[VNBarcodeObservation]
矩形検出	2, 8	VNDetectRectanglesRequest	[VNRectangleObservation]
水平検出	-	VNDetectHorizonRequest	[VNHorizonObservation]
オプティカルフロー	-	VNGenerateOpticalFlowRequest	[VNPixelBufferObservation]
人物セグメンテーション	5	VNGeneratePersonSegmentationRequest	[VNPixelBufferObservation]
書類検出	-	VNDetectDocumentSegmentationRequest	[VNRectangleObservation]

Vision フレームワーク公式サンプル一覧

エッセンシャル

1. スポーツ分析用の機能豊富なアプリの構築
- コンピュータービジョンと機械学習を使用して、人間の活動をリアルタイムで検出して分類します。

静止画分析

2. 静止画像内のオブジェクトの検出
- Vision フレームワークを使用して、画像内の四角形、顔、バーコード、およびテキストを見つけて区別します。
- 利用リクエスト
  - VNDetectRectanglesRequest
  - VNDetectFaceRectanglesRequest
  - VNDetectFaceLandmarksRequest
  - VNDetectTextRectanglesRequest
  - VNDetectBarcodesRequest
3. 分類と検索のための画像の分類
- Vision 分類リクエストを使用して画像を分析し、ラベルを付けます。
- 利用リクエスト
  - VNClassifyImageRequest
4. 特徴点を使用した画像の類似性の分析
- 特徴点を生成して、画像間の距離を計算します。
- 利用リクエスト
  - VNGenerateImageFeaturePrintRequest

画像シーケンス分析

5. 画像や動画の人物にマット効果を適用する
- セマンティックな人物セグメンテーションを使用して、人物の画像マスクを自動的に生成します。
- 利用リクエスト
  - VNDetectFaceRectanglesRequest
  - VNGeneratePersonSegmentationRequest

顕著性分析

6. 顕著性を使用した画像内の関心領域の強調表示
- 人が画像のどこを見る可能性が高いかを数値化して視覚化します。
- 利用リクエスト
  - VNGenerateAttentionBasedSaliencyImageRequest
  - VNGenerateObjectnessBasedSaliencyImageRequest

オブジェクト追跡

7. ユーザーの顔をリアルタイムで追跡する
- セルフィーカムフィードからリアルタイムで顔を検出して追跡します。
- 利用リクエスト
  - VNDetectFaceRectanglesRequest
  - VNTrackObjectRequest
  - VNDetectFaceLandmarksRequest
8. ビデオ内の複数のオブジェクトまたは長方形の追跡
- Vision アルゴリズムを適用して、ビデオ全体でオブジェクトまたは四角形を追跡します。
- 利用リクエスト
  - VNDetectRectanglesRequest
  - (VNTrackingRequest)
  - VNTrackObjectRequest
  - VNTrackRectangleRequest

顔と体の検出

9. キャプチャ品質に基づいてセルフィーを選択する
- Vision を使用して、一連の画像で顔のキャプチャ品質を比較します。
- 利用リクエスト
  - VNDetectFaceCaptureQualityRequest

体と手の姿勢検出

10. Vision による手のポーズの検出
- 手のポーズを検出する Vision の機能を使用して、仮想描画アプリを作成します。
- 参考ビデオ
- 利用リクエスト
  - VNDetectHumanHandPoseRequest

軌跡検出

11. ビデオ内の移動オブジェクトの検出
- Vision を使用して、投げられたオブジェクトの軌道を識別します。
- 利用リクエスト
  - VNDetectTrajectoriesRequest

テキスト認識

12. ドキュメント上の認識されたテキストの構造化
- Vision と VisionKit を使用して、名刺またはレシートのテキストを検出、認識、構造化します。
- 参考ビデオ
- 利用リクエスト
  - VNRecognizeTextRequest
13. 電話番号をリアルタイムで読み取る
- ライブキャプチャで認識されたテキストから電話番号を分析およびフィルタリングし、時間の経過とともに証拠を構築します。
- 参考ビデオ
- 利用リクエスト
  - VNRecognizeTextRequest
14. 認識されたテキストの検索と表示
- 画像のテキスト認識を構成して実行し、テキストコンテンツを識別します。
- 参考ビデオ
- 利用リクエスト
  - VNRecognizeTextRequest

画像の配置

15. 類似画像の整列
- 同じシーンをキャプチャした画像から合成画像を作成します。
- swiftUI ベースのプロジェクト
- 利用リクエスト
  - (VNImageRegistrationRequest)
  - VNTranslationalImageRegistrationRequest
  - VNHomographicImageRegistrationRequest

物体認識

16. ライブキャプチャでのオブジェクトの認識
- Vision アルゴリズムを適用して、リアルタイムビデオ内のオブジェクトを識別します。
- 利用リクエスト
  - VNCoreMLRequest
17. Vision と物体検出モデルによるサイコロの振りを理解する
- カメラフレームに表示されたサイコロの位置と値を検出し、サイコロ検出モデルを利用してロールの終わりを判断します。
- 参考ビデオ
- 利用リクエスト
  - VNCoreMLRequest

機械学習による画像解析

18. Vision と Core ML を使用した画像の分類
- Vision フレームワークを使用して写真をトリミングおよびスケーリングし、Core ML モデルで分類します。
- 利用リクエスト
  - VNImageBasedRequest
  - VNCoreMLRequest
19. 花を分類するための Create ML モデルのトレーニング
- Swift Playgrounds で Create ML を使用して花の分類子をトレーニングし、結果のモデルを Vision を使用してリアルタイムの画像分類に適用します。
- 利用リクエスト
  - VNDetectBarcodesRequest
  - VNCoreMLRequest
  - VNTranslationalImageRegistrationRequest