はじめに:長い動画から“あの瞬間”を探すのは大変
友だちと公園で一日中遊んだ様子を動画で撮ったとします。
でもあとから「あの時、誰かがサッカーボールにつまずいて転んだシーンが見たい!」と思っても、長い映像の中からその5秒間を探すのはとても大変。早送りしたり戻したり、時間がかかります。
でも、もしそのビデオに「誰かが転んだシーンを見せて」と話しかけるだけで見せてくれたら…?
これこそが、「Memories.ai」が目指す未来です。
Memories.aiとは?
Memories.aiは、コンピュータに人間のように動画を「見て」「聞いて」、そして「理解」させるという革新的な技術です。
スポーツ観戦、学校の授業、さらには日常の出来事まで──私たちの暮らし方そのものを変える可能性を持っています。
ここでは「Memories.ai」という言葉を、こうした技術の総称として使っていきます。実際に、日本では「MEMORY LAB」という企業がこの技術を使って、ゴルフの楽しみ方を変えるようなサービスを展開しています。
このブログでは、そうした実例も紹介しながら、「AIの記憶」がどのように現実で活躍しているかを探っていきます。
第1章:AIに「見る力」を与える
コンピュータにとって動画は“物語”じゃない
人が動画を見るとき、ストーリーを追ったり、登場人物を認識したりできますが、コンピュータにとっては動画は「色の点が連続して動いているもの」でしかありません。
この点の集まりの中から、AIが「これは人間だ」「これはボールだ」と認識するのが第一歩です。
この技術を コンピュータビジョン、または 動画解析 と呼びます。
モノを見つける(物体検出)
AIは、画面の中にあるものを見つけると、その周囲に「バウンディングボックス」と呼ばれる枠を描きます。これは、あらかじめたくさんの画像(犬・猫・人など)を見て学習しているからできることです。
このプロセスは「ディープラーニング(深層学習)」の技術の一部で、AIに何がどこにあるかを教え込むための方法の一つです。
さらに、素早く検出できる技術として、「YOLO(You Only Look Once)」と呼ばれる手法が使われています。
一度に画像全体を見ることで、リアルタイム処理にも対応できるのが特徴で、防犯カメラや自動運転などにも使われています。
動きを追いかける(物体追跡)
次にAIがやるのは、見つけた物体をずっと追いかけること。これを「物体追跡」といいます。
まるで“点つなぎ”をするように、時間の流れに沿って「これはさっきのサッカーボール」「これはさっきの人」と見分けて追いかけていくことで、AIは「誰がどこに動いたか」を理解できるようになります。
これは、映画やゲームで使われる「モーションキャプチャ」の基本技術でもあります。
シーン全体を理解する(シーン認識とセグメンテーション)
さらに、AIはただ「物体を見つける」だけではなく、シーン全体を推測できるようになります。
たとえば、机、椅子、ホワイトボード、生徒…といった情報が揃えば、「これは教室だな」と理解できるのです。
もっと高度になると「セグメンテーション」と呼ばれる技術で、枠だけでなく、ピクセル単位で物体の形を塗り分けることもできます。これにより、Zoomのバーチャル背景のように人物だけを切り取ることが可能になります。
見るだけじゃない、「活かす」ための視覚
このような「見る」技術は、ただ映像を読み取るだけでなく、実社会に役立つことがたくさんあります。
たとえば、小売店では買い物客の動きを分析して、「どの通路がよく通られているか」「どの商品が見られていないか」などをヒートマップで可視化できます。
その結果、売れ行きの悪い商品を目立つ位置に置くなど、レイアウトの改善にもつながります。
また、工場では、作業員の動作を分析して「この動きは腰に負担がかかっている」などを検出し、けがを予防するアラートを出すこともできます。



