2024-07-04

第38回 人工知能学会全国大会に参加してきました!

2024年5月28日(火)~2024年5月31日(金)に静岡県浜松市で開催された人工知能学会全国大会にて、ワイズロジックの社員がポスターセッションを行いました。

「特殊詐欺に対する音声認識を用いた話者の推定」

発表情報

発表日時:2024年5月30日(木) 11:00 〜 12:40 X会場 (イベントホール1)
発表番号:[3Xin2-39]
タイトル:特殊詐欺に対する音声認識を用いた話者の推定
著者:〇橋本 雄次1、寺西 健一1 (1.株式会社ワイズロジック)

概要

特殊詐欺は主に高齢者を狙う犯罪であり、年々被害が増加しています。警視庁によると第三者に相談することが一つの防止策だと推奨されています。
私たちは、この詐欺を防ぐため、生成AIを用いて被害者の関係者(家族など)に「誰と話していたのか」をリアルタイムに通知できないかと考えました。
そこで、本研究では警察が公開している音声ファイルを用いて、詐欺師が名乗る職業や続柄を推定しました。
具体的には音声から文字起こしされた後、形態素解析を用いて、ChatGPTにより話者の職業や続柄を推定しました。
結果、その推定精度は75.8%と比較的高い数値を示すことができました。

方法

特殊詐欺に関する音声データは各都道府県警察のウェブサイトから66件収集しました。

[Step1]
文字起こし:OpenAIのWisperライブラリ(Large、Tiny)を用いて、音声ファイルから文字起こししました。
高精度なLargeモデルと計算負荷が低いTinyモデルの2種類を使用しました。
[Step2]
形態素解析:文字起こしされたテキストをMeCabを使って解析し、名詞を中心に単語群を作成しました。
[Step3]
話者の推定:Step2の単語群をChatGPT APIにかけて、プロンプトより話者の職業・続柄を5つ推定しました。

結果・考察

Largeモデルは75.8%の精度で話者を正しく推定することができました。一方で、Tinyモデルは30.3%の精度となりました。
精度の差は文字起こしの正確性に大きく依存しており、音声データの品質向上が今後の課題となります。
また、「銀行員」や「金融機関職員」などの推定結果も68.2%の割合で出力されました。
これは、詐欺の目的が金銭であることから、関連する単語より推定されたのだと考えられます。

学会参加の感想

学会の参加人数より、その注目度が高まっていることを実感しています。
今回のポスター発表では、約25名の方々に訪問していただきました。
現在進行中のプロジェクトに対して有益なご指摘を受けることができ、またプロンプトの重要性を再確認する機会にもなりました。

今後、推定精度がさらに改善されれば、特殊詐欺を防止する有用なツールになると考えており、社会実装に向けて開発を進めています。