生成AIを組み込んだソフトウェアの評価では、出力の不確実性や柔軟性が大きいことから、対象をどう評価するかが定番の課題となります。その有望な対応手段にLLM-as-a-judgeがあります。
LLM-as-a-judgeは、生成AIの出力結果の評価・採点を、精度の高いLLMを使って実施する手法です。LLMの柔軟性を活用して、多数かつ幅広い評価の自動化が行えるようになります。
今回はそのLLM-as-a-judgeの実装例を解説します。評価の実装および実行環境は「生成AIアプリケーション評価入門」の解説を参考にしています。
LLM-as-a-judgeの評価者に使用するLLM
評価にはLLM-as-a-judgeのフレームワークであるG-Evalを使用します。
またG-Evalが利用するLLMとして、OpenAIのGPTを使用します(そのため以降のコード実行においては、本ブログ執筆時点ではOpen AIに課金し、API Keyを有効にする必要があります。有効化したKeyは実行環境の環境変数OPENAI_API_KEYに登録しておきます)。
評価対象のLLM
評価対象は、ローカルで実行できるLLM、ollamaを使用します。テスト自動生成でのテスト観点の生成を想定して、「プロダクト品質モデルの主特性の名前を列挙してください」のような課題を指定し、その正確性を評価します。
LLM-as-a-judgeの実装
LLM-as-a-judgeの実装を以下に示します。
from deepeval.metrics import GEval from deepeval.test_case import LLMTestCase, SingleTurnParams from openai import OpenAI import ollama # テスト対象 input="ISO/IEC 25010におけるプロダクト品質モデルの主特性の名前を列挙してください" response = ollama.chat(model='llama2', messages=[{'role': 'user', 'content': input,}], options={'temperature': 0}) # 評価内容(生成AIアプリケーション評価入門より) correctness_metric_ja = GEval( name="正確性", evaluation_steps=[ "実際の出力に含まれる事実が、期待される出力に含まれる事実と矛盾していないかを確認してください。", "重要な情報が省略されている場合は大きく減点してください。", "曖昧な表現や意見の相違は許容されます。", "評価理由は日本語で記述してください。" ], evaluation_params=[ SingleTurnParams.INPUT, SingleTurnParams.ACTUAL_OUTPUT, SingleTurnParams.EXPECTED_OUTPUT, ] ) # 評価 test_case = LLMTestCase( input=input, actual_output=response['message']['content'], expected_output="Functional Suitability, Performance Efficiency, Compatibility, Interaction Capability, Reliability, Security, Maintainability, Flexibility, Safety" ) correctness_metric_ja.measure(test_case) print("score:", correctness_metric_ja.score) print("reason:", correctness_metric_ja.reason)
ollama.chatで、評価対象に対し、課題を提示し回答を取得しています。
そして評価対象の正確性についてG-Evalで評価しています。このうちevaluation_stepsが正確性をスコア評価するための評価指針になります。このコードでは前述の「生成AIアプリケーション評価入門」のサンプルをそのまま参考にして使用しています。
評価結果
前述の評価コードの実行結果は以下に様になります:
score: 0.13775406687981456
reason: 期待される主特性は Functional Suitability、Performance Efficiency、Compatibility、Interaction Capability、Reliability、Security、Maintainability、Flexibility、Safety の列挙だが、実際の出力は Reliability、Security、Maintainability 以外に Durability、Customizability、Scalability、Accessibility、Environmental impact、Social responsibility など期待にない項目を多数含み、Compatibility・Interaction Capability・Flexibility・Safety・Functional Suitability が欠落しています。Performance も Performance Efficiency と厳密には一致せず、重要情報の省略と不正確な追加が大きいため低評価です。
正確性は、事前に提示した評価指針に基づいて、0~1でスコア付けして提示しています。また、reasonとしてその理由を提示し、正確性の評価が妥当か確認できるようにしています。
表示されている結果の通り、Judge側のLLMが、テスト対象の情報の古さや誤りを見つけ出し、減点していることが読み取れます。



