メインコンテンツへスキップ
InspectAI は、UK AI Security Institute によって開発された評価フレームワークです。 コーディング、reasoning、エージェントタスク、知識、振る舞い、マルチモーダル理解など、幅広い評価を実行できます。

前提条件

作業を始める前に、以下をご確認ください:
  1. SambaCloud アカウントおよび SambaCloud APIキー
  2. InspectAI と SambaNova を組み合わせて利用するため、SambaCloud の API キーを環境変数として設定
export SAMBANOVA_API_KEY=your-sambacloud-api-key`
  1. 必要パッケージをインストールした Python 環境
python3 -m venv .venv
source .venv/bin/activate
pip install inspect-ai
pip install openai

評価の実行

評価を実行する前に、Python スクリプト内でタスクを定義する必要があります。 各タスクは以下の 3 要素で構成されます:
  1. Dataset – 入力データと期待される結果の一覧
  2. Solver – モデルが出力を生成する方法
  3. Scorer – 生成された出力を期待される結果と照合し評価する方法

例: Hello world

以下のコードを hello_world.py として保存します。
from inspect_ai import Task, task
from inspect_ai.dataset import Sample
from inspect_ai.scorer import exact
from inspect_ai.solver import generate

@task
def hello_world():
    return Task(
        dataset=[
            Sample(
                input="Just reply with Hello World",
                target="Hello World",
            )
        ],
        solver=[generate()],
        scorer=exact(),
    )
次に、SambaCloud を使用して評価を実行します。以下は Llama-4-Maverick-17B-128E-Instruct モデルを利用した例です:
inspect eval hello_world.py --model sambanova/llama-4-maverick-17b-128e-instruct

結果の閲覧

  • 実行結果は ./logs ディレクトリに保存されます。
  • Inspect の Web UI を使うと、インタラクティブに結果を確認できます。
inspect view

参考情報