InspectAI- SambaNova 連携ガイド

前提条件
評価の実行
例: Hello world
結果の閲覧
参考情報

InspectAI は、UK AI Security Institute によって開発された評価フレームワークです。コーディング、reasoning、エージェントタスク、知識、振る舞い、マルチモーダル理解など、幅広い評価を実行できます。

前提条件

作業を始める前に、以下をご確認ください:

SambaCloud アカウントおよび SambaCloud APIキー
InspectAI と SambaNova を組み合わせて利用するため、SambaCloud の API キーを環境変数として設定

export SAMBANOVA_API_KEY=your-sambacloud-api-key`

必要パッケージをインストールした Python 環境

python3 -m venv .venv
source .venv/bin/activate
pip install inspect-ai
pip install openai

評価の実行

評価を実行する前に、Python スクリプト内でタスクを定義する必要があります。各タスクは以下の 3 要素で構成されます:

Dataset – 入力データと期待される結果の一覧
Solver – モデルが出力を生成する方法
Scorer – 生成された出力を期待される結果と照合し評価する方法

例: Hello world

以下のコードを hello_world.py として保存します。

from inspect_ai import Task, task
from inspect_ai.dataset import Sample
from inspect_ai.scorer import exact
from inspect_ai.solver import generate

@task
def hello_world():
    return Task(
        dataset=[
            Sample(
                input="Just reply with Hello World",
                target="Hello World",
            )
        ],
        solver=[generate()],
        scorer=exact(),
    )

次に、SambaCloud を使用して評価を実行します。以下は Llama-4-Maverick-17B-128E-Instruct モデルを利用した例です:

inspect eval hello_world.py --model sambanova/llama-4-maverick-17b-128e-instruct

結果の閲覧

実行結果は ./logs ディレクトリに保存されます。
Inspect の Web UI を使うと、インタラクティブに結果を確認できます。

inspect view

ログを平易に閲覧するために Inspect の VS Code 拡張機能を利用することもできます。

参考情報

その他の評価事例については、InspecAIのリポジトリをご参照ください。。
詳細は InspectAIの公式ドキュメントをご参照ください。

VS Code AI Toolkit LM Evaluation Harness

⌘I

概要

エージェントの構築とオーケストレーション

コーディングアシスタント

評価とモニタリング

LLM フレームワーク

ローコードプラットフォーム

ハイパースケーラー

オーケストレーションプラットフォーム

リアルタイム音声

ツールとブラウザの使用

ベクトルDBと検索

動画解析

InspectAI

前提条件

評価の実行

例: Hello world

結果の閲覧

参考情報

概要

エージェントの構築とオーケストレーション

コーディングアシスタント

評価とモニタリング

LLM フレームワーク

ローコードプラットフォーム

ハイパースケーラー

オーケストレーションプラットフォーム

リアルタイム音声

ツールとブラウザの使用

ベクトルDBと検索

動画解析

​前提条件

​評価の実行

​例: Hello world

​結果の閲覧

​参考情報

前提条件

評価の実行

例: Hello world

結果の閲覧

参考情報