⚠️Install with caution. This skill has very few installs. Always review the source and verify it on clawhub.ai before installing. Community-built skills run with agent permissions — only install ones you trust.

📚 Academic & Research

Benchmark Storev1.1.1

Name: Benchmark Store
Author: lanyasheng

benchmark-store

lanyasheng

当需要初始化基准数据库、对比 skill 评分与历史基线、查看 Pareto front 是否有维度回退、或查阅质量分级标准时使用。不用于给候选打分（用 improvement-discriminator）或自动改进（用 improvement-learner）。

latest

Download Package View on ClawHub

Installs (all time)

Installs (current)

Downloads

434

Stars

CreatedApr 3, 2026

UpdatedMay 11, 2026

Install & Quick Start

Install via ClawdBot CLI:

clawdbot install lanyasheng/benchmark-store

Skill Package18 files

📋SKILL.mdmarkdown

Failed to load file.

Quality Score

B54/100

Grade Fair — based on market validation, documentation quality, package completeness, maintenance status, and authenticity signals.

Market Validation4/35

· 1 installs (minimal)
· 52 downloads (minimal demand)

Documentation20/25

· SKILL.md present
· Detailed documentation (≥3000 chars)
· Contains usage examples or trigger description
· Detailed summary

Package Completeness15/15

· skillAssets present (17 files)

Security Analysis

🔴 High Risk

CREDENTIAL_ACCESShigh

Accesses sensitive credential files or environment variables

/etc/passwd

UNSAFE_SHELLmedium

Potentially destructive shell commands in tool definitions

exec(

UNDOCUMENTED_EXTERNALlow

Calls external URL not in known-safe list

http://evil.com

AI Analysis

The skill definition describes a benchmark storage and comparison system with no actual code execution, credential access, or data exfiltration. The 'RULE-BASED SIGNALS FOUND' section appears to be test/example data or false positives from pattern matching, as the skill definition itself contains only documentation and conceptual descriptions of Pareto front checking.

💡

Usage Guide

Generated Apr 25, 2026

AI/机器学习工程师质量保证工程师DevOps工程师产品经理技术管理者intermediate

💡 Application Scenarios

初始化或查询基准数据库软件开发

当团队需要为新项目建立基准测试库，或查询已有的基准数据时，可通过CLI命令注册或列出所有基准条目，确保后续评估有据可依。适用于软件质量团队在项目启动阶段。

对比技能评分与冻结基线AI/机器学习

在迭代过程中，自动化将新版本的技能评分与历史的冻结基线进行对比，生成包含每个维度前后差值的JSON报告，帮助团队快速识别能力变化。

检查Pareto front避免维度回退自动化运维

在自动改进循环中，通过ParetoFront模块逐维度检查新评分，若发现任一维度回退超过5%则拒绝变更，防止因局部优化牺牲其他关键能力。

查阅质量分级标准并决定发布策略产品管理

基于POWERFUL/SOLID/GENERIC/WEAK四级分级标准，每次评估后自动计算加权综合分，并根据分级结果决定是否将技能推向市场、开源或需要继续迭代。

批量评估场景下列出所有已注册基准测试

在进行大规模技能批量评估前，通过list操作获取全部基准条目及其元数据，确保评估覆盖全面，适用于质量保障团队。

💼 Business Models

SaaS基准测试平台订阅制收费，根据存储的基准条目数量和评估调用次数分级计费。

将benchmark-store作为SaaS服务提供给外部团队，让他们管理自己的基准数据、执行回归检查并获取质量分级报告。

DevOps工具链集成以附加组件的形式销售，或按流水线触发次数收费。

将benchmark-store嵌入CI/CD流水线，为每个技能变更自动执行Pareto回归检查，作为质量门禁的一部分。

咨询与定制服务按项目收费，包括部署、定制开发和年度维护费。

为客户定制评估维度和权重，并部署私有化benchmark-store实例，配套培训和技术支持。

💬 Integration Tip

集成时需确保Pareto基线文件（state/pareto.json）和维护基准数据库（benchmarks.db）的同步更新，并遵循CLI规范操作以避免数据不一致。