一、性能指标
对于大模型,特别是深度学习模型,需要关注其在硬件资源上的消耗,如内存、计算资源等。
稳健性测试:大模型可能对输入中的小变化非常敏感,因此需要进行对抗性测试,以验证模型在面对恶意输入或轻微扰动时的稳健性。
Performance Testing
确定性能指标
设计一套测试集,评估模型的整体性能指标
样本数量
样本多样性
关注响应性能
回答过程的出字率
回答完问题的响应时间
测试系统在并发负载下的性能,确保在高负载时也能正常运行
维护测试集,建立性能基线数据
使用标准数据集测试,测试模型的准确度
要基于对Adapter层的认知、以及用户应用场景,构建测试集
使用了什么算法
什么样的推理规则
如何构建提示词
如何修正LLM的输出