type
status
date
slug
summary
tags
category
icon
password
概述
有一位老者说过,
没有测量,就没有科学
还有人说过,
测试驱动开发,而不是试错
总而言之,就是评测很重要,做任何算法相关任务,尤其是上线的应用,评测必不可少。
结合前段时间做的一个文本摘要项目,来简单说明一下利用LLM来进行无参考文本摘要生成评价。
传统摘要生成评价指标有BLEU,ROUGE-1,ROUGE-2,ROUGE-L等。但是都需要参考文本,也就是标注数据,需要大量人力。那如何通过自动化的方式进行评价呢?
那就是让牛逼点的大模型当裁判,对文本内容及生成的摘要进行打分评价。
这里面有不同的方式:
- 基于字符串:单纯对单个文本及摘要进行打分。
- 基于比较:让LLM对两个模型的结果进行对比。
相关文献做了一些系统化评价两者对摘要生成评价的准确性,发现第一种方法更好,具体可以查看相关文献。
这里以第一种进行说明,展示一点关键代码:
示例
啰啰嗦嗦一大堆,还是代码写起来简单:
示例数据(真实数据已脱敏,且在局域网)
解析分数的类:
评估chain
跑一下看看