🗒️使用Langchain对LLM摘要生成的质量进行评估
2024-4-26
| 2024-4-28
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password

概述

有一位老者说过,
没有测量,就没有科学
notion image
还有人说过,
测试驱动开发,而不是试错
notion image
总而言之,就是评测很重要,做任何算法相关任务,尤其是上线的应用,评测必不可少。
结合前段时间做的一个文本摘要项目,来简单说明一下利用LLM来进行无参考文本摘要生成评价。
传统摘要生成评价指标有BLEU,ROUGE-1,ROUGE-2,ROUGE-L等。但是都需要参考文本,也就是标注数据,需要大量人力。那如何通过自动化的方式进行评价呢? 那就是让牛逼点的大模型当裁判,对文本内容及生成的摘要进行打分评价。
这里面有不同的方式:
  • 基于字符串:单纯对单个文本及摘要进行打分。
  • 基于比较:让LLM对两个模型的结果进行对比。
相关文献做了一些系统化评价两者对摘要生成评价的准确性,发现第一种方法更好,具体可以查看相关文献。
这里以第一种进行说明,展示一点关键代码:

示例

啰啰嗦嗦一大堆,还是代码写起来简单:
示例数据(真实数据已脱敏,且在局域网)
notion image
 
notion image
解析分数的类:
notion image
评估chain
notion image
跑一下看看
notion image

祝编码快乐!!!

  • LLM
  • Prompt工程的当代进展[译]— 1逃离网络限制:使用Tailscale+自建DERP组建私有局域网的终极指南
    Loading...
    目录