评测数据说明
- 涵盖语种:印尼语、越南语
- 错误类型:单词替换错误(包含标点)、空格冗余、空格缺失
- 数据字段
- 已分词的待纠错句子:采用各语言分词工具对原始句子进行切分,确保词语颗粒度统一
- 拼写错误下标:以分词后的词语序列为索引,通过数字标记错误词语在句子中的位置,便于精准定位错误
- 答案:修正后的答案,作为模型纠错结果的参照标准
- 数据样例(以越南语为例)
错误类型 | 待纠错句子 | 下标 | 答案 |
单词替换 | Không kìm được ngạc nhiên , tôi buột miệng . | [7] | buộc |
空格冗余 | Không k ìm được ngạc nhiên , tôi buộc miệng . | [1,2] | kìm |
空格缺失 | Không kìm được ngạcnhiên , tôi buộc miệng . | [3] | ngạc nhiên |
5. 数据规模
语种 | 训练集 | 测试集(包含干扰项) |
印尼语 | 10,000 | 50,000 |
越南语 | 10,000 | 50,000 |
评估标准
- 错误检测准确率(Error Detection Precision):模型正确检测出的拼写错误数量占模型检测出的所有错误数量的比例。
- 错误检测召回率(Error Detection Recall):模型正确检测出的拼写错误数量占实际存在的拼写错误数量的比例。
- 纠错准确率(Correction Precision):模型正确纠正的拼写错误数量占模型尝试纠正的所有错误数量的比例。
- 纠错召回率(Correction Recall):模型正确纠正的拼写错误数量占实际需要纠正的拼写错误数量的比例。
- F1 值(F1 – score):综合考虑准确率和召回率的指标,用于更全面地评估模型性能,其中检错级别与纠错级别的F1值分别作为检错任务和纠错任务的排名指标。