医药安全标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211065997.X (22)申请日 2022.09.01 (71)申请人 北京智谱华 章科技有限公司 地址 100084 北京市海淀区中关村东路1号 院6号楼6层6 03A (72)发明人 陈亦舟 (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 孟洋 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 40/12(2020.01) G06F 40/216(2020.01)G06K 9/62(2022.01) G06Q 10/10(2012.01) (54)发明名称 基于预训练模型的面试场景下ASR文本的数 据增强方法 (57)摘要 本申请提出一种基于预训练模型的面试场 景下ASR文本的数据增强方法, 该方法包括: 对预 先获取的面试场景下的ASR文本进行预处理, 并 获取每条ASR文本的句向量; 基于机器学习库将 面试涉及的每个岗位下的ASR文本进行多级聚 类, 并通过预设的第一预训练模 型归纳每个聚类 对应的聚类文本; 根据全部的聚类文本选取预设 数量的初始数据, 获取每条初始数据对应的正规 化文本, 并基于正规化文本生 成每个聚类类别对 应的一条标准化问题; 获取每个岗位下的多个目 标关键词, 通过判断每条标准化问题中是否存在 任一目标关键词对每条标准化问题进行分类。 该 方法可以从口语化文本中提取出多个高质量的 问题文本, 提高对面试ASR文本进行数据增强生 成的数据的质量。 权利要求书2页 说明书10页 附图3页 CN 115455185 A 2022.12.09 CN 115455185 A 1.一种基于预训练模型的面试场景下ASR文本的数据增强方法, 其特征在于, 包括以下 步骤: 对预先获取的面试场景下的自动语音识别技术ASR文本进行预处理, 并获取每条所述 ASR文本的句向量; 基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类, 并通过预设 的第一预训练模型归纳每 个聚类类别对应的聚类文本; 根据全部的所述 聚类文本选取预设数量的初始数据, 获取每条所述初始数据对应的正 规化文本, 并基于所述 正规化文本生成每 个所述聚类 类别对应的一条 标准化问题; 获取每个岗位下的多个目标关键词, 通过判断每条所述标准化问题中是否存在任一目 标关键词对每条 所述标准 化问题进行分类。 2.根据权利要求1所述的数据增强方法, 其特征在于, 所述对预先获取的大量面试场景 下的自动语音识别技 术ASR文本进行 预处理, 包括: 剔除每条 所述ASR文本中的停用词和语气词; 合并发言人对应的内容相同的ASR文本; 所述获取每条 所述ASR文本的句向量, 包括: 将所述第一预训练模型在中文数据集上进行微调, 通过微调后的第 一预训练模型生成 每条所述ASR文本的句向量。 3.根据权利要求1所述的数据增强方法, 其特征在于, 所述机器学习库包括: Scikit ‑ Learn库, 所述基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚类, 包 括: 通过所述Scikit ‑Learn库中的Mini Batch K‑means算法对每个岗位下的全部ASR文本 的句向量进行 行粗聚类, 获得每 个岗位对应的多个子类; 通过所述Scikit ‑Learn库中的OPTICS库对每个所述子类进行基于密度的聚类, 确定所 述聚类类别, 并获得每 个所述聚类 类别对应的所述聚类文本和噪音 文本。 4.根据权利要求3所述的数据增强方法, 其特征在于, 所述通过预设的第 一预训练模型 归纳每个聚类类别对应的聚类文本, 包括: 针对每个岗位, 通过所述第 一预训练模型生成当前 岗位下全部的所述 聚类文本和所述 噪音文本的句向量; 基于句向量, 通过相似向量检索库判断每条所述噪音文本是否存在一条相似度超过相 似度阈值目标聚类文本, 若是, 则将噪音 文本归类至所述目标聚类文本对应的聚类 类别中。 5.根据权利要求1所述的数据增强方法, 其特征在于, 所述初始数据包括一组相似的聚 类文本, 所述获取每条 所述初始数据对应的正 规化文本, 包括: 通过人工标注确定每组相似的聚类文本的一条正 规化文本; 所述基于所述 正规化文本生成每 个所述聚类 类别对应的一条 标准化问题, 包括: 通过每个所述正规化文本微调预设的第 二预训练模型, 通过微调后的第 二预训练模型 输出每个所述聚类 类别对应的一条 标准化问题。 6.根据权利要求1所述的数据增强方法, 其特征在于, 所述获取每个岗位下的多个目标 关键词, 包括: 在预处理后的ASR文本库中, 基于TF ‑IDF算法计算每个岗位在数量上限内的多个初始权 利 要 求 书 1/2 页 2 CN 115455185 A 2关键词; 通过人工标注对每个岗位的所述初始关键词进行优化, 获得每个岗位下的多个目标关 键词。 7.一种基于预训练模型的面试场景 下ASR文本的数据增强系统, 其特 征在于, 包括: 获取模块, 用于对预先获取的面试场景下的自动 语音识别技术ASR文本进行预处理, 并 获取每条 所述ASR文本的句向量; 聚类模块, 用于基于机器学习库将面试涉及的每个岗位下的全部ASR文本进行多级聚 类, 并通过 预设的第一预训练模型归纳每 个聚类类别对应的聚类文本; 生成模块, 用于根据全部的所述聚类文本选取预设数量的初始数据, 获取每条所述初 始数据对应的正规化文本, 并基于所述正规化文本生成每个所述聚类类别对应的一条标准 化问题; 分类模块, 用于获取每个岗位下的多个目标关键词, 通过判断每条所述标准化问题中 是否存在任一目标关键词对每条 所述标准 化问题进行分类。 8.根据权利要求7 所述的数据增强系统, 其特 征在于, 所述获取模块, 具体用于: 剔除每条 所述ASR文本中的停用词和语气词; 合并发言人对应的内容相同的ASR文本; 将所述第一预训练模型在中文数据集上进行微调, 通过微调后的第 一预训练模型生成 每条所述ASR文本的句向量。 9.根据权利要求7所述的数据增强系统, 其特征在于, 所述机器学习库包括: Scikit ‑ Learn库, 所述聚类模块, 具体用于: 通过所述Scikit ‑Learn库中的Mini Batch K‑means算法对每个岗位下的全部ASR文本 的句向量进行 行粗聚类, 获得每 个岗位对应的多个子类; 通过所述Scikit ‑Learn库中的OPTICS库对每个所述子类进行基于密度的聚类, 确定所 述聚类类别, 并获得每 个所述聚类 类别对应的所述聚类文本和噪音 文本。 10.一种非临时性计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计 算机程序被处理器执行时实现如权利要求 1‑6中任一所述的基于预训练模型的面试场景下 ASR文本的数据增强方法。权 利 要 求 书 2/2 页 3 CN 115455185 A 3
专利 基于预训练模型的面试场景下ASR文本的数据增强方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:29:36
上传分享
举报
下载
原文档
(564.6 KB)
分享
友情链接
GB-T 35973-2018 集装箱环保技术要求.pdf
CJ-T 270-2017 CJT 270-2017 聚乙烯塑钢缠绕排水管及连接件-232815 - 复件.pdf
PCSA 网络空间安全管理与运营平台介绍 2021 -v1.4.pdf
GB-T 36456.3-2018 面向工程领域的共享信息模型 第3部分:测试方法.pdf
GB-T 38644-2020 信息安全技术 可信计算 可信连接测试方法.pdf
GB-T 36521-2018 码垛机安全要求.pdf
DB34-T 3906-2021 基层防汛监测预警系统集成规范 安徽省.pdf
信通院 政务数据共享开放安全研究报告.pdf
GB-T 23447-2023 卫生洁具 淋浴用花洒.pdf
DB37-T 5239-2022 《节水型企业(单位)评价标准》 山东省.pdf
GB-T 39205-2020 信息安全技术 轻量级鉴别与访问控制机制.pdf
工业控制系统信息安全防护指南 解读.pdf
GM-T 0044.5-2016 SM9标识密码算法 第5部分:参数定义.pdf
GB-T 39276-2020 信息安全技术 网络产品和服务安全通用要求.pdf
T-CAAMM 23—2018 自走式喷杆喷雾机 技术条件.pdf
T-CAMDI 095—2022 基于增材制造的皮肤修复产品的通用要求.pdf
GM-T 0001.1-2012 祖冲之序列密码算法:第1部分:算法描述.pdf
T-ACEF 034—2022 城镇供水管网数字化技术指南.pdf
TB-T 2604-2016 机车车辆车钩缓冲装置计量器具 货车钩尾框量具.pdf
DB52-T 1636.6-2021 机关事务云 第6部分:公共机构节能管理数据 贵州省.pdf
1
/
16
评价文档
赞助2.5元 点击下载(564.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。