基于注意力机制的结构化文本自动生成

来源 :武汉大学学报(工学版) | 被引量 : 0次 | 上传用户:hljfox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决手工编写招标文件耗时耗力、技术参数和要求覆盖不全面的问题,以及由于设备升级、行业规范修改所带来的范本自动迭代更新问题,提出了一种基于注意力机制Bert模型的招标技术范本自动生成方法.具体包括:建立标的物范本知识语料库,并使用正则表达式对招标文件进行数据清洗和技术参数提取;然后使用基于注意力机制的Bert模型提取参数文本的语义信息,映射至向量空间;最后通过TextRank算法得到生成的范本内容.以国家能源公司2016-2020年的161种标的物招标材料作为语料,将本方法生成的范本与专家人工编制范本作对比,结果表明,本方法获得了较高的Rouge评分与准确率,验证了其在真实生产环境下的可行性.
其他文献
水工混凝土结构开裂是坝工领域最常见的问题.为研究某拱坝工程中孔闸墩常态混凝土开裂原因,采用基于非线性断裂力学的混凝土三维弥散裂缝模型,结合现场裂缝情况,通过三维有限单元法对可能开裂的不同工况进行了仿真计算,分析了闸墩混凝土施工运行期的温度场、应力场的时空变化规律.仿真计算结果表明,基于非线性断裂力学的混凝土三维弥散裂缝模型能有效模拟大体积混凝土结构的开裂现象,大坝正式蓄水发电第1年所遭遇的大寒潮是大坝中孔闸墩混凝土开裂的主要原因.研究结果对后续研究中孔裂缝对工程安全的影响、制定裂缝处理方案具有重要参考意义
近年来我国光伏发电量占比增长迅速,针对高渗透率光伏并网混合火力发电系统中传统方法不能兼顾频率控制速度与精度的问题,提出了一种基于变论域模糊PID(proportional,integral,differential)的电力系统频率控制方法.首先建立光伏并网火电系统模型;然后基于增量法和鲸鱼捕食算法建立伸缩因子函数,设计变论域模糊PID控制器;最后利用MATLAB/Simulink进行仿真试验,与传统PID、模糊逻辑、模糊PID进行了对比分析.结果表明,所提出方法优于传统方法,系统频率的最大频率偏差和稳定时
为获得更高质量的数字高程模型(digital elevation model,DEM)数据,提出了一种基于谷脊线作为地形约束的多尺度DEM融合方法.以雷达测高数据SRTM(shuttle radar topography mission)与激光测高数据GLAS(geos-cience laser altimeter system)为辅助源校正的光学高程数据 ASTER(advanced spaceborne thermal emission and reflection radiometer)作为低分辨数
两级式光伏并网系统将光伏电能汇集至低压直流母线,通过并网逆变器送入交流电网,低压直流母线能满足本地负载需求,实现光伏就地消纳,而且相比传统分散逆变、就地并网的方案具有更高的发电能效.两级式光伏并网系统在交流电网电压发生不平衡跌落时,存在低压直流母线电压上升以及母线电压二倍频波动问题.电压上升可能导致光伏脱网,不满足光伏并网的低电压穿越要求;电压上升及二倍频波动也不利于直流负载的稳定工作.为了稳定电网电压不平衡跌落下直流母线电压,针对前级DC/DC(direct current to direct curr
网内缓存是信息中心网络(ICN)的主要特征之一,是减小内容获取时延和提高网络资源利用率的重要环节.内容流行度越高,下一次请求时间越近,请求的次数越多,该内容价值就越大.针对海量缓存对象与有限缓存空间之间的矛盾,基于内容的“未来”价值,本文提出了一种基于价值预测的ICN缓存替换方法,结合内容流行度和新近频率值,构建内容价值预测模型,计算价值预测值,将“未来”价值最小的内容替换掉.仿真结果表明,本文提出的方法与最近最少使用、先进先出、随机替换等缓存替换方法相比,具有更高的缓存命中率,更低的请求响应时延.
我国磷石膏综合利用已位居世界领先水平,综合利用途径多样化,但也存在对磷石膏认识不清,创新动力不足,上下游产业协同不足等问题亟待解决.“双碳”战略的实施,对磷石膏资源综合利用既是机遇又是挑战.基于此,介绍国内外磷石膏资源综合利用现状,重点阐述中国磷石膏产生利用情况.随着中国磷肥生产工艺、技术及管理水平的提升,磷石膏品质逐步提高,磷肥副产的磷石膏量逐渐减少,磷石膏资源综合利用量和利用水平将不断提升.
数字电视机顶盒作为一类嵌入式设备,相比于个人计算机,它具有处理能力偏低、资源受限等特点.在机顶盒上的浏览器面向的主要业务是视频业务,一般存在较多需要大量绘图的网页元素,仅依靠CPU完成渲染工作会造成网页加载缓慢、响应大幅延时的问题,严重影响用户体验.本文阐述并实践了一种调用GPU对嵌入式浏览器进行硬件加速的机制,绘图复杂的网页元素调用图形处理器辅助渲染,然后合成到最终网页.实验结果表明,使用硬件加速改造后的嵌入式浏览器比未经硬件加速改造的嵌入式浏览器,在同样的硬件平台、同样的网络条件及访问相同网页情况下,
提出一种分阶段自适应锂离子电池荷电状态(state of charge,SOC)估计方法.选取含有常相位元件(constant phase element,CPE)的分数阶模型,以更好地描述电池的充放电动态过程,并采用改进型遗传算法(genetic algorithm,GA)对分数阶模型进行参数辨识,从而增强参数辨识的鲁棒性;然后检测参数的精度,若精度不满足要求则再次进行辨识过程以修正模型参数.最后利用分数阶扩展卡尔曼滤波(extended Kalman filter,EKF)对SOC进行估计,以上步骤构
针对智能水下机器人由于长时间工作,在进行地形图构建时,成图精度变差的问题,提出了一种基于聚类和尺度不变特征转换算法的,可以对相邻测线的地形图进行自动成图修正的新方法.利用尺度不变特征转换算法和K-means算法进行特征区域的提取与配对,再利用卡尔曼滤波算法进行目标跟踪,即可得到较为准确的坐标数据,从而提高地形图精度.试验证明该方法能够较为准确地进行特征点的选择以及配对,并进行目标跟踪,将误差降低56.15%.实现了相邻测线的自动修正和地形成图,具有可行性.
针对招标文件中因数据稀疏导致的特征提取困难影响分类准确率的问题,提出了一种基于极端梯度提升(eXtreme gradient boosting,XGBoost)和文本聚焦表示模型的分类方法.聚焦表示部分通过提取对分类结果有显著影响的关键字段部分,使用N-Gram分词,结合词性级词频-逆文档频率(term frequency-inverse document frequency,TF-IDF)的方法,实现招标文件文本特征向量表示;基于XGBoost的招标文件分类预测模型部分将提取到的特征送入XGBoost模