融合结构和内容特征提取多类型网页文本要素

来源 :山西大学学报(自然科学版) | 被引量 : 0次 | 上传用户：hughy

【摘要】

：

针对网页设计结构与文本内容上的关联特点,提出了融合结构和内容特征的多类型网页文本要素提取方法。依据网页头部标题元素与网页体内容上的联系提取网页标题;提取网页正文区

【作者】

：

王宇龙赖华余正涛洪旭东刘书龙

【机构】

：

昆明理工大学信息工程与自动化学院,昆明理工大学智能信息处理重点实验室,

【出处】

：

山西大学学报(自然科学版)

【发表日期】

：

2016年03期

【关键词】

：

网页融合结构正文文本多类型网页结构特征内容特征特征提取特征分类节点

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对网页设计结构与文本内容上的关联特点,提出了融合结构和内容特征的多类型网页文本要素提取方法。依据网页头部标题元素与网页体内容上的联系提取网页标题;提取网页正文区域的网页结构和内容上的多个特征分类网页DOM节点,定义节点的扩展、整合规则获得正文候选块,引入密度值和影响因子从各候选块中甄别正文块;利用发布时间与标题、正文之间的位置关系,通过正则表达式实现发布时间的提取。对国内新闻网站、博客、论坛及贴吧进行抽取试验,结果表明该方法具有较好的效果。 Aiming at the characteristics of the relationship between webpage design structure and textual content, a multi-type webpage textual element extraction method based on fusion structure and content features is proposed. Extracting the title of the webpage according to the relationship between the title element of the webpage and the content of the webpage; extracting the DOM node of the webpage structure and the content of the webpage in the text area of the webpage, defining the extension of the node, integrating rules to obtain the textual candidate block, Value and influence factor from each candidate block to identify the body of the block; the use of the publication time and the title, the relationship between the location of the body through the regular expression to achieve release time. The domestic news websites, blogs, forums and post bars are extracted and tested, the results show that the method has good effect.

其他文献

敲门日

2012年5月20日,在重庆举行的渝中区首届“邻居节”专门设立了“敲门日”活动,鼓励人们敲开邻居宅门,打破“都市冷漠症”。在中国传统文化中,邻里关系一直很被看重。然而随着

期刊

邻里关系渝中中国传统文化现代都市人家庭成员杨建华现代中国人

腹痛，胸闷，左膈升高，休克──思考病例（82）

腹痛，胸闷，左膈升高，休克──思考病例（８２）病历摘要男，２９岁，煤矿工人。因左上腹剧痛１天于１９９３年１０月１１日入院。病人于入院前１天无明显原因突发左上腹剧烈疼痛，呈持续性，伴恶心、呕吐，仅有少量粘液吐出

期刊

胃内容物上腹煤矿工人干湿性音温氏法持续性粪常规中山二路通讯地址压缩性骨折

非溃疡性消化不良的胃分泌和运动功能及幽门螺杆菌研究

非溃疡性消化不良的胃分泌和运动功能及幽门螺杆菌研究侯凤英，孙照雄，陈敏卿，李彪，张占武，赵玉芬，吴志贤，左淑玲本研究目的是调查胃酸分泌、胃运动在非溃疡性消化不良（ＮＵＤ）发病中的作用，并

期刊

胃酸分泌五肽胃泌素快速尿素酶试验胃镜检查赵玉芬敏卿凤英铋剂丁琳刺激试验

白细胞介素1及其合成肽163-171用作疫苗佐剂

已知白细胞介素1(IL-1)能诱生IL-2及集落刺激因子(CSF)的受体,后者参与白细胞生长、分化和活化、以及合成并释放IL-2、IL-4、IL-6和IL-8,以维持宿主的免疫和炎性应答。本文讨

期刊

疫苗佐剂白细胞介素传染因子合成肽计算机分析二次免疫应答致炎作用集落刺激因子单克隆抗体细胞生长

一本写给当代大学生的高级科普读物──《跨世纪的数字技术与数字产品》

20世纪90年代，全球进入了数字时代。放眼世界，科学技术突飞猛进，数字化发展势不可挡，各种数字化技术的电子产品也越来越深入地影响着人们的生活。与各种通信技术相关的数字化消费

期刊

数字技术科普读物当代数字化发展电子产品CableModem出版定价会议电视可视电话网络与通信

金钥匙工程的典范之作

视力障碍儿童（盲与低视力）在社会中是处于不利地位的一个群体，他们难以同健全人一样从事一般的工作、学习和其他活动。视障儿童的教育在整个全民教育中亦是较为薄弱的部分。随着

期刊

钥匙工程随班就读徐先生障碍儿童教育研究中心儿童教育教育工作教育模式全民教育在校人数

取样装置对天然气碳同位素检测结果的影响

实验过程中发现,对同一铝塑气袋取样装置天然气碳同位素在不同时间分析结果存在较大差别,直接导致天然气类型的划分和气源对比出现多解性。针对这一现象,开展了不同取样装置

期刊

碳同位素气源对比高压钢瓶盐水玻璃瓶铝塑气袋油气运移成因分类运移过程时间变化油型

老公要出轨找自信,我该不该“允许”

老公说他是爱我的,不会伤害我。但希望我允许他在不涉及感情的前提下,跟别的女人上床。他说,随着年龄的增长,他对于异性的吸引力正在逐渐下降,如果哪个年轻女孩愿与她有肌肤

期刊

总结过去探索未来迎接挑战——《钱正英水利文选》序

钱正英同志生于1923年7月,1941年加入中国共产党。她一参加工作就与水利有缘,参与了淮河、黄河治理工作。钱正英同志1952年年底到水利部,在1953年至1988年的整整35年间,一直

期刊

钱正英水利事业黄河治理水利专家中国工程院院士中国水利政协副主席水利部门水资源战略主要领导职务

得知我偷偷给娘家钱,老公竟要“分手”

家里的经济大权一直由我掌管,老公看钱比较重,平时除了打麻将、加油和抽烟之外,其他方面很节俭,甚至头发都自己理。但他打麻将有时却一下子能输掉几万,我什么都没有说。最近

期刊

打麻将争吵不休大事小事讲道理

融合结构和内容特征提取多类型网页文本要素

其他学术论文