汉语嵌套命名实体辨识方式研究--优秀结业论文可复制黏贴.pdf-拾艺肆

汉语嵌套命名实体辨识方式研究--优秀结业论文可复制黏贴.pdf

英文摘要.英文摘要随着近几年互联网的急速发展,网路中各类各样的电子文本信息急遽膨胀。怎样迅速、有效地从这种海量的、非结构化的文本中获取我们所须要的信息和知识已然成为自然语言处理领域的一个研究热点。作为信息抽取的重要子任务,命名实体辨识在许多自然语言处理应用领域起着非常重要的作用,其主要目的是识别文本或语句中表示人名、地名、机构名以及时间日期等信息的句型。本文引入实体语素概念,在机器学习框架融合实体内部结构特点和外部上下文信息研究人名、地名和机构名等命名实体辨识方式,重点解决地名和机构名当中存在的大量复杂的、含有嵌套结构的命名实体辨识问题。具体地,本文从以下三个方面展开研究:首先,采用基于机器学习方式建立汉语命名实体的单层模型,并通过实验对最大熵和条件随机场组合成的四种单层模型进行了对比测试。结果表明基于条件随机场的单层模型对嵌套命名实体的辨识疗效最好。在此基础上,对单层模型的错误辨识结果进行了剖析,因而提出一种基于互信息的后处理方式,对复杂的命名实体进行纠错处理,很大程度上解决了嵌套命名实体边界辨识错误问题。其次,将非嵌套的简单实体和嵌套的复杂实体分开分别处理,同时以字和词相结合的形式,深入探讨多层嵌套命名实体的结构特征,并借此为基础改进基于条件随机场的单层模型结构,以进一步提升嵌套命名实体辨识疗效。

最后,通过语料库考察了汉语嵌套命名实体与实体语素之间的关系,并以命名实体语素为基础,通过Logistic回归模型中Logistic变换方式筛选出的嵌套命名实体内部的多级前后缀语素特点,从而在条件随机场模型上融合内部结构特点和一…………~外部上下文信息,实现了一个基于实体语素的汉语嵌套命名实体辨识系统。实验结果表明,命名实体语素的引入有利于增强嵌套命名实体辨识的性能。关键词:命名实体辨识;嵌套命名实体;条件随机场:最大熵—IF———些丝丝一螋—iiii萱宣iiiiiiii萱iiiiii置iiiiiiiiiiiiiiiiiiiii宣iiiiiiii宣宣萱一AbstractWiththerapiddevelopmentoftheinternettheexpansionofinformationinnetworksformstheunprecedented‘‘BigBang'’.Theextractionofnecessaryinformationknowledgefromlarge-scaleandunstructuredtexthasbecomearesearchfocusaswellasachallengeinnaturallanguageprocessing.Asoneoftheimportantsub-tazksofinformationextraction,namedentityrecognition(NER)aimsidentifyphraseswithinsentencesanddocumentsthatexpresspersonnames,locationnames,organizationnames,datatime,andnumeralexpressions.Namedentityrecognitionplayskeyroleinmanynaturallanguageprocessingapplicationssuchasinformationretrieval,questionansweringandmachinetranslation.ThethesisintroduceentitymorphemesintoChineseHERandthusincorporatesentity-internalstructuralfeatures、7l,itllcontextualinformationundertheframeworkofmachinelearningidentifypersonnames,locationnamesandorganizationnamesinChinesetexts,especiallynestedlocationnamesandorganizationnames.Firstfourtwo-layermodelsaleconstructedforChineseNERbasedonmaximumentropyandconditionalrandomfields(CRFs).ThecontrastiveexperimentsondifferentdatasetsshowedthattheCRFbasedtwo-layermodelismuchmoreappropriateChinesenestedNER.Moreoverapost-processingmethodbasedonmutualinformationistol'eVisesomepossibleerrorsyieldedbyCRF—layermodel.OurexperimentsshowedthatnestedNERperformancecanftLrtherimprovedusmgpost-processingmodule.Second,simplenamedentityrecognitionandnestedNERarcconsideredastwoseparatetasksinthepresentstudy.Assuch,afive-layersequencelabelingschemeis一proposedtohandlelexicalfeaturesandphraseSUUeUIreunder。

theCRF-layermodel+to。一——’。。—。…一……flH'therenhancenestednamedentitiesrecognition.FinallyentitymorphemesintroducedintoChinesenestednamedentityrecognition.Toapproachthis,asetofmultilevelprefixesandsuffixesareextractedAbstractfromthetrainingdatausinglogistictransformmethodoflogisticregressionmodelsBasedonentitymorphemes,avarietyoflexicalfeaturesandentitystructuralCUeSCalleasilyexploredfornestedNER.Experimentsshowedthattheproposedsystemeffectiveformostnestednamedentitiesunderevaluation.Keywords:Namedentityrecognition,nestednamedentitymaximumentropyconditionalrandomfields.河南学院硕士学位论文目录英文摘要…:………………………………………………………………………………………………………。

IAbstract…….…...…….…..…..….……...…………..……..…….….….….…..………….:...……....……..II目录………………………………………………………………………………。…………….……………….第1章总论………………………………………………………………...………………11.1本文研究的目的和意义………..二……………………………………………….11.2命名实体……………………………………………………………………………21.3国外外研社究现况…………………………………………………………………31.3.1命名实体辨识方式…………………………………………………………。31.3.2命名实体辨识相关评测………………………………………………………41.3.3目前存在的主要问题………………………………………………………。61.4本文主要研究内容及结构安排…………………_。………………………………6第2章汉语嵌套命名实体剖析…………………………………………………………92.1命名实体分类………………………………………………………………………92.1.1简单命名实体………………………………………………………………….92.1.2嵌套命名实体………………………………………………………………102.2汉语嵌套命名实体辨识面临的主要挑战………………………………………102.3嵌套命名实体结构特征…………………………………………………………132.4嵌套命名实体统计分布…………………………………………………………l52.4.1命名实体标明语料库…………………………………………………………l5…..2.4.2汉语嵌套命名实体的层次分布…………………………………………16.…………2.5本章小结……………………………………………………………………………18第3章基于单层模型的汉语嵌套命名实体辨识……………………………………。

193.1方式化描述………………………………………………………………………….19目录Ill3.2基于单层模型的汉语嵌套命名实体辨识方式……………………………………203.2.1最大熵模型……………………………………………………………………203.2.2条件随机域模型…………………………………………………………….213.2.3特点模板………………………………………………………………………。233.2.4单层模型………………………………………………………………………253.3基于后处理的汉语嵌套命名实体辨识方式……………………………………263.4基于混和式的汉语嵌套命名实体辨识方式……………………………………283.5实验结果及剖析…………………………………………………………………。303.5.1实验数据……………………………………………………………………。303.5.2测评方式………………………………………………………………………。313.5.3实验结果………………………………………………………………………323.6本章小结………………………………………………………………………….37第4章基于语素的汉语嵌套命名实体辨识……………………………………………394.1汉语命名实体语素…………………………………………………………………394.1.1成语语素……………………………………………………………………。

394.1.2实体语素……………………………………………………………………….414.2语素抽取和切分…………………………………………………………………4l4.3特点选择……………………………………………………………………………434.3.1词法特点……………………………………………………………………………434.3.2多级前后缀语素特点…………………………………………………………444.3.3基于Logistic变换的特点选择………………………………………………454.4基于语素的汉语嵌套命名实体辨识………………………………………………494.5实验结果及剖析……………………………………………………………………….494.5.1实验数据…………………………………………………………………………504.5.1实验结果……………………………………………………………………………。504.6本章小结……………………………………………………………………………。54四川学院硕士学位论文推论………………………………………………………………………………………………………………。

55参考文献……………………。…………………………………………………………….57致谢…………………_…………………………………………………………………….“攻读学位期间发表的学术论文……………………………………………………………65独创性申明…………………………………………………………………………………….66学位论文版权使用授权书…………………………………………………………………66第1章总论第1章总论1.1本文研究的目的和意义随着近几年互联网的急速发展,网路中的信息大幅膨胀,产生了空前的信息“大爆燃"。怎样从海量的、非结构化的文本中快速有效并且确切地获取所需的信息和知识己经成为自然语言处理领域的一个研究热点。作为信息抽取(InformationExtraction,正)的重要子任务,命名实体辨识(NameEntityRecognition,NER)的主要目的是辨识文本或语句中表示人名、地名、机构名以及表示时间、金额等数字信息的句型。作为文本内容的主体,命名实体的辨识在手动摘要、问答系统和机器翻译等许多自然语言处理应用系统中都起着非常重要的作用。目前,在命名实体辨识领域中,大多数研究者都把精力放到简单的辨识上,并且取得了挺好的成果,而且好多人都忽视了一个至关重要的问题,那就是对嵌套的命名实体的辨识,但是这个问题至今还没有造成足够的注重。

嵌套命名实体主要是富含复杂结构的命名实体,它在命名实体中占了很大一部份,对其辨识的确切率和召回率直接影响着对全部命名实体辨识的确切率和召回率。表1-1汉语命名实体的分布Table1.1Distributi011ofChinesenamedentities全部的嵌套类型总量简单NE嵌套NE嵌套NENE地名2603l24900113l4.32%机构名1708610224686240.27%10.4%时间和日期918l6149303233.06%表1.1给出了1998年01月份《人民晚报》命名实体标明语料中的不同类型的…——命名实体统计分布情况。从中可以看出,含嵌套结构的命名实体约占全部命名实体的10.4%。因为时间和日期中的嵌套命名实体特点显著,辨识上去简单,所以,难辨识的嵌套命名实体主要存在于地名和机构名当中。为此,强化嵌套命名实体辨识的研究对于提升整个命名实体辨识疗效具有十分重要的意义。四川学院硕士学位论文1.2命名实体目前,网路中各色各样的信息大都是以文本的方式出现,但是随着时间的增长而越来越多。人们怎样能快速、准确、有效的获取那些文本中重要信息,成为一个困局。

所以,命名实体辨识技术骤然而诞生,同时它也成为自然语言处理领域的一个主要研究方向。命名实体主要分为三大类和七小类:三大类分别为实体类、时间表达式和数字表达式;七小类分别为人名、地名、机构名、时间日期、货币测度衡、专有名词和比率。我们通过辞典分别对各个实体类做了如下定义:命名实体辨识:是辨识出文本中具有特定意义的实体。如人名、地名、机构名和专有名词等。人名:显示或则虚拟的特定或拟人的固有名。如“张三一,“李刚"等。地名:政治和地理上第一的地名,城市及的、省级的、国家级的、国际区域、河流名、山名以及天体名等。如“中华人民共和国"、“长江"、“喜马拉雅山”等。机构名:包括公司名、征服组织及其它机构实体。如“联想集团刀、“监察部"、“黑龙江学院打等。专有名词:不仅上述的人名、地名以及机构名以外的其它专有名词,包括民族、或者简称的交通线、商标、历史风波、奖项等。如“京九高铁",“康师傅彦,“西安事变修、“百花奖"等。时间表达式:是用于抒发特定时间点或则时间范围的句子,它分为时间和日期两类。(1)日期表达式:指三天以上范围的时间。如“2010年一、“康熙年间"等。

汉语嵌套命名实体辨识方式研究--优秀结业论文可复制黏贴.pdf插图-拾艺肆

(2)时间表达式:指三天以内的时间。如“凌晨一、“傍晚"、“6点一等。数值表达式;是用于表示数字或数孚范围的句型。一如;(1)货币表达式:如“美元一、“人民币力。(2)标准测度单位:如年纪、面积、距离、速度、能量、体积等,以及安装语法规则定义的测度单位句型。如“米每秒一。第1苹总论(3)基数:以数字表示的数目或则一些物体的数目以整数、小数或则分数方式,命名实体种类繁杂,数目巨大,给命名实体的辨识工作平添了好多困难。1.3国外外研社究现况1.3.1命名实体辨识方式目前对命名实体的研究方式主要有基于规则的方式、基于统计的方式以及基于规则和统计相结合的方式【11。基于规则的辨识方式辨识上去比较简单,但是精确率很高,对人名、地名和机构名的辨识也比较直观。在MUC命名实体测评早期,出席测评的系统有伦敦学院的Proteus系统【2J、IsoQuest的NerOwl系统【3】、曼彻斯特科技学院的FACILE系统等,几乎都是基于规则的系统。另外,还有许多其他的基于规则的命名实体辨识策略【4】【5】。但基于规则的系统可移植性很差、通用性不强。在处理大规模开放文本时,基于规则的系统的性能常常随之增长。

另外,定义规则须要有专业的语言研究人士来按照语言特点的不同定义不同的规则,须要很大的人力物力资源,不利于方式的普及。所以,随着命名实体辨识技术的迅速发展,基于规则的方式遭到很大的限制,人们开始研究更便捷和快速的、移植性高的方法来解决命名实体辨识问题。在基于大规模的语料统计和实践中,人们渐渐发觉基于机器学习的方式中,我们可以按照已有的大规模语料,根据一定的技巧,提出一定的特点,产生一个目标模型,之后用这个目标模型去处理未知的语料,结果很令人满意,并且大大促进了命名实体辨识方式的发展。此后,好多基于机器…——‘~学习的实体辨识方式陆续涌现下来f目前常用的统计模型有最大熵(MaximumEntropyModel,ME)t6][7】【8】、马尔科夫模型(HiddcnMarkovModel,HMM)【9】【101[111、条件随机域(ConditionalRandomFields,CRFs)112】【13】1141模型、支持向量积(SupportVectorMachinesu如何给单个物体命名,SVM)t16】【171、决策树(DecisionTree,DD、基于转换的学习方式(TransformationbaseLearning)等。

青海学院硕士学位论文怎样找到命名实体辨识的有效特点是目前基于机器学习的命名实体研究的焦点。Zhou和Su[181在生成模型中的隐马尔科夫模型的基础上,简单的借助英文词组的重要标记(如:首字母小写及数字字符)、各类辞典和上下文语义等特点的基础上对命名实体进行辨识,疗效不错,但她们没有有效地解决命名实体的别称假名或者命名实体的领域适应性。Kazama和Makino[191在SVM的基础上,应用了HMM中的词序列和位置以及动词标明等特点对GENIA语料进行命名实体辨识,增强了辨识的精确率。但该方式没有有效解决比较长而复杂的命名实体问题。还有Curran在命名实体辨识方面,公认的比较好的模型是条件随机域模型。Laffcrty[21】等人在CRF框架下用动词标明特点研究命名实体别问题。Sha和Pereim【捌采用CRF研究语块剖析问题。BuyKo瞄】等借助CRF来解决省略的名词词组问题,还有Settlesl241、McDonald[251、KlingcrRoman[26]等人,也都采用了CRF的方式借助丰富的特点和组合模板对命名实体进行辨识。因为该模型出众的表现,辨识对命名实体的辨识疗效也不错。

Bechet[2rl等使用决策树的方式辨识专有名词,系统更可以自动从名词词组包括专有名词的集合中选择最容易分辨的特点,之后借助决策树方法学习,最终可拿来分类未知的专有名词。但决策树的每位叶子上的风波太少,不能有效地恐怕每位命名实体的机率,且不容易融合太多的信息。为了充分借助个模型的优点,进一步提升命名实体的性能,最近出现多模型结合的方式。Seonl勰1将最大熵模型、神经网路和选择模板规则结合在一起,最大熵主要用于辨识未登录词,神经网路主要用于解决歧义,选择模板规则主要用于对目标词汇的选择和相邻词汇的分组。该系统对人名、地名和机构名的辨识确切率很理想。——1.3.2命名实体辨识相关评测——————————一——命名实体的研究近些年造成自然语言处理界的广泛关注,国际上出现一系列的关于命名实体辨识相关的评测。MUC溯:英国国防中级研究计委员会(DARPA,theDefenseAdvanced第1苹总论看iiiiiiiiii宣宣ii置萱iiiiiiii宣ii宣iiiiiiiiiiiiiiiiiii宣宣暑学-i一——————ResearchProjectsAgency)捐助发起的MUC(MessageUnderstandingConference)大会极大地促进了信息抽取技术的发展。

MUC大会专门设有消息理解综合评测,从大规模、真实新闻文本理解中抽取特定的信息。在MUC.6上,第一次引入命名实体辨识的任务,其主要目的是辨识出文本中出现的专有名称和有意义的数目词并加以归类。它主要包括三个子任务:(1)实体名,包括人名、地名、机构名;(2)时间表达式,包括日期、时间和持续时间;(3)数字表达式,包括货币、度量衡、百分比等。ACEl30l:在此次评测中,日语、汉语、日语和俄罗斯语命名实体辨识的F值分别不低于97%、85%、93%和94%。随着MUC的成功举办,马来西亚国家标准技术研究所(NISD随即组织了手动内容抽取(ACE,AutomaticContentExtraction)系列评测。ACE中的命名实体辨识比一般意义下的命名实体辨识的类型更多、更广泛,难度更大。SIGNLLl31】:国际估算语言学商会(AssociationofComputationLinguistic,ACL)下属的自然语言学习兴趣小组(SpecialInterestGrouponnaturalLanguageLearning,SIGNLL),每年召开一次晚会CoNLL(ConferenceNaturalLanguageLearning)。

该评测以英国文和西班牙文的目标语言,将各类机器学习方式引入到命名实体辨识问题当中。那些国际评测的成功举办,极大地推进了命名实体辨识技术的发展。SIGHANBakeoffl32J:SIGHAN国际测评是关于汉语信息处理的重要专题大会。由国际语言学会英文语言处理小组组织的SIGHANBakeoff国际测评联赛早已举行了八届,在2006年的第三届测评赛事时引入了命名实体辨识测评。该赛事是英文信息处理领域的最顶尖的学术大赛,为自然语言处理作出了巨大贡献。国外的英文信息处理领域内,最重要的是国家863计划智能计算机专家组从1995年起组织了英文信息处理与智能人机插口技术评测。2003年首次将英文命名实体辨识作为动词标明的子任务引入,主要识他人名、地名、机构名和其它专有名词【331。在所有参评系统中,性能最好的为精确率为-5-哈尔滨学院硕士学位论文76.45%、召回率为70.15%,F值为73.16%。1.3.3目前存在的主要问题目前,大多数命名实体研究主要集中在普通命名实体辨识上,极少关注富含嵌套关系的复杂命名实体辨识。针对英语的含嵌套关系的NE辨识问题,Finkel[341等人采用歧视性选区剖析器算法来训练模型,并把每位语句转换成一棵由命名实体构成的树(不存在语义结构)。

因为方式的粗糙性造成疗效并不是很理想,总的精确率召回率分别为78.09%和68.23%。Alex[35】等人和Andrcasl361等人用最大熵结合丰富的特点在两种生物语料上做了命名实体辨识。因为特点不突出,没有辨识出绝大多数的嵌套命名实体。李中国f37】和周俊生【3翻等人采用嵌套模型的方式来做命名实体的辨识,把简单命名实体和嵌套命名实体分开处理,该方式疗效不错,但没有针对嵌套命名实体的辨识提出更有针对性的方式。冯冲p明和胡文博【40】分别利用最大熵模型和多层条件随机场方式来研究汉语的命名实体辨识问题。她们的方法之所以确切率和召回率不高,都是由于没有对嵌套命名实体采用更有针对性和更有效的辨识方式。针对以上问题,本文拟在系统剖析汉语嵌套命名实体的结构特征和统计分布规律基础上,在机器学习框架下,以字、词和实体语素为基础,融合命名实体内.部的结构信息以及外部的上下文信息,探求嵌套命名实体辨识方式及相应的关键问题。1.4本文主要研究内容及结构安排本文在对汉语嵌套命名实体辨识研究中,全面考察了基于机器学习的单层模型系统【4111421,并通过大量的对比实验证明了单层模型辨识系统的有效性。

在此基———1上我们提出了三种有效的汉语命名实体的辨识方式厂非常是针对复杂的嵌套命—————一名实体的辨识。(1)本文详尽的介绍了嵌套命名实体的结构特征、构成成份、类型分布和嵌套层次的统计,把嵌套命名实体所有特性全面细致的诠释下来。(2)本文通过最大熵和条件随机场模型建立了四种单层模型,在这四种单层模第1罩总论型的对比实验中证明了,基于条件随机场的单层模型系统在对嵌套命名实体的识别疗效最好。同时,本文在机器学习的框架下,把简单命名实体和嵌套命名实体分开处理,充分挖掘了命名实体的内部特点、外部特点、上下文特点及其复合特征等,并在单层模型的辨识结果上采用基于互信息的后处理方式,解决了单层模型辨识结果中嵌套命名实体边界辨识错误问题,提升了系统辨识的确切率和召回(3)本文继续探求基于条件随机场的单层模型结构,采用字和词相结合的混和标明方式,充分挖掘了构成嵌套命名实体的字法特点和词法特点。同时采用了更深层次的命名实体标明形式,彰显了嵌套命名实体的多层嵌套特性,致使该系统对嵌套命名实体辨识的疗效得到增强。(4)语素的细度介于字和词之间,能更确切的抒发嵌套命名实体的构成信息。

所以,本文从语素的角度出发,借助多种原子特点、复合特点以及辞典等特点,全面考察了构成汉语嵌套命名实体的不同语素之间的关系,并充分借助了通过Logistic回归模型中Logistic变换方式筛选出的多级前后缀语素特点来对嵌套命名实体进行辨识。由大量真实实验证明该方式是有效的。本文的结果安排如下:第一章主要介绍了命名实体辨识的研究目的和意义,以及命名实体辨识的难点,非常是嵌套命名实体的难点。同时也探讨了命名实体的研究现况和未来的发第二章全面剖析了汉语命名实体特征。并注重介绍了汉语嵌套命名实体的辨识难点、组织构成、类型分布和嵌套深度等情况。第三章详尽介绍了最大熵原理和条件随机场原理,并建立了四种基于单层模型的辨识方瀛在四种单层模型的对比实验中证明了基于条件随机场的单层模型。对嵌套命名实体辨识最有效性,从而提出了一种基于条件随机场单层模型与后处理相结合的嵌套命名实体辨识方式。在此基础上,本文又进一步改进了基于条件随机场的单层模型系统,采用字和词相结合的混和标明形式,以及更深层次的特征表示方式,增强了对汉语嵌套命名实体的辨识疗效。在大规模真实语料的试验四川学院硕士学位论文中证明了该模型是有效的。

第四章从语素的层面思索问题,引入实体语素,并借助多种原子特点、复合特点以及上下文等特点,以及借助Lo百Stic回归模型中L09istic变换方式筛选出的多级前后缀语素特点来辨识多层的嵌套命名实体,大大提升了嵌套命名实体的识别疗效。第五章总结和展望,主要包括对全文研究工作的总结,并提出下一步工作的研究重点以及对将来研究工作的展望。第2章汉语嵌套命名实体剖析第2章汉语嵌套命名实体剖析汉语命名实体结构复杂,种类繁杂,给辨识带来了巨大的挑战。为此,本章全面剖析了汉语命名实体的分类特征,并注重介绍了汉语嵌套命名实体的辨识难点、组织构成、类型分布和嵌套深度等情况。2.1命名实体分类命名实体主要是指对网路出现的大量的、复杂的、非结构化的语言信息。从微观上命名实体可以界定为三大类和七小类:三大类分别为实体类、时间抒发式和数字表达式;七小类分别为人名、地名、机构名、时间日期、货币测度衡、专有名词和比率。目前,对时间表达式和数字类的命名实体的辨识比较简单,其规则的设计和统计训练也比较容易,所以对这类实体的辨识已然达到很高的准确率和召回率。而对实体中人名、地名和机构名的辨识就比较困难,但是近些年来的研究热点主要集中在对实体类当中人名、地名和机构名的辨识上。

从宏观上来看,按照命名实体结构是否存在嵌套关系,本文将命名实体分为简单命名实体和嵌套命名实体两大类,下边对这两类命名实体进行详尽介绍。2.1.1简单命名实体定义2.1:简单命名实体是以单独一个词构成的地名或机构名,或则以一个地名或机构名为开始,旁边以一个非人名、地名或机构名的词句结束的命名实体。它包括由单个地名和机构名组成的命名实体,同时,本文还把所有人名也归为简单命名实体当中。简单命名实体包括的人名有姓氏、名字、错号、别名,还有美称和年号等。姓氏繁杂,在{:中国姓氏集》当中共收集了5544个姓氏,其对线姓3410个,复姓1990个,三字组成的姓氏有144个。并且,因为好多姓氏早已渐渐消失和现代汉语趋向简单化,这也给名子的辨识带来了好多便捷。简单命名实体中的地名相对人名来说相对稳定,即使也会不断出现新的地名,四川学院硕士学位论文但数目降低的速率也在平缓下降。简单的地名包含了一些大国的名称,如:法国、印度、日本、法国等;还有一些城市的名称,如上海、哈尔滨、巴黎、伦敦等;另外还有省会和直辖市的名称,如北京,上海,广州等;以及山川、湖泊和名胜古迹等,如武夷山、故宫、西湖等。

因为这种简单的地名早已步入了基本的词库表当中,所以绝大多数都能被确切辨识下来。简单的组织名包括了由单个词汇构成的团体、机关和其它事业单位名称,如公司、学校、医院和行政部门等。组织名会不断有新的名称形成,并且数量巨大。如新华社、欧盟、北约等。定义2.2:嵌套命名实体是实体内部嵌套有一个或多个人名、简单地名或简单机构名的命名实体,该类型的命名实体主要存在于地名和机构名当中。嵌套的地名主要包括地名内部互相成词的情况,如“朝阳区佛山.路",“南岗区红旗.大道力等;还有就是地名结尾处出现地名特点词汇的情况,如地名前面出现省、市、县、乡、村等,这种词的出现对地名的辨识起到了一定的促进作用,但因为其结果复杂,每一个特点词也可以在其它情况下出现,给对嵌套地名的识别带来了好多困难。嵌套机构名是最为复杂的一种。其结构特征为结尾词一般出现有公司、社团、集团等。还有一些组织和部门名称前面会出现所、部、院和委等字,但是厚度也不易估算。嵌套的组织名当中都会有大量的人名、地名、机构名或则其它专有名词出现,这类组织名所占比列巨大,结构复杂。因而,对嵌套组织名的辨识是命名实体辨识中最困难的一部份。

——.2量.汉语嵌套命名实体辨识面临的主要挑战——目前,命名实体辨识在德语中早已取得了很理想的研究成果,但对汉语来说,命名实体辨识还处在发展中阶段。对于汉语中的时间表达式和数字表达式的辨识相对来说比较简单,但是规则设计和统计训练相对来说比较容易,所以对这一部第2章汉语嵌套命名实体剖析11分实体的辨识早已取得了挺好的疗效。并且,因为汉语中人名、地名和机构名的数目巨大、结构复杂,而且不断有新的名称形成,致使对这一部份的辨识有很大挑战性。汉语命名实体辨识面临的困难【43】m1145】主要有:(1)汉语文本不像英文词与词之间有显性的空格隔开,致使对汉语命名实体的边界很难辨识确切。所以,对汉语中命名实体的辨识是构建在动词的基础上。同时,这也带来了一个新的问题,致使动词的确切率也直接影响了汉语命名实体的辨识疗效。(2)汉语命名实体的宽度没有一定的限制,但是个别类型命名实体的构成成份比较复杂,这给命名实体的辨识带来很大挑战。诸如:“中(中国)"属于命名实体。同时,“北京昌平矿物旅游开发有限公司一也属于命名实体。(3)汉语命名实体中存在一些兼类和歧义[46][47J的现象,就是一个命名实体可以对应到多个命名实体类别,该类型实体大大降低了命名实体辨识的困难。

比如:“华盛顿",既可以指日本的第一任首相,也可以指芝加哥州。(4)命名实体是一个开放的类,数目巨大,但是不断有新的人名、地名或机构名等实体H聊嗍形成。这种新出现的命名实体不可枚举,无法完全收录到辞典当中。(5)汉语命名实体的构成愈发复杂,存在着大量的以缩略语存在的命名实体,很难提取相应规则,因而很难用一种有效的辨识模型来辨识。诸如:“黑龙江学院"的简写方式为“黑大"。(6)汉语命名实体由字或词构成。汉语的词是一个很模糊的概念,没有明晰的一一——一定义;’几乎所有的字都可以作为二个词出现,一其中包括好多地名和人名用字,这也给命名实体辨识带来很大困难。(7)命名实体是文本中很常见的现象,因而可能出现在各类复杂环境中。同样的汉语序列在不同的上下文中可能表示不同的命名实体类别,或则在某种四川学院硕士学位论文II上下文中是命名实体,在其它上下文中就不是命名实体。诸如:人名:“秋月",在个别条件下是指人名,而在其它条件下就是指一种自然水景。地名:“河北”可以指地名,而在其它条件下就是一种泛称黄河以北。目前,对简单的命名实体辨识早已取得了很理想的疗效,但对嵌套命名实体的辨识还没有造成足够的注重。

这是由嵌套命名实体的复杂性决定的,它除了包含了上述困难,还须要面临好多特殊的挑战,如:(1)绝大多数嵌套命名实体都上面嵌套着多种其它类型的命名实体【501,如嵌套了人名、地名或则机构名,其结构非常复杂。诸如:【伊斯坦布尔凰苏利曼/11r清真寺/n】本身是一个地名,但其中又嵌套了地名“伊斯坦布尔"和人名“苏利曼"。【香:港/ns非常/a行政区/n】本身是一个地名,但其中又嵌套了地名“香港"。【中共中央,nt国务院,nt台办历】本身是一个组织名,但其中又嵌套了组织名“国务院一。(2)嵌套命名实体嵌套层次多,辨识上去很困难,因而给命名实体的辨识带来很大挑战。诸如:呲【永顺县/ns]保坪Ins]劳庄/ns]侗寨/n】本身是一个地名,其嵌套层饮为四层~其中第层命名实体为!来凤县舨一第二层命名实体为“永顺-g/ns保坪乡/ns一,第三层命名实体为“永顺县/ns保坪乡/ns劳庄/hs一,第四层命名实体为“永顺县/ns保坪乡/ns劳flE/ns侗寨/n"。第2苹汉语嵌套命名实体剖析iiiiiiiiiiiiiii宣iiiiiiiiiiiiiiiiiiiiiiiiiiii篁iiiiiiii置置ii宣ii宣iiiiiiiii宣ii萱iI【【【【宁复/ns】回族/nz自治区/n】农林/j科大学/n】农小麦/n研究所/n】本身是一个组织名,其嵌套层次也为到四层。

其中第一层命名实体为“宁夏/ns",第二层命名实体为“宁夏/ns满族/nz自治区/n",第三层命名实体为“宁夏/ns满族/nz自治区/n农林历科大学/n”,第四层命名实体为“宁夏/璐藏族/nz自治区/n农林巧科大学/n农小麦/n研究所/n’’。(3)不同领域【5l】【52】的嵌套命名实体也降低了辨识的难度。如生物领域【54】【551、旅游领域【561、产品领域‘5刀和物理领域【58】【591。(4)目前,用于汉语命名实体辨识的小型标明语料库极少,须要不断的扩大语料规模。同时,我们的研究还不能局限于大规模语料库,无指导的命名实体辨识方式也很有意义。据悉,因为文本文档中格式和拼写,以及空格、标点符号等也会降低命名实体辨识的难度。2.3嵌套命名实体结构特征嵌套命名实体数目多,主要存在于地名、机构名当中。含嵌套结构的命名实体主要分三种类型:(1)并列包含同种类型的命名实体:命名实体中包含了同种类型的命名实体,被包含的各个命名实体之间没有层次关系。(2)并列包含多种类型的命名实体:命名实体中包含了其它种类型的命名实体,被包含的各个命名实体之间没有层次关系。

汉语嵌套命名实体辨识方式研究--优秀结业论文可复制黏贴.pdf插图1-拾艺肆

(3)嵌套包含的命名实体:命名实体中包含其它命名实体,被包含的各个命名实体之间有层次关系其中,第(3)种嵌套结构的命名实体中按照命名实体的类型不同又分为两种:一种是命名实体内部嵌套与本身命名实体类型相同的命名实体;另一种是命名实体内部嵌套本身命名实体类型不同的命名实体。四川学院硕士学位论文我们继续在嵌套命名实体的组成成份上总结T/k种类型su如何给单个物体命名,分别为g(1)人名+其它+后缀词该结构的命名实体是由一个人名为开始词,最后由一个后缀词结束,中间成分由一个或多个非人名、地名或机构名的词组成。诸如:“索非亚缸:gYa修道院/n"和“"毛主席/nr记念馆/n。(2)地名+其它+后缀词该结构的命名实体是由一个地名为开始词,最后由一个后缀词结束,中间成分由一个或多个非人名、地名或机构名的词组成。诸如:“长沙市/璐北斗星/nz商(3)组织名+其它+后缀词该结构的命名实体是由一个组织名为开始词,最后由一个后缀词结束,中间成份由一个或多个非人名、地名或机构名的词组成。诸如:“国务院,nt文教历办(4)地名+人名+其它+后缀词该结构的命名实体是由一个地名和一个人名为开始词,最后由一个后缀词结束,中间成份由一个或多个非人名、地名或机构名的词组成。

比如:“湛江市/ns惠珍/nr联合/v诊所/n力。(5)组织名+人名+其它+后缀词该结构的命名实体是由一个组织名和一个人名为开始词,最后由一个后缀词结束,中间成份由一个或多个非人名、地名或机构名的词组成。诸如:“中共中央/nt文献/n研究室/n周/nr恩来缸研究flt/n一。(6)地名+组织名+其它+后缀词该结构的命名实体是由=个地名和-gt织名为开始词,一最后由=伞后缀词——结束,中间成份由一个或多个非人名、地名或机构名的词组成。诸如:伦敦/ns联合国/nt总部/n。(7)地名+地名+其它+后缀词第2章汉语嵌套命名实体剖析iIt"————————该结构的命名实体是由两个地名为开始词,最后由一个后缀词结束,中间成份由一个或多个非人名、地名或机构名的词组成。诸如:“中国/ns驻/v法国脑大领馆/n"。(8)组织名+组织名+其它+后缀词该结构的命名实体是由两个组织名为开始词,最后由一个后缀词结束,中间成份由一个或多个非人名、地名或机构名的词组成。诸如:“中共中央/nt统战部/nt宣传/vn小组/n"。从这八种命名实体的组成成份上可以看出,所有嵌套命名实体都是由一个人名、地名或则机构名为开始词(即前缀词),之后中间有一些非人名、地名和机构名的其它成份组成,最后在由一个后缀词结束。

由此可见,该特点对命名实体的识别很有效。2.4嵌套命名实体统计分布2.4.1命名实体标明语料库本文深入剖析1998年01月份<人民晚报》命名实体标明语料库中汉语嵌套命名实体的结构特征和统计分布规律得出,语料中有13类共106430个命名实体。其中,人名、地名和机构名的数目分别占16.6%、24.5%和16.1%,因为人名中含嵌套命名实体的数目十分少,可以忽视不计。所以,富含嵌套关系的命名实体主要存在于地名、机构名当中,分别占总NE的1.1%和6.4%。如表2-1所示.表2.1嵌套命名实体所占比列Table21Distributionofnestednamedentitiesintheentity-taggedPKUcorpus类型嵌套命名实体数目在本类型中的比列在全部命名实体中的比列】1314.3%1.1%机构名686240.2%6.4%语料库中语料的序列标记过程如图2.1所示。四川学院硕士学位论文图2-1语料厍中语料的序列标明实例Fig2—1AnexampleofsequenceannotationinOlffcorpus2.4.2汉语嵌套命名实体的层次分布本文进一步对嵌套命名实体的嵌套层次进行了总结。

在对1998年1月份<人民晚报》的命名实体标明语料上剖析得出,嵌套命名实体的层次分布有四个级别,分别如下:(1)一层:也就是简单的命名实体。诸如:“中国/ns一、“新华毫k/nt一。C)二层:嵌套命名实体的嵌套层次为两层。诸如:1【中共中乡Unt]国务院,nt]ORG一、“【【黑龙ff./ns】哈尔滨/m]ORG一。(3)三层:嵌套命名实体的嵌套层次为三层。诸如:1【【中国/ns]中医药/n学会/n】急诊/n医学/n分会/nlORG一、“【【【海南/ns]车辆/nI!lk/n公司/n】北海/】陷分公司/n]ORG一。(4)四层:嵌套命名实体的嵌套层次为四层。诸如:“【【【【长沙市/ns]公安局/n】交警历大队,n】党委/n]ORO一、“【【【【山东/ns]徐州/ns]矿!lk/n集团公司/n】东滩矿/n褐煤/n热电站/nl096一。嵌套命名实体中嵌套最深达到四层。因而,我们对嵌套命名实体进行集中分第2章汉语嵌套命名实体剖析析,并采用规则的方式对嵌套命名实体进行不同嵌套层次中数目统计。具体规则方式如下。首先,本文在语料中抽取出了一千多个地名和机构名的后缀词,囊括面十分广泛,如常用的“政府一、“公司"、“协会"、“银行”等词,以及不常用的“立法会"、“综合司"、“民管会”等词。

这种后缀词绝大多数都是名词,其实还有一部分是地名或则机构名的简写词,其它词类的词不能构成后缀词。具体的规则统计方式如图2.2所示。输入条件:后缀词表为彳,层数为layer,嵌套命名实体为职(暇表示该嵌套命名实体由i个词组成)算法步骤如下:(1)取嵌套命名实体Wj。(2)判定嵌套命名实体wi当前词假如为人名、地名或机构名,则层数layer加l,之后取下一个词w斗l。倘若前两个词为地名+地名、地名+机构名简写词等情况,层数layer加1,取下一个词,执行3步骤。(3)判定当前词为后缀词表A里的词,则层数layer加l,否则取下一个词Wh2.假若结束(没有下一个词了)执行第4步,否则执行第2步骤。(4)输出该嵌套命名实体层数layer.图2-2嵌套命名实体层次统计方式流程图Fig2-2Flowchartofthemethodfornestednamedentitylayerstatistics通过上述规则方式,我们统计出每一层嵌套命名实体的数目以及其所占比列(如表2.2所示).由表2-2可以看出,两层嵌套命名实体的数目占总的命名实体的16.O%,三层嵌套命名实体占全部命名实体的2.4%,四层嵌套命名实体占全部命名实体的0.1%。

由此可见,富含嵌套结构的命名实体占全部命名实体的18.5%,最深的层次达到四层,如“【【【【天津市/ns]和平N/ns】碧云里/ns】在嵌套命名实体中,嵌套组织名数目巨大,又不断有新的名子形成,引致嵌四川学院硕士学位论文套组织名的数目远远小于嵌套地名的数目。并且嵌套组织名结构复杂多样,辨识效率很低,降低了整体命名实体的辨识难度。表2-2嵌套命名实体层次分布Table2.2Distributionofnestednamedentitieswithdifferentstructures分别占全部命名占全部命名实命名实体类别层数数目实体中的比列体中的比列简单命名实体一层3512481.5%81.5%二层686416.O%嵌套命名实体三层10462.4%18.5%830.1%2.5本章小结本章详尽剖析了嵌套命名实体的分类、结构和层次分布特征,为之后对嵌套命名实体的剖析和辨识方式的选择上提供了有力的根据。同时,又用不同的方法全面得诠释了嵌套命名实体的特点,并统计了其不同嵌套层次的数目,为嵌套命名实体的辨识结果统计提供了数据保障。第3章基于单层模型的汉语嵌套命名实体辨识第3章基于单层模型的汉语嵌套命名实体辨识面对汉语嵌套名实体辨识问题,本章采用基于机器学习方式建立汉语命名实体的单层模型,并通过实验对最大熵和条件随机场组合成的四种单层模型进行了对比测试。

结果表明基于条件随机场的单层模型对嵌套命名实体的辨识疗效最好。在此基础上,对单层模型的错误辨识结果进行了剖析,因而提出两种基于单层条件随机场模型的改进方式,一种是把单层条件随机场模型与后-处理相结合,通过纠正嵌套命名实体边界辨识错误问题来提升对其辨识结果;另一种是采用混和式方式和深层标记的方式来改进单层模型的辨识疗效。本章结构为,首先方式化问题,之后依次介绍本文建立的四种单层模型辨识方式、双层模型与后处理相结合的辨识方式以及基于混和式的辨识方式,最后给出实验结果。3.1方式化描述嵌套命名实体辨识主要是辨识出文本中出现的嵌套地名和嵌套机构名等实体名词,从而增强全部命名实体的辨识疗效。如给定文本中的语句铲{Wl,W2,W3,…,川,…,W。),其中西为文本月底子,wf为构成语句西的词。继续给出命名实体eF{W。,W:,…,wj),其中白为命名实体,坳为构成某个命名实体的词,该命名实体可能由一个或多个词构成。这时,富含命名实体的诗句就可以表示为:铲{W1,W2,el,Wi+l,…岛,…,wn)……而文本中的嵌套命名实体是指命名实体中嵌套有简单的命名实体i假定一e『一舟简单的命名实体,蜀为一个嵌套命名实体。

则舻{wl,…,Pl,wI,…ejwI)而短语S可以表示为g四川学院硕士学位论文铲{Wl,W2,el,Wi+l,五,…ei,"-E卜.,Wn>其中,f、,、七为0、l、2…,嵌套命名实体辨识就是要通过相应的方式辨识出其中的局。有上述方式化表示可以看出,嵌套命名实体易中嵌套了一个或多个简单命名实体旬,我们依照嵌套命名实体的构造特性,通过先辨识出其中的简单命名实体,之后在简单命名实体的基础上采用多种方式对嵌套命名实体进行辨识的方式是有3.2基于单层模型的汉语嵌套命名实体辨识方式由3.1节方式化描述可以看出,把简单命名实体和嵌套命名实体可以分开处理,可以提升了嵌套命名实体的辨识疗效。所以,本文在分别辨识简单命名实体和嵌套命名实体的过程中,建立了四种单层辨识模型,这四种单层模型都是构建在ME模型和CRF模型理论之上。3.2.1最大熵模型最大熵模型在自然语言处理领域有着广泛的应用,因为它可以将不同来源的信息和知识集聚到一个统一的框架出来剖析和解决,所以,该模型可以解决好多复杂的问题。假定x表示环境或则称为上下文中各类诱因的向量,Y表示某个命名实体的类型,则洲为x和Y的联合机率,即是指模型对某个命名实体预测为某一种类型的机率。

比如命名实体辨识问题虽然就是解决分类问题,假定命名实体总共13类标记,假如通过统计得出“部门打在80%的情况下是属于E-ORG(机构名尾部词)类别,并且对于这个词在其它类中的分布未知。这么,我们就觉得“公司一这个一——词被标记为E.ORG类尉了蒯以可60一的机率属于其它牛=种类别_在诸如饿车’这个成语,假如上下文中没有出现过这个成语,则分别以相同的1/13的机率属于每一个类。即,最大熵模型就是要求在所有诱因工的限制下,致使熵值月取最大值,如公式(3.1)所示。第3章基于单层模型的汉语嵌套命名实体辨识日(n--Zp(y这么,求解满足最大熵原理的机率分布的公式如下:P’=argmaxH(p)(3-2)这儿的限制条件就是已知的信息,假如用特种函数表示,描述方式如下:彳阱{主飒雕甏mbl么…,ll,(3-3)其中,Z(毛y)为最大熵模型的第i个特点,可见特点Z@,力充分描述了-向量x和命名实体的类型之间的联系。最终机率输出为:只吣)2南eXp【椰(毛y)】‘(3-4)乙(工)=exp[,^彳(工,),)】其中,Z-是归一化因子,五是特点的权重,Z表示一个特点。

每位特点对动词选择的影响大小由特点权重丑决定,而这种权重值可由参数恐怕算法得到。最大熵模型求解过程中,须要估算每位特点的残差,然而这种残差不可能通过常用的解析方式求解得到,在这些情况下我们采用了数值估算的方式来解决。1972年Danroeh和Ratelitp提出了一个GIS(GeneralizedIteratineScaling)算法‘“601。在此之后,D.Pietra等又通过增加求解算法的约束条件,改进了原有最大熵的求解算法,

请登录后发表评论

    请登录后查看回复内容

 

昼夜

客服

点击联系站长 点击联系站长

在线时间
12:00 - 22:00

关注微信公众号

关注微信公众号
交流QQ群

244075032

站长邮箱 apeng123@88.com