Python中文分词的原理你知道吗?thread英语的意思是“论坛的帖子”的意思吗
目前基于理解的分词方法主要有专家系统分词法和神经网络分词法等,神经网络专家系统集成式分词法该方法首先启动神经网络进行分词,在实际应用中此类分词算法一般是将其与基于词典的分词方法结合起来,可以把分词算法分为四大类:基于规则的分词方法基于统计的分词方法基于语义的分词方法基于理解的分词方法下面我们对这几种方法分别进行总结,专家系统分词法从专家系统角度把分词的知识(包括常识性分词知识与消除歧义切分的启发性知识即歧义切分规则)从实现分词过程的推理机中独立出来,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,基于统计的分词方法该方法的主要思想:词是稳定的组合,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。
Python中文分词的原理你知道吗
中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词。表面上看,分词其实就是那么回事,但分词效果好不好对信息检索、实验结果还是有很大影响的,同时分词的背后其实是涉及各种各样的算法的。
中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分。根据其特点,可以把分词算法分为四大类:
基于规则的分词方法
基于统计的分词方法
基于语义的分词方法
基于理解的分词方法
下面我们对这几种方法分别进行总结。
基于规则的分词方法
这种方法又叫作机械分词方法、基于字典的分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。
最大匹配法(MM)。基本思想是:假设自动分词词典中的最长词条所含汉字的个数为 i,则取被处理材料当前字符串序列中的前 i 个字符作为匹配字段,查找分词词典,若词典中有这样一个 i 字词,则匹配成功,匹配字段作为一个词被切分出来;若词典中找不到这样的一个 i 字词,则匹配失败,匹配字段去掉最后一个汉字,剩下的字符作为新的匹配字段,再进行匹配,如此进行下去,直到匹配成功为止。统计结果表明,该方法的错误率 为 1/169。
逆向最大匹配法(RMM)。该方法的分词过程与 MM 法相同,不同的是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字。统计结果表明,该方法的错误率为 1/245。
逐词遍历法。把词典中的词按照由长到短递减的顺序逐字搜索整个待处理的材料,一直到把全部的词切分出来为止。不论分词词典多大,被处理的材料多么小,都得把这个分词词典匹配一遍。
设立切分标志法。切分标志有自然和非自然之分。自然切分标志是指文章中出现的非文字符号,如标点符号等;非自然标志是利用词缀和不构成词的词(包 括单音词、复音节词以及象声词等)。设立切分标志法首先收集众多的切分标志,分词时先找出切分标志,把句子切分为一些较短的字段,再用 MM、RMM 或其它的方法进行细加工。这种方法并非真正意义上的分词方法,只是自动分词的一种前处理方式而已,它要额外消耗时间扫描切分标志,增加存储空间存放那些非 自然切分标志。
最佳匹配法(OM)。此法分为正向的最佳匹配法和逆向的最佳匹配法,其出发点是:在词典中按词频的大小顺序排列词条,以求缩短对分词词典的检索时 间,达到最佳效果,从而降低分词的时间复杂度,加快分词速度。实质上,这种方法也不是一种纯粹意义上的分词方法,它只是一种对分词词典的组织方式。OM 法的分词词典每条词的前面必须有指明长度的数据项,所以其空间复杂度有所增加,对提高分词精度没有影响,分词处理的时间复杂度有所降低。
此种方法优点是简单,易于实现。但缺点有很多:匹配速度慢;存在交集型和组合型歧义切分问题;词本身没有一个标准的定义,没有统一标准的词集;不同词典产生的歧义也不同;缺乏自学习的智能性。
基于统计的分词方法
该方法的主要思想:词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好地反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程 度高于某一个阈值时,便可以认为此字组可能构成了一个词。该方法又称为无字典分词。
该方法所应用的主要的统计模型有:N 元文法模型(N-gram)、隐马尔可夫模型(Hiden Markov Model,HMM)、最大熵模型(ME)、条件随机场模型(Conditional Random Fields,CRF)等。
在实际应用中此类分词算法一般是将其与基于词典的分词方法结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
基于语义的分词方法
语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等。
扩充转移网络法
该方法以有限状态机概念为基础。有限状态机只能识别正则语言,对有限状态机作的第一次扩充使其具有递归能力,形成递归转移网络 (RTN)。在RTN 中,弧线上的标志不仅可以是终极符(语言中的单词)或非终极符(词类),还可以调用另外的子网络名字分非终极符(如字或字串的成词条件)。这样,计算机在 运行某个子网络时,就可以调用另外的子网络,还可以递归调用。词法扩充转移网络的使用, 使分词处理和语言理解的句法处理阶段交互成为可能,并且有效地解决了汉语分词的歧义。
矩阵约束法
其基本思想是:先建立一个语法约束矩阵和一个语义约束矩阵, 其中元素分别表明具有某词性的词和具有另一词性的词相邻是否符合语法规则, 属于某语义类的词和属于另一词义类的词相邻是否符合逻辑,机器在切分时以之约束分词结果。
基于理解的分词方法
基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。目前基于理解的分词方法主要有专家系统分词法和神经网络分词法等。
专家系统分词法
从专家系统角度把分词的知识(包括常识性分词知识与消除歧义切分的启发性知识即歧义切分规则)从实现分词过程的推理机中独立出来,使知识库的维护与推理机的实现互不干扰,从而使知识库易于维护和管理。它还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功能。
神经网络分词法
该方法是模拟人脑并行,分布处理和建立数值计算模型工作的。它将分词知识所分散隐式的方法存入神经网络内部,通过自学习和训练修改内部权值,以达到正确的分词结果,最后给出神经网络自动分词结果,如使用 LSTM、GRU 等神经网络模型等。
神经网络专家系统集成式分词法
该方法首先启动神经网络进行分词,当神经网络对新出现的词不能给出准确切分时,激活专家系统进行分析判断,依据知识库进行推理,得出初步分析,并启动学习机制对神经网络进行训练。该方法可以较充分发挥神经网络与专家系统二者优势,进一步提高分词效率。
以上便是对分词算法的基本介绍。
thread英语的意思是“论坛的帖子”的意思吗
Thread 线索 指一个给定主题上的一系列交谈文章。既可以存在于新闻组,也可以位于在线服务中的某些地方,还可以一连串电子邮件的形式存在灌水/灌广告(英文中绝对贬义!) spam/spamming 中文里的“灌水”一词形象生动,一些人为了获得积分在论坛里反复留言,在回别人帖子的时候没有做出交际性的评论,只是简单的表示“同意”、“支持”,内容与主题无关,这种现象在英语中叫 bump,它在论坛里是“顶”的意思:To bump a thread on an internet forum is to post a reply in order to raise the thread’s profile by returning it to the top of the list of active threads. This is also called “necroposting“. 这种“灌水”往往被认为是一种垃圾留言(spam),被很多论坛禁止
Python从入门到实践的教程是什么
第一阶段Python基础与Linux数据库,这是Python的入门阶段,也是帮助零基础学员打好基础的重要阶段,让零基础学员可以具备基础的编程能力,并掌握MySQL进阶内容。同时,学员还可以通过所学知识完成银行自动提款机系统实战、英汉词典、歌词解析器等阶段项目。 第二阶段 WEB全栈,学员可以掌握掌握WEB前端技术内容、WEB后端框架,并熟练使用Flask、Tornado、Django。学完后可以完成爱鲜蜂、数据监控后台的阶段项目。 第三阶段数据分析+人工智能,学员可以掌握爬虫、数据采集,数据机构与算法进阶和人工智能技术。学完后可以完成爬虫攻防、图片马赛克、电影推荐系统、地震预测、人工智能项目等阶段项目。 第四阶段高级进阶,学员可以掌握自动化运维与区块链开发技术,可以完成自动化运维项目、区块链等阶段项目。
云计算中VEPA和TRILL指的是什么
VEPA是指存储网,TRILL是指计算网。VEPA(虚拟以太网端口聚合器)标准是解决因虚拟机的增加而引发的管理难题。其核心是卸载虚拟机使用的软交换,将服务器资源释放出来。Gartner称,到2012年数据中心全部工作的50%都将被虚拟化。这也是VEPA值得期待的原因。IEEE称,VEPA预计在今年年中获得批准。 TRILL(多链接透明互联)由IETF推进,属于2层标准,解决交换方面的一些原有不足。其核心是为克服生成树协议(STP)在规模上和拓扑重聚方面存在的不足。由于TRILL是一个基于最短路径架构路由的多跳标准以太网络,因此用户能够建立大规模的以太网和以太网光纤通道数据中心网络。不过,业界对于TRILL的看法不一。如思科提出了反对的观点。思科表示,其运行在Nexus7000交换机中的FabricPath软件,完成了TRILL准备完成的任务,并且比TRILL具备更多的功能。但不容忽视的是,在IP领域,思科具有众多的自有技术。分析师预测,该标准产品将会在今年上半年出现在市场上。好消息是,锐捷网络刚刚推出的数据中心交换机系列产品宣称已经支持TRILL。
版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本站联系的,一经查实,本站将立刻删除。