文本挖掘从采集到知识的发现和使用是一个复杂的过程。首先需要确定文本挖掘的应用范围,包括收集应用所涉及领域内的背景知识,理解应用要求并且确定应用所要达到的目标等任务。之后确定目标文本集合,选取待处理和分析的文本。利用启发式规则和自然语言 处理技术从文本中抽取代表其特征的元数据,并存放在文本特征库中,作为文本挖掘的基础。经过文本预处理之后,根据应用的需要和文本的特点选择适当的挖掘功能。由于每一种文本挖掘功能都包含有不同的算法,各种算法又都有其自身的特点和适用范围,所以需要根据挖掘功能以及文本特点和用户需求,选取合适的算法,确定算法中包 含的参数。运行文本挖掘算法,寻找文本集合中的有用知识。算法运行完成后,以某种方法对发现的知识进行评估,还可根据需要返回前面的步骤进行优化,直到满足要求为止。 解释说明发现的知识,以易于理解的方式提供给用户。把发现的知识运用于解决实际问题或供决策使用。
灵玖软件NLPIR大语义智能分析平台针对中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,先后历时十八年,服务了全球四十万家机构用户,是大时代语义智能分析的一大利器。
NLPIR大语义智能分析平台平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。
NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络采集、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。
中文信息处理技术从70年代的蓬勃发展至今,仅仅经历了短短20多年的时间,便完成了由初级阶段向比较成熟阶段的过渡,这是微电子技术和IT技术高速发展以及迫切的应用需求所促成的。
随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人