182-1095-8705
最新公告:NOTICE
8月1日起,国家知识产权局停征和调整部分专利收费,详情参阅资讯中心公告

专利申请

当前位置:专利申请 > 国内专利 > 专利申请 >

数据挖掘技术在专利信息分析中的应用,日常容易踩到的几个CPC提交雷区讲解

专利代理 发布时间:2024-03-20 13:51:27 浏览:



今天,乐知网律师 给大家分享: 数据挖掘技术在专利信息分析中的应用 ,日常容易踩到的几个CPC提交雷区介绍。



数据挖掘技术在专利信息分析中的应用


一、引言 随着当前科学技术和知识经济的飞速发展,企业之间的知识竞争日趋激烈,经研究者发现,企业间的竞争可以通过所拥有的自主知识产权来集中体现,特别是专利的数量和质量的竞争[1]。

而在企业拥有了海量的专利之后,如何从海量的专利信息中理性的获取隐含的情报信息,挖掘出专利的潜在价值,使其成为企业决策过程中的有效依据将是一个巨大的挑战。

在这样的背景形势之下,专利分析(Patent Analysis)作为一种独特而实用的分析方法,可以为企业提供有效的企业竞争情报[2]。

传统的专利信息的分析方法主要包括原文分析法和数据统计等方法,即通过专利文献上所固有的指标数据(如专利申请号等)来识别相关文献,然后对指标数据进行统计以取得动态发展趋势的分析报告。

由于这种传统的分析方法没有建立在专利本身潜藏的知识体系上,因此,面对大量的专利文献数据时,不仅工作量繁巨,而且对专利文献的应用也只停留在表层,导致分析不够透彻。

而数据挖掘技术可以从大量杂乱无章的、无法通过人工进行统计的数据中发掘出潜在的信息,而且还可以通过计算机手段将潜在的关系进行构建,呈献给人们以示规律,因此,数据挖掘技术将是优先考虑的专利分析技术[3]。

本文采用数据挖掘技术来代替现有的传统分析方法,获取海量专利数据中原来无法挖掘到的内容和规律。

同时采用合适的模型和参数,真正发挥数据挖掘技术应用在专利分析中的作用[4]。

二、 数据挖掘技术在专利信息分析中的技术与实现 本文章将数据挖掘作为一个专利分析的强有力的工具被引入到专利分析中来,主要通过有效的数学模型来对选择的专利信息的数据进行详细分析和处理,更深层次的对专利信息进行有效的分析和挖掘,从而可以深入、充分而且有效的挖掘出隐藏在大量专利信息背后的重要知识。

进一步可以解决例如专利预警和警情分析中存在的问题,例如,在某一个产品进入市场尤其进入国际市场之后,将不可避免遭遇国际知名产品在某一些技术方面的竞争和阻击,通过数据挖掘技术可以针对该产品相关的专利信息进行分析和处理,即挖掘和分析高风险技术的专利情况,从而尽早避免可能发生的侵权争端。

1。 专利信息的来源及分类 本文利用专利数据库平台作为数据采集源,采集相关的专利样本,例如,可以通过专利搜索引擎筛选一定数量的、已经公开的发明专利文献。

本文在利用数据挖掘技术对专利文献进行分析之前,可以按照专利文献的分类号对专利文献进行分类。

国际专利分类法(IPC) 是目前最为权威、应用最广的专利技术主题标识编码之一,它具有编排合理且通用性好的特点[5]。

由于过于细致的IPC分类号对专利文档主题的揭示并不有利,因此,研究者认为采用专利文献的专利小类作为分析基础,例如取专利文献IPC分类号的前4位。

2。 对分类后的专利文献进行数据训练 由于专利文献是文本格式类型的文件,为了能够把数据挖掘技术,例如聚类技术应用到文本格式类型的文献中,需要对文本格式的文献进行数据训练,数据训练用于实现对真实的专利文献进行文本的预处理,包括对专利文献进行分词、关键词训练和提取,以及对关键词的权重计算,其中,关键词训练和提取主要包括词性标注和停用词过滤。

(1)专利信息的分词处理 需要对分类后的专利文献进行分词处理,从而获取到每个专利文献中的若干关键词,专利文献中的这些关键词用于表征当前专利申请的主要核心技术、主要用途的词或短语。

此处需要重点说明的是,由于中文语句的特点是在一句完整的语句中无法通过空格将词汇分割,因此,分词技术主要针对中文文本的专利文献,分词策略可以包括:按照扫描方向的不同可以分为正相匹配和逆向匹配的分词策略;按照字符串的不同长度的优先策略可以分为最大匹配和最小匹配的分词策略;按照是否有词性标注的方式,可以分为单纯分词和分词与标注相结合的分词策略。

分词技术可以将文档词汇化,为关键词训练作基础。

而针对英文语句,由于英文单词之间一般采用空格隔开,从而使得英文语句无需进行分词处理,但需要对英文专利文献进行剔除和整合词语的预处理。

在英文专利文献中,类似于an、the、that、first等介词、连词、数量词属于没有特殊标注性含义的停用词,在文本挖掘不具备关键术语的特征,因此,在英文专利文献的文本预处理过程中需要剔除停用词。

另外,由于英文词汇中某个词语可能存在大量变形和时态的变化,一个词语变形后的多个词汇表征的含义相同或相似,也不具备关键术语的特性,因此,在英文专利文献的文本预处理过程中需要将具有相同或相似含义的词句进行整合。

经文本聚类分析领域的一些专家研究发现,文本预处理过程中提取的关键词通常只包括名词或名词性短语的概率较大。

以申请号为200910092794.8的专利为例,系统在自动加载了原始的摘要和用途字段之后,可以自动进行分词处理,提取并显示关键词。

(2)关键词训练 为了将专利文献转化为计算机可以处理的信息,需要对分词处理有的专利文献进行关键词训练,关键词训练的主要目的是为了提取有代表性的词汇,以便于生成专利文档的可以表征文档特性的向量,本质上就是将无结构的原始文章进行科学抽象,建立数学模型,用结构化的语言表征文档本身。

目前人们通常采用向量空间模型来描述文本,用特征向量来表示文档本身。

由上可知,上述针对专利文献的数据训练过程,通过关键词的频率及权重确定了每篇专利文献的特征向量,实现了对海量的专利文献的分类整理和文本预处理,完成了为每个专利文献为基础的源文档建立唯一的向量表,为后续的聚类功能提供了有效的数据源。

3。 对专利文献构成的源数据进行聚类 本文研究的是如何将根据某一技术领域的专利信息对涉及到的技术进行方向划分,其实也就是聚类。

之所以会研究这个问题主要在于两个原因:1) 一个技术领域的专利太多,人们可能关心的仅是某一方向上的关键技术,即需要的仅是一个较小方向范围的内的专利信息,这需要筛选;2) 人们需要判断某一篇专利在一个方向内是否又相似的专利,以防止侵权或者重复申请,因为重复申请是无效的。

通过聚类技术我们可以将一个领域内的专利案技术分类进行划分,同时可以判断出一个专利属于那些个方向,聚焦到一个聚类中分析。

数据挖掘领域常用的聚类技术可以包括如下几种:基本k均值技术、二分k均值技术、基于密度的DBSCAN聚类、模糊聚类和EM聚类等。

本文利用数据挖掘技术中的凝聚层次聚类算法,依据余弦相似度作为聚类合并的依据,对得到的每个专利文献的文档向量来进行聚类,即在对文档向量集合中的每个文档向量进行初始化之后,使得若干个专利文档作为一个簇类,然后通过凝聚层次聚类算法的到需要合并的簇类,最终得到该文档向量集合的簇类结果。

4。 专利信息的聚类分析结果及其布局图。

本文利用上述聚类方法聚类得到的聚类数目,分别作出在该选定数目下的聚类比重图、历史变化图,通过曲线变化和数量对比,从而进一步得到某些方向的专利文献数量趋冷还是趋热,专利方向的变化如何,等等非常具有价值的信息。

以2010、2011、2012公开的关于某搜索引擎产品在数据分析领域的150篇专利为例,在确定聚类数目为10的情况下,对10个聚类当中的具体每一个簇包含多少篇专利文献进行统计,获取每个聚类当中所包含的专利文献数量。

编号为3,6,9的聚类,比较其他聚类专利文献的数据量占比例最大,以上述3个聚类作为考察对象可以直观的确定哪类技术的专利申请量最多,最集中。

分析可知,3,6,9的聚类中的专利技术处于成熟期,这些技术分布范围大,市场占有可能趋于饱和,专利申请量保持稳定;4,5的聚类中的技术处于引入期,该搜索引擎产品的厂商在这些领域技术开发较少,基本属于原理性和基础性的专利;1,2,10的聚类中的专利处于技术发展期,市场在逐步扩大,数量应该是继续增长。

基于此可知,如果该搜索引擎厂商在进军中国市场,例如,研发、销售搜索技术类产品时,可以根据上述分析结果做出以下对策:主要针对发展期的的专利产品进行大力改进和开发,针对成熟期的产品则可以持保守态度,需要时可以采用向对方进行技术许可的策略。

同时,可以针对聚类结果进行更加深入的聚类评估,评估的目的在于判断数据集合是否存在于某聚类中和聚类数量的确定,企业可以利用评估结果解决如下疑惑:

1)利用凝聚度来确定专利文献构成的专利技术在各个自然年的专利数量分布情况。

仍旧以上述2010、2011、2012公开的关于某搜索引擎产品在数据分析领域的150篇专利为例,统计上述3年中,专利数量在3个主要聚类当中的所占数量。

由于上述簇类3、6、9中的专利可以认为是该搜索引擎产品在数据分析领域的重点专利,根据图3的分析结果,簇类6中的专利在逐年减少,可以推测该类技术可能在2013年进入饱和期,这类技术快要被淘汰;簇类3和9中的专利在2010年到2011年大幅增加,但到2012年大幅减少,可以说明这类专利从快速成长期到稳定成熟期的阶段。

2) 利用分离度来确定几个簇类之间的关联度,从而确定对于海量专利文献如何将他们按照内部特征进行分离,以供挖掘出一些潜在信息,例如,比对任意两个或多个自然年,分析得出针对同一个技术领域的研发能力哪一个自然年的研发技术明显更强。

仍旧以上述2010、2011、2012公开的关于某搜索引擎产品在数据分析领域的150篇专利为例, 研究每个自然年中那个聚类的热度。

分析可知,2010、2011年聚类3的比例最大,2012年聚类9的比例最大,由此我们能够知道,在3个大的聚类当中:聚类3是2010、2011年的最热门方向,聚类9是2012年的最热门方向。

3) 为了进一步的发掘3个聚类内部的趋冷趋热程度,可以将比例变为纵坐标,年份作为横坐标,做出如图5所示的聚类趋势变化图。

聚类3从2010年开始,逐年申请的专利在比例上较为持平,下降并不明显,说明该方向技术研究及开发的热度具有一定的持续性。

聚类6从2010年开始,逐年申请的专利在比例下降得比较明显,说明该方向的技术研究及开发的热度在趋于变冷。

聚类9从2010年开始,逐年申请的专利在比例上上升得非常明显,说明该方向的技术研究及开发的热度在趋于变热。

由此可知,利用聚类评估技术作为聚类处理的方法,其主要目标是要在海量专利数据中挖掘潜在的、未知的类别体系。

上述分析过程还可以进一步扩大到对多家竞争企业的专利进行分析,可以获取哪些公司的专利布局最早出现、在哪些年份专利申请量最多、专利申请量是阶梯式增长还是减少等信息,然后进行比较,从而得到整个行业的技术发展的分析结果,例如,在搜索领域哪些技术是核心技术,哪些是被淘汰的技术,哪些技术有更大的发展空间和投资空间等。


日常容易踩到的几个CPC提交雷区介绍


1。 关于申请人中文名 国外友人刚刚委托了一个今天官方绝限的案子,申请人没有中文名怎么办?不要着急,对于首次申请或通过巴黎公约途径进中国的案子来说,申请人的中文名在提交时是必须的,如果不能得到客户的回复并且通过查询也查不到的话,可以暂时意译或者音译一个中文名先提交上去,后续客户提供了中文名后再向专利局做著录项目变更,同时提交申请人签字的宣誓书电子件。

对于通过PCT途径进中国的案子来说,如果没有申请人中文名的话,在提交时可以采用“译名待定”的方法提交,后续拿到申请人中文名时再提交主动补正。

2。 关于发明人 首先,笔者想先强调一下第一发明人身份证号的问题。

2022年7月22日,CPC客户端修改了校验规则:国际申请进入中国国家阶段声明(PCT)(150101)中,当第一发明人的国籍为中国时,第一发明人的身份证号不再强制要求输入。

即,通过PCT途径进中国的案子,即便第一发明人的国籍为中国,没有第一发明人的身份证号也可正常签名提交申请。

而对于首次申请或通过巴黎公约途径进中国的案子,如果第一发明人国籍为中国,第一发明人的身份证号还是强制要求输入的。

但是笔者发现,对于外观设计专利申请,第一发明人是中国国籍的,没有身份证号也是可以签名提交的。

其次,亚裔发明人在提交时还没收到中文名的话也是可以提交的,即,可采用“译名待定”的方式先行提交,待收到发明人中文名后做主动补正即可。

但偶尔会遇到审查员不接受主动补正的情况,这个时候就需要做著录项目变更,著录项目变更同时还需提供发明人签字的宣誓书。

因此,为了避免给客户造成困扰,笔者还是建议在收到发明人中文名后再提交申请。

最后,笔者和小伙伴每天会遇到各种形式的非亚裔发明人的英文名,如果不是经常接触外国人的名字,在翻译时可能会困惑到底哪个是姓、哪个是名呢?下面笔者就跟大家分享一下处理经验。

1)如果英文姓名的各单词中间有逗号,则逗号前面为姓,后面为名。

比如Weis, Benno,可译为“本诺·魏斯”。

那么大家说了,如果遇到了更长的名字,例如:VAN HEERBEEK, Hendrikus Petrus Cornelis,这种情况下的翻译顺序怎么定呢?其实也很简单,按照前面的翻译原则可译为“亨德里克斯·彼得鲁斯·科内利斯·范·黑尔贝克”; 2)所有单词全部大写或者所有单词均是首字母大写,则后者为姓、前者为名,例如:LASZLO HARS - 拉斯洛·哈尔斯;Helen Druce Hiller - 海伦·德鲁斯·希勒; 3)如果一个单词全部大写,别的只有首字母大写,则全部大写的为姓,例如:James MOORE-詹姆斯·莫尔。

坚持以上三点原则的话,相信不管碰到多长的名字都不是问题了。


海外专利申请的重要性与申请途径讲解


《保护工业产权巴黎公约》简称巴黎公约,申请人在首次向缔约国(177个成员国)中的一国提出正规申请的基础上,可以在一定期限(发明和实用新型:12个月;外观设计和商标:6个月)内要求优先权并向其它任何缔约国申请专利保护。

这一途径的一个好处是,如果申请人有意在几个目标国取得保护,且不需要同时向各国提出全部申请,而是有6个月或12个月的时间来决定希望在哪些国家申请保护。

也就是说,对于有清晰的海外专利申请目标国且申请国家较少的专利申请,可优先考虑巴黎公约途径。

PCT是《专利合作条约》的英文简称,是在巴黎公约下只对巴黎公约成员国开放的一个特殊协议。

按流程先后顺序,PCT又分为国际阶段(提出专利国际申请)和国家阶段(进入目标国)。

需要注意的是,PCT在国际阶段不存在授权,需要在自申请日起30个月(或32个月)内进入国家阶段后才能获得授权;如超过期限后想再次进入目标国,申请人可通过缴纳一定费用来恢复获得PCT进入国家阶段的权利。

需要注意的是PCT途径包含发明和实用新型申请,而外观设计不能通过PCT途径申请。

按照巴黎公约的规定:

(1)申请人需要分别向每一个国家提出申请,这就需要申请人要针对目标国规定语言准备专利申请文件,并完成递交;(2)各受理专利申请的国家就同一件发明申请分别进行初审、实审等工作,流程较为繁琐;(3)申请人在提交海外国知局之前,需要向中国国家知识产权局专利局提出保密审查请求。

而采用PCT途径时:

(1)申请人只需要使用一种语言向一个专利局提交一份申请,该申请自国际申请日起在目标国具有正规国家申请的效力;(2)申请人可以指定所有的缔约国,并在进入国家阶段前保留选择的余地;(3)国内申请人利用PCT途径提交专利国际申请时可使用自己熟悉的中文或英文语言撰写专利申请文件,并直接递交到中国国家知识产权局专利局。


更多关于 数据挖掘技术在专利信息分析中的应用 ,日常容易踩到的几个CPC提交雷区讲解 的资讯,可咨询 乐知网。

(乐知网- 领先的一站式知识产权服务平台,聚焦 专利申请,商标注册 业务)。


关键词: 申请专利 如何申请专利