第 3 章 疫苗行业背景调研及数据准备
在进行研究工作之前,对所研究的领域进行相关的行业调研和技术调查,有助于研究人员从宏观上把握产业的发展现状、了解行业的技术分支,从而做到心中有数,合理的把握课题的边界,选择研究重点。同时,也会影响后续检索工作中检索式的确定,直接影响最后的专利分析结果。另外,充分的背景调研还能成为补充信息,有助于对分析结果的解读。最后,对行业中相关巨头跨国公司进行了解,掌握其发展和兼并的历史,可以帮助后续相关申请人的合并和统计分析。因此,本文将在整体把握疫苗行业的宏观环境及其技术发展现状后对我国的疫苗产业进行有侧重的分析。
3.1 背景调研。
3.1.1 行业调研《国家中长期科学和技术发展规划纲要(2006-2020年)》以及国务院出台的《"十二五"国家战略性新兴产业发展规划》中将生物产业列为七大战略性新兴产业之一,其中强调了疫苗是生物产业的重点发展方向[66].文件中指出要建立疫苗和抗体的大规模和快速反应生产新技术,系统的疫苗效果及质量评价技术体系,人源化抗体构建及优化技术;对传统疫苗进行改造增效,针对新发、再发重大传染病和多发感染性疾病研制新疫苗和抗体药物;针对恶性肿瘤、心脑血管疾病、代谢性疾病、自身免疫性疾病等重大非感染性疾病,研制治疗性疫苗和抗体药物。疫苗被作为重大专项被提到议事日程上来。同时,最新的国务院办公厅文件《关于促进医药产业健康发展的指导意见》中指出,要完善疫苗供应体系,积极创制手足口病疫苗、新型脊髓灰质炎疫苗、宫颈癌疫苗等急需品种及新型佐剂,同时提出要着力提高疫苗等生物产品的安全性、有效性。
大力实施制剂国际化战略,加快首仿药、重组蛋白药物、抗体药物、疫苗等制剂产品出口[70].可见,国家对疫苗产业的重视。
当前世界传染病和流感频发,疫苗作为最经典有效的公共健康问题解决方法一直备受社会各界的关注,也是各大跨国医药企业的重点研究领域。虽然疫苗市场现在诸多问题,但是其发展前景被广泛看好。随着社会民众对预防疾病的重视程度的增加、预防疾病观念的转变,疫苗种类的增加、使用人群的扩大以及日趋规范的市场开发,预示这这个市场美好的未来。
根据全球知名医药市场调研机构Evaluate Pharma近期发布的一份新报告,2014年全球疫苗销售总额为263.81亿美元,到2020年预计将达到347.27亿美元,2014-2020预测期内的年复合增长率(CAGR)为5%[67].
中国已成全球第三大疫苗市场。世界卫生组织(WHO)的统计表明,中国每年疫苗销售额达10亿美元,且还在以两位数速度增长[68].我国疫苗行业整体增长迅速,总体规模从2010年的90亿元增长到2014年的200亿元,年均增长率达到22%.
高于同期医药工业整体复合增长率,也高于生物制药行业平均水平。
虽然疫苗市场的前景广阔,空间巨大,但是有数据显示,全球前五大疫苗生产商默克和赛诺菲巴斯德MSD、赛诺菲和赛诺菲巴斯德MSD(赛诺菲巴斯德MSD为默克和赛诺菲合资公司)、葛兰素史克、辉瑞、诺华,已占据85%以上的全球疫苗市场份额,未来全球疫苗市场寡头竞争的局面仍将继续,但从数量上而言,五大巨头仅满足了12%~15%的全球需求。而以金砖国家为代表的新兴国家疫苗生产商则满足了超过50%的全球疫苗需求量。对于新兴市场疫苗生产商而言,价格低廉的传统疫苗仍是主要的战场,以满足本国和其他发展中国家的国家计划免疫;与此同时,国际化程度较高的生产商逐步开始研发新型疫苗,进入欧美等成熟市场[69].
从整个行业调研来看,目前我国的疫苗产业发展前景十分良好。首先,从宏观上,具有国家强有力的政策支持,有利于企业进行相关资金投入进行研发。再者,国内的市场巨大,主要来自两个方面,一是我国人口众多,具有天然的较大基数受众优势;二是我国尚存在较大的免疫缺口,世界卫生组织与联合国儿童基金会联合发布声明提出,中国的免疫规划正在快速接近国际水平,但国家免疫覆盖水平仍留有一些重要缺口,需要弥合。这部分免疫缺口包括流动儿童以及童年时期未能按规划接种疫苗的成人[71].
但是,国内企业也面临着挑战。虽然国内具有良好的宏观发展环境和天然的市场优势,但是我国企业在国际上尚缺乏竞争力,并且许多跨国巨头注重在大陆市场的专利布局,加剧市场竞争。同时国际市场上,主要处于寡头垄断和垄断竞争,市场份额大部分被跨国企业巨头所瓜分。可见,国内医药企业在疫苗领域的当下情况是机遇与挑战并存。国内企业迫切需要技术升级以突破技术壁垒,提升竞争力,抢占市场空间。
3.1.2 技术调研在这两百多年的历史进程中,疫苗的发展经历了三次革命:第一次疫苗革命是19世纪末以疫苗之父巴斯德为代表的诸如霍乱灭活疫苗和狂犬病毒减毒活疫苗的发明;第二次疫苗革命是20世纪80年代采用核酸重组技术和蛋白化学技术制备的诸如乙肝亚单位等疫苗;第三次革命是20世纪90年代开发研制的核酸疫苗,核酸疫苗又称为基因疫苗或DNA疫苗,由于核酸疫苗在作肌肉注射时不需要载体和佐剂,因而又称为裸核酸疫苗。
纵观疫苗的发展历程,每次的革命都是源于生物技术的发展而突破。作为第三代疫苗,核酸疫苗具有诸多优点,尤其是具有免疫预防和治疗的双重功能。如今,疫苗的应用不再仅仅使某些烈性传染病得到有效的控制或消灭,而是开始还广泛地应用于计划生育及肿瘤、自身免疫病、免疫缺陷、超敏反应等疾病的预防和治疗。新型疫苗和治疗性疫苗成为当下生物技术发展的新方向[72].
3.2 数据准备。
3.2.1 确定数据源数据来源的选取直接关乎数据的质量,影响文献检索后续的分析结果的可信度,因此本文在选取数据来源时,根据数据库的权威性、数据收录的时间跨度以及数据分析字段的可获得性,最终选择专利信息服务平台数据库为数据源。该数据库由国家法定专利文献出版单位提供最权威、最准确、最及时的中国数据,该专利信息服务平台涵盖了来自全球90多个国家和组织的近7000万件专利文献信息,覆盖范围较为全面[73].
3.2.2 制定检索策略检索策略是为了实现检索目标而制定的方案,在狭义上指的是检索式。是否科学的、准确的制定检索策略直接决定了数据检索的质量,影响检索结果的查准率和查全率,也间接影响了最终信息分析结果的准确性。因此,本文在制定检索策略之前,对所研究的疫苗领域做了大量的文献阅读,明确疫苗的概念,结合前文相关的背景知识,此外,咨询相关专家并反复检测制定的检索式,对检索式进行相关的修正,并对比检索结果,力求检索结果的准确性和全面性。主要目的是为了尽可能的检索出覆盖研究对象的专利文献,尽量避免数据的冗余或缺失。
本文基于第二章中疫苗的相关概念,结合其他疫苗的相关背景知识,了解到疫苗又有"菌苗"、"类毒素"等别称和类别,为了保障查全率,本文将"菌苗"、"类毒素"纳入为检索词,与"疫苗"用布尔逻辑"OR"匹配,另外,为了保障查全率,选定数据库的名称和摘要字段进行检索,最终确定了具体的检索式为:
名称,摘要+=(疫苗 OR 菌苗 OR 类毒素) AND 申请日=(1985.1.1 to2015.12.31)共检索到相关专利文献10818件,其中发明专利10160件,实用新型专利566件,外观设计12件。结合研究目的,本文仅将发明专利纳入分析,将检索的相关发明专利著录数据以下载全记录形式下载并保存至Excel,以备后续数据清洗和标引以及最后的分析。
3.2.3 确定研究工具本研究中,考虑到研究工具的获得性、操作性以及分析功能的需求,最终选择了 Thomson Data Analyzer(TDA)、Ucinet、gCluto 和 Excel 等软件作为数据处理和分析工具。以下,对相关软件做简要介绍:
⑴Thomson DataAnalyzer 软件Thomson Data Analyzer (以下简称为 TDA)是由美国汤姆森公司开发的数据分析工具,该软件以其自动化程度高、界面友好直观、能够高效的对专利数据进行数据挖掘和进行可视化的分析,一直深受用户的喜爱和欢迎。其主要功能包括数据导入和管理、数据清洗及结构化、数据分析。
①数据的导入和管理TDA 软件可以对来自不同的数据库的不同结构的数据进行分析,其适用的数据主要包括包括德温特世界专利索引数据,Dialog、STN、Questel-Orbit、Delphion 等数据库中增值的专利信息,还包括 Dialog、STN 中的专利引文索引,此外还包括从 PatentWeb、Aureka 和 Delphion 中获取的专利文献全文,以及INSPEC 和 ISI 中收录的各种学术杂志,Excel 表格数据。数据管理功能主要包括字段的更名、数据集的拆分、文件的合并以及记录的去重合并等。
②数据清洗和结构化数据分析的结果很大程度上取决于数据的准确性和完整性,通过数据清洗可以让数据的差异性最小和尽量减少词汇的拼写差异、同义词等。TDA 的数据清洗的方法包括及其辅助识别聚类相似术语(List Cleanup)、按照规则识别并聚类相似的术语(Thesauri)、在一个字段中标记类似的术语(Groups),同时了保留条目细节(Classifications)。
③数据分析TDA 软件提供了 List(一维分析)、矩阵分析(二维分析)、MAP 等分析功能。
其中矩阵分析的类型有共现矩阵(Co-occrurrenceMatrix)、自相关系数矩阵(Auto-Correlation Matrix)和互相关系数矩阵(Cross-Correlation Matrix);MAP 的类型包括自相关系数地图(Auto-CorrelationMap)、互相关系数地图(Cross-CorrelationMap)和主成分地图(Factor Map)。
⑵Ucinet 软件Ucinet 软件是由加州大学欧文(Irvine)分校的一群网络分析者编写的。现在对该软件进行扩展的团队是由斯蒂芬·博加提(StephenBorgatti)、马丁·埃弗里特(Martin·Everett)和林顿·弗里曼(LintonFreeman)组成的。该软件最初是一组用 Basic 语言编写的模块,逐渐发展成为综合性的 DOS 程序,现在已经可作为一种 Windows 程序来使用了。这是一个具有通用目标、易于使用的程序,它涵盖了一些基本的图论概念、位置分析法和多维量表分析法等。从某种角度来说,它是当今最好用的社会网络分析程序,最适合新手使用。
⑶gCluto 软件gCluto (Graphical Clustering Toolkit,图形聚类工具包)是 CLUTO 数据聚类文库的图化形前端,其用途就是为 CLUTO 软件提供一个用户友好的图形界面。另外,gCluto 还提供了交互式聚类结果可视化的几种方法。主要功能有:①提供项目树视图:用于管理数据文件,聚类方案和可视化结果;②提供详细对话框:用于选择聚类参数;③提供电子表格界面:用于浏览数据;④提供 HTML 界面:用于浏览聚类结果;⑤Bootstrap 聚类方法。⑥提供可视化矩阵:为一种彩色的交互式矩阵;⑦提供可视化山丘:通过多维标度计算生成的三维山丘聚类图形 .
最后,Excel 作为微软办公软件 MicrosoftOffice 的组件之一,具有强大的数据处理和统计分析功能,还可以绘制不同形式的可视化视图。同时,Excel 文件格式能被 TDA 软件读取,为后续的数据转换、处理和分析提供了便利。
3.2.4 数据预处理如果用于分析的数据过于粗糙或有较大的冗余,会给后续的分析工作带来很大的工作量,另外,粗糙的数据不利于深层次的分析和挖掘,分析的结果的准确性和可信度也会大大的降低。因此,为了保证最后分析结果的可信度和准确性,本文在数据分析的前期对收录在Excel文件中的专利数据进行了人工清洗和去重,去除不必要的噪声。同时,在Excel软件对下载的著录字段进行格式的转换或关键字段的提取,可以使用相关的公式进行快速的数据转换,比如使用公式IF(LEN(A2)=16,MID(A2,7,1),MID(A2,5,1))和公式left(C2,4)可以帮助研究人员简单迅速提取规范字段。
由于疫苗的应用对象可以分为人,动物和植物,并且有些治疗疾病是人畜共患的传染病。文本界定人畜共患的疾病对应的疫苗归为人用疫苗,从而将Excel数据库中的疫苗分为三类,分布是人用疫苗、动物疫苗以及植物疫苗。同时,对计算机网络安全免疫结构中涉及的疫苗迁移,以及种植领域混入的菌苗数据进行剔除。最终排除非相关记录997条,剩余9163条。
此外,本文根据研究目的需要,对人用疫苗对应治疗的相关疾病领域进行了关键词提取。可以利用以下JAVA代码对EXCEL库中的疾病进行迅速提取并自动标引。具体代码如下:
package test;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.InputStream;import java.io.OutputStream;import java.util.Scanner;import org.apache.poi.ss.usermodel.Cell;import org.apache.poi.ss.usermodel.Row;import org.apache.poi.ss.usermodel.Sheet;import org.apache.poi.xssf.usermodel.XSSFWorkbook;public class Exceltest {static InputStream inputStream;static OutputStream outputStream;static String filein="D://疾病标引。xlsx";static String fileout="D://疾病标引。xlsx";public static void main(String[] args) {// TODO Auto-generated method stubSystem.out.println("请确保文件路径为D:/疾病标引。xlsx");while(true){Scanner sc = new Scanner(System.in);System.out.println("请输入病的名称");String string;string=sc.nextLine();//System.out.println(string);//System.out.println(n);re(string);}
}
public static void re(String string){Cell cell1,cell2,cell3;Row row;try{inputStream=new FileInputStream(filein) ;XSSFWorkbook workbook=new XSSFWorkbook(inputStream);Sheet sheet=workbook.getSheetAt(0);int t=sheet.getLastRowNum();int i=0;for(;i<=t;i++){row=sheet.getRow(i);cell1=row.getCell(18);cell2=row.getCell(12);cell3=row.getCell(13);if(cell2.getStringCellValue()。contains(string)||cell3.getStringCellValue()。contains(string)){if(cell1.getStringCellValue()。length()==0){cell1.setCellValue(string);}
else if(string.contains(cell1.getStringCellValue())){cell1.setCellValue(string);}
else if(!cell1.getStringCellValue()。contains(string)){cell1.setCellValue(cell1.getStringCellValue()+" "+string);}
}
}
inputStream.close();outputStream=new FileOutputStream(fileout);workbook.write(outputStream);workbook.close();outputStream.close();System.out.println("ok");}
catch(Exception ex){System.out.println("fail");}
}
}
利用以上代码进行疾病标引之前,需整理好相关的疾病库。本文针对疫苗治疗的相关疾病或针对的相关病毒,确定了以下疾病库。