张华平(如何躲避大数据对我隐私的追踪)

1. 张华平，如何躲避大数据对我隐私的追踪？

大数据这个术语的出现大概可追溯到Apache的开源项目Nutch。当时，大数据——Big Data——是用来描述为更新网络搜索索引需同时进行批量处理或分析的大量数据集。随着MapReduce和Google File System（GFS）的发布，从2009年开始，大数据才开始成为互联网行业的流行词汇，也吸引了越来越多的关注。物联网、云计算、移动互联网、手机与平板电脑、PC以及遍布各个角落的各种各样的传感器，无一不是大数据的来源或承载方。可以说，大数据就在我们的身边——从阿里巴巴、1号店、京东商城等电子商务数据，到QQ、MSN等即时聊天内容，再到Google、Bing、百度，又到社会网络与微博数据等，都在生产、承载着大数据。

随着大量的数据的产生也给数据处理和挖掘带来许多困难，信息处理量的增大（注：据统计，Facebook对某一主题进行搜索时，需在超过50TB的数据中迅速找出相关内容；在eBay存储了超过2PB的数据以备查询需要），很多传统方法（如RDBMS、SQL查询等）都不能直接应用在对海量数据的处理上，否则时间开销将会变得非常大。对大数据的挖掘与分析变得愈发重要。而通过对Google、百度、Bing、Facebook、网页文本、微博消息等的挖掘与分析，使人们的行为和情绪的细化测量成为可能。挖掘用户的行为习惯和喜好，从凌乱纷繁的大数据背后找到符合用户兴趣和习惯的产品和服务并对产品和服务进行有针对性地调整和优化，本身就蕴含着巨大的商机。

北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。

NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块，平台提供了客户端工具，云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中，可兼容Windows，Linux， Android，Maemo5, FreeBSD等不同操作系统平台，可以供Java，Python，C，C#等各类开发语言使用。

避无可避

除非你躲到深山老林里与世隔绝。否则只要你在社会上活动，与人交往，就无比避免的留下个人信息。

张华平(如何躲避大数据对我隐私的追踪)

2. 北京理工大学副教授所带研究生论文被全文抄袭？

其实怒批解决不了问题，因为抄是一种大势，或是一种必然！无任大学生还是研究生写论文，其要求不能脱离实际，不应有字数限定！该有的只能是格式及相应的逻辑论述方法！首先解决的是会不会写的问题，而不是一定要有成果！只要做到要求务实，论文才不需抄袭，否则，是逼迫人家抄袭！

3. 华阴人民医院院长是谁？

孙晓军。华阴市人民医院位于举世闻名的西岳华山脚下，创建于1949年，占地面积69.5亩，建筑面积3.2万平米，业务用房面积2.5万余平米，是一所集医疗、教学、科研、预防、保健、康复、急救为一体的全民所有制二级甲等综合医院，承担着市境内及周边地区各类突发事件的应急救护和人民群众的医疗保健任务，是华阴市合疗、医保、创伤救治定点医院。

4. 对数据进行聚类的目的是什么？

聚类

聚类是一种无指导的机器学习方法，在机器学习、统计分析、模式识别、数据挖掘、生物学等许多领域得到了广泛的研究与应用。聚类的基本目的是将数据对象按照一定的标准分成若干个簇，使得同一个簇中的对象之间相似度较大，不同簇之间的对象相似度较小。文档的聚类分析与一般的聚类分析类似，往往包括如下5个步骤：(1). 模式表示，往往包括特征抽取和特征选择，把数据对象表示成适合于算法可计算的形式；(2). 根据领域知识定义模式之间的距离测度公式；(3). 聚类或者分组；(4). 数据抽象表达（如果需要）；(5). 评价输出结果（如果需要）。这里主要对前三个步骤进行介绍。文本聚类分析首先要考虑的是文本表示问题，即如何从一个电子文本的符号和文字中抽取出特征，通过这些特征来表示相应的文本，利用这些特征数据进行聚类分析。不同的文本表示形式包括可以选择不同的表示模型（如向量空间模型、概率模型、语言模型等），可以选择不同的特征选择方法，可以利用LSI等不同的降维策略等。常用的表示方法是向量表示法。向量空间模型将文档表示成一个向量，向量的每一维表示一个特征，该特征可以是一个字、一个词、一个n-gram或某个复杂的结构。通常情况下，利用向量空间模型表示文档时，需要对于文档进行切分（即前述的中文分词，对英文而言是通过词的分界符识别单词）、停用词处理、英文词的词形还原或者提取词干，经过这些步骤的处理，基本上可以得到一系列词并将其作为文档的特征。所有的这些词构成一个“空间”，每个词对应着空间中的一维。每个文档可以用文档中的词来表示，这些词及其权重构成一个向量。向量的每个维度描述对象的一个特征，每一个特征的重要度通常采用TF*IDF的计算方法来衡量，更多的工作是通过参数调节上获取更好的效果。北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析平台，它是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类