Qconn

大数据处理与大数据应用

专题出品人: 
专题日期: 
星期六

大数据的核心是从数据中挖掘出价值。正如Google 的首席经济学家Hal Varian所说,数据是广泛可用的,所缺乏的是从中提取出知识的能力。数据收集的根本目的是根据需求从数据中提取有用的知识,并将其应用到具体的领域之中,而不同领域的大数据应用有不同的特点。 这个专题将通过大数据在不同领域的应用案例,探讨如何从海量数据中整理加工和分析,最终挖掘出新的价值。除了传统的互联网公司中的创新数据产品之外,我们计划从全新的角度,邀请国内不同领域的大数据创业公司,这些大数据创新应用的最前沿,如移动大数据应用,社交大数据应用,电商大数据等,分享他们如何通过数据找出新的洞察,并且创造了新的商业价值。同时也会分享他们在实际的大数据应用分析中遇到的各种机会和挑战。

本专题将试图回答:

  • 不同领域的大数据应用有哪些不同特点?

  • 如何收集和运用不同数据源的数据?

  • 如何定位有价值的大数据新应用场景?

  • 如何根据数据做需求生成?

  • 如何根据需求从数据中挖掘出价值?

  • 如何设计新的数据产品?

Abstract: Neuroscience is quickly entering the realm of big data. New technologies for monitoring neural activity are yielding large, complex, high-dimensional data, in some cases reaching 1 or 10 TB per experiment. These data demand entirely new approaches to analysis. The open-source platform Spark is particularly well-suited to analyzing neural data, because it supports iterative computation, it enables interactive, exploratory analysis, and it has a powerful, elegant API that streamlines the development of complex analyses. I will show how we have adapted Spark to the demands of neural data. I will introduce the library we have developed, Thunder, and describe how it implements several large-scale analyses suitable for neural data. I will also discuss ongoing challenges, including strategies for visualization, the development of a standardized format for neural data, and the extension of our analyses to the real-time, streaming setting. Together, our work paves the way towards a general-purpose, open-source framework for large-scale neuroscience.

近几年来,随着智能设备的发展,获得物理世界的实体位置和轨迹成为可能,而利用轨迹数据挖掘知识以提供更智能的LBS服务,是近几年科研界和工业界的研究热点。百度LBS每天满足用户数十亿的定位请求,在满足用户定位的同时,也积累了国内最大规模的位置轨迹数据库,在现在这个数据为王的大数据时代,为百度LBS大数据应用提供了坚实的基础。 演讲者讲分别从基础定位、轨迹挖掘、智能交通等已有大数据实践成果和经验出发,阐述LBS大数据的价值、问题、挑战和解决思路,并将对未来应用进行展望。

本大数据TRACK的主题是“数据驱动生活”,而在互联网中的重要应用网络游戏中,如何应用游戏大数据成为各大游戏公司都一直思考问题,当游戏遇见大数据会碰撞出非常剧烈的火花,首先网络游戏的数据具备下面的特点:

  • 数据具备实时性:网络游戏的数据收集完全可以在线完成,数据不失效;
  • 数据具备海量性:玩家行为数据、游戏采集的数据非常巨大,例如游戏的日志文件,每天以T的指数级增长;
  • 游戏具备纯洁性:游戏中的数据杂质比其他行业数据会少一些,虽然游戏干扰数据处理一个重要研究课题,但是相对而言噪音低,去噪成本不高。

网络游戏大数据处理工作流大致如下:玩家在游戏内外的所有行为数据,以关系数据库或者非关系数据仓库存储所需要的数据,可以利用一些分布式数据库技术,进行并行计算,以节省数据计算时间, 提高数据处理实时性,并使用目前存在的成熟数据挖掘或者机器学习算法,最后得到知识,以挖掘出有用的价值。作为在游戏大数据领导者,我们很早就开始重视综合应用大数据技术到游戏中,这样有利于我们对玩家进行有效地管理,并能够帮助我们在激烈的市场竞争中更好地获取玩家资源,本演讲结合演讲者在大数据研究与游戏行业多年的经验,分享面向游戏行业大数据处理的框架以及面临的挑战,构建大数据时代的网络游戏解决方案,利于改良和优化游戏设计,帮助公司做出正确的商业决策,并节省成本的开销,提供更大的利润空间,总之在网络游戏中,利用大数据技术大有用武之地。

物联网从提出到现在已经有了快10年的历史,从碎片化的小数据到集中规模的大数据,从颗粒化的传感器到智能化的网络,今天物联网已经是集合了传感器信息、地理信息、空间信息、环境信息等多维度信息网络的集合。英特尔中国实验室首席架构师姜小凡博士将在这里对物联网做一次详细的诠释,讲述物联网的历史,并结合他目前进行的物联网空气检测项目(PAM),讲述物联网中小数据与云端大数据相结合的实际案例,对物联网的新概念提出他自己的见解。

Akka 2.3.0开始,提供了cluster sharding和persistence功能,这意味着有状态的Actors现在可以由Akka来自动管理分片集群,并在节点或者actor当掉时恢复状态并几乎立即可用。那么Akka的这些功能是怎么实现的呢?本次分享将以我们在豌豆荚实验室实现的有状态长连接集群spray-socketio为例介绍这些功能,并给出了一个将Transport/State/Business合理分层且实现了实时流式消息接入的架构。

个性化推荐在当前面临着前所未有的机会。首先,移动互联网的蓬勃发展使得我们能够以前所未有的深度和广度接触到用户生活的方方面面,我们从没有像今天这样拥有如此之多的高质量的用户数据,这是个性化推荐进一步提升的数据基础。其次,用户的兴趣图谱和社交图谱越来越清晰的展示出各自有特色的演进脉络,甚至有逐渐成为整个互联网(无论是PC端还是移动端)的基础设施的趋势,个性化推荐系统能够很好的融合各自的优势,成为横跨两者的技术桥梁,给用户带来更加优异的体验。最后,大数据技术和软硬件飞速进步,越来越多复杂的机器学习算法能够较好的并行化和处理更大规模的数据,这也为个性化推荐系统全面提升性能指标提供了有力的技术保障。

在本次演讲中,我们将结合豆瓣在过去一段时间中在兴趣图谱和社交图谱领域的具体实践,来分别讨论上述三方面的变化对个性化推荐系统产生的影响,并对未来演进的方向进行了展望。

生物技术,尤其是以基因组测序技术为中心的高通量生物实验技术的发展已经成为推动大数据相关设施和技术不断进步的重要推动力。人类基因组计划,人类脑科学计划等超大型研究项目的完结和启动,以及相关技术在医疗、健康、农业等方面的应用都离不开一流大数据分析基础设施、技术和人才的支持。本次演讲会介绍数据分析技术如何在医疗健康领域发挥巨大作用,同时介绍以Docker为代表的虚拟化技术、以AWS和Google Compute Engine为代表的云计算设施、以及以Hadoop和Spark为代表的大数据分析技术是如何影响和推动生命科学的研发和应用的。