201804-11 常用的几种大数据架构剖析 数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统,对于BI系统来说,大概的架构图如下:可以看到在BI系统里... 继续阅读 >
201803-12 不是技术也能看懂云计算,大数据,人工智能 我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提大数据,谈人工智能的时候也会提云计算。所以说感觉他们又相辅相成不可分割,如果是非技术的人员来讲可能比较难理解说这三个之间的相互关系,所以有必要解释一下。一、云计算最初是实现资源管理的灵活性... 继续阅读 >
201712-25 如何做到单机毫秒完成上亿规模大数据常规统计 虽然现在最火的是AI,但是大数据和计算能力仍然是机器学习/AI算法的重要支撑,我们的业务场景大部分是通过手机终端、服务器日志不断产生日志数据,通过消息通道发送到大数据平台进行存储、加工和统计,然后在统计数据之上提供算法挖掘用户偏好行为和画像,为此,我们的关键任务是需要从海量数据里统计分析每项产品的去重用户、新增用户、pv、uv、dau(日活)、mau(月活)等指标,这个过程存储占用越少,计算时间越快越好。Fourinon... 继续阅读 >
201707-28 9个最佳的大数据处理编程语言 大数据的浪潮仍在继续。它渗透到了几乎所有的行业,信息像洪水一样地席卷企业,使得软件越发庞然大物,比如Excel看上去就变得越来越笨拙。数据处理不再无足轻重,并且对精密分析和强大又实时处理的需要变得前所未有的巨大。那么,在巨大的数据集中进行筛选的最好工具是什么?通过和数据骇客的交流,我们知道了他们用于硬核数据分析最喜欢的语言和工具包。R语言在这些语言名单中,如果R语言排第二,那就没其他能排第... 继续阅读 >
201705-23 滴滴出行海量数据背后的高可用架构 作者介绍许令波,花名君山,现任滴滴出行技术研究员,从事容器化和资源调度方面的技术建设。曾在淘宝工作七余载,经历了淘宝网PV从1到50亿的增长历程。其中涉及端与管道、应用层代码级、应用架构和端到端等全链路的优化,架构方面从单个应用到分布式、无线多端、中台以及国际化的演进。这些积累的经验同时也在滴滴得到应用实践。挑战高可用架构建设的流量与业务复杂性何为高可用?原则有三:故... 继续阅读 >
201602-19 大数据三重门 这篇文章对大数据未来的发展趋势做了一个推演,如能对大家有所启发更好,否则权当做一篇碎片化时代产生的快速消费品一看而过即可。人类实现了信息的存储,就像TimeMachine一样,回到任意一个点,通过已有的数据重新构建过去的影像,也能够预测未来,模拟一个虚拟而准确的未来环境大数据第一重这是大数据的第一阶段,也是大数据当前所处的阶段。这个阶段的表象是:大数据部门在大部分公司遍地开花,大家一拥而上这一阶... 继续阅读 >
201601-30 Java程序员使用的20几个大数据工具 最近我问了很多Java开发人员关于最近12个月内他们使用的是什么大数据工具。这是一个系列,主题为:语言web框架应用服务器SQL数据访问工具SQL数据库大数据构建工具云提供商今天我们就要说说大数据。根据维基百科,大数据是数据集的一个广义的术语,并且该数据集是如此庞大和复杂,以致于传统的数据处理应用程序无法胜任。在许多情况下,使用SQL数据库用于存储/检索数据就足够了。但在... 继续阅读 >
201412-17 大数据翻页的难点和技巧 今天要讨论一个传统的问题,问题本身比较简单,就是针对大数据,如何优化方案做到性能与成本的平衡。我们经常会遇到一种Key-list类型数据,如一个用户的好友关系{“uid”:{1,2,3,4,5}},表示uid包含有5个好友;一条微博下面的评论id列表{“weibo_id”:{comment_id1,comment_id2……}},一个用户发表的微博id列表等。在list长度较少时候,我们可以直接的使用数据库的翻页功能,如SELECT*FROMLIST_TABLELIMIToffset,... 继续阅读 >
201412-10 有关编程的12个猜想 编程世界的将来如何目前仍难预料,但可以肯定的一点是技术一直在加速发展。以下搜罗出12个独特的视角猜想,我们一起来看看有哪些猜想在不久的将来就能变为现实?1.GPU接班CPU游戏玩家们热衷于吹嘘自己的显卡有多快多高端,全开特效有多少多少FPS,而事实上GPU前进的步伐不会仅限于此。物理学家利用GPU来进行高速微观分析,航天学家利用GPU来模拟天体运动,生物学家利用GPU来研究生物种群规律。未来的编译器应可直... 继续阅读 >
201411-11 大数据基础技术——爬虫的工具选择 大数据是神马?怎么样才算拥有一只善良又可爱的大数据?一种传统的方法是爬取相关的网页,所以咱们今天讲讲爬虫的一些简单知识和可以选择的工具。爬虫的原理就不必多说了,可以自行Google首先,应该认真考虑你需要什么样的大数据,也就是你的需求是什么。爬取普通网页、博客、新闻、社交网络还是图片?貌似咋一看都是爬虫去爬好了,其实不然,细节上的需求可能导致你需要的工具属性不一样。其次,讲讲笔者用过的一些爬虫工具... 继续阅读 >
201411-11 马化腾:互联网的下7个爆发点在哪? [核心提示]马化腾在WE大会上说,“之前在微信朋友圈里流行的‘马六点’一看就不是我写的,我从来不写心灵鸡汤。”所以,他在现场分享来‘马七点’,这7点很具总结性,指出来互联网下7个爆发点所在。11 月 10 日下午,在腾讯公司举办的“WE大会”上,腾讯 CEO 马化腾在会上发表演讲。他说,“因为我是工程师出身,我也不会讲语录,也不是导师,也不会说心灵鸡汤,最近微信上说哪六种人不交往的心灵鸡汤,大家一看就知道假... 继续阅读 >
201411-11 程序员杂谈之数据库管理员已死 此文是ObjectRocket联合创始人KennyGorman的文章。在一辆拥挤不堪、从某处飞往犹他州的支线飞机上,我开始思考15年前作为Oracle数据库管理员(DBA)的那些酸甜苦辣的过去。数据库为特定应用存储和提供信息,而DBA以往是负责数据库策略、优化、容量规划以及安全的人。然而,我发现,过去几年,数据库管理员的角色已经发生了急剧变化,而且未来的变化还要多得多。作为这一变化的迹象之一,我们ObjectRocket的很多客... 继续阅读 >
201411-11 2014 年热门的 IT 职位及年薪 众所周知,全球IT技术人才近年来一直都比较紧缺,进入2014年,这种态势可能仍将继续下去,预计IT技术人才,尤其是高端的IT管理人才将会非常吃香。猎头公司RobertHalf的调查显示,有16%的企业CIO计划在2014年上半年扩充自己的团队,其中软件工程师、手机开发人员和IT经理将会成为2014年比较热门的职位。(1)软件工程师软件工程师主要负责计算机软件和系统的设计、开发、维护和评估工作。根据企业需求的不同,软件工程师的工作... 继续阅读 >
201411-11 大数据将改变人类解决问题的方式 哲学家康德在《纯粹理性批判》中提到,真理有分析真理和综合真理之分。简单而言,分析真理可以由逻辑论据推导出来,综合真理则需要经验证据和外部数据来证明。以往我们主要是通过分析方法来解决问题,首先建立模型和定律,然后通过逻辑推演出新的模型和定律。InnovationEndeavors的ZavainDar提出,由于计算机系统和网络的发展,大数据崛起和API的蔓延将改变我们解决问题的方式。过去,我们是通过建立新颖的分析模型来推导... 继续阅读 >