2025年05月09日
保存数据的历史版本,根据比较版本号来处理数据,记录中的3个隐含字段、undo log日志、Read View实现的
2025年05月08日
我今天花了大半个下午的时间,写了这篇hadoop的架构,全篇都是以大白话的形式,也算是为后面更加详细的每一部分开了个好头吧,如果喜欢请点转发和关注,如果有疑问,直接在评论里说出来,大家一起解决,才能进步。
Hadoop诞生于2006年,是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。
2025年05月08日
DAVOS, Switzerland, Jan. 21 (Xinhua) -- Chinese Vice Premier Ding Xuexiang on Tuesday delivered a special address at the World Economic Forum Annual Meeting 2025 in Davos, Switzerland.
2025年05月08日
现在的时代,电子阅读正逐渐取代纸质书籍成为人们获取知识和娱乐的常见方式。
今天我们分享一个开源项目,它是一款功能强大且灵活的阅读器,带给你出色的阅读体验,它就是:KoodoReader
Koodo Reader 是一个开源免费的电子书阅读器,支持多达15种主流电子书格式,包括 EPUB、PDF、MOBI、AZW3 、txt、fb2、cbr、cbz、cbt、md、docx、rtf、html、xml等,满足不同用户的需求。
2025年05月08日
大家好,这里是可爱的Cherry。
作为一个“甲方”,Cherry其实挺知道客户管理的重要的。但是对于客户管理怎么做,以及CRM的作用,我却是一无所知。
2025年05月08日
Hive最早来源于FaceBook ,因为FaceBook网站每天产生海量的结构化日志数据,为了对这些数据进行管理,并且因为机器学习的需求,产生了Hive这们技术,并继续发展成为一个成功的Apache项目。
1、定义
Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射成一张数据表,并可以使用类似SQL的方式来对数据文件进行读写以及管理,这套Hive SQL简称HQL。Hive的执行引擎可以是MapReduce、Spark、Tez。
2025年05月08日
今天在公司做了一个hadoop分享,包括mapreduce,及shuffle深度讲解,还有YARN框架的详细说明等。
1、海量日志数据,提取出某日访问百度次数最多的那个IP
算法思想:分而治之+Hash
1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;
2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)%1024值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址;