# BigDataOffer **Repository Path**: he_wen_qi/big-data-offer ## Basic Information - **Project Name**: BigDataOffer - **Description**: 准备工作中的一些大数据面试题 - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2022-04-10 - **Last Updated**: 2023-03-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # BigDataOffer


Hadoop	Spark	HBase	Kafka	Zookeeper	Java	MySQL	Flink	Hive

**总结大数据开发面试题** ## 一、Hadoop - [HDFS读写流程](doc/HDFS读写.md) - [MapReduce Shuffle流程](doc/MRShuffle.md) - [YARN原理](doc/YARN工作原理.md) - [HDFS架构](doc/HDFS架构.md) - [小文件过多会有什么危害,如何避免](doc/小文件.md) - [ HDFS 读取文件时,一个块突然损坏了怎么办](doc/block损坏.md) - [HDFS 上传文件时,一个 DataNode 突然挂掉了怎么办](doc/datanode挂掉.md) - [MapReduce执行流程](doc/MapReduce执行流程) - [YARN调度流程](doc/yarn调度流程) - [SeconderyNameNode 的作用](doc/SecondaryNameNode作用.md) - [Hadoop调度器](doc/hadoop调度器.md) ## 二、Spark - [spark总结](doc/spark.md) - [大数据下的数据倾斜问题](doc/大数据下的数据倾斜问题.md) - [Spark的架构](doc/Spark架构.md) - [Spark的宽窄依赖](doc/Spark宽窄依赖.md) - 对比讲一下Hadoop和Spark - [Spark的cache,persist和checkpoint](doc/cache,persist,checkpoint.md) - [spark为什么比mapreduce快](doc/Spark为什么比MapReduce快.md) - [Spark shuffle和MapReduce shuffle](doc/shuffle.md) - [Spark调优](doc/spark优化.md) - [Spark作业运行原理](doc/spark作业运行流程.md) - [Spark常用的RDD算子]() - [groupbyKey和reducebyKey区别](doc/groupbyKey和reducebyKey的区别.md) ## 三、HBase - [HBase的rowkey设计原则]() - [HBase读写数据流程](doc/hbase读写流程.md) - [HBase的架构](doc/hbase架构.md) - [HBase和Hive对比](doc/hbase与hive对比.md) ## 四、Kafka - [Kafka总结](doc/kafka.md) - [Kafka架构](doc/Kafka架构.md) - [Kafka怎么做到高吞吐和性能的?](doc/kafka实现高吞吐量和性能.md) - [生产者向Kafka发送消息执行流程]() - [Kafka文件存储机制](doc/Kafka文件存储机制.md) - [Kafka如何实现消息有序](doc/kafka如何实现消息是有序的.md) - [Kafka消息确认(ack应答)机制](doc/KafkaACK应答.md) - [Kafka的ISR机制](doc/kafka的ISR机制.md) - [LEO、HW、LSO、LW 分别代表什么?](doc/LEO、HW、LSO、LW.md) - [如何进行 Leader 副本选举?](doc/Leader副本选举.md) - [如何进行 broker Leader 选举?](doc/brokerLeader选举.md) - [Kafka支持的消费模式](doc/消费模式.md) - [Kafka如何保证数据不重复和不丢失](doc/kafka如何保证数据的不重复和不丢失.md) - [flink+kafka怎么保证精准一次性消费]() ## 五、Zookeeper - [leader选举过程](doc/leader选举.md) - [CAP理论](doc/CAP理论.md) - [zk采用那种分布式一致性协议]() - [zk如何保证主从节点状态同步]() ## 六、Java - [HashMap底层原理](https://tech.meituan.com/2016/06/24/java-hashmap.html) - [HashMap和HashTable区别](doc/hashmap和hashtable.md) - [==和equals区别](doc/==和equals.md) - [JVM垃圾回收](doc/垃圾回收.md) - [JVM内存模型](doc/jvm内存模型.md) - [类加载过程](doc/类加载过程.md) - [IOC和AOP](doc/Spring.md) - [HTTP和HTTPS区别](doc/http和https.md) - [计算机网络模型](doc/计算机网络模型.md) - [三次握手和四次挥手](doc/三次握手.md) - [TCP和UDP两种协议](doc/tcp和udp.md) - [进程和线程区别](doc/进程和线程.md) ## 七、MySQL - [b+树和b树区别](doc/b和b+树.md) - [MySQL innodb引擎](doc/innodb.md) - [MySQL 事务](doc/事务.md) - [MySQL 索引](doc/索引.md) - [索引优化](doc/索引优化.md) ## 八、Flink - [flink总结](doc/flink.md) ## 九、Hive - [hive架构](doc/hive架构.md) - [hive和传统数据库比较](doc/hive和传统数据库比较.md) - [内部表和外部表](doc/内部表和外部表.md) - [对hive分桶表的理解](doc/分桶表.md) - [Order By Sort By Distrbute By Cluster By的区别](doc/4个by的区别.md) - [数据倾斜怎么处理?](https://mp.weixin.qq.com/s/hz_6io_ZybbOlmBQE4KSBQ) - [hive小文件过多怎么办?](doc/hive小文件过多.md) ## 十、经典面试题 - [Java面试题](经典面试题/Java.md) - [Jvm面试题](经典面试题/Jvm.md) - [Zookeeper面试题](经典面试题/Zookeeper.md) - [Kafka面试题](经典面试题/Kafka.md) - [Redis面试题](经典面试题/Redis.md) - [MySQL面试题](经典面试题/Mysql.md)