# BigDataOffer
**Repository Path**: he_wen_qi/big-data-offer
## Basic Information
- **Project Name**: BigDataOffer
- **Description**: 准备工作中的一些大数据面试题
- **Primary Language**: Unknown
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 1
- **Created**: 2022-04-10
- **Last Updated**: 2023-03-12
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# BigDataOffer
**总结大数据开发面试题**
## 一、Hadoop
- [HDFS读写流程](doc/HDFS读写.md)
- [MapReduce Shuffle流程](doc/MRShuffle.md)
- [YARN原理](doc/YARN工作原理.md)
- [HDFS架构](doc/HDFS架构.md)
- [小文件过多会有什么危害,如何避免](doc/小文件.md)
- [ HDFS 读取文件时,一个块突然损坏了怎么办](doc/block损坏.md)
- [HDFS 上传文件时,一个 DataNode 突然挂掉了怎么办](doc/datanode挂掉.md)
- [MapReduce执行流程](doc/MapReduce执行流程)
- [YARN调度流程](doc/yarn调度流程)
- [SeconderyNameNode 的作用](doc/SecondaryNameNode作用.md)
- [Hadoop调度器](doc/hadoop调度器.md)
## 二、Spark
- [spark总结](doc/spark.md)
- [大数据下的数据倾斜问题](doc/大数据下的数据倾斜问题.md)
- [Spark的架构](doc/Spark架构.md)
- [Spark的宽窄依赖](doc/Spark宽窄依赖.md)
- 对比讲一下Hadoop和Spark
- [Spark的cache,persist和checkpoint](doc/cache,persist,checkpoint.md)
- [spark为什么比mapreduce快](doc/Spark为什么比MapReduce快.md)
- [Spark shuffle和MapReduce shuffle](doc/shuffle.md)
- [Spark调优](doc/spark优化.md)
- [Spark作业运行原理](doc/spark作业运行流程.md)
- [Spark常用的RDD算子]()
- [groupbyKey和reducebyKey区别](doc/groupbyKey和reducebyKey的区别.md)
## 三、HBase
- [HBase的rowkey设计原则]()
- [HBase读写数据流程](doc/hbase读写流程.md)
- [HBase的架构](doc/hbase架构.md)
- [HBase和Hive对比](doc/hbase与hive对比.md)
## 四、Kafka
- [Kafka总结](doc/kafka.md)
- [Kafka架构](doc/Kafka架构.md)
- [Kafka怎么做到高吞吐和性能的?](doc/kafka实现高吞吐量和性能.md)
- [生产者向Kafka发送消息执行流程]()
- [Kafka文件存储机制](doc/Kafka文件存储机制.md)
- [Kafka如何实现消息有序](doc/kafka如何实现消息是有序的.md)
- [Kafka消息确认(ack应答)机制](doc/KafkaACK应答.md)
- [Kafka的ISR机制](doc/kafka的ISR机制.md)
- [LEO、HW、LSO、LW 分别代表什么?](doc/LEO、HW、LSO、LW.md)
- [如何进行 Leader 副本选举?](doc/Leader副本选举.md)
- [如何进行 broker Leader 选举?](doc/brokerLeader选举.md)
- [Kafka支持的消费模式](doc/消费模式.md)
- [Kafka如何保证数据不重复和不丢失](doc/kafka如何保证数据的不重复和不丢失.md)
- [flink+kafka怎么保证精准一次性消费]()
## 五、Zookeeper
- [leader选举过程](doc/leader选举.md)
- [CAP理论](doc/CAP理论.md)
- [zk采用那种分布式一致性协议]()
- [zk如何保证主从节点状态同步]()
## 六、Java
- [HashMap底层原理](https://tech.meituan.com/2016/06/24/java-hashmap.html)
- [HashMap和HashTable区别](doc/hashmap和hashtable.md)
- [==和equals区别](doc/==和equals.md)
- [JVM垃圾回收](doc/垃圾回收.md)
- [JVM内存模型](doc/jvm内存模型.md)
- [类加载过程](doc/类加载过程.md)
- [IOC和AOP](doc/Spring.md)
- [HTTP和HTTPS区别](doc/http和https.md)
- [计算机网络模型](doc/计算机网络模型.md)
- [三次握手和四次挥手](doc/三次握手.md)
- [TCP和UDP两种协议](doc/tcp和udp.md)
- [进程和线程区别](doc/进程和线程.md)
## 七、MySQL
- [b+树和b树区别](doc/b和b+树.md)
- [MySQL innodb引擎](doc/innodb.md)
- [MySQL 事务](doc/事务.md)
- [MySQL 索引](doc/索引.md)
- [索引优化](doc/索引优化.md)
## 八、Flink
- [flink总结](doc/flink.md)
## 九、Hive
- [hive架构](doc/hive架构.md)
- [hive和传统数据库比较](doc/hive和传统数据库比较.md)
- [内部表和外部表](doc/内部表和外部表.md)
- [对hive分桶表的理解](doc/分桶表.md)
- [Order By Sort By Distrbute By Cluster By的区别](doc/4个by的区别.md)
- [数据倾斜怎么处理?](https://mp.weixin.qq.com/s/hz_6io_ZybbOlmBQE4KSBQ)
- [hive小文件过多怎么办?](doc/hive小文件过多.md)
## 十、经典面试题
- [Java面试题](经典面试题/Java.md)
- [Jvm面试题](经典面试题/Jvm.md)
- [Zookeeper面试题](经典面试题/Zookeeper.md)
- [Kafka面试题](经典面试题/Kafka.md)
- [Redis面试题](经典面试题/Redis.md)
- [MySQL面试题](经典面试题/Mysql.md)