hdfs的副本个数为3个。
HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的简称,它的设计目标是把超大数据集存储到网络中的多台普通计算机上,并提供高可靠性和高吞吐率的服务。数据自动保存多个副本,hdfs默认的副本数量是3。
HDFS能够处理GB、TP甚至BP级别的数据,能够处理百万规模以上的文件数量,可构建在廉价机器上。hdfs无法实现毫秒级别的数据存储和访问,hdfs提供高吞吐量但无法提供低延迟数据访问。大量小文件会占用namenode大量的内存来存储元数据,且会导致寻址时间过长。
hdfs的应用领域
互联网搜索引擎需要处理和存储海量的网络数据,HDFS作为底层存储系统,提供了高容量、高可靠性的存储能力。搜索引擎可以将爬取的网页数据存储在HDFS中,然后通过MapReduce等计算框架进行数据处理和索引构建,从而实现高效的搜索和查询。
在网络服务和系统运维中,日志分析是一个重要的任务。HDFS可以用来存储服务器产生的大量日志数据,通过MapReduce等计算框架,可以对日志数据进行实时或离线的分析,从中发现潜在的问题和异常。日志分析可以帮助企业提高系统的稳定性和性能,提升用户体验。