网站首页 站内搜索

搜索结果

查询Tags标签: HDFS,共有 305条记录
  • HBase-day1-day2内容理解

    HBase图HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据(底层是字节数组做存储的) HBase是Hadoop的生态系统之一,是建立在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,通过利用…

    2022/9/15 23:17:21 人评论 次浏览
  • HDFS 伪分布式环境搭建

    HDFS 伪分布式环境搭建 作者:Grey 原文地址: 博客园:HDFS 伪分布式环境搭建 CSDN:HDFS 伪分布式环境搭建 相关软件版本Hadoop 2.6.5CentOS 7Oracle JDK 1.8安装步骤 在CentOS 下安装 Oracle JDK 1.8 下载地址 将下载好的 JDK 的安装包 jdk-8u202-linux-x64.tar.gz 上传…

    2022/9/5 23:23:00 人评论 次浏览
  • DataFrame中的行动算子操作2

    ## 修改hdfs-site.xml <property> <name>hive.metastore.warehouse.dir</name> <value>hdfs://node1:9000/user/hive/warehouse</value><description>location of default database for the warehouse</description> </prop…

    2022/8/30 23:22:48 人评论 次浏览
  • 暑假学习6 hdfs shell命令

    命令行操作:cli Hadoop的命令shell :Hadoop fs -ls file: 操作 本地的文件系统 hadoop fs -ls hdfs://node1:8020 操作hdfs分布式文件系统 hadoop fs -ls 直接根目录,加载环境变量中fs.defaultFS的值 查看配…

    2022/8/30 5:22:48 人评论 次浏览
  • 记一次使用“msck repair table 表名”这个命令

    背景: 数据导入到hive后,查询不到数据原因: MSCK REPAIR TABLE命令主要是用来解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。 我们知道hive有个服务叫metastore,这个服务主要是存储一些元数据信息,比如数据库名,表名或者表的分…

    2022/8/23 23:25:36 人评论 次浏览
  • Java操作HDFS

    Java操作HDFS ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.fs.permission.FsPermission;import java.io.IOException; import java.text.SimpleDateFormat; import java.util.Arrays; import java.ut…

    2022/8/23 1:52:44 人评论 次浏览
  • haddoob分布式文件系统架构

    一、apache Apache基金会 是专门为支持开源软件项目而办的一个非盈利性组织 二、分布式文件系统 1、FS File System文件系统时极域硬盘之上的文件管理的工具我们用户操作文件系统可以和硬盘进行解耦 2、DFS Distributed File System分布式文件系统将我们的数据存放在多台…

    2022/8/22 23:23:07 人评论 次浏览
  • 大数据Hadoop之——HDFS小文件问题与处理实战操作

    目录一、背景1)小文件是如何产生的?2)文件块大小设置3)HDFS分块目的二、HDFS小文件问题处理方案1)Hadoop Archive(HAR)2)Sequence file3)CombineFileInputFormat4)开启JVM重用5)合并本地的小文件,上传到 HDFS(appendToFile )6)合并 HDFS 的小文件,下载到本…

    2022/8/22 6:56:50 人评论 次浏览
  • 《HDFS源码剖析》--初品ing

    HDFS HDFS概述 ​ HDFS是Hadoop 分布式文件系统,可以运行在通用硬件上、提供流式数据操作、能够处理超大文件的分布式文件系统。HDFS具有高度容错、高吞吐量、容易扩展、高可靠性等特征。 ​ HDFS是一个主/从体系结构的分布式系统,拥有1个Namenode和多个Datanodes,用户…

    2022/8/1 1:23:57 人评论 次浏览
  • HDFS-存储优化

    1.纠缠码 原理:HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 (1)纠删码操作相关的命令:hdfs ec Usage: bin/hdfs ec [COMMAND][-listPolicies][-ad…

    2022/7/31 23:32:01 人评论 次浏览
  • HDFS配置HA下spark-sql写入hive报错Wrong FS

    背景:CDH集群的HDFS HA已配置完毕,Hive也相应进行了Update Hive Metastore NameNode,Hive的业务sql脚本都正常运行。在使用spark-sql 写入hive时报错:Caused by: java.lang.IllegalArgumentException: Wrong FS: hdfs://nameservice1:8020/dw/ods/ods_node_data_i_temp…

    2022/7/30 2:25:02 人评论 次浏览
  • HDFS Shell 操作

    HDFS Shell 命令行格式格式一:hadoop fs –命令名 参数 格式二:hdfs dfs –命令名 参数HDFS 常用命令及参数 ls:查看 hdfs 中的目录信息 [root@node-01 ~]# hadoop fs -ls /put或copyFromLocal:将本地文件上传到 hdfs 中 [root@node-01 ~]# hadoop fs -put hdp.test01…

    2022/7/15 5:21:23 人评论 次浏览
  • 大数据生态圈组件

    目录HadoopZookeeperHiveFlumeKafkaHBaseSqoopAzkabanOozieMaxwellCanalSparkFlinkHUECDHKettle大数据学习路线 Hadoop由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。它实现…

    2022/7/3 23:21:48 人评论 次浏览
  • hdfs常用shell命令

    1、创建文件夹 hadoop fs -mkdir [-p] ... path 为待创建的目录 -p选项的行为与Unix mkdir -p非常相似,它会沿着路径创建父目录。 hdfs dfs -mkdir /temp2、查看指定目录下内容 hadoop fs -ls [-h] [-R] [ ...] path 指定目录路径 -h 人性化显示文件size -R 递归查看指定…

    2022/7/2 5:20:39 人评论 次浏览
  • Hadoop-day03 hadoop基本命令

    一、Hadoop环境变量的配置首先进入linux环境配置的文件vim /etc/profile这样就进入配置文件的界面然后按下英文字母i就可以进入文件的编辑模式,后面输入环境变量的配置:HADOOP_HOME= (hadoop文件的根目录) PATH=.:$HADOOP/bin(Hadoop文件中的bin目录) 输入:HADOOP_…

    2022/6/24 23:20:02 人评论 次浏览
共305记录«上一页1234...21下一页»
扫一扫关注最新编程教程