Hive Language - Search localsearch

zhihu.com

https://www.zhihu.com/question/21677041

1. Hive中的表是纯逻辑表，就只是表的定义等，即表的元数据。 Hive本身不存储数据，它完全依赖HDFS和MapReduce。这样就可以将结构化的数据文件映射为为一张数据库表，并提供完整的SQL查询功能，并将SQL语句最终转换为MapReduce任务进行运行。

zhihu.com

https://www.zhihu.com/question/592488050

大数据之hadoop / hive / hbase 的区别是什么？有什么应用场景？ - 知乎

2. Hive Hive是一个基于Hadoop的数据仓库系统，它将SQL语言转化为MapReduce任务，并在Hadoop集群上运行。它提供了类似于SQL的查询和分析接口，使得非专业开发人员可以通过简单的SQL语句访问分布式存储中的大数据，从而实现数据分析和查询。

zhihu.com

https://www.zhihu.com/question/1978054245476476502

为什么Hive正在被淘汰？ - 知乎

总的来说，Hive on Tez 保留了与 Hadoop 的紧密集成，可在 YARN 环境下执行，但相比 MapReduce 查询响应时延显著降低，吞吐量得到提升。 Hive + LLAP Hive 3.x 版本引入了 LLAP（Live Long And Process）功能 [1] [14]，面向交互式查询场景。LLAP 在每个工作节点上启动长期驻留的多线程守护进程，负责 I/O、缓存和部分 ...

zhihu.com

https://www.zhihu.com/question/329052025

请问spark和hive是什么关系？ - 知乎

再来看看hive。 hive 官网有描述，“Apache Hive data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL.”，hive的定位是数据仓库，其提供了通过 sql 读写和管理分布式存储中的大规模的数据，即 hive即负责数据的存储和管理（其实依赖的是底层的hdfs文件系统或s3等 ...

zhihu.com

https://www.zhihu.com/question/268815946

基于hive的数据仓库如何处理数据更新（update）问题？ - 知乎

3) Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合。 4) Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。 5) Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。缺点：

zhihu.com

https://www.zhihu.com/question/590697804

pyspark 如何读取大数据平台中的 hive 数据表？ - 知乎

比如我们指定使用MySQL作为Hive元数据的存储介质，那么就需要把Hive连接MySQL的相关属性配置在hive-site.xml文件中，这样不管是本地模式还是远程模式启动，不管客户端本地连接还是远程连接，都将访问同一个元数据存储介质，大家使用的元数据都是一致的。

zhihu.com

https://www.zhihu.com/question/631497407

在 Hive 中，如何使用 INSERT INTO 语句向表中插入数据？ - 知乎

在 Hive 中，你可以使用 INSERT INTO 语句向表中插入数据。以下是一个示例： INSERT INTO table_name VALUES (value1, value2, ...); 在上述示例中，你需要将 table_name 替换为要插入数据的表的名称， value1, value2,... 替换为要插入的值。请注意， Hive 中的 INSERT INTO 语句要求插入的值的数量和类型必须与表的列数量和 ...

zhihu.com

https://www.zhihu.com/question/585889065

mysql，hive sql,spark sql语法乃至其他方面有什么区别？ - 知乎

Hive SQL和Spark SQL则更加强调其分布式计算和分析的能力，因此增加了很多针对大规模数据处理的扩展功能，如窗口函数、复杂数据类型等。执行引擎：MySQL使用的是基于磁盘的MyISAM或InnoDB引擎，而Hive SQL和Spark SQL则使用基于内存的执行引擎。

zhihu.com

https://www.zhihu.com/question/403840156

请问Hadoop、Hbase、Hive三者有什么关系？ - 知乎

hive需要用到hdfs存储文件，需要用到MapReduce计算框架。 HBase：是一个Hadoop的数据库，一个分布式、可扩展、大数据的存储。

zhihu.com

https://www.zhihu.com/question/589606684

hive 如何优化查询速度？ - 知乎

Hive 优化查询速度的方法有很多，你可以记下：使用分区表和分桶表：合理的分区和分桶可以大大减少查询数据量，提高查询效率。避免使用 select *：尽量只选择需要的列，避免查询不必要的数据，可以加快查询速度。