Hive实战之Youtube数据集_行业观察_资讯中心

发布时间:2026-04-25 21:21:03

阅读量:3

Hive是一个基于Hadoop的数据仓库基础设施，可以用于处理大规模的结构化数据。在Hive中，使用类似SQL的查询语言来处理数据，使得用户可以方便地进行数据分析和查询。

在本实战中，我们将使用Hive来处理Youtube数据集。Youtube数据集是一个包含了Youtube视频的信息的数据集，其中包括了视频的id、标题、发布时间、观看数、喜欢数、不喜欢数等信息。我们将使用Hive来加载这个数据集，并进行一些简单的数据分析。

首先，我们需要下载Youtube数据集。你可以在以下链接中找到这个数据集：https://archive.org/download/yt8m_pca/yt8m_pca_train.csv

下载完成后，我们需要将数据集加载到Hive中。可以通过以下命令来创建数据表，并将数据加载进去：

CREATE TABLE youtube_data (
video_id STRING,
title STRING,
published_at STRING,
view_count BIGINT,
like_count BIGINT,
dislike_count BIGINT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
LOAD DATA LOCAL INPATH '/path/to/yt8m_pca_train.csv' OVERWRITE INTO TABLE youtube_data;

在上述命令中，我们首先创建了一个名为youtube_data的表，定义了各个字段的类型。然后，通过LOAD DATA命令将数据加载到表中。

加载完成后，我们可以使用Hive的SQL语言进行数据查询和分析。以下是一些示例查询：

统计视频数量：

SELECT COUNT(*) FROM youtube_data;

按照观看数进行排序：

SELECT * FROM youtube_data ORDER BY view_count DESC;

统计观看数大于100000的视频数量：

SELECT COUNT(*) FROM youtube_data WHERE view_count > 100000;

通过使用Hive，我们可以方便地对大规模的结构化数据进行查询和分析。这对于处理Youtube数据集这样的大规模数据集非常有用。

以上就是关于“Hive实战之Youtube数据集”的相关介绍，筋斗云是国内较早的云主机应用的服务商，拥有10余年行业经验，提供丰富的云服务器、租用服务器等相关产品服务。云服务器资源弹性伸缩，主机vCPU、内存性能强悍、超高I/O速度、故障秒级恢复；电子化备案，提交快速，专业团队7×24小时服务支持！

简单好用、高性价比云服务器租用链接：https://www.jindouyun.cn/product/cvm