解决Linux上数据量大存储问题 (linux数据量大问题)

发布时间:2025-04-04 13:43:25

阅读量:355

Linux是一种广泛使用的操作系统，尤其在企业级服务器领域中有着广泛应用。然而，在Linux上遇到存储大量数据的问题时，不同于使用传统的关系型数据库系统，需要采用特殊的解决方案来应对。本文将介绍一些解决方案，帮助您在Linux上应对数据量大的存储需求。

1.使用分布式文件系统

对于需要在Linux服务器上存储大量数据的情况，使用分布式文件系统是一种非常有效的解决方案。分布式文件系统主要由多个节点组成，这些节点可以是独立的硬件设备，也可以是虚拟机。每个节点通过网络互相通信，将文件分布式存储在多个节点上，形成一个统一的文件系统。

例如，Hadoop分布式文件系统是一个开源的、高性能的分布式文件系统，广泛应用于大规模数据处理、分析和存储的场景。它提供了高度可靠、可扩展、高性能和高可用性的数据存储和处理服务，并支持PB级别的数据存储和管理。

2.使用对象存储

与传统的文件存储方式不同，对象存储是一种新型的存储方式，它基于云计算技术，将数据储存在分布式系统中。对象存储不以文件为基础，而是将文件分割为数据块，并以对象的形式进行存储。对象存储系统可以通过API进行访问，无需直接访问物理存储设备。对象存储主要具有高可靠性、高可用性、可扩展性等特点，容量可扩展到数百PB以上。

例如，AWS的Simple Storage Service（S3）是一种高度可扩展、可靠和低成本的对象存储服务，专为大规模数据处理和存储而设计。它提供了开发人员可以使用的简单API，以无缝方式集成到许多不同的应用程序中。

3.使用云存储

如果您需要存储大量数据，但您的硬件资源受限，或者您需要更多的灵活性和可扩展性，那么云存储可能是一种更好的选择。云存储与传统的本地存储方式不同，它是将数据存储在远程的服务器上，通过互联网进行访问和管理。

例如，Amazon S3和Google云存储是两种常用的云存储服务，它们提供灵活的存储和访问选项，并具有高可靠性和可用性。使用云存储可以避免一些由于服务器故障、硬件损坏等原因带来的风险，同时还能提供更高的性能和可伸缩性。

4.使用文件分区

如果您经常需要处理大文件，并且拥有足够的硬件资源，那么可使用文件分区的方式来提高读写性能。文件分区是将磁盘分割为多个文件系统区域，每个文件系统区域都可以单独进行管理和访问。可以将不同类型的数据存储在单独的文件系统区域中，以提高效率。

例如，将操作系统放在一个文件系统区域中，将应用程序和数据放在另一个文件系统区域中。这样可以避免应用程序和数据占用操作系统资源，从而提高整个系统的性能和稳定性。

对于需要解决在Linux上存储大量数据的问题，可以采用分布式文件系统、对象存储、云存储和文件分区等多种方式进行解决。每种方式都有其自身的优点和局限性，需要根据实际需求选择合适的方案。选定一个适合自己的、高性能、可扩展的存储方案，可以更好地满足不断增长的数据存储需求，提高数据管理和处理的效率。

相关问题拓展阅读：

linux高负载下彻底优化mysql数据库

友情提示：同时在线访问量继续增大对于1G内存的服务器明显感觉到吃力严重时甚至每天都会死机或灶困者时不时的服务器卡一下这个问题曾经困扰了我半个多月MySQL使用是很具伸缩性的算法，因此你通常能用很少的内存运行或给MySQL更多的被存以得到更好的性能。

同时在线访问量继续增大对于1G内存的服务器明显感觉到吃力严重时甚至每天都会死机或者时不时的服务器卡一下这个问题曾经困扰了我半个多月MySQL使用是很具伸缩性的算法，因此你通常能用很少的内存运行或给MySQL更多的被存以得到更好的性能。

安装好mysql后，配制文件应该在/usr/local/mysql/share/mysql目录中，配制文件有几个，有my-huge.cnf my-medium.cnf my-large.cnf my-all.cnf,不同的流量的网站和不同配制的服务器环境，当然需要有不同的配制文件了。

一般的情况下，my-medium.cnf这个配制文件就能满足我们的大多需要；一般我们会把配置文件拷贝到/etc/my.cnf 只需要修改这个配置文件就可以了，使用mysqladmin variables extended-status _u root _p 可以看到目前的参数，有3个配置参数是最重要的，即key_buffer_size,query_cache_size,table_cache。

key_buffer_size只对MyISAM表起作用，key_buffer_size指定索引缓冲区的大小，它决定索引处理的速度，尤其是索引读的速度。一般我们设为16M,实际上稍微大一点的站点这个数字是远远不够的，通过检查状态值Key_read_requests和Key_reads,可以知道key_buffer_size设置是否合理。比例key_reads / key_read_requests应该尽可能的低，至少是1:100，1:1000更好（上述状态值可以使用SHOW STATUS LIKE ‘key_read%’获得）。或者如果你装了phpmyadmin 可以通过服务器运行状态看陆铅到,笔者推荐用phpmyadmin管理mysql，以下的状态值都是本人通过phpmyadmin获得的实例分析:

这个服务器已经运行了20天

key_buffer_size _ 128M

key_read_requests _

key_reads

比例接近1:8000 健康状况非常好

另外一个估计key_buffer_size的办法把你网站数据库的每个表的索引所占空间大小加起来看看以此服务器为例:比较大的几个表索引加起来大概125M 这个数字会随着表变大而变大。

从4.0.1开始，MySQL提供了查询缓冲机制。使用查询缓冲，MySQL将SELECT语句和查询结果存放在缓冲区中，今后对于同样的SELECT语句（区分大小写）隐悉念，将直接从缓冲区中读取结果。根据MySQL用户手册，使用查询缓冲最多可以达到238%的效率。

通过调节以下几个参数可以知道query_cache_size设置得是否合理

Qcache inserts

Qcache hits

Qcache lowmem prunes

Qcache free blocks

Qcache total blocks

Qcache_lowmem_prunes的值非常大，则表明经常出现缓冲不够的情况,同时Qcache_hits的值非常大，则表明查询缓冲使用非常频繁，此时需要增加缓冲大小Qcache_hits的值不大，则表明你的查询重复率很低，这种情况下使用查询缓冲反而会影响效率，那么可以考虑不用查询缓冲。此外，在SELECT语句中加入SQL_NO_CACHE可以明确表示不使用查询缓冲。

Qcache_free_blocks，如果该值非常大，则表明缓冲区中碎片很多query_cache_type指定是否使用查询缓冲

我设置:

query_cache_size = 32M

query_cache_type= 1

得到如下状态值:

Qcache queries in cache表明目前缓存的条数

Qcache inserts

Qcache hits

看来重复查询率还挺高的

Qcache lowmem prunes有这么多次出现缓存过低的情况

Qcache not cached

Qcache free memory

目前剩余缓存空间

Qcache free blocks 5328 这个数字似乎有点大碎片不少

Qcache total blocks 30953

如果内存允许32M应该要往上加点

table_cache指定表高速缓存的大小。每当MySQL访问一个表时，如果在表缓冲区中还有空间，该表就被打开并放入其中，这样可以更快地访问表内容。通过检查峰值时间的状态值Open_tables和Opened_tables，可以决定是否需要增加table_cache的值。如果你发现open_tables等于table_cache，并且opened_tables在不断增长，那么你就需要增加table_cache的值了（上述状态值可以使用SHOW STATUS LIKE ‘Open%tables’获得）。注意，不能盲目地把table_cache设置成很大的值。如果设置得太高，可能会造成文件描述符不足，从而造成性能不稳定或者连接失败。

对于有1G内存的机器，推荐值是128－256。

笔者设置

table_cache = 256

得到以下状态:

Open tables 256

Opened tables 9046

虽然open_tables已经等于table_cache，但是相对于服务器运行时间来说,已经运行了20天，opened_tables的值也非常低。因此，增加table_cache的值应该用处不大。如果运行了6个小时就出现上述值那就要考虑增大table_cache。

如果你不需要记录2进制log 就把这个功能关掉，注意关掉以后就不能恢复出问题前的数据了，需要您手动备份，二进制日志包含所有更新数据的语句，其目的是在恢复数据库时用它来把数据尽可能恢复到最后的状态。另外，如果做同步复制( Replication )的话，也需要使用二进制日志传送修改情况。

log_bin指定日志文件，如果不提供文件名，MySQL将自己产生缺省文件名。MySQL会在文件名后面自动添加数字引，每次启动服务时，都会重新生成一个新的二进制文件。此外，使用log-bin-index可以指定索引文件；使用binlog-do-db可以指定记录的数据库；使用binlog-ignore-db可以指定不记录的数据库。注意的是：binlog-do-db和binlog-ignore-db一次只指定一个数据库，指定多个数据库需要多个语句。而且，MySQL会将所有的数据库名称改成小写，在指定数据库时必须全部使用小写名字，否则不会起作用。

关掉这个功能只需要在他前面加上#号

#log-bin

开启慢查询日志( slow query log )

慢查询日志对于跟踪有问题的查询非常有用。它记录所有查过long_query_time的查询，如果需要，还可以记录不使用索引的记录。下面是一个慢查询日志的例子：

开启慢查询日志，需要设置参数log_slow_queries、long_query_times、log-queries-not-using-indexes。

log_slow_queries指定日志文件，如果不提供文件名，MySQL将自己产生缺省文件名。long_query_times指定慢查询的阈值，缺省是10秒。log-queries-not-using-indexes是4.1.0以后引入的参数，它指示记录不使用索引的查询。笔者设置long_query_time=10

笔者设置:

sort_buffer_size = 1M

max_connections=120

wait_timeout =120

back_log=100

read_buffer_size = 1M

thread_cache=32

interactive_timeout=120

thread_concurrency = 4

参数说明:

back_log

要求MySQL能有的连接数量。当主要MySQL线程在一个很短时间内得到非常多的连接请求，这就起作用，然后主线程花些时间(尽管很短)检查连接并且启动一个新线程。back_log值指出在MySQL暂时停止回答新请求之前的短时间内多少个请求可以被存在堆栈中。只有如果期望在一个短时间内有很多连接，你需要增加它，换句话说，这值对到来的TCP/IP连接的侦听队列的大小。你的操作系统在这个队列大小上有它自己的限制。 Unix listen(2)系统调用的手册页应该有更多的细节。检查你的OS文档找出这个变量的更大值。试图设定back_log高于你的操作系统的限制将是无效的。

max_connections

并发连接数目更大，120 超过这个值就会自动恢复，出了问题能自动解决

thread_cache

没找到具体说明，不过设置为32后 20天才创建了400多个线程而以前一天就创建了上千个线程所以还是有用的

thread_concurrency

#设置为你的cpu数目x2,例如，只有一个cpu,那么thread_concurrency=2

#有2个cpu,那么thread_concurrency=4

skip-innodb

#去掉innodb支持

linuxdirty_ratio脏数据大小怎么查看

vm.dirty_ratio:脏数据量达到此门限后,系统会阻塞式地将脏数据写入外存耐旁,新昌隐橡的数据将被阻塞,无携手法写入cache。 vm.dirty_background_bytes与vm….

Linux性能度量标准

1) CPU使用率：每个处理器的整体使用率。如果在一段持续时间内CPU的使用率超过80%，则处理器可能有瓶颈。

2) 用户进程消耗CPU的时间：CPU花费在用户进程的百分比，包括nice time。较高值的user time通常是有利的，因为系统在执行实际的工作。

3) 内核操作消耗CPU的时间：CPU花费在内核操作的百分比，包括IRQ和softirq时间。较高和持续的system time值指出在网络和驱动程序堆栈中的瓶颈。一个系统通常应保持花在内核操作上的时间尽可能的少。

4) 等待： CPU花费在等待(由于一个I/O操作发生等待)上的时间总量，像是阻塞值。一个系统不应该花费太多时间等待(因为I/O操作)否则应该检查各自的I/O子系统性能。

5) CPU空闲时间：系统空闲等待任务的CPU百分比。

6) Nice消耗CPU时间：CPU花费在re-nicing进程(更改进程的执行顺序和优先级)上的时间百分比。

7) 平均负载：load average不是一个百分比，而是以下总和的滚动平均值：

• 队列中等待处理的进程数。

• 等待不可中断任务被完成的进程数。

也就是说，TASK_RUNNING和TASK_UNINTERRUPTIBLE进程数的总和的平均值。如果进程请求CPU时间而被阻塞，load average会增加。另一方面，如果每个进程得到直接访问CPU的时间，它们没有在CPU周期丢失，则负载将减小。

8) 可运行的进程：已经准备好执行的进程数。在一段持续的时间内，这个值不应该超过物理处理器数量的10倍。否则处理器可能是瓶颈。

9) 阻塞的进程：不被执行的进程数，因为要等待I/O操作结束。阻塞的进程数能反映出是否有I/O瓶颈。

10) 上下文切换：在系统上发生线程之间切换的数量。大量上下文切换如果与大量中断相关，则可能是驱动程序或应用程序出现问题。上下文切换通常是不利的，因为每一次上下文切换都会导致CPU缓存被刷新，但是有些上下文切换是必要的。

11) 中断：中断包含硬中断与软中断。硬中断对系统性能有更加不利的影响。较高的中断值表明可能有软件瓶颈，可能前闷是在内核中，也可能是一个驱动程序出现瓶颈。记住，中断还包括CPU时钟引起的中断。

1) 空闲内存：对比大多数其他操作搏悔中系统，在Linux中不应该只关注空闲（free）内存的值。 Linux内核分配大部分未使用的内存作为文件系统缓存，所以从已使用的(used)内存中减去缓冲(buffer)和缓存(cache)的内存数量，来确定(有效的)空闲(free)内存。

2) 使用的swap ：已使用的swap空间的数量。swap空间的使用只能告诉你Linux管理内存真的有效。Swap In/Out 是一个识别内存瓶颈的可靠手段。在一段持续的时间内每秒200到300以上的分页值，表明可能有内存瓶颈。

3) 缓冲与缓存：缓冲被分配作为文件系统和块设备缓存。

4) SIab ：内核使用的内存数。注意内核的分页不能移出到磁盘。

5) 活跃与非活跃内存：关于活跃使用的系统内存信息。非活跃内存可能是kswapd守护进程swap out 到磁盘的候选者。

1) I/O等待：CPU等待一个I/O操作的发生所花费时间。较高和持续的值很多时候可能表明存在一个I/O瓶颈。

2) 平均队列长度：未完成的I/O请求数量。一般情况下，一个磁盘有2到3个队列是更佳的，较高的值可能表明有一个磁盘I/O瓶颈。

3) 平均等待时间：服务一个I/O请求所测量的平均时间，以毫秒为单位。等待时间是由实际的I/O操作和它在I/O队列中等待的时间组成的。

4) 每秒传输：每秒钟多少个I/O操作被执行(读和写)。该指标要结合每秒kB值，以帮助确定系统的平均传输大基山小。平均传输大小一般应该与你的磁盘子系统使用的条带大小相匹配。

5) 每秒读取/写入块的数量：每秒读和写的块数，在2.6内核中块为1024B。早期的内核可能会报告不同的块大小，从512B到4KB。

6) 每秒读取/写入的字节：从块设备读取和写入(读和写到块设备)的字节数，表示从块设备(到块设备)传输的实际数据量。

1) 接收和发送的数据包：网络接口接收和发送数据包的数量。

2) 接收和发送的字节：网络接口接收和发送的字节数。

3) 每秒钟的冲突数量。

解决Linux上数据量大存储问题 (linux数据量大问题)

相关文章