大数据已然成为人工智能发展的核心动力源泉,其数据规模与丰富程度对于人工智能模型的训练起着至关重要的作用。大数据具有著名的 “4V” 特征,具体内容如图 2 - 5 所示。
数据量大(Volume):大数据的起始计量单位通常为拍字节(PB,1PB = 1024TB)、艾字节(EB,1EB = 1024PB ≈ 10⁶TB)或泽字节(ZB,1ZB = 1024EB ≈ 10¹⁰TB),随着数据量的不断增长,未来甚至可能出现尧字节(YB,1YB = 1024ZB)或 BB(1BB = 1024YB)等更大的计量单位。
数据多样(Variety):大数据涵盖的类型丰富多样,包括网络日志、音频、视频、图片以及地理位置信息等。这些数据具有不同的结构特点,可分为结构化、半结构化和非结构化数据。
价值密度低(Value):在大数据中,价值密度与数据总量呈现出反比例关系,即数据总量越大,价值密度越低。
数据的产生和处理速度快(Velocity):随着大数据智能化和实时性要求的日益提高,对数据处理速度也提出了极为严格的要求。一般来说,需要在秒级时间内给出分析结果,否则数据可能会因时效性问题而失去价值,这就是所谓的大数据处理 “1 秒定律”。
此外,大数据计算还具有 “近似处理、增量计算、多源归纳” 三个属性,我们将其称为 “3I” 特征。
第一个 “I” 是 Inexact(非精确):这一属性包含两个层面的含义。一方面,许多计算本身并不需要极高的精度,往往只需了解大致的方向和趋势即可。另一方面,由于数据处于不断变化的动态环境中,新数据持续产生,使得精确计算难以实现。在满足应用需求的前提下,适当降低结果的精度,能够换取更快的处理速度和更小的计算开销。然而,坚持非精确的计算思路并非随意为之,仍需确保计算结果的基本质量。
第二个 “I” 是 Incremental(增量性):该特征与大数据的动态持续变化密切相关。数据是持续更新的,新产生的数据在数据总量中所占比例较小。如果能够将计算过程设计为增量式,仅针对新数据进行计算,并以可接受的计算成本将新结果融合到已有的计算结果中,那么在一定程度上可以实现 “化大数据为小数据”,从而提升大数据的计算能力。不过,实现计算增量化不仅需要计算框架提供特殊支持,对算法本身也有一定要求。例如,某些问题适合采用增量处理方式,而有些算法则可能不太适用。因此,从这个角度出发,可能需要运用创新的思想和方法来设计支持增量计算的算法,同时确保大规模分布式计算系统能够为增量计算提供有力支持。
第三个 “I” 是 Inductive(归纳性):大数据是多源融合的数据集合,它全面反映了现实世界,在统计学意义上代表了 “总体”。从这个角度来看,若能将不同来源的数据相互参照、综合分析,不仅可以解决所关注维度数据稀疏的问题,还能在一定程度上控制非精确计算所产生的误差,有助于保证计算结果的质量。
2.人工智能与大数据技术
从大数据的角度来看,大数据需要通过人工智能来完成数据价值化过程,尤其是数据分析过程。
3 大数据的处理流程
(1)数据采集
数据采集指从传感器或智能设备、企业系统、社交网络等平台获取数据的过程。
(2)数据预处理
数据预处理负责将分散的、异构数据源中的数据进行清洗、转换、集成,并加载到数据仓库或数据库中。
(3)数据存储及管理
分布式文件系统将要存储的文件按照特定的策略划分成多个片段,并分散存储在系统中的多台服务器上。
(4)数据分析及挖掘
简单的统计分析可以帮助人们了解数据。如果人们希望对大数据进行更深层次地探索,则需要使用基于机器学习的数据分析方法。
(5)数据可视化
数据可视化通过将数据转化为图的形式,以帮助用户更有效地完成数据的分析,掌握相关结论。
4.人工智能与大数据的结合与应用
人工智能需要从大量数据中进行学习。丰富的数据集是人工智能算法与深度学习训练必备的、不可或缺的基础。
大数据是人工智能的基石,机器视觉和深度学习主要建立在大数据的基础上,即对大数据进行训练,从中归纳出可以被计算机运用在类似数据上的知识。
通过分析大量的数据集,人工智能可以识别出人类可能难以察觉的模式和数据间的关联。数据的多样性和质量直接影响人工智能模型的准确性。丰富的数据集可以帮助模型更好地泛化,从而在新的数据上有更好的表现。大量的数据可以帮助模型优化算法参数,通过训练和验证过程来找到最佳的模型配置。随着数据的不断积累,人工智能模型可以不断学习,使性能得到提高。对于推荐系统等应用,丰富的
数据可以帮助人工智能更好地理解用户偏好,能提供个性化的服务和推荐。