AIGC发展历程

# 概念与定义

AIGC技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习，AIGC可以根据输入的条件或指导，生成与之相关的内容。例如，通过输入关键词、描述或样本，AIGC可以生成与之相匹配的文章、图像、音频等。

# 发展历程

人工智能的发展历史大致可以被划分为5个阶段。（1950~1974）人工智能概念的出现；（1974~1980）神经网络遇冷，研究经费减少；（1980~1987）专家系统流行并商用；（1987~1993）专家系统溃败，研究经费大减；（1993~至今）深度学习理论和工程突破。

使用计算机生成内容的想法自上个世纪五十年代就已经出现，早期的尝试侧重于通过让计算机生成照片和音乐来模仿人类的创造力，生成的内容也无法达到高水平的真实感。结合人工智能的演进改革，AIGC的发展可以大致分为以下三个阶段：

# 早期萌芽阶段：1950-1990

受限于科技水平，AIGC仅限于小范围实验。1957年，莱杰伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森（Leonard Isaacson）通过将计算机程序中的控制变量改为音符，完成了历史上第一部由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲（Illiac Suite）》。1966年，约瑟夫·韦岑鲍姆(JosephWeizenbaum)和肯尼斯·科尔比(Kenneth Colbv)共同开发了世界上第一个机器人“伊莉莎(Eliza)”，其通过关键字扫描和重组来完成交互式任务。80年代中期，IBM基于隐马尔可夫链模型创造了语音控制打字机“坦戈拉（Tangora）”，能够处理两万个单词。

# 沉积积累阶段：1990-2010

AIGC从实验性向实用性逐渐转变，深度学习算法、图形处理单元(GPU)、张量处理器(TPU)和训练数据规模等都取得了重大突破，受到算法瓶颈的限制，效果有待提升。2007年，纽约大学人工智能研究员罗斯·古德温（Ross Goodwin）装配的人工智能系统通过对公路旅行中的所见所闻进行记录和感知，撰写出世界上第一部完全由人工智能创作的小说《1 The Road》。2012年，微软公开展示了一个全自动同声传译系统，通过深度神经网络（DNN）可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。

# 快速发展阶段：2010-至今

深度学习模型不断迭代，AIGC取得突破性进展。尤其在2022年，算法获得井喷式发展，底层技术的突破也使得AIGC商业落地成为可能。其中主要集中在AI绘画领域：2014年6月，生成式对抗网络（Generative Adversarial Network，GAN）被提出。2021年2月，OpenAI推出了CLIP（Contrastive Language-Image Pre-Training）多模态预训练模型。2022年，扩散模型Diffusion Model逐渐替代GAN。

# 特征

AIGC是建立在多模态之上的人工智能技术，即单个模型可以同时理解语言、图像、视频、音频等，并能够完成单模态模型无法完成的任务，比如给视频添加文字描述、结合语义语境生成图片等。

现阶段国内AIGC多以单模型应用的形式出现，主要分为文本生成、图像生成、视频生成、音频生成，其中文本生成成为其他内容生成的基础。

# 文本生成

文本生成（AI Text Generation），人工智能文本生成是使用人工智能(AI)算法和模型来生成模仿人类书写内容的文本。它涉及在现有文本的大型数据集上训练机器学习模型，以生成在风格、语气和内容上与输入数据相似的新文本。

# 图像生成

图像生成（AI Image Generation），人工智能(AI)可用于生成非人类艺术家作品的图像。这种类型的图像被称为“人工智能生成的图像”。人工智能图像可以是现实的或抽象的，也可以传达特定的主题或信息。

# 语音生成

语音生成（AI Audio Generation），AIGC的音频生成技术可以分为两类，分别是文本到语音合成和语音克隆。文本到语音合成需要输入文本并输出特定说话者的语音，主要用于机器人和语音播报任务。到目前为止，文本转语音任务已经相对成熟，语音质量已达到自然标准，未来将向更具情感的语音合成和小样本语音学习方向发展；语音克隆以给定的目标语音作为输入，然后将输入语音或文本转换为目标说话人的语音。此类任务用于智能配音等类似场景，合成特定说话人的语音。

# 视频生成

视频生成（AI Video Generation），AIGC已被用于视频剪辑处理以生成预告片和宣传视频。工作流程类似于图像生成，视频的每一帧都在帧级别进行处理，然后利用 AI 算法检测视频片段。AIGC生成引人入胜且高效的宣传视频的能力是通过结合不同的AI算法实现的。凭借其先进的功能和日益普及，AIGC可能会继续革新视频内容的创建和营销方式。

上次更新: 2024/01/20, 10:29:53

ChatGPT快速入门→