数字视觉的演变:计算机图像历史之旅
打开手机上的任何应用,你正在与近80年创新的结晶互动。屏幕上的图像——清晰、色彩丰富、即时加载——代表着人类在捕获、存储和显示视觉信息方面无数的突破。每个像素都承载着科学家、工程师和艺术家的遗产,他们想象着同时代人往往无法理解的可能性。
这是我们如何教机器看和展示的故事,一段从闪烁的示波器点到 AI 生成照片级真实感的旅程。这不仅是一个关于技术的故事,更是关于人类将视觉世界转化为数字形式的雄心。

> 数字视觉的黎明:1940年代-1960年代
那是1947年。在曼彻斯特大学的一个实验室里,Freddie Williams 和 Tom Kilburn 盯着连接到世界上第一台存储程序计算机的阴极射线管。他们看到的——代表内存内容的点阵——在任何意义上都不是图像。然而它们代表着革命性的东西:来自计算机的视觉输出。
两年后,MIT 的 Whirlwind 计算机迈出了下一步。由 Jay Forrester 设计的 Whirlwind 成为第一台具有实时交互式 CRT 显示的计算机。操作员可以观看机器思考,看到计算作为发光的荧光轨迹展开。这不是艺术或摄影——而是纯粹的数据可视化——但它为随后的一切播下了种子。
艺术可能性几乎是偶然出现的。1950年,Ben Laposky 将示波器连接到模拟电路,开始操纵电子信号来创建他称之为"Oscillons"的抽象图案。这些在世界各地画廊展出的旋转形式成为人类第一批计算机生成的艺术。Laposky 无法数字化存储他的创作;他从 CRT 表面拍摄它们,这是一个迷人的提醒,展示了技术仍然多么原始。
真正的突破发生在1963年,当时一位名叫 Ivan Sutherland 的博士生在 MIT 创建了 Sketchpad。使用光笔,Sutherland 可以直接在计算机屏幕上绘制——圆形、线条、约束、层次结构。他引入的概念至今仍是所有图形程序的基础。Sutherland 的愿景如此超前,以至于为他赢得了图灵奖,并奠定了 CAD 系统、动画软件和我们现在无法想象没有的图形界面的基础。
> 像素革命:1970年代
1970年代面临一个根本问题:计算机应该如何表示图像?答案来自 Russell Kirsch 在1957年开创的工作,当时他以176×176像素的分辨率扫描了他婴儿儿子的照片——这是第一张来自实体照片的数字图像。
到1970年代,这种基于像素(位图)的方法成为标准。每张图像都变成一个彩色点的网格,它们的排列决定了我们看到什么。这个概念现在看起来很明显,但它需要工程师思考存储和显示视觉信息方式的巨大概念转变。
图形终端快速成熟。Tektronix 的 4010 系列引入了存储管,可以保留图像而无需持续刷新,使其适合工程和科学工作。伊利诺伊大学的 PLATO 教育系统配备了等离子显示器——学生用于化学模拟到第一批图形社交游戏的明亮橙色图形和黑色背景。
这个十年也催生了计算机动画作为一种艺术形式。1972年,Ed Catmull 和 Fred Parke 在犹他大学创建了"计算机动画手",展示了三维图形可以以流畅的自然主义移动。Catmull 后来共同创立了皮克斯,但那场革命的种子是在犹他大学的实验室里一帧一帧辛苦播下的。
个人电脑将图形带给大众。Apple II(1977)以六种颜色显示280×192分辨率——对于普通人可以购买的机器来说这是惊人的能力。Commodore PET 和 TRS-80 紧随其后,每台都扩展了家庭用户可以在屏幕上可视化的内容。
> 标准化与爆发:1980年代
1980年代带来了秩序。IBM 的视频图形阵列(VGA)标准于1987年推出,确立了640×480分辨率16色作为 PC 图形的基准。这种标准化意味着软件开发人员可以自信地创建视觉程序,知道它们可以跨机器工作。图形行业终于有了共同基础。
图像格式的出现解决了存储和交换问题。ZSoft 的 PCX 格式(1985)成为 PC 上第一批广泛使用的位图标准之一。Microsoft 的 BMP 格式随 Windows 1.0(1986)一起到来,优先考虑简单性而非效率——文件通常未压缩但可普遍读取。
然后是 GIF。CompuServe 于1987年推出图形交换格式,它很快成为新兴在线世界的必需品。GIF 巧妙的压缩(使用 LZW 算法)使文件在慢速调制解调器上保持可管理。它对动画和简单透明度的支持使其非常适合网络图形。即使256色的限制在许多显示器显示更少颜色的时代也感觉像是丰富。
图形用户界面随着 Apple 的 Macintosh(1984)和 Microsoft Windows(1985)而成熟。突然间,计算机需要不断绘制窗口、图标、按钮和菜单。这种需求推动了图形硬件的创新,并将视觉交互确立为预期的规范而非奢侈品。
三维图形从研究实验室走向商业产品。Silicon Graphics 推出了能够进行专业应用实时 3D 渲染的工作站。到十年末,消费级 3D 加速开始出现,暗示着即将到来的游戏革命。
> 网络时代:1990年代
1990年代以一个压缩突破开始,它将永远塑造数字摄影。1992年正式化的 JPEG 标准使用离散余弦变换将摄影图像压缩到原始大小的几分之一,同时保持可接受的质量。一张可能以原始像素测量为几兆字节的度假照片可以变成几十千字节的 JPEG,使数字摄影对于存储、传输以及最终的网络都变得实用。
JPEG 的天才之处在于理解人类感知。算法优先处理我们眼睛注意到的信息,同时丢弃我们永远不会错过的细节。可调节的压缩让用户选择自己在质量和大小之间的权衡。对于照片和连续色调图像,几十年内没有什么能与 JPEG 的效率相匹配。
但 JPEG 无法处理一切。具有锐利边缘、文本或有限颜色的图形在 JPEG 的有损压缩下会产生可见的伪影。GIF 格式满足这些需求,但当 Unisys 开始执行 LZW 压缩专利时面临危机。
回应来自1996年的 PNG——便携式网络图形格式。PNG 明确作为无专利的替代品创建,提供了通常优于 GIF 的无损压缩,同时添加了关键功能:alpha 通道透明度(平滑边缘,而不仅仅是开或关)、更好的色深和改进的压缩算法。PNG 成为图形、图标和任何需要精确性的内容的首选格式。
万维网爆发了图像消费。突然,每天有数百万人在查看和分享数字图像。优化变得至关重要——当用户通过拨号调制解调器连接时,每个千字节都很重要。动画 GIF 成为文化现象,从跳舞的婴儿到现在定义1990年代网络怀旧的"建设中"标志。
Adobe Photoshop 于1990年发布,使专业图像编辑民主化。曾经需要专业设备的图层、滤镜和蒙版等概念变得对任何有电脑的人都可访问。一代创作者学到数字图像是无限可塑的,确立了至今持续的期望。
> 数字摄影的成熟:2000年代
2000年代见证了数码相机从昂贵的专业工具过渡到日常消费设备。到十年中期,拍照手机无处不在,胶片摄影开始急剧下降。数字图像创作的爆发需要新的质量和组织方法。
专业摄影师采用 RAW 格式——包含未处理传感器数据的文件,保留了最大的编辑灵活性。与 JPEG 不同,后者固化了处理决策,RAW 文件让摄影师在事后调整曝光、白平衡和颜色。每个制造商都开发了专有的 RAW 格式:佳能的 CR2、尼康的 NEF、索尼的 ARW。Adobe 的 DNG 尝试标准化但从未实现普遍采用。
元数据标准成熟以处理数字图像的洪流。EXIF 将相机设置、时间戳和 GPS 坐标直接嵌入图像文件。IPTC 为标题、关键词和版权提供标准——对新闻机构和图库摄影至关重要。Adobe 的 XMP 提供可扩展的基于 XML 的元数据用于复杂的组织。
高动态范围(HDR)成像出现,摄影师寻求捕获超出任何相机原生能力的场景。通过组合同一场景的多次曝光,HDR 技术可以保留阴影和高光中的细节。开始时作为专业技术的东西最终成为标准智能手机功能。
> 现代时代:2010年代至今
Google 于2010年推出 WebP,挑战了 JPEG 和 PNG 长达数十年的主导地位。WebP 提供有损和无损压缩,通常在同等质量下比 JPEG 效率高25-35%,同时支持透明度和动画。该格式最初采用缓慢——浏览器支持需要多年才能成熟——但最终成为网络标准。今天,WebP 通常是优化网络图像的默认选择。
Apple 于2017年为 iOS 设备采用 HEIF(高效图像格式)标志着另一个转变。HEIF 可以将图像压缩到 JPEG 大小的一半,同时保持质量,这是一个显著的改进。该格式还支持在传统格式中不可能的功能:每个文件多张图像、深度图和图像序列。
AVIF 于2019年作为压缩效率的当前前沿出现。基于 AV1 视频编解码器,AVIF 甚至优于 WebP,特别是对于照片和高分辨率内容。浏览器支持继续扩大,将 AVIF 确立为摄影内容的 JPEG 可能继任者。
矢量图形随着 SVG 的成熟而经历复兴。随着响应式设计成为标准,分辨率独立的矢量图形对于必须在任何尺寸下完美渲染的图标、Logo 和 UI 元素变得至关重要。SVG 的基于 XML 的结构支持使用 CSS 进行样式设计和使用 JavaScript 进行操作,将矢量图形深度集成到 Web 开发工作流程中。
实时渲染能力改变了游戏和专业可视化。WebGL 将硬件加速的 3D 带到浏览器。消费级显卡达到了十年前看起来不可能的性能。实时光线追踪——曾经严格属于离线渲染领域——在消费级硬件中变得可用,模糊了游戏图形和电影制作之间的界限。
> 前沿:AI 及更远的未来
当前的革命以人工智能为中心。像 DALL-E、Midjourney 和 Stable Diffusion 这样的模型可以从文本描述生成逼真的图像,这在几年前似乎还是科幻小说的能力。这些系统不捕获物理现实——它们根据从数百万个例子中学习的模式合成全新的图像。
这引发了我们才刚开始探索的问题。当任何人都可以生成任何东西的令人信服的图像时,摄影作为证据会发生什么?我们如何验证真实的图像?技术和社会影响将在未来几十年展开。
神经压缩技术承诺效率的又一次飞跃。神经网络可以学习不同图像类型的最佳表示,而不是像 DCT 那样应用数学变换。早期结果表明压缩显著改善,尽管计算要求仍然具有挑战性。
计算摄影已经将智能手机相机转变为令任何前一个时代的工程师都惊叹的系统。人像模式合成曾经需要昂贵镜头的景深效果。夜间模式堆叠数十次曝光来捕获对任何单帧来说太暗的场景。HDR 处理自动、无形地发生。现代手机的相机应用包含的计算摄影复杂性超过了一代人之前整个研究部门所拥有的。
增强现实和虚拟现实需要全新的成像范式。光场相机捕获方向光信息,实现拍摄后对焦调整。体积视频捕捉三维场景用于真正的360度观看。全息显示器在很大程度上仍是研究项目,但正在走向商业可行性。
> 持续的旅程
从闪烁的示波器轨迹到 AI 生成的照片级真实感,计算机成像的轨迹反映了加速的创新周期。每个时代都建立在前一个突破奠定的基础上,早期先驱者无法想象的能力在几年内就变得司空见惯。
根本挑战保持不变:将视觉现实转化为可以存储、传输和显示的数字形式。然而解决方案变得越来越复杂。我们从 CRT 上的点移动到数十亿精确控制的像素。从千字节级别的图像到千兆像素的捕获。从手工绘制的矢量曲线到与照片无法区分的 AI 合成场景。
保持不变的是人类的雄心——捕获、创造和分享机器可以保存和复制的视觉体验的动力。计算机图像的历史最终是一个关于将人类视觉延伸超越生物感知和物理距离限制的故事。
最激动人心的章节可能尚未书写。随着计算能力继续其指数增长和新技术从研究实验室中涌现,数字成像的可能性似乎只受想象力的限制。近80年来,这个边界一直在超出任何一代人的预期持续扩展。没有理由认为接下来的80年会有所不同。
这篇计算机成像历史探索追溯了技术创新如何改变我们的数字视觉景观。有关今天选择格式的实用指导,请参阅我们的图像格式完整指南。要了解矢量图形在现代 Web 开发中的作用,请探索我们的 SVG 完整指南。