现在假设我们通过ca获得了一组特征向量{\athbf{v}1,\athbf{v}2,\dots,\athbf{v}k},这是数据的主要变化方向。
接下来就能将数据投影到ca提取的主要特征向量上,并保留前k个主要成分,以减少数据的维度。
压缩后的数据可以表示为\athbf{y}\athbf{y}1,\athbf{y}2,\dots,\athbf{y}k,其中\athbf{y}i\athbf{x}\athbf{v}i表示数据在第i个主成分上的投影。
同理,当需要解压缩的时候,利用压缩后的数据\athbf{y}和ca提取的主要特征向量{\athbf{v}1,\athbf{v}2,\dots,\athbf{v}k}来重构原始数据。
重构的数据结构就是\hat{\athbf{x}}\su{i1}{k}\athbf{y}i\athbf{v}it。”
乔泽手书的速度很快,刚刚讲解完,也完成了包含着数据表示、分析和重构三个步骤的重要公式,然后将手中的稿纸递给了对面的马明旭。
既然懂压缩,又了解过超螺旋代数,那应该就能看懂这个简单的例子。
当然这就是个最简单的理论过程,豆豆在使用的时候,还需要考虑数据预处理、参数选择等问题,以确保算法的有效性和性能。不过这些都是细枝末节的东西,在乔泽看来,只要弄懂了理论,剩下的都是小事情,无非就是要花费些时间。
甚至完全都能交给人工智能解决。
豆豆都能完美的使用这套数据库,未来升级后的人工智能就更没问题了。
马旭明深深的看了眼乔泽,这才接过他递来的稿纸,随后便被稿纸上三个公式所吸引。
感触有很多,比如脑子有些不够用了。
来之前大家的确是专门研究过超螺旋代数跟超越几何学,但时间还是太短了。
光看这些公式还真有些反应不过来。
想开口再深问,突然又感觉不太好意思,只能默默的将公式记在脑海之后,然后抬头看了眼正歪着头瞅着稿纸的刘杰春,干脆的把乔泽这张手稿递了过去。
本以为这家伙会一看一个不吱声,谁想到刘杰春竟然恍然大悟的说了句“哦,原来是这样啊”
马旭明刚想开口问问老友他看出些什么了,谁想到刘杰春将手稿递给身边的周良时,顺带着扭头冲他眨了眨眼。马旭明秒懂,然后在心里冷笑了两声,也懒得开口拆台了。
毕竟大家一起来的,算是一个整体,没必要在两个年轻人面前闹笑话。
只是这部份手稿在四个人手中转了一圈之后,一时间几个人又不知道说些什么了,于是目光落到了马旭明身上。
看他做什么
马旭明深吸了口气,然后问道“嗯,这个这个算法,能做到无损压缩”
“高维特征码的还原为什么不能无损”乔泽疑惑的反问道。
“嗯,我的意思是,无损压缩算法嘛,这个极限压缩效率总是会受到信息熵的限制,你这个算法极限压缩效率大概能达到多少”
“通过公式可以算出来,极限压缩效率能做到与高维信息熵相当,如果你是说跟现有的压缩算法比的话,效率能提升两到三倍,未来如果能更进一步的话,甚至可能做到网络传输比卡车运输要快。
当然就目前的情况而言,还得根据具体数据类型来分析。因为这涉及到不同类型数据对应的高维信息熵的不同。比如图片的压缩效率要比文本更高,视频要比图片更高。缺点是压缩跟解压时需要更高的算力支持。”乔泽只能详细的解答道。
“嗯,我大概理解了”马旭明看了眼刘杰春,表示他没问题了。
其实来之前,他是想好好跟乔泽探讨一下关于压缩算法的未来的。
但在了解了乔泽的讨论方式后,他决定得到明天再来聊这些。