说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

可视化:图像的主题色提取算法,是不是太高端了?

HTML文档下载 WORD文档下载 PDF文档下载
可视化是最热的云应用领域之一。云集无数大牛,小专和创新企业代表。本篇来自Pat Hanrahan和Jeffrey Heer两位可视化“大师”所率领的斯坦福可视化组的一篇论文,重点分享了图像的主题色提取算法。

浙江大学CAD&CG国家重点实验室可视化与可视分析小组特别将论文进行了整理,以下为文章摘要。

斯坦福可视化组非常有必要介绍一下,领头的两个大牛一个是Pat Hanrahan教授,横跨科学可视化信息可视化两个领域,即便不知道这个名字那今年红得发紫的数据可视化上市公司Tableau应该都是知道的,他就是联合创始人,Tableau原生于他的Polaris系统;另一个Jeffrey Heer信息可视化人机交互领域近几年的当红炸子鸡,论文兼顾创新性和实用性,惊才绝艳。

回到正题,这篇文章解决了图像的主题色提取的问题,属于颜色建模这个topic。论文的一作同一年在Eurovis、CHI和SIGGRAPH上都发表了颜色建模的文章(SIGGRAPH的论文现在处于conditionally accepted状态),Eurovis和CHI都是最佳论文之一,真可谓厚积厚发。

这次真的是回到正题,回到这篇论文。一般的主题色提取方法有k-means和fuzzy c-means的按像素颜色值聚类的方法和颜色直方图取峰值的方法。其实论文的思路并不复杂,对图像定义一系列的特征,套用多元线性回归模型LASSO,在众包平台亚马逊土耳其机器人上建立任务收集训练集,LASSO通过训练集的学习增加关键特征的权重减小冗余特征的影响,从而生成一个比较好的主题色提取模型。下面分别说明特征定义、回归模型和user study三个部分。

其实主题色这个概念真的是公说公有理,婆说婆有理,评判一张图像的主题色是哪些,一千个看官不可能得到同一个答案,但是他们的答案大多近似。因此本文以用户定义的主题色作为标准答案也算合理。对于每张图像,文章以k=40用k-means方法计算图像的40个颜色作为基准色。用户只能从这40个颜色中挑选5个颜色作为图像的主题色。

文章定义了以下6个方面的特征,提取计算出79个特征变量,这里作简单说明:

视觉显著性  saliency:文章以用户对图像的眼动跟踪数据取定义图像中每个像素的视觉显著性,定义某一套主题色在图像中的视觉显著性为所有主题色所在像素的视觉显著性的叠加,同时定义某颜色视觉显著性密度为叠加值对像素个数的比值。

覆盖误差  coverage error:覆盖误差定义为用主题色去覆盖整张图像所得到的图像和原图像的颜色误差,分硬误差和软误差两种,区别在于一个像素点是由单一主题色覆盖还是由多个主题色的线性叠加覆盖。相似地,还定义了像素在亮度、饱和度、红绿、蓝黄等颜色通道的覆盖误差,以及对图像进行分割后按区域计算的覆盖误差。

颜色多样性  color diversity:颜色多样性考虑颜色之间的平均、最大、最小距离。

颜色集中性  color impurity:颜色集中性考虑与主题色相近的前5%的像素之间的距离。

颜色可命名性  color nameability与颜色统计  color statistics:这两个听起来比较直观,实际上非常模糊,文中也没有详细介绍。

定义好这79个特征之后,就要轮到LASSO上场了。LASSO(least absolute shrinkage selection operator)是一种多元线性回归方法,在传统的多元线性回归式子之余,通过一个约束条件达到特征选择的目的(下图公式摘自于LASSO原文)。其中x是特征,β是特征的权重,如果约束t是一个无穷大的值,那么就跟一般多元线性回归没有差别,但是t逐渐减小的时候特征权重就收到挤压(shrinkage),从而达到去除冗余特征的选择(selection)作用。通过LASSO方法对训练集的学习,所定义的79个特征就被减少到非常有限个。


移步这里有对这个方法的思想和发展比较详细的介绍。

User study就是作者在这个众包平台上设置了40张图像,每个用户接受10张图像的任务,在基准色中找到图像的5个主题色。另外作为对比,作者又找了11个艺术系的学生执行相同的任务。

下图是一张图像的user study结果统计,可以看出用户所选的主题色和艺术系同学的还是差不多的,但是和自动方法选出来的颜色相差较大。


对于建模得到的主题色,作者又以user study去鉴定是否和图像真实主题相近,由用户以评分的方式判断,对给出主题给出1到5分,5分是非常接近而1分是非常不接近。从下图可以看出建模得到颜色和用户组的打分都广受好评(左上角标出平均分),而其它两种方法则稍显劣势。


最后来看下对新图像的建模情况对比:可以看出文章方法能够提取出一些像素覆盖度不是很高,但是在视觉上比较显著的区域,如蝴蝶的白色以及海上的红色太阳等等。


最后文章给出了这79个特征的权重,似乎就可以用于类似于基于主题色的图像检索一类的应用。但实际上,由于视觉显著性是通过用户的眼动跟踪数据得到的,所以无法对没有视觉显著性的图像进行建模,就大大降低了可用性。如果对这个特征进行改进的话,就能让这个方法得到更广泛的应用。

几点补充:

1.之前视物致知已经报道过这篇文章,本博文则是从学术角度重新审视这篇文章。

2.Eurovis的文章针对数据实体本身的颜色语义和设计图元所对应颜色的一致性的问题,比如是水果的数据,那蓝莓就用蓝色,香蕉就用黄色等,感兴趣的看官可以看原论文。(文/浙江大学可视化分析,编辑/郭雪梅)

原文链接:乱色渐欲迷人眼,学习才能得主题

2013 Facebook黑客杯报名即将开始 解决Win8下IE10无法打开的故障 [简讯] Scala 2.10.0发布! 收购传闻:Apple一厢情愿还是Waze待价而沽 回顾过去,展望2013:移动开发引擎、工具和语言盘点 成本为0!Netflix开源工具Janitor Monkey清理AWS iOS开发者讲述在Google工作的三个月 GitHub历史上最糟糕宕机事故回放及反省 疑因竞争 谷歌有意让地图与WP手机不兼容 移动游戏开者必看:海外VC最关心什么? 淘宝UED:随侃设计师的个人素养 TIOBE 2013年1月:不负重望 Objective-C再次赢得桂冠! 大数据:商业或技术的挑战? 开源移动统计:Cobub Razor近期版本大升级 无人机应用,为何屡遭苹果拒绝 2013年Java继续火的五大理由 Rails所有版本都有SQL注入漏洞?其实没那么严重 如何设置Windows Server 2012 NTFS权限 智能手机大局已定 HTC难扭转乾坤? 比谷歌手表更酷!基于大数据分析的睡衣 众投资金:改变了移动游戏开发的一切一切 这些科技产品和革新或在今年“横空出世”?! 现代Objective-C七宗罪 Google工程总监Ray Kurzweil意欲打造“虚拟朋友” 惠普开源JavaScript框架Enyo更新:支持桌面和移动平台 分析:三星或将成为科技行业第五巨头 是真的 诺基亚真有可能推Android手机 如何打造IE10的指尖触碰式用户体验 SUSE全球OEM联盟总监:为何SAP HANA只选择SUSE? 推荐2013年最佳PHP开发框架 Patrick Wyatt:代码没问题 程序却有bug? 自己定义CMP的finder定位器的问题 四舍五入问题 请教牛人,能不能发一段java中有关计时的程序 一个小问题,请大侠指点,立即给分!!! 关于三角函数的问题 一个三百年前已忘得一干二净的问题 打包!!!问题问题。。。在线..... 一个c的问题!! [100分求救]在Canvas或Applet上画的图应该怎样输出为jpg图象呢? 用VC的console application 到底能编多大的程序? 关于程序在初始化时候注册窗口类的问题? 上网很慢 请问从log文件里都能得到哪些信息? 系统设计一般把数据表放一个数据库中还是分到多个数据库中? 树型控件的问题,PB8.03版本,大家遇到过吗? 强烈支持雍亲王倒分!!(江湖无赖) 怎样调用VC写的DLL 同步 兄弟们,我的rh8中怎么没有中文输入法? 在access中如何用函数?我怎么找不到函数库啊。那里有关于access的函数库教程? 请教 我装的DELPHI7.0不知为何在区域设置为“英文”是看到的汉字都成了“????”? <iframe>如何改变大小? 关于水晶报表的问题!(急!!!!)(在线等待~~~~~~~~) 关于vb脚本中运用三角函数的问题 一个三百年前已忘得一干二净的问题 cbc+数据库的问题????????? 能不能控制<input type='fele' ...>的文件类型,如不可输入(readonly全部都不能用了) 在线等待:谁有个最简单的加密算法? 谁有More Effective中文电子书! 请教一段java计时器的问题(送分了) 在ASP中能不能引用.net的框架组件,能的话该怎么做? 占便宜歌 不想周末加班了,帮我啊兄弟们! 小弟是2003年毕业生,想找个软件工程师工作,不知道有什么要求? 一个简单的添加记录语句,求解! 请问通常所说的“横表”“纵表”指什么。 我想在菜单显示之前将其文字都更改掉在哪个函数中写?? 各位高手快来指点一下,是关于动态创建组件的! http://expert.csdn.net/Expert/topic/1180/1180423.xml?temp=.7148706 各位高手快来指点一下,是关于动态创建组件的! http://devserver/mail/abc.nsf?login&Username=abc&Password=12345678 如何得到已有exe文件中的菜单资源,并且添加新的item(UP无分) 在线等待:winxp professional中文版的sn? 进度条的颜色能不能换?老是灰的! 求网卡RealTek8029在Solaris8的驱动程序!!!!!! 如何提高记录的入库速度?内见例子 简单问题,容易回答,容易得分,在线等待。谢谢 高手请进,有关MVC(模型-视图-控制器)设计的讨论 客户端配置的问题? 各位高手教两招吧!! 帮我看这个汇编程序,有高分送 关于WIN2000/XP机器收发传真??? 夏天的早晨,室外的花草,树叶上常常有晶莹的小露珠,这是___现象,寒冷的冬天,清晨起床时常常看到窗户上有一层白色的冰花,这是___现象. 描写勤奋刻苦的古诗 要整首诗!免了 不要写了已经回答的事莫要重复 一灯双控开关怎么接线我想知道用这边的开关能开灯,用那边的开关能关灯,那边的开关关灯后,用这边的开关还能开灯,请问是怎么接线?《明线》我的2个开关上的字母都是L,L1,L2,知道的说下, 小露珠是怎样形成的 “我们之间,渐行渐远”英文翻译 一灯双控开关咋接. This shirt is too short .I wanta one在空的地方填词 “听见风吹像一首渐行渐远的歌”英语翻译 一灯双控开关怎么按装线路. 如何评价武则天,100字以内, 英文翻译 : 渐行渐远,直到消逝不见. 根据实物图连电路图,并说明开关在干路还是支路中 ,为什么. 急求!我需要高中期末评语100字左右 四字词语 什么的小露珠 为什么有时智能ABC输入法不能选字呢..?有时显示不出选字体那个框..什么原因..? 对生命价值的看法(100字左右)急! 英语翻译 我的智能abc输入法为什么打字只显示一个字,选字的都没有?哪个大哥大姐帮我解决下 1 哲学与文化的关系是什么?请写的详细点 英语翻译 胡修齐,起英文名.必须要有谐音的,既有谐音又有意义那最好不过了.我自己研究了几个:Hughie ; Huxley ; Yuchi ; hoochie;juche; chalky……反正都是这一类的这几个里哪个更好? 如何理解四个文明的关系? 小露珠历险记作文 含有好看意思的词语有什么 八上, 英语翻译 含有“好看”意思的词语有:含有“好看”意思的词语有那些? 百万亚瑟王,3星4星卡有什么用? 怎么判断电路图中的干路? What's that的复数形式 文明跟文化有什么区别? 小露珠有什么作用 电路图以及连接实物图的支路和干路怎么找 指出下面加点词语在文中的含义.她满不在乎地说:"算了吧,反正我已经站了一个钟头,要是再换回来,你还得站两个钟头 小露珠是怎么形成的?怎样变成的? 小露珠像什么 This is a black and grey shirt将这句话变成复数形式 “公园里有许多人,男男女女,老老少少.”用英语怎么说 什么是小露珠?露珠可以被叫做水珠吗? 武则天创造了多少个汉字? 老少爷儿们用英语怎么说? 不用双控开关,一灯双控怎么接?听别人说是用三根线接的?具体怎么接? 武则天创造的十二个汉字 先生们,女士们,老少爷们们,用英语怎么说? 求"两开关控一灯"的电路图? 简述汉语汉字和中国文化之间的关系 老的英语怎么说? 并联电路中的支路和干路是什么意思啊 简述文化与经济、政治的关系 最坏的结局是什么---【】括号中填四字成语【趣味题】 物理干路是什么意思 简述经济.文化三者的关系 文化与文明的联系 干路先行的干路什么意思 简述文明产生于自然环境的关系 在括号里填上两个意思相近的字,组成成语( )马( )花 嬲 这字念哈 拼音 论述设计与中国文化的关系 小露珠什么意思 请问这个嬲字的拼音?
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘