推荐:张家界导游网 官网认证微博开通 >>>
过去几个月时间,在新的人肉外包系统帮助下,马格南图片社差不多将它们现存所有五十万幅数字图片的关键词重新整理了一遍。这家传奇图片社与纽约的新兴公司Tagasauris合作开发了一款基于网页的媒体标记工具,借助亚马逊公司Mechanical Turk提供的大量在线人力资源,解决了过去极为耗时的元数据编纂工作。
Mechanical Turk相当于一个"人才市场",让商家和开发者能够"根据需要雇佣数量相当的劳动力"。这一网络服务始于2005年,用户可以在上面发布人类智能工作(Human Intelligence Tasks)。顾名思义,这种任务需要人力辅助完成机器不能轻松完成的工作,例如说解读照片、理解照片中的主要视觉元素并用语言概括。
任务的响应者可能来自世界各地。有的任务只需注册就可以做,但有些任务则需要完成相应的资格测试,例如说Tagasauris把关的马格南关键词编纂任务。
根据马格南图片社网络内容主管Meagan Young的说法,通过新系统发送出去的照片每张至少都会有八个人为其编写关键词,不到一分钟就能返回结果。经过去年夏天的小批量测试后,他们就开始以两万张照片为批次发送编写关键词。"这真的很让人开心,"她说。"只要几周时间就可以把所有图片的关键词写好。"
对现有图库的关键词编写工作按计划将在十二月份完成,随后马格南计划将添加更多来自其成员摄影师作品的照片。新的作品一经收录,就会立刻编写关键词。此前,在马格南图片社位于巴黎、伦敦、纽约、东京的四处办公室里,有五六个人在负责元数据的编写工作,他们的图库里有大约二十万张照片没有图片说明或关键词信息。
试行结果显示每幅照片的关键词编写者在四到八个之间最为理想,人数再多就会导致重复。大多数照片送出去有多少关键词,回来还是多少个,但新的关键词更加精确恰当。这归功于另一项创新:新的关键词和一个语义数据库关联,每个关键词的含义都能被关键词编写者和文件数据库同时识别。
Young具体解释道:"在我们过去的系统里,关键词以纯文本形式存储;新的关键词则附带了相关的语义数据。假设在我们的新系统还没有完全生效前你在系统里输入'美洲豹'。你得到的搜索结果里可能有汽车、动物等等。而新的系统则会问你到底指的是汽车,还是动物。只有我们给每个关键词都提供了相关的语义数据,系统才能识别。搜索者指明美洲豹的具体所指后,数据返还系统,系统就能很快识别你具体搜索的内容。"
这一关键词数据库源于另一项人肉外包的数据源:维基百科;或者更精确一点说:DBpedia。DBpedia将自己形容为"维基百科项目的一部分,着力挖掘维基百科信息中的信息结构"。简单来说,这句话的意思就是关键词可以关联到一个脱胎于维基百科的数据分类系统,根据关键词的含义将其与其它关键词相互联系。而且,DBpedia的数据基于创作共用许可(Creative Commons licence)发布,不属于任何图库,可以自由使用。
因此从理论上来讲,每个人都可以从Tagasauris所说的"世界上最大的知识宝库"中选择相同的词用来标记照片。使用这种方式标记照片后,用户就能通过关键词间的相互联系轻松浏览图库中的照片,就像在google中查找相关链接一样方便。而且这些关键词并非来自某个图片库的数据系统,而是来自一个人肉的词义分类系统。
为什么会这样做?对马格南图片社营运总监Mark Lubell来说好处显而易见。"我们的照片会变得更好找,它们之间的关联会变得更加密切,销售情况也会因此见长。而且这么做代价并不大。"
但对于照片买卖来说这只是一部分。尽管关键词必不可少,但对于马格南所面对的数字市场全面重组战略来说只是很小的一步。从1947年Henri Cartier-Bresson、Robert Capa、Chim Seymour和George Roger等人合作建立马格南图片社到之后的很多年里,摄影师们都是带着报刊杂志的稿约奔走于世界各地,他们带回来的作品还没有分类整理就已经铺天盖地的出现在媒体上。
而今这些过去支撑着采访的广告费用已经转投向网络,印刷媒体自己也处在困难的适应阶段。与此同时,人们欣赏和使用照片的方式也发生了巨大的改变。人们更愿意选择google,而不是给那些著名的图片社打一个礼貌的电话。Meagan Young说,"目前来自google的搜索结果只占了我们总流量的百分之二到百分之三,这个数据应该反过来才对。大多数网站会告诉你,他们的主要流量都来自关键词搜索。"
搜索引擎优化是这场战争的名字,"到目前为止,我们的整个数据库依旧将Google挡在高墙之外。我们目前正与我们的数字文件管理(DAM)供应商合作,从图片到故事,将我们的所有档案文件都建立相应的静态网页,向Google全面开放。"
说服旗下的摄影师们花了一些时间,他们害怕这种开放会导致他们的作品很容易被非法下载或盗用。但当我向他们展示了布列松在Google上的搜索结果后,他们就都被说服了。这位对他们影响巨大的创始人在Google的搜索结果里居然没有一个连接是指向马格南的。"想提高马格南在搜索结果中的相关度和我们如何组织我们的数据库关系甚大,我们必须确保自己的数字文件提供了丰富的元数据信息,"Young说。"数据多少不是问题,问题是能不能找到它们。更重要的是不光要能找到它们,还能用丰富的手段找到它们。这就需要我们有能力创建一个基于叙事的相关数据库模式,以全然不同的方式看待我们的既有作品。所有的数字媒体最后都会走上这一步。"
人肉外包的关键词编写方式正是这种转变的第一步,Lubell称其为"一次巨大的进步。我们从中获得的启示是,想要生存,你必须迁移到语义数据库,"他说。"这会给照片带来更加丰富的相关数据,得到更好的搜索结果,带来更好的销售业绩。由于这些照片与正确内容的关联更加密切,它们也会更加频繁的出现在人们面前。"
要不了多久,马格南就能看到这是否能给它们的网站带来改变,给它们未来的作品提供支持。同样要不了多久,我们就能看到三个臭皮匠是否真的能赛过诸葛亮。
参考链接:
[1] Mechanical Turk https://www.mturk.com
[2] Tagasauris http://www.tagasauris.com/
[3] DBpedia http://dbpedia.org/