(《新知客》,2010年9月)
互联网应用的新概念似乎总是层出不穷,然而相对于2005年前后中国一下子冒出来的一大批 web 2.0 网站和最近几年出现的“云计算”,此时此刻的互联网业界似乎有点沉闷。人们开始谈论,互联网下一个有趣的事情是什么?
百姓网 CEO 王建硕,最近在《中国企业家》杂志发表文章《2011年注定是中国互联网第三春》,提出一个五年周期理论,认为每隔五年左右就会有一批人出来创业,就会有一批风险投资周转完毕转而支持新的项目,这样经过这两年的沉闷,2011年必将有新东西爆发。王建硕看好的概念是“移动互联网”。紧接着,著名 IT 博客“对牛乱弹琴”,也谈到2005这个奇迹年,不过他并不怎么看好2011年的爆发,认为现有的 web 2.0 公司仍在寻求能真正赚钱的模式,而不会出现什么全新的概念。
有一个东西可能成为未来几年互联网公司的新主攻方向:推荐引擎。
豆瓣网,土豆网和各种视频分享网站,包括博客的流行,在中国都是从2005年开始的。今天的年轻人中可能任何两个人过去一天内看过的节目和新闻都完全不同,每个人都能根据自己的兴趣找到特有的一套内容,这就是 web 2.0 的力量。对2005年的创新公司来说,最重要的革命性思想可能是2004年《连线》杂志主编 Chris Anderson 提出的所谓“长尾”理论。这个理论说互联网使得过去几件流行商品通吃的局面一去不返了,现在哪怕是最不流行的东西也会有人喜欢,是小众市场的时代。
互联网的大趋势,甚至可以说是整个社会的一个大趋势,是人们面临的选择越来越多。过去是全国上下看一个电视剧,而现在中国每年生产一万五千集,其中很多甚至根本没有被播出的机会。1994年,全美国总共有50万种不同的商品出售,而现在仅仅在亚马逊网站上就有超过240万种商品。长尾和 web 2.0,正是选择越来越多带来的现象。 Anderson 提出长尾的三个法则,第一是让所有东西都可以被获得;第二是让这些东西卖的很便宜;第三是帮我找到它。前两点可以说已经做到而且做得很好了,现在的关键是第三点,怎么帮助用户作出选择。这就是推荐引擎的作用了。
据市场分析公司 Forrester 统计,那些在电子商务网站被推荐过商品的用户,有三分之一的人会根据这些推荐买件东西。任何广告都不可能做到这样的成绩。所以推荐引擎不但是 web2.0 的最核心技术,更是广告的终极形式。我们可以设想,当一个人面对购物网站上几十万种商品,有多大可能没有一件是他愿意买的呢?这个人空手而归的最重要原因,也许是那个他一定会买的商品没有被他发现。
多年以前,我曾经在亚马逊买过一本《量子力学》,是物理系研究生的教材。结果很长一段时间内亚马逊不停地向我推荐各种物理教材。这个推荐引擎想的非常周到,只可惜它不知道我早就不需要这种教材了。现在在当当网买书,每一本书的关联推荐往往都是一些流行热卖的类似的书,这些书我早就知道而没有买,难道会因为看到推荐才买么?人们需要的是个性化的,恰到好处的,最好还有一点惊喜的推荐,而传统的推荐引擎太落后了。
在线DVD租借提供商 Netflix,自己有一个算法保密的推荐引擎 Cinematch,根据用户对电影的打分来判断他还可能喜欢什么电影。这是一个相当优秀的引擎 — 如果你想知道喜欢一本书的读者还喜欢什么样的书,亚马逊可以免费告诉你答案,而 Netflix 的电影推荐服务只给付费用户,甚至可以说是一大卖点。但 Netflix 并不满足,它在2006年提出悬赏,希望有人能把推荐引擎的性能提高10%,这10%的奖金是一百万美元。
这件事充分说明一个好的推荐引擎是多么重要,同时又是多么困难。这笔奖金一直到2009年才被一个七人小组得到,其中包括两名AT&T的科学家。
传统的推荐引擎主要根据统计用户记录来发现关联,重点是“买过这本书的人一般还都买了什么书”。这个原理是简单的,它的缺点在于往往推荐的都是一些相似的东西,而且这些东西必须已经有很多人买过了。它无法制造惊喜。这可能也是很多人更愿意逛书店的原因之一,在书店里往往会偶遇一些本来绝对想不到自己会喜欢的,而且不怎么出名的好书。另一方面,传统的引擎不知道一本书或者一个电影到底好在哪里,为什么人们会喜欢,以至于无法做出更精确的推荐。
但现在有两个新的推荐技术,堪称是推荐引擎2.0。
Pandora 是一个专门致力于歌曲推荐的公司,它的办法是分析歌曲。在 Pandora 的算法中,给每一首歌都有400种不同的属性,聘请一位音乐专家,使用20分钟的时间给这首歌的所有可能的属性打分。这样一来每一首歌都被一组数标记了属性。Pandora 的目标是建立一个包含所有歌曲的数据库,称之为“音乐基因组计划”。他们每月能分析一万首歌曲,在过去十年之内已经分析了74万首。推荐算法的原理是,如果你表示喜欢一首歌,程序会自动寻找跟这首歌的“基因”相同的歌曲,并赌你也会喜欢。Pandora 现在已经是 iPhone 和 iPod 中最流行的应用之一,随着播放的进行你可以随时表示喜欢或是不喜欢一首歌,程序通过网络自动提供各种你可能喜欢的歌曲。
Pandora 的独特之处在于它完全根据一首歌的本身属性和你自己的喜好记录来判断你喜不喜欢,而不考虑别人喜不喜欢。显而易见的好处是也许这首歌并不流行,可是你就是喜欢。Pandora “了解”歌曲。统计表明,在使用过 Pandora 的人中,45%买了更多音乐,只有1%的人因为 Pandora 减少了音乐购买。
而另一个推荐引擎公司, Hunch,有更大的野心,它的做法是直接分析人。Hunch 并不去分析歌曲,电影或者书有什么属性,它分析每个用户有什么属性。你喜欢百事可乐还是可口可乐?你喜欢蓝色的笔还是黑色的笔?通过大量的统计分析,Hunch 发现,如果你相信 UFO 存在,那么你更有可能喜欢百事可乐;如果你有一个 MBA 学位,那么你更有可能喜欢蓝色的笔。
现在去 Hunch 的网站,它允许你用 Facebook 或者 Twitter 的账号登陆,然后它会问你20个看上去与电影和书籍一点关系都没有的问题。这些问题包括你住在城市,郊区还是乡下,你会不会自己安装家庭影院的音箱系统,你能不能连续做10个引体向上,喜欢吃什么样的炸薯条等等。然后根据这些信息,它将会向你5本杂志,5个电视剧和5本书。我很少看电视剧,但它推荐的5本杂志中有2本是我早就订阅了的;它推荐的5本书里有一本是我看过的。它其他的推荐我不怎么感兴趣,但这已经是相当不错的准确度。Hunch 的雄心壮志是给每一个用户建立一个个人喜好档案,然后那些电子商务公司就会向它购买完全基于个人喜好的推荐服务。
中国显然需要高性能的推荐引擎,而且考虑到国人的喜好与西方用户未必相同,这种推荐引擎还必然是具有中国特色的。我预计推荐引擎会在中国有很大的发展,但是其中也有困难。
首先,“炼成”一个好的推荐引擎需要大量的真实交易数据,而这些数据往往各公司保密,是一种稀缺资源。Netflix 是为了举办100万美元的优化大奖,才公开了部分用户电影评价数据。Pandora 是自己采用劳动密集型的做法雇人给每一首歌设定属性,而且费时多年才开始盈利。很难想象淘宝或者当当能把自己网站的交易记录交给一个第三方公司研究。
更重要的是,推荐引擎技术很难山寨,它不仅仅是一个编程的问题,而必须请统计学家,艺术家和工程师合作研究。早期的互联网公司最大的不同是它使用了互联网;中国在2005年爆发出来的 web 2.0 公司,最大的不同也许仅仅是一个好主意;而现在则到了需要核心技术的时候。也许那个大学本科退学生,甚至高中生想起来一个好主意,写几个月程序,然后就能拉到风险投资说创业就创业,说上市就上市的时代已经快要结束了。
从 web 2.0 到推荐引擎2.0,是互联网公司从低端到高端的一个进化。
Pingback: Tweets that mention 从Web 2.0到推荐引擎2.0 « 学而时嘻之 -- Topsy.com
#1 by 项老师 on 八月 31, 2010 - 10:43 上午
Quote
百科全书式的天才作者!写得好。
#2 by 同人于野 on 九月 1, 2010 - 11:47 上午
Quote
项老师的夸奖令我惭愧啊!
#3 by 六翼拉菲尔 on 五月 10, 2011 - 5:48 下午
Quote
吐槽一下您的用户名;
我们初中有个老师姓郝,所以他批评了你一顿以后你还得管他叫“好”老师;
还记得有的网站有人注册用户名叫“父亲”的………………
#4 by feng on 八月 31, 2010 - 10:49 上午
Quote
先提个小建议. 这句话:
“也许那个大学本科退学生,甚至高中生想起来一个好主意,写几个月程序,然后就能拉到风险投资说创业就创业,说上市就上市的时代已经快要结束了”
读起来有点绕口. (我是看了两遍才明白的.) 原因是主语 “时代” 前面有很长的一个形容词组 “那个大学本科退学生,甚至高中生想起来一个好主意,写几个月程序,然后就能拉到风险投资说创业就创业,说上市就上市的”. 这个不太符合中文语法习惯. 比如这样就更好理解一些:
“曾经一个大学本科退学生,甚至高中生想起来一个好主意,写几个月程序,然后就能拉到风险投资说创业就创业,说上市就上市. 但这个时代也许已经过去了.”
言入正题, 我觉得这个论点(即”这个时代已经过去”)可能有点仓促. 这个论点的基础是, “[推荐2.0]不仅仅是一个编程的问题,而必须请统计学家,艺术家和工程师合作研究”. 这个结论就已经把思考这个问题的approach 既定在一个比较固定的框架下. (比如既然要 involve 艺术家, 想必是认为解决方案需要包含对艺术作品的某种{有点类似人类的}理解)可是也许, 解决的方法仍然可以是一个”好主意”, 一个hack. 就如google的pagerank algorithm 的最根本的想法, 也是一个(现在看来非常显见的)好主意.
#5 by 同人于野 on 九月 1, 2010 - 1:09 下午
Quote
我刚刚看到一段话,看完这段话你肯定就不在介意我用的绕口长句了:)
可当彭丽媛想起丈夫语重心长的一段话:“作为一个女人,你比别人拥有太多:丈夫,
健康聪明的孩子;父母双全,最幸福的人生。在事业上你也不是太大年龄,所有大奖你
都得过,部队给你这么丰厚的待遇,这样重用你,你还要啥呀?”时,就能从中得到莫
大的安慰,就会感到和丈夫的心贴得很近。
#6 by 项老师 on 九月 1, 2010 - 1:28 下午
Quote
想不到你也爱看太子和太子妃的故事。
#7 by 同人于野 on 九月 3, 2010 - 1:21 下午
Quote
亮点是中国将有一位漂亮的第一夫人:)
#8 by kk on 九月 4, 2010 - 11:08 下午
Quote
悲哀
#9 by tom on 九月 12, 2010 - 2:14 下午
Quote
的确是悲哀啊,同人老师你离中国还是太远了,跟外国人看中国人的视角差不多。
#10 by fukc on 九月 24, 2010 - 12:00 上午
Quote
腰痛…
哈哈 你果然没回他后面的.
我不介意长句阿,其实不看句子结构,看词语 这样去看长句就好多了.
#11 by 六翼拉菲尔 on 五月 10, 2011 - 5:51 下午
Quote
其实我觉得所谓推荐引擎2.0是社会学问题,更确切的说是社会工程学问题,因为很多时候并不是你喜欢才选择和购买,这的确是一个社会工程学问题。
#12 by gcw on 八月 31, 2010 - 11:26 上午
Quote
同人兄提到的期待惊喜在下颇有感触,但是我习惯于扼杀自己的离经叛道,我曾经的结论是:没有想好买什么书,就不要去书店瞎逛。是不是说现在社会已经发展到某种水平——只要你能想的到,就可以满足的了。所以,现在人们不再穷于追求某种确定欲望的满足,而开始致力于发掘新的兴奋点(生活条件得到保障的知识分子尤其如此)。这种发掘是智慧的升华还是本性的扭曲?
还有最后一段的结论下的有点急促,为什么以前一个idea就可以成就奇迹,而现在却需要拼核心技术呢?是不是一个领域只要从前沿变成主流就必然会有这种现象?现在社会中靠idea制胜的前沿又跑到哪个领域去了呢?同人兄能否点化点化一下
#13 by gcw on 八月 31, 2010 - 11:34 上午
Quote
针对feng兄的第一个建议,我到觉得同人兄的表达较好。因为看feng兄的表达要花2到3秒的时间,而且句子主体对象换来换去让人纠结神经;而同兄的表达只需要不倒1s,而且很舒畅接收到了同样的信息量。
#14 by seanrao on 八月 31, 2010 - 4:51 下午
Quote
很喜欢这篇,很受启发
#15 by 91526 on 九月 1, 2010 - 10:55 上午
Quote
学习了
#16 by 同人于野 on 九月 1, 2010 - 12:13 下午
Quote
多谢 feng 和 gcw 两位老兄的讨论。为什么一个 idea 就成就一个传奇公司这个时代快要过去了,我并不懂电子商务,但我的想法是这样的:
一个公司要想真正赚钱,必须得掌握一个稀缺的资源,比如说人无我有的核心技术,或者进入市场的高门槛。现在这些互联网公司,他们的技术门槛是比较低的,而好主意的问题在于容易被人复制,他们的稀缺资源很大程度上就是忠实客户的数量。但所谓的忠实客户其实一点都不忠实,这主要表现在大家都不敢收费,谁一收费马上就会有人复制一个不收费的服务。这可能就是为什么当初喊了那么多年 email 收费时代已经到来,结果 google 一出 gmail 大家全把收费这事彻底忘了。以至于连淘宝也是不收费。这样一来这些 web2.0 公司,大家的收入来源都是广告。根本原因就是他们的商业模式,所谓的 idea,太容易被人复制了,没有核心技术。
腾讯现在很招人恨,说一有小公司搞出一个 idea,腾讯就会抄袭他们,这也许正是因为 idea 不值钱的缘故吧。
那么为什么过去这20来年很多小公司可以靠 idea 发展起来呢?我想可能主要是风险投资。有了 idea,必须舍得先期投入一部分,才能把服务做得像个样子,才能获得顾客。从这个意义上讲,是风险投资公司在推动互联网的发展。
而现在,有很多互联网公司已经做大了。这些大公司将像腾讯那样不给小公司机会。他们的实力足以打败那些风投公司。
而这些大公司将会慢慢发展出自己的核心技术,增强竞争力。在这个局面下,也许只有一种小公司可以发展,那就是那些由几个掌握核心技术的科学家出来创办的小公司。就好像我以前听可能是优比客(ubikr)说过的一句话,说现在的风投公司第一句话先问 what is your unfair competitive advantage? 只有掌握核心技术才是 unfair 的。
当然互联网上可能的服务是如此之多,以至于小公司仍然会有机会。就好像有那么多连锁饭店的情况下小饭馆仍然存在一样。比如说给 iphone 开发个应用之类,服务小众市场。但是如果没有核心技术,像这样的 startup 恐怕是很难发展成大鳄了。
小的将会被大的兼并,就好像从西周时代的“蕨类战争”,到春秋战国时代的“恐龙战争”一样。
以上观点并不成熟,抛砖引玉:)
#17 by feng on 九月 1, 2010 - 7:17 下午
Quote
a few thoughts:
1. another (minor) suggestion. the reply function on this blog site is a bit confusing. I was reading your post, and was looking for a “reply” button, but couldn’t find one — until I hovered my mouse over your post, when the “reply” and “quote” buttons magically showed up…
2. i gave some thoughts to the idea of recommendation engine. (it’s a problem that I had thought about occasionally since college, when I was hungrily looking for good books.)
2.1 I think the reason you found amazon’s recommendations unsatisfactory was that amazon either didn’t model your level of sophistication or mis-modeled it. Hence the useless recommendations of books you have already read… this can be solved. given that they have your purchase history, they can probably figure out that you are well-versed in physics. a simple solution would be just to go to the “long tail” and recommend, NOT the most popular books that “people who bought this also bought”, but the moderately popular ones — capped off at some frequency threshold that can be adjusted. so if you are still not happy with the recommendations, the model will just keep going further to the tail end…
2.2 but there’s a deeper problem lurking here. the basic idea behind amazon’s recommendation engine is that “if many people who like A also like B, then the probability of someone liking B, given that he already likes A, is high”. (bayesian probability). but people (often subconsciously) follow different logics for why they like a book, e.g.
– some people like everything by the same writer/singer. (teenager girls often exhibit such a logic, e.g. liking everything by 周杰伦, regardless of the artistic merit of a particular song)
– some people are interested in a particular field (say, one is looking up everything about medieval european teachnology history)
– some people enjoys a certain style of reasoning, so he might enjoy both a book on geometry and one on Obama’s medical reform. to everyone else the two have nothing to do with each other, but to him, they are the “same” at some abstract level.
the fundamental idea of a recommendation engine is that, it figures two books (or songs, or movies..) are the “same”. as the above examples show, “sameness” operate at very different levels. and the more abstract, the more interesting the recommendation. but I suspect Amazon does not model such different levels of abstractness. It probably groups together everyone’s preferences, with the result that, the most popular “sameness” level dominates, which, not surprisingly, turn out to be “sameness” as in “by the same author”, or “about the same topic”…
imagine one day, the recommendation engine tells you, “you might like this book on avian flight evolution, because you liked that other book on the history of calculus. both books are about breaking through over local maxima, one in thinking, one in biology. You should really compare chapter 3 of the former with chapter 23 of the latter.”
Wouldn’t this be awesome! I probably wouldn’t have realized what’s the idea behind this recommendation if the engine didn’t tell me. and that’s the beauty of it.
#18 by feng on 九月 1, 2010 - 9:33 下午
Quote
well, I got carried while writing that post… but the point I was trying to make is that, there’s an immediate if not obvious way to improve the recommendation engine at amazon. they should distinguish between “sameness” in their recommendations. something like:
> if you are interested in books by the same author,
> if you are interested in the same topic
etc…
can they model this? I can think of any number of machine learning, statistical analyses that they can employ (with their rich data of user purchase). it wouldn’t be perfect, but with any luck, they will get something like the 1998 version of google: crude but workable and obviously promising.
#19 by 同人于野 on 九月 3, 2010 - 1:56 下午
Quote
same author 没必要,只要点击作者名字自动就提供该作者所有的书,所以它现在基本上只有 same topic,我的体会是它推荐的基本都是相关领域热卖的书,且以新书居多。不过它还有一些由“人”编订的所谓 list mania,这个的确就什么书都有了,但是不相干的太多,以至于用处不大。
其实我最需要一个新书推荐引擎。根据我的个人喜好,有什么新的好书出来让我知道一下。而现在是从各种杂志的书评栏获得的推荐比亚马逊的推荐好得多。
#20 by 同人于野 on 九月 3, 2010 - 1:32 下午
Quote
传统推荐引擎的问题在于它既不了解一本书到底讲什么,也不了解这个人,而新的思想是至少要了解一头。你举得这个理想中的推荐,推荐引擎必须了解每一本书的每一章说什么,像 Pandora 的音乐基因组一样给每一本书进行基因分析,理论上讲应该也是可行的。不过我想如果给书设定属性的话,肯定就不能像歌曲那样只有400个属性来做填空选择题,书的所有可能属性也许会是一个巨大的数字。而现在一本书在图书馆大约只有三种属性:分类,作者和标题。要想处理这么巨大的属性,必须考虑成本问题(像Pandora是雇音乐家来做,而要分析书籍怎么也得是找能看懂这些书的人),值不值得花费这样的代价。也许将来人工智能发展,让机器可以在一定程度上看懂一本书了,才能真正做出好的书籍推荐引擎。
#21 by feng on 九月 1, 2010 - 7:36 下午
Quote
much of your logic would apply to Microsoft in the 90s. look where they are at now: still a force to be reckoned with, but nobody thinks they are the future.
people were wrong in the 90s thinking that startups would simply either remain small or got bought by microsoft, or be out-competed by the resources at microsoft. I don’t see our time be any different.
I agree that ideas are not what makes startups successful. indeed ideas are probably next to worthless, just try to sell one.
one mechanisms that startups will out-compete large companies is speed. or call it efficiency, rate of innovation… it all comes down to the fact that, as an organization grows in size, bureaucracy grows exponentially. (at the rate of n-squared in fact.) this acts almost like a fundamental law. economy of scale used to compensate for this, but on the internet, economy of scale can be achieved by a very small team (craiglist has <20 employees, I heard).
as a heuristic: the thing with competing with formidable forces like Microsoft (and now Apple and Goolge) is not to do a frontal assault. You can't say I am going to devleop a new operating system, or a better search engine (although even on search engines, there are interesting ideas being tried). One way around it is to define a super problem that encompasses the problem which the large companies have an advantage. (super as in "super set"). the way to beat MS is not to develop a better OS, but is to make applications server-based, or cloud-computing … such that OS itself becomes an obsolete idea. We'll just all be connected 24hr via broadband with simple terminals that has no OS.
btw, none these are my original ideas. I just read from tech blogs… welcome discussion, ideas, pointing out my errors.
#22 by 同人于野 on 九月 3, 2010 - 1:49 下午
Quote
这个理论有点类似于当初铁道公司都垄断了,小公司无法在铁路运输上与之竞争,但是小公司可以研发飞机,以至于用航空业去取代铁路业。当第一架飞机试飞成功的时候,可能没有哪个大型铁路公司想到去收购这个技术。所这个角度讲,的确是任何时候都有 startup 的机会。更进一步,最初的飞机也没有太多的技术含量,很可能根本比不上最好的火车精密,所以门槛也不是特别高。
但是这是飞机技术不成熟的表现。等到飞机技术开始成熟了,那些最好的人才和资源就会开始流向这个技术,再想搞飞机就会越来越难。而最后把飞机做好的并不是当初那些冒险者,而是后来进入的这些最好的人才和资源。也就是说任何一个技术的发展都有低层次的初级阶段和高水平的高级阶段。在90年代,计算机和互联网技术就是一个初级阶段,那时候雅虎写个网页目录,和现在google 写个搜索引擎,技术含量不可同日而语。所以我觉得小创业公司只是用于那些新兴领域,而不是成熟领域。比如现在有人想搞个高铁创业公司,搞个商业飞机创业公司就不太可能 — 除非是科学家创业,一帮科学家搞个什么太空电梯项目之类,而高中生和本科退学生就不行了。
#23 by 淬念 on 九月 17, 2010 - 2:54 下午
Quote
说来说去,创新在中国并不能给你安全感,除非你能持续的创新。看看现在的团购浪潮就知道了。我在怀疑,美国的互联网是否存在商业模式专利这个说法。如果没有合理的对于idea的商业保护,还有谁愿意去搞这些不能给自己带来好处的创新呢?核心技术永远都不是那么容易就搞的出来的,你看看我们国家,搞了这么多年,才只有一个格力空调掌握核心科技,呵呵。
#24 by 项 on 十二月 23, 2010 - 10:46 下午
Quote
有一位互联网创业的同学给我推荐了37signals,他们的创始人出了本书叫rework,提到小公司本身也是一个伟大的目标。他们的给小企业提供流程管理软件,收入丰厚哦。
#25 by 同人于野 on 十二月 24, 2010 - 1:03 上午
Quote
Rework 那本书写的的确是很好啊,而且相当有个性。
#26 by 硅基生物 on 九月 1, 2010 - 12:44 下午
Quote
当真有数字如潮人如水之感,过分依靠优秀的依赖会思维定势的。(想象一下mp3里全是一个风格的歌)
#27 by ehaagwlke on 二月 11, 2011 - 1:51 下午
Quote
推荐的时候,我觉得可以分成两个方向,专业领域相关和兴趣爱好相关。
专业领域里,推荐需要强调高相关性,专业领域可能需要人的职业等相关信息确定;
兴趣爱好里,能够适当泛一些,比如音乐,如果全部推荐同一个风格或者同一个作者的歌,最终会让人觉得乏味,而偶尔换下风格来推荐点别的,可以带来惊喜。
Pingback: 从 web 2.0 到推荐引擎2.0… | Tweets by @darrenest
#28 by AA on 九月 1, 2010 - 4:29 下午
Quote
我觉得豆瓣上提供了一个hunch所要的数据库,我曾经想利用利用,可是想想异想天开.
#29 by 被讥笑为科学主义者的人 on 九月 1, 2010 - 7:18 下午
Quote
更重要的是,推荐引擎技术很难山寨,它不仅仅是一个编程的问题,而必须请统计学家,艺术家和工程师合作研究。早期的互联网公司最大的不同是它使用了互联网;
===========================
也未必,可能用数据采掘、特征选择、机器学习等技术,特征是可以自动寻找的。如果是那样,编好一个程序,然后就可以等着它自我完善了。
#30 by 同人于野 on 九月 3, 2010 - 1:20 下午
Quote
但是实现这些技术已经足够困难了啊。
#31 by soslent on 九月 18, 2010 - 2:36 下午
Quote
所谓的自我完善根本就是不可能的。
#32 by 橘子 on 二月 14, 2011 - 9:33 下午
Quote
说起来简单,这些什么数据挖掘、特征选择等等的名词也不难理解。可在大数据量的背景下,如何实现这些方法却是一个难题。譬如搜索引擎,讲起来好懂,可碰上全球海量数据,也只有Google做的好一些。所以,大数据量背景下的推荐引擎并不是想想就能解决的。
#33 by feng on 九月 1, 2010 - 9:36 下午
Quote
another thought: is there some way I can easily see all comments by the same user? say, I read user abc’s comment and thought it very good. I would like to read all his comments on this site… is there a way to do this easily?
#34 by Venus on 九月 2, 2010 - 4:22 上午
Quote
向下看,”powered by WordPress” 找他们去,同人于野他管不了这事
#35 by 孙尉翔 on 九月 2, 2010 - 1:53 下午
Quote
既要理解技术,也要理解人。
#36 by Mattress on 九月 3, 2010 - 2:34 下午
Quote
这类技术已经开始为很多数据公司所使用,有一个plentyoffish, 不知道有没有写错,貌似就是基于这种数据,然后给出不同的数据分析结果~~~
呵呵,越来越智能
#37 by coozd on 九月 4, 2010 - 3:34 下午
Quote
创造第一高楼
#38 by Tiger tigeris on 九月 12, 2010 - 9:13 上午
Quote
我也上hunch试了一下,也是有两本杂志是我已经订阅的,Wired和National Geographic。但其余的结果没什么太接近的。我再回答了一些提问,结果看不出有什么提高。我想Hunch的算法可能并不是那么强大,或者数据库不够多,针对这种中国留美研究生群体的口味没有足够多的样本可供比较。Hunch本身问的问题就是生活选项,比如是不是会set up home theater,是否旅游,本身就和订什么杂志有密切关系。
#39 by clickstone on 九月 15, 2010 - 10:13 上午
Quote
写得很好,愿意深入讨论推荐系统的话,可以来这里:http://groups.google.com/group/resys/
#40 by lehmer insurance on 九月 25, 2010 - 9:08 上午
Quote
Great writing! You should definitely follow up to this topic 😛
Sincere regards
Sheri
#41 by sepwolves on 十月 2, 2010 - 6:27 下午
Quote
Type your comment here
这句作者的话一扫就可以明白了呀。。
#42 by newcswy14 on 十月 4, 2010 - 12:09 上午
Quote
兰州好萌~
#43 by 晓生 on 十月 5, 2010 - 8:02 下午
Quote
最近也在考虑到音乐的推荐问题,不过对如何去做更感兴趣。
Pingback: 从Web 2.0到推荐引擎2.0
Pingback: 互联网的新方向:推荐引擎 - 网老大
Pingback: 从Web 2.0到推荐引擎2.0 | 飞鸿志
Pingback: 推荐系统的作用和问题 @ 优酪网
#44 by swcool on 十月 18, 2010 - 12:58 下午
Quote
真的如此吗? 有待观察。同意真正的实力越来越重要。 “也许那个大学本科退学生,甚至高中生想起来一个好主意,写几个月程序,然后就能拉到风险投资说创业就创业,说上市就上市的时代已经快要结束了。”
#45 by wxnfifth on 十月 23, 2010 - 9:05 上午
Quote
阿里巴巴集团的阿里云子公司好像在做这件事,并且说会把数据给国内外的经济学家研究,吹牛逼说什么希望有一个诺贝尔经济学奖会从分析阿里的数据诞生…
#46 by 同人于野 on 十一月 1, 2010 - 2:46 下午
Quote
阿里巴巴整的那个似乎非常有前途啊!据马云说是提前大半年就预知了金融危机。这个东西搞好了可就大了,也许能激发中国发明一个更有意思的宏观调控系统?
#47 by 山水 on 三月 28, 2015 - 3:23 下午
Quote
恩,现在看来,阿里巴巴这个方面的确可以大有作为。
#48 by 自动化所研究生项亮在Netflix百万美元大奖赛中取得优异成绩 on 十月 30, 2010 - 8:47 下午
Quote
http://bjhd.org/modules/newbb/viewtopic.php?topic_id=8171&forum=31
这项颇具挑战性的比赛吸引了5万名计算机科学家、专家、爱好者等参与角逐,参赛队伍都在为提高这一推荐系统算法的10 %的神奇大关而奋斗,但是直到2009年6月26日,这一大关才终于被由一些顶级团队联手形成的BellKors Pragmatic Chaos团队打破,成绩提高了10.05 % 。此后,按照比赛规则,Netflix公司宣布进入最后30天的决赛。如果没有其他的队伍提交的算法超越BellKors Pragmatic Chaos团队,那么他们无疑就是这场比赛的赢家。但是,就在决赛第29天的时候项亮所在的团队(The Ensemble)提交了他们最后的算法,并超过了BellKors Pragmatic Chaos团队位居公开测试排行榜第一位。
#49 by 陌上清溪 on 十一月 4, 2010 - 9:48 上午
Quote
技术固然重要。赚钱还是靠商业。
您说的那个时代要过去,依我看在china起码还有二十年。
技术太超前了,在消费群中却没有普及,从商业意义(money)的角度来说,等于零。
#50 by medcl on 十二月 23, 2010 - 5:44 下午
Quote
不错,未来发展趋势啊
#51 by liberty on 二月 11, 2011 - 6:39 下午
Quote
我的一点点愚见:其实程序如何复杂,还是要人来组织算法,算法也是由最复杂的人脑先进行设计的,程序只是加快和提高了其运行的速度和复杂度,idea还是最重要的,以前在推荐上我们仅能想到也许是买了什么的人也买了什么这个思路,但是思路可以更广泛,更复杂。技术上我倒是觉得除了保密、时间和代价外,没有不可复制和超越的。
#52 by iCodon on 二月 14, 2011 - 2:05 下午
Quote
话说搜索引擎的最高境界是不需要搜索,推荐引擎,是个方向,只是需要海量的数据和强大的算法作为支撑。
Pingback: (转)从Web 2.0到推荐引擎2.0 - 一只橘子的异想世界
#53 by casino on 二月 25, 2011 - 2:22 上午
Quote
sincerely interested in your page that offers me a choice of reading.
#54 by 问答帮 on 三月 13, 2011 - 3:48 下午
Quote
数据的重要性不言自明,至于搜索引擎还是推荐引擎搜都是建立在数据之上的。数据多了搜索引擎也就聪明了,数据不够,再好的搜索引擎都是白痴。当然了,在相同数据的情况下,数据搜索引擎或推荐引擎的算法觉得引擎的结果。说完这些常理还得说一句没有数据不行,全部依赖数据也不行。这句话中的数据可以等搜索引擎及推荐引擎划等号。类似于英语中的analyse to paralyze。
Pingback: 软言软语 » 从Web 2.0到推荐引擎2.0
#55 by xiamubobby on 四月 26, 2011 - 1:44 上午
Quote
网络的泡沫或许爆了一次……抑或是多次,但是网络的内涵还远远尚未被挖掘,随便举几个浅显的例子,就能知道网络还有多少可想向的空间:无差别的网络覆盖(不说宇宙就说地球)、与非生命体的交流(物联网相关)、地球数据库(不分家的最大数据库,保存地球上的一切,我个人无法想象关系型数据库能满足这令人乍舌的需求)、超高的信号传输速度(从数量级上讲,能在数秒内传递整个地球的信息是技术永远的努力方向,虽然似乎遥不可及),在智能网络和新型网络领域,现在互联网还差的太远太远,在更强大的媒介出现前,科学和商业都将矢志不渝地走在推动互联网发展的路上。
Pingback: ifttt:让互联网为你工作 | 创新捕手
Pingback: 从Web 2.0到推荐引擎2.0 | 探索
Pingback: (转)从Web 2.0到推荐引擎2.0 | 小说控的博客
Pingback: 招募用户:1)招什么样用户? « 呵_呵
Pingback: 为什么一个 idea 成就一个传奇公司这个时代快要过去了 | Nooidea.com | 装傻充愣
Pingback: 苹果根本不关心搜索引擎 | Nooidea.com | 装傻充愣
Pingback: 苹果根本不关心搜索引擎 | Mining Time (Digests)
#56 by jeasin on 十月 24, 2012 - 10:46 上午
Quote
搜索引擎2.0 对内容提供方提出了更高的要求啊。只有搜索引擎这一行业的SEO高手才有机会显身手。。
#57 by hwomwtkrc on 十一月 17, 2013 - 3:21 下午
Quote
武汉新洲区委书记王世益涉嫌严重违纪被查
据楚天廉政网消息,武汉市新洲区区委书记王世益涉嫌严重违纪,目前正接受组织调查。 责任编辑:贺超