“什么意思?”
“你们现在收录了多少网页?”陈浩问。
“一万左右。”
“太少了。”陈浩说,“一万个网页的搜索引擎,就像只有一百本书的图书馆,再好的检索系统也没用。
用户搜什么,你都可能没有。
所以第一要务,把收录量做上去。
十万,一百万,越多越好。”
贾瀞雯思考着:“可是收录量大了,速度不是更慢吗?”
“那是下一个阶段要解决的问题。”陈浩解释,“你先让用户能搜到东西,哪怕准确率只有百分之三十,但如果网页基数大,用户总能找到一些有用的。
有了这个基础,我们再优化算法,提高准确率。”
他顿了顿:“瀞雯,做产品不能追求完美。
尤其是创业阶段,先做出能用的东西,让用户先用上,再慢慢改进。
如果总想一步到位,可能永远走不出实验室。”
这句话点醒了贾瀞雯。
她想起陈浩之前说的——第一版可以粗糙,但要快。
“我懂了。”她说,“先解决有没有,再解决好不好的问题。”
“对。”陈浩笑了,“明天就这样跟团队说。
集中力量扩大爬虫规模,优化抓取效率,把收录量做上去。
至于速度和准确率,暂时放一放。”
电话打了半个多小时。
挂断时,贾瀞雯觉得心里踏实了很多。
她打开灯,拿出笔记本,开始写新的工作计划。
第二天开会,她把陈浩的策略传达给团队。
“陈总说,我们现阶段的目标是收录量。”贾瀞雯在白板上写下“十万网页”四个字,“三周时间,把收录量从一万做到十万。”
李明眼睛一亮:“这个思路对!现在我们总是纠结算法优化,但数据量太小,优化了也看不出效果。
先把数据堆上去,再谈怎么用好这些数据。”
张涛也点头:“爬虫部分其实可以改进。
我们现在是单线程抓取,太慢。
可以改多线程,同时抓多个页面。
还可以优化去重算法,减少重复抓取。”
“索引结构也要调整。”王磊说,“数据量大了,现在的结构肯定撑不住。
得设计新的存储方案。”
团队重新有了方向。
本章未完,请点击下一页继续阅读!