关灯
护眼
第400章 不可逾越的高山
上一章 书架 目录 存书签 下一章
    江寒在网上搜索了一番,参考了一下同类软件。

    最后他决定,采用市场接受度较高的免费下载、试用模式。

    超过试用次数和时间后,只要花费58元rmb,购买注册码,就可以终身使用。

    在软件保护策略上,江寒毫不犹豫地启动了“坏苹果2代”技术。

    经过加密后,“极光ocr”的可执行文件,以及动态链接库等要害部位,堪称坚不可摧。

    江寒又用installshieldwizard,制作出一个1g大小的安装包,然后挂到了大江官网上。

    技术上的事情,至此全部搞定。

    至于其他的事情,全盘委托给老江和夏如冰就好

    江寒想了想,又访问了一下布置在地下机房里的数据服务器。

    过了这么多天,他为islvrc2013图像识别挑战赛,打造的深度cnn网络,也终于完成了训练。

    江寒将代码中关于训练的部分,暂时全部剔除,然后将验证集数据加载进来,跑了一下。

    结果还算不错,top1项目的识别正确率,达到了62.7,top5项目中,更是达到了85.4的正确率。

    所谓top1,就是对于每张要分类的图片,只允许给出唯一答案,对就对,错就错。

    至于top5,要求就比较宽松了,每张图可以给出5种预测,有一个与标签相同,就算分类正确。

    现在这个成绩,已经相当接近去年的冠军算法了。

    但江寒怎么可能就此满足呢

    他深入思考了一番,重新编写了预测函数。

    这一次,他使用了一个小技巧。

    将待分类的图片加载到内存中之后,先进行预处理。

    从图片的四个角,以及中间部分,依次进行矩形抠图,这样就得到了5张子图片。

    接下来,再对这5张子图片,依次进行镜像操作,子图片的总数就变成了10。

    最后再对这10张图片,分别进行预测,再把10个结果的平均值,作为网络的最后输出。

    这可以有效地防止程序“发呆”,以得到更接近正确答案的预测。

    不出所料,使用了这个技巧后,深度cnn在验证集上的表现,果然改善了不少。

    top1上的正确率,足足提高了2,在top5上的正确率,也提高了1.84。

    不过,感觉还有进一步提升的空间。

    江寒思考了一下,又对训练集图片的rgb数值,做了pca,也就是主成分分析,并且对主成分做了0.1标准差的高斯扰动。

    这样做的目的,是增加一些噪声数据,以提高模型的泛化能力。

    处理完庞大的训练集后,就可以让网络重新进行训练了。

    安排妥当这件事之后,江寒开始考虑学科等级的事情。

    经过几天的奋战,他已经学完了化学、生物两科,在大学本科阶段的全部专业课。

    单论理论上的水平,超过了绝大多数相应科目的本科生、甚至硕士研究生。

    江寒打开系统ui看了一眼。

    学科等级面板上,数学、物理、化学、生物、信息学,这五个学科全都达到了高级。

    其中,信息学的经验条已经过半,距离下一个级别不远了。

    不过,工程、材料、能源三科,仍然没有任何评级。

    江寒思考了一下,决定在网上找一找这三个专业的教材,深入地学习一番。

    然而,他很快就发现了一个问题。

    所谓的工程,到底是什么工程呢

    生物工程也是工程,电子工程也是工程。

    此外还有机械工程、信息工程、采矿工程、石油工程、建筑工程

    不搜不知道,一搜吓一跳,工程学这个总类里,居然足足包括了21个小类,上百个专业

    然后是材料学。

    化学材料、生物材料、金属材料、电工材料、材料物理

    也是几乎无所不包

    能源好一些,基本也就是引力能、热能、生物能、化学能、核能

    好吧,既然都是交叉学科,那就交叉着学呗。

    江寒上网查找了一下,将所有涉及到这三科的书籍,汇总、整理了一下,列出了一张非常长的书单。

    真的很长,足足有上千种书籍。

    好在其中大多数,都能下载到pdf或者ebook资源。

    江寒将这些文件,全都用极光ocr,转换成了加小图片的格式,然后轮流发送到了虚拟空间中,并打印了出来。

    也有部分资料,网上根本下载不到,这种情况,就只能邮购实体书了。

    江寒在各大网上书店里,一顿狠淘,终于凑全了列表中的所有书籍。

    至于花了多少钱,他也没仔细统计,大概估计下,怎么也得几万rmb。

    也就是本科阶段的教材并不怎么难买,很多专业性很强的资料也都有中文版。

    若是去亚马逊海淘英文原版,估计再添一个0,可能都不怎么够

    有图科技,软件研发部。

    蓝崭新再次主持会议。

    与会的十来个人,全都陷入了死一般的沉寂。

    良久后,蓝战新叹了口气:“这件事问题不在咱们,你们开发的ocr软件,已经是国内领先的了”

    后面的话,他虽然没说,可又有谁猜不到了

    那家大江科技,虽然成立还不到一周

    然而,谁能想到这家公司手中,竟掌握着那么厉害的ocr技术呢

    王仁默然不语。

    那个极光ocr的性能,实在太恐怖了一点,对于普通文本的识别正确率,竟然超过了98

    这种技术代差,真是让人越想越浑身无力。

    国内外的同类软件,没有一个能与之竞争。

    不夸张地说,这就是集体被吊打,一点还手之力都没有

    蓝战新忽然问:“王工,你们技术部有没有试一试,逆向一下极光ocr”

    王仁苦着脸,回答说:“我们一发现这款产品,第一时间就下载并尝试逆向了。”

    代码虽然不能抄,至少也应该了解一下别人采用的算法

    王仁续道:“只可惜试了很多办法,全都失败了。”

    蓝战新有点意外。

    王仁这些人的实力,他是十分清楚的,能难住他们的加密手段,可谓少之又少。

    另一位同事摇了摇头,说:“我们都怀疑,那是一种从来没出现过的新加密技术。”

    蓝战新若有所思:“这样啊”

    寂静再一次笼罩了这个房间。

    良久后。

    “咱们接下来怎么办”一名工程师问。

    蓝战新思索了一下,叹了口气,说:“我先汇报一下,看看顾总怎么说。”

    十五分钟后。

    “我知道了”

    蓝战新挂了电话,扫视了在座的众人一眼:“我先尝试和大江的人联系一下,看有没有达成合作的可能。”

    有图的主要业务是卖硬件,为了促进扫描仪的销售,才去研发配套的ocr软件。

    既然自家研发的ocr,性能上比不上别人,那争取合作、取长补短,也在情理之中。

    如果可以达成独家代理,那么无论多少钱,都一定要拿下来

    这是顾总的原话。

    蓝战新看向王仁:“至于咱们研发部,还得继续努力研发下一代产品。”

    顿了顿:“至于目标暂时先跟极光ocr看齐吧”

    在场几位技术大拿的心头,顿时感觉沉甸甸的。

    98

    这个数字,就仿佛一座不可逾越的高山

    两天后,深度cnn网络再次完成了训练。

    江寒重新跑了一次验证集,这一次,错误率在原来的基础上,又下降了1以上。

    top1的正确率接近乐66,而在top5项目中,更是达到了惊人的88.8

    江寒对这个成绩还算满意,给这个网络命名为:“jiangnet3”。

    然后登录imagenet官网,将最终的算法模型提交了上去。

    他没有对代码进行加密,一个是赛事规则不允许,再一个也是没有必要。

    提交上去的代码和数据,只包含网络主体架构、激活函数、预测函数,以及训练得到的权重数据。

    至于算法的核心部分,训练函数、损失函数和梯度下降一概予以删除。

    这样的代码,根本没有什么可以抄的。

    搞定了这件事后,江寒将目光放在了书桌上。

    从昨天开始,网购的实体书就陆续快递到了手中。

    到了今天下午,终于到齐了。

    看着那高高一堆,上百本书籍,他不禁有点头疼。

    看书不费力气,一本一本慢慢看,两、三个月怎么也看完了。

    但如果想加快学习进度,就得把这些实体书,全都折腾到虚拟空间里


目录 存书签 上一章 下一章
随便看看: 黎明之剑一把吉它镇天下祖宗快跑都市天龙南欢北安横滨咸鱼不想养猫[文野]妙手小王妃全民领主:大征服者快穿:偏执反派怀里的清冷小美人相亲被坑,我直接选择逃单傻妞甜情陈轩女娲鸿钧成圣分手后,我意外反攻了【电竞】他知道我的秘密我真的是好人[快穿]宝可梦:我打造了精灵盛世末世传火者离婚后财阀前夫日夜纠缠一江湘水恰流年重生庶妹,大小姐杀疯了