首 页尾 页

NLPIR技术助力中文智能数据挖掘

发布者: superzhang | 发布时间:2017-11-13

  随着数据技术的飞速发展以及广泛应用,许多企业和部门建立了自身的数据管理系统,经过长年努力,已经积累了越来越多的数据。于是,人们开始渴望通过对这些庞大的数据分析得到更多的有助于决策的信息。虽然,目前的数据系统可以高效率地实现数据的录入、查询、统计等功能,但由于数据量庞大以及数据库系统中分析方法的严重缺乏,使得它无法发现数据中隐藏的相互联系,更无法根据当前和历史的数据去预测未来的发展趋势。因此,出现了所谓“数据多,知识少”的现象,造成了严重的资源浪费。   建立在数据系统之上的计算机决策支持系统出现,为进行高层次的数据决策分析提供了良好的思路和方法。但由于决策支持系统在数据的采集、分析方法上的灵活性等方面存在局限性,使得人们不得不寻求更有效的途径去开拓数据决策分析的思路。计算机人工智能为此作出了巨大贡献。人工智能经历了博奕、自然语言理解、知识工程等阶段,已经进入了机器学习的热点阶段。   NLPIR文本搜索与挖掘系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,专门针对原始文本集进行处理和加工,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,适应于众多应用场景。   NLPIR文本搜索与挖掘开发平台的十二大功能:   1. 全文精准检索:支持文本、数

想读更多 ->

AI说人“画” | 什么?咱俩说的是一个“模型”嘛!

发布者: superzhang | 发布时间:2017-11-13

Hello大家好,我是Vicky,今天我们来讲一些关于“模型“的事儿。

模型是对事物的抽象,是发现规律模拟真实世界用的。

在数据里呢,基本上模型有两类,解释性和预测性,今天来着重来说预测性的。

所以怎么评价模型的好坏呢? 当然就是预测的多准了。

机器学习模型呢,就是看学习能力如何,也就是看举一反三的能力。

一般常用的机器学习模型包括:分类,回归和聚类。

今天就以分类模型为例,谈谈怎么评价一个“模型”好不好。

检验一个机器学习模型时要做的第一件事就是看误差有多大,

这里的误差有偏差和方差两类:

高偏差的意思就是你从一开始就跑偏了,没学习到真正的规律,也叫欠拟合。

比如这张图,把眼罩当成bra,买家确实没有把“肩带”当作特征,“形状”也确实有点类似,不过她居然忽略了size!(惊)

高方差的意思就是你入戏太深了,虽然你的模型完美的解释了现有的数据,换一组新的就不行了。这也就是过拟合,量身定做过了头儿,好比你查视力的时候,把视力表背下来了,然后查视力的结果左右眼都是5.3,完美!

点击查看 直播嘉宾:

image

李凯东 天池ID LodaLi

京东商城数据学科家,多年的互联网创业经历。

想读更多 ->

Redis4.0新特性(二)-Lazy Free

发布者: superzhang | 发布时间:2017-11-13

Redis4.0新增了非常实用的lazy free特性,从根本上解决Big Key(主要指定元素较多集合类型Key)删除的风险。笔者在redis运维中也遇过几次Big Key删除带来可用性和性能故障。 本文分为以下几节说明redis lazy free:

lazy free的定义 我们为什么需要lazy free lazy free的使用 lazy free的监控 lazy free实现的简单分析 1 lazy free的定义

lazy free可译为惰性删除或延迟释放;当删除键的时候,redis提供异步延时释放key内存的功能,把key释放操作放在bio(Background I/O)单独的子线程处理中,减少删除big key对redis主线程的阻塞。有效地避免删除big key带来的性能和可用性问题。

2 我们为什么需要lazy free

Redis是single-thread程序(除少量的bio任务),当运行一个耗时较大的请求时,会导致所有请求排队等待redis不能响应其他请求,引起性能问题,甚至集群发生故障切换。而redis删除大的集合键时,就属于这类比较耗时的请求。通过测试来看,删除一个100万个元素的集合键,耗时约1000ms左右。以下测试,删除一个100万个字段的hash键,耗时1360ms;

想读更多 ->

自动监控MySQL表结构变更脚本

发布者: superzhang | 发布时间:2017-11-13

如何监控MySQL数据库表结构和表变更,并通知到相关的联系人、实现报警或通知? 由于平台采用django系统实现,因此通过如下代码实现(代码low,也可以写成python文件,传参数执行): 简单思路: 对用户指定库的所有列值进行md5,并存储到本地数据库,每次定时执行,校对md5,并找出不匹配的进行判断 会自动找出新增、删除、变更表结构的表

# models.py

class MonitorSchema(models.Model): table_schema = models.CharField(null=False, max_length=512) table_name = models.CharField(null=False, max_length=512) table_stru = models.TextField(null=False, default='') md5_sum = models.CharField(null=False, max_length=256) class Meta: verbose_name = u'监控表结构变更表' verbose_name_plural = verbose_name permiss

想读更多 ->

怡海软件:CRM实施需遵循的3条基本原则!

发布者: superzhang | 发布时间:2017-11-13

CRM实施的失败率有目共睹,那么如何才能加大CRM项目的实施成功率?怡海软件提醒各位,您的企业在实施CRM软件时有以下3条原则可以遵循:

探讨各种可行的选择方案

这第一步的最大一个好处就是能够避免常犯的错误:认为CRM只是涉及客户亲近与忠诚,然后买一套声称包人满意的软件包。其实,实施CRM战略并不总是意味着实施CRM技术。

同时,企业不一定要追求含有最高技术,最全功能的CRM软件,可以通过使团体工作关系更加紧密及寻找更加适合企业的CRM:对顾客而言价值更具吸引力、生产率更高和团体工作(少了政治暗斗)更紧密、业务流程设计更卓有成效以及领导更开明、更有效。当然,选择可个性化定制的CRM软件能更加匹配你们公司的经营策略——使你的产品或服务有别于竞争对手、增强客户忠诚(降低人员损耗与顾客获得成本)、提高收入(向上销售、交叉销售和市场份额)及降低费用。

就技术而言,大多数人想当然认为所有CRM都是从数据管理策略开始的,即确定何种客户信息能帮助你更好地理解及预测客户的个人爱好、需求与购买行为。但你的最初方案不一定都要这么以数据为中心。

专门的客户分析与竞争情报能使你相当清楚地了解客户的需求及愿意支付的价格,这反过来会使你获得一些好想法,知道如何通过增加服务便利、功能或个性化自助服务,向顾客提

想读更多 ->

【云周刊】第145期:2017天猫双11总交易额1682亿,背后阿里绝密50+技术揭秘!

发布者: superzhang | 发布时间:2017-11-13

本期头条

2017天猫双11总交易额1682亿,背后阿里绝密50+技术揭秘!

7766d9a81b12e63ff3a7dc14506a468161322139

2017年天猫双11全球狂欢节28秒破10亿,3分01秒破百亿,40分12秒破500亿,9小时破1000亿,交易峰值32.5万/秒,支付峰值25.6万/秒,再次刷新全球纪录,在这些耀眼数字的背后是技术的强力支撑,涉及到安全、支付、云计算等等,点击查看

阿里云护航双11,抵御15亿次攻击,自动风控和防御技术落地 1 传统应用开发的配置管理

想读更多 ->

USE DB导致MySQL大堵塞故障?

发布者: superzhang | 发布时间:2017-11-13

一、故障描述

今天一个朋友遇到数据库遇到一个严重的故障,故障环境如下:

MYSQL 5.6.16 RR隔离级别 GITD关闭

表现如下:

use db不能进入数据库 show table status不能查询到表信息 schema.processlist来看有大量的 Waiting for table metadata lock

如果你对本文工作感兴趣,点击底部的阅读原文即可查看原论文。

关于作者:罗浩,浙江大学博士研究生,研究方向为计算机视觉和深度学习,现为旷视科技(Face++)的 research intern。

论文 | Neural Person Search Machines 链接 | http://www.paperweekly.site/papers/1088 作者 | LUOHAO

1. 摘要

作者调查了一下室外真实场景下的 Person ReID 工作,大部分相关工作都

想读更多 ->