撮合算法1
字段分类
我们可以把字段分成两种,严格匹配字段,非严格匹配字段。必须匹配的字段,叫做严格匹配字段,比如,性别,城市,等。不必须匹配的字段叫非严格匹配字段。比如,距离,薪水差距,。。。
字段的处理
距离字段尽量取交通距离的字段,暂时没有做,我们可以取欧氏距离
薪资比例=岗位薪资的平均数/用户期望薪资的平均数
年龄系数 = 1/(abs(岗位的平均年龄-用户的平均年龄)+1)
时薪系数 = 所有福利/所有工作时间
工作强度系数 = 周工作时间/40
时间不正常系数 =是下列系数的和。 9点-18点=每个小时都是0 18点-21点=每个小时都是0.1 7点-9点=每个小时都是0.1 21点到7点=每个小时都是0.3 比如工作时间是9点19点。那么非正常工作时间就一个小时,所以非正常系数=0.1
召回
必须匹配字段先过滤,缩小范围。
排序
每个用户训练一个lr分类器。输入字段是非必须字段,输出字段为用户是否点击,或推送是否点击。 如果用户的样本数据较少,就补充该用户的期望工作目标的人群数据。(用户自身的样本可以复制10倍,具体数据可以后面做实验) lr分类器比如容易看出来,用户对工作距离,薪资多少,等等的权重对比是多少。训练好之后,可以提取出权重和用户的数据做人工对比,看看是否符合日常逻辑。 排序就根据lr的分数来排序
每个企业也训练一个lr分类器。输入字段是非必须字段,输出字段为是否与对方聊天。 具体方法和用户的排序逻辑一样,但企业选择用户可以查看的信息较少,大部分用户都没啥详细的信息。这个是一个问题。我们可以针对简历信息较为丰富的用户优先计算。 这样的分类器训练完毕之后,它的权重可以同样分析出,每个商家对距离,对对方薪资等多个条件的权重。