说三道四技术文摘-感悟人生的经典句子
说三道四 > 文档快照

[开源推荐]Google开源基于Deep Learning的word2vec工具

HTML文档下载 WORD文档下载 PDF文档下载
谷歌已经使用Deep Learning技术开发了许多新方法来解析语言,目前,谷歌开源了一款基于Deep Learning的学习工具——word2vec,这是首款面向大众的Deep Learning学习工具。

word2vec(word to vector)顾名思义,这是一个将单词转换成向量形式的工具。通过转换,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。

word2vec为计算向量词提供了一种有效的连续词袋(bag-of-words)和skip-gram架构实现,word2vec遵循Apache License 2.0开源协议。

如何转换?

word2vec主要是将文本语料库转换成词向量。它会先从训练文本数据中构建一个词汇,然后获取向量表示词,由此产生的词向量可以作为某项功能用在许多自然语言处理和机器学习应用中。

在举例子之前,引入余弦距离(Cosine distance)这个概念(摘自维基百科):

通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。在比较过程中,向量的规模大小不予考虑,仅仅考虑到向量的指向方向。余弦相似度通常用于两个向量的夹角小于90°之内,因此余弦相似度的值为0到1之间。

然后可以通过distance工具根据转换后的向量计算出余弦距离,来表示向量(词语)的相似度。例如,你输入“france”,distance工具会计算并显示与“france”距离最相近的词,如下:

              Word             Cosine distance      -------------------------------------------                spain              0.678515              belgium              0.665923          netherlands              0.652428                italy              0.633130          switzerland              0.622323           luxembourg              0.610033             portugal              0.577154               russia              0.571507              germany              0.563291            catalonia              0.534176
在word2vec中主要有两种学习算法:连续词袋和连续skip-gram,switch-cbow允许用户选择学习算法。这两种算法有助于预测其它句子的词汇。

从词转换到句子或更长的文本

在一些特定的应用程序中,它还可以用于多个词汇,例如,“san francisco”,这样它就会通过预先处理数据集,让其形成句子,找到与“san francisco”余弦距离最近的内容:

              Word          Cosine distance-------------------------------------------          los_angeles              0.666175          golden_gate              0.571522              oakland              0.557521           california              0.554623            san_diego              0.534939             pasadena              0.519115              seattle              0.512098                taiko              0.507570              houston              0.499762     chicago_illinois              0.491598
如何衡量词向量质量

可能影响到词向量质量的几个因素:

  • 训练数据的数量和质量
  • 向量的大小
  • 训练算法

向量的质量对任何一个应用程序都非常重要,然而,根据复杂的任务来探索不同的超参数设置可能会过于苛刻。因此,我们设计了简单的测试集,来快速评估矢量词的质量。

词聚类(Word clustering)

词向量也可以从巨大的数据集中导出词类,通过执行词向量顶部的K-means聚类即可实现,脚本演示地址:./demo-classes.sh,最后输出的是一个词汇表文件和与之对应的类ID标识,例如:

carnivores 234carnivorous 234cetaceans 234cormorant 234coyotes 234crocodile 234crocodiles 234crustaceans 234cultivated 234danios 234...acceptance 412argue 412argues 412arguing 412argument 412arguments 412belief 412believe 412challenge 412claim 412
性能

在多核CPU上(使用开关‘-threads N’),通过使用并行训练可以显著提高训练速度,超参数选择对性能也至关重要(包括速度和准确率),主要选择有:

  • 架构:skip-gram(慢、对罕见字有利)vs CBOW(快)
  • 训练算法:分层softmax(对罕见字有利)vs 负采样(对常见词和低纬向量有利)
  • 欠采样频繁词:可以提高结果的准确性和速度(适用范围1e-3到1e-5)
  • 维度词向量:通常情况下表现都很好
  • 文本(window)大小:skip-gram通常在10附近,CBOW通常在5附近

去哪里收集训练数据

随着训练数据的增加,词向量质量也显著提升,如果以研究为目的的,可以考虑线上数据集:

  • 来自维基百科的上亿字符(在Matt Mahoney页面底部,适用预处理perl脚本)
  • WMT11网站:多语言的大量文本数据。

快速入门

  1. 代码下载:http://word2vec.googlecode.com/svn/trunk/
  2. 运行“make”编译word2vec工具
  3. 运行demo脚本:./demo-word.sh and ./demo-phrases.sh

关于word2vec更多介绍,大家可以阅读:https://code.google.com/p/word2vec/

(责编:王果)

VB中实现菜单分割 VB中实现带预览的对话框 VB中实现同一窗口的多个实例及控件的动态增减 VB中阴影字体的实现 VB自定义数据结构的传输转换 Visual Basic 窗体背景花纹的实现 Visual Basic 中的界面设计原则和编程技巧 Visual Basic 中文本框处理技巧集萃 Visual Basic 中字符淡出淡入的实现 Visual Basic窗体背景花纹的实现 Visual Basic下工具条的制作 Visual Basic中的界面设计原则和编程技巧 Visual Basic中在同一界面输入大量数据的几种方法 VisualBasic中的界面设计原则和编程技巧 VisualBasic中用户界面的设计原则 把 VB 标准的工具栏变成平面式 把窗体卸载干净-VB资料 保持初始的窗体大小-VB资料 编程实现将所有窗口最小化-VB资料 不规则形状窗口详细说明 -VB资料 不用 API ,直接调用关联的程序 -VB资料 处理过程时的鼠标显示 -VB资料 窗口处理技巧大全 -VB资料 窗口事件的发生顺序-VB资料 VB创建不规则窗口 VB创建透明窗体 VB创建位图菜单 VB创建无 Icon 的窗口 打开 Win95 的创建快捷方式窗口-VB资料 打印机技巧 -VB资料 带有历史记录功能的菜单-VB资料 急求:从硬盘安装windowsxp时电脑出显不能安装,找不到eula!如何解决? 系统分析员VS博士 C#连接Oracle? 关于<BASE> 那里有WebDB下载啊. 在ListCtrl里加类似Combo Box的东西,能实现吗? windows2000下vb的一个小问题~~ 如何把当前路径加入查找路径中?立即给分! 对选用不同的纸张大小,在预览中能看出效果吗? 请问怎么在PB6.0中实现Foxpro(*.dbf)的数据导入,到ASA库中 j2me里怎么才能实现图象的滤镜效果?waiting... CDbSet m_dbSet(NULL)在哪一步才能得到一个CDatabase对象的错针? 新手提问:“镜象”是什么意思 求教,如何配置使性能达到最佳,详情见文 怎样在广域网中提高传屏响应速度?帮帮忙!急啊. 在文件钩子当中如何判断是打开文件操作,还是创建文件操作 怎样在applet程序中显示一幅jpeg图片?该图片存在于c:\image\下。 去年12月是谁发的帖子“做项目经理难么” 关于图层拖拽的问题 我有一块硬盘,迈托4.3G,开格式化分时说错误设备或0磁道损坏,后来fdisk分区,启动无效 这是个什么错误啊~ 第一次做控件不明白 给点指点啊 急求:从硬盘安装windowsxp时电脑出显不能安装,找不到eula!如何解决? 不用的控件怎样从工程中删除? 怎样将一个表中的全部数据追加到别一个表的后面????在线 我做软件这些年 求scjd的模拟题 为什么我连续给一个socket send三次,socket一次就接收完了? 关于HTML代码不区分大小写? 大家看一下这个CListCtrl是啥回事?? Turbo c++3.0怎么使用? 《水园MSN俱乐部宗旨》 ODBC连接数据库的一个问题求教 如何让网页一打开就是全屏模式? 关于打印的问题 怎么彻底卸载linux啊!放分100 如何移动无模式窗体? 一个网络版软件的共享使用问题 在线等待!!! 一个网络版软件的共享使用问题 98怎么与xp不能连网玩游戏?高分送!! 有个问题请大虾帮帮忙! 我该怎么办呀??? ★怎样让窗口的resize在某一指定的范围内? 笔记本问题~ TURBO C 中显示鼠标和图形方式的问题(看我的源代码) ACCESS中的SQL语句不支持limit语法吗?~~急问啊~~~ 为什么会这样? 我在网上下了个C1TrueDBGrid 不知怎么用?有没有什么限制?请各位帮忙? 只有这里可以发发牢骚了,斑竹别删 100分(不够可以再加!)求《PC游戏编程--人机博弈》光盘源代码!!在线等 网上考试系统热卖中............(请版主勿删) 做紫外光谱时吸收峰一般在什么范围 piece和bar的区别 填人体器官词 ( )枪( )剑 食物油易溶于哪种物质 bar用于长方形物体那piece呢? 填与人体器官有关的词:归()似箭、()()俱裂、()亡()寒、()蜜()剑、狼()狗() 氨气是否极易溶于油 苏丹国家的气候情况 偶然误差可以通过以下哪种方法得以减小? 硝酸铵能否极易溶于油? 请问苏丹的气候条件真的很恶劣吗?国人能适应吗? 不参与淀粉的消化,但参与蛋白质消化的消化液是?A.肠液 B.胰液 C.胃液 D.唾液 丙炔和H2组成的混合气体5L,在催化剂的作用下充分反映后得到的气体体积及为V升,均在标况下测定.问若H2在混合气体中的体积比值为X,计算X在不同值时反应后气体的总体积V(用X的代数式表示 摩尔庄园求死党~求家族~我米米号658743 苏丹是哪个半球,什么人种,什么语言,什么宗教,什么气候类型? 15岁的女学生经常流白色液体对身体好吗 摩尔庄园 替我玩、、、 十万分之一天平,该选哪个好呢? 总是产生幻觉不知道什么原因? 摩尔庄园的问题我是09年的老玩家,在一直没玩过,今天登陆后发现什么都变了,现在清玩家们指示一下我该做些什么,真的很怀念,想重新玩,还有需要开超级拉姆吗?今天回家看见09年的脚印想哭 精确到0.1mg的天平到底应该使用什么样的天平?不知道用万分之一的还是十万分之一的?原理是什么?如果是十万分之一,最低和最高称量多少克呢? 确定一个药品的吸收系数为什么要有这么多的要求 酒精和氯有什么反应 用一道题及解答来介绍什么是模糊数学 转换大师怎么变药剂大师 茶液和酒精混合在一起有什么反应? 一些较浅的伤口破了之后,不流血,流一些透明的液体,基本上不粘,怎么了?有两个月了吧,混身上下都是 紫外线在生活中主要应用在那些方方面面? 是否有氢氧化硫 氢氧化氮 一说? 伤口处的透明液体是什么我的小拇指根手背处蹭破了皮,在蹭伤中应该算是深的了,血没流很多(没到可以滴的程度),但却有白色透明的液体在伤口上(不要忽悠我是血浆,水,我生物成绩很好 生活中哪些地方用到了红外线,紫外线 洛伦兹曲线与基尼系数是如何体现收入分配的平等程度的 梅特勒-托利多AG135分析天平价格多少? 羧酸在碱的存在下,水解反应产物是什么?酸的存在呢?碱的存在下呢? 收入分配的平等可以用哪些标准衡量( ) A.劳动分配率 B.洛伦斯曲线和基尼系数 C.工资的差异率 D.以上都 现在要用高效液相色谱法测定水样中残留的抗生素 要有水样前处理 实验要有水样前处理 实验 和要做出什么数据和图表 油酯属于-------类化合物它可以看成是-------和------发生酯化反应的产物.油酯在酸或碱存在的条件下发生水解反应.其中碱性条件下水解反应被称为-------反应 求教洛伦兹曲线与基尼系数的区别和联系,详细一点的. 什么是参考企业比较法? 为什么冬天和夏天的温差那么大,又为什么冬天的太阳不是很热,而夏天的太阳热的受不了.种种的这些是由什么造成的,要有科学而缜密的解释. 微观经济学中,基尼系数如何衡量收入分配的状况 梅特勒电子天平十万分之一什么是一分钟后读数吗在高原海拔4000左右,温度一般十几度湿度冬天的话也20以下.用着感觉很不稳定,一开始我们是把要称的样品放在上面等小圆圈消失后等一分钟 为什么饱和烷烃的偶极矩为0 请问肯尼亚的气候怎么样?南苏丹呢? 谁有Waters2487高效液相色谱仪说明书? 唾液淀粉酶在经过高温后还有效吗?比如说将唾液放在90°的高温下加热,然后让它冷了以后还能有用吗,还能再消化淀粉吗? 《美研究显示:现有技术无法克隆人》 阅读题 数学中的作商与1比较法具体是怎样的 地沟油加工成化工原料和柴油?是真是假啊 ··我朋友让我帮他收购类 ··谁愿意合作`? 生殖性克隆不安全,应该禁止与美研究显示:现有技术无法克隆人之间是什么关系 生殖 【讨论】十万分之一或百万分之一的分析天平哪个牌子的好? 下列事物不是利用紫外线辐射的是夏天外出戴太阳镜 将衣服、被褥等放到太阳光下暴晒紫外线诱蝇灯诱杀害虫 验钞机识别伪钞 水中氧元素的化合价+2用化学式表示 地沟油是不是废品啊 还有什么利用价值么 300万吨的地沟油可以制作多少柴油 美的电压力锅水槽里没水,真气水在锅口流不了? 十万分之一的电子天平都有哪些品牌 有关紫外光谱吸收峰强度的问题我做了紫外光谱的光谱扫描 发现有个样品的吸收峰Abs达到了1.4 想问一下这个光谱是否符合要求? 一般做光谱扫描的时候是不是要控制Abs小于1? 如果大于1会有 电离方程式是O++OH-=H2O的化学方程式→_→怎么可能没有 你认真点儿……不会的话就别来误导我…… 伤口白色,还有液体,是不是感染了手术后10天我自己查看伤口,缝针露出的内肉(就是本来在皮肤下的)是白色的,但在伤口结合处已经长出新肉,有很少量的渗出黄色液体,压上去有些微疼,在伤口 欧洲政界谴责美国窃听行为“不可接受”巴黎股市CAC40股指24日报收于4图书馆名著借阅率降低 “去经典化”阅春晚语言类节目今日一审 赵本山是否亮央视春晚语言类节目今日一审 开心麻花瑞士确认两人在空军战斗机坠毁事件中死青藏铁路格尔木站两辆火车相撞已造成一伊朗议员称伊朗已暂停提炼纯度20%浓浙江永康华溪再遭劫 “牛奶河”变“凉日外务省前官员说安倍“积极和平主义”俄希望联合国继续充当和平的主要保障伊拉克又一媒体人员遭杀害德外长因总理手机遭窃听召见美大使 最德外长因总理手机遭窃听召见美大使 最美国上周首次申请失业救济人数继续回落吴士存:《联合国海洋法公约》在南海的中国与中东欧青年政治家论坛在京闭幕澳大利亚山火为军事训练导致 澳国防部伊朗议员:伊朗已暂停提炼纯度20%浓澳大利亚山火为军事训练导致 澳国防部全球最适宜工作跨国公司排行 谷歌名列连续8场得分过30 杜兰特让詹皇的M甜瓜连中救命3分却遭完虐 联手JR2数据:李娜制胜分超对手三倍 23记主税务总局明确营改增再扩围后税收征管相现金被风吹散众人捡回6500元 民警东丽加快实施“122”计划 大力发展天津33艘破冰船严阵以待 全力保障航研究称Facebook即将步入“衰退日本“诺如”病毒大流行 感染人数为历瑞银集团主席:欧洲并未彻底走出萧条阴德勤公布足球俱乐部财富榜 曼联跌出前马英九23日晚将出访 台媒:完成“外48岁老板为女大学生买房 分手后要房美国鹰CEO辞职 销售业绩连续大幅度美国德州处死一墨西哥籍男子 墨政府曾港媒:谢长廷夹缝中发力 欲另辟一片天港报:朝韩寻求和解 均需放下身段换位德国政府举行内阁闭门会议 默克尔全力香港地产大亨赵世曾不满女儿出柜悬赏1美国称伊朗缺席叙问题和谈不会影响伊核潘基文强烈谴责巴基斯坦数起恐怖袭击事
备案号:鲁ICP备13029499号-2 说三道四 www.s3d4.cn 说三道四技术文摘