168体育APP下载

创立于2004年

亚太区语言服务商Top 30

语料库

Corpus

美国当代英语语料库(单语)

美国当代英语语料库(Corpus of Contemporary American English,简称COCA)是目前最大的免费英语语料库,它由包含5.2亿词的文本构成,这些文本由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。

美国杨百翰大学BNC语料库
(单语)

由美国杨百翰大学语言学教授创立,下设多个字库,语料极其丰富。

美国国家语料库(单语)

最大的关于美语使用现状的语料库,记录了自1990年起美语口头和书面语,词量达2200万。

BNC (British National Corpus)
(单语)

英国国家语料库由牛津出版社、朗文出版公司和大英图书馆等机构共同建立。其中包括广泛的书面语和口语,书面语90%,口语10%,总词量超过1亿。

Corpus Concordance English
(单语)

综合多个语料库,内容包括历届美国总统演讲及电视节目、学术、法律等,有口语和书面语两种形式,词量达数千万。

Michigan Corpus of Academic Spoken English(单语)

密歇根大学英语语言所建立,内容主要为学术英语口语,词量达184万。

Online BLCKWIC Concordancer
(双语,英语、日语)

商业信函及其他信函类语料库,由日本人建立,包括商业信函、名人信函、美国总统国情咨文部分名著等。

BOE——柯林斯英语语料库
(the Bank of English)

为目前世界三大著名语料库之一,该语料库(The Bank of English)为英国伯明翰大学与Harper Collins出版社合作建立的COBUILD语料库的一部分,目前固定在4.5亿词的规模,可以在线检索。

WebCorp

由伯明翰城市大学英语学院英语研究小组开发的网络语料库WebCorp 除了具有传统语料库检索软件的词表(wordlist)、语篇统计(token与type数目统计)、KWIC索引(语境共现)、搭配统计(Key phrases)、词语型式(pattern)统计等功能以外,还具有网络语料库特有的功能。它能够设定常见词(stop words)排除,将the、a等常见词从搭配中自动去除掉,这样检索出来的词语搭配更加精炼准确;能够设定搜索的域名范围、时间范围,可以提供不同地区、不同时期的语料资源。

绍兴文理学院语料库

由绍兴文理学院建立,主要语料有鲁迅作品、四书五经、传统经典、毛邓选集、两岸三地法律等。

北京大学中国语言学研究中心

CCL语料库中包含现代汉语语料、古代汉语语料两类单语语料,涉及的文献时间从公元前11世纪到当代。其中现代汉语语料约6 亿字符,涵盖了文学、戏剧、报刊、翻译作品、网络语料、应用文、电视电影、学术文献、史传、相声小品、口语等多个类型。CCL语料库中古代汉语语料约2亿字符,收录了从周代到民国的语料及大藏经、二十五史、历代笔记、十三经注疏、全唐诗、诸子百家、全元曲、全宋词、道藏、辞书、蒙学读物等的杂类语料。除了两大单语语料库的扩容外,近年来CCL语料库还融入了一些专题语料库。

北京语言大学语料库中心
BCC语料库

BCC语料库是以汉语为主,兼有英语、西班牙语、法语、德语、土耳其语等语言的语料库,其中汉语语料规模约150亿字,涵盖了报刊、文学、微博、科技、综合和古汉语等多领域语料。BCC语料库包括了生语料、分词语料、词性标注语料和句法树,目前已对现代汉语、英语、法语的语料进行词性标注。

清华大学中英平行语料库

清华大学中英平行语料库由清华大学自然语言处理与社会人文计算实验室在国家“863 计划” 项目“ 互联网语言翻译系统研制” 的支持下,利用自身研发的互联网平行网页获取软件和双语句子自动对齐软件获取并处理得到的,共包含285万中英平行句对。

香港教育学院
“LIVAC汉语共时语料库”

LIVAC汉语共时语料库以严谨、恒常与「共时」方式,搜索和处理了超常的大量具代表性汉语平面媒体语料,并通过精密的技术,累积了泛华语地区众多精确的语言和语用统计数据。本语料库最大特点是采用「共时性」视窗模式,剖析来自香港,北京,上海,台湾,澳门,新加坡等多地有代表性的定量华语媒体语料。直至2016年,LIVAC已累计过滤25亿汉字语料,并已处理逾6亿字,累积并持续提炼出2百多万词条。

中文语言资源联盟

中文语言资源联盟是由中国中文信息学会语言资源建设和管理工作委员会发起,由中文语言(包括文本、语音、文字等)资源建设和管理领域的科技工作者自愿组成的学术性、公益性、非盈利性的社会团体,具有完整性、权威性、系统性和开放性的特点,涵盖中文信息处理各个层面上所需要的语言语音资源,包括词典、各种语音语言语料库、工具等。

汉语中介语语料库”

汉语中介语语料库由北京语言大学于1992年开始建设。该语料库立足于汉语教学已收录1635位外国学生共5774篇成篇成段的汉语作文或练习材料,总字数约353万,其中1731 篇约104万字的语料经过断句、分词和词性标注等加工处理。目前该全球汉语中介语料库仍处于努力建设过程中,北京语言大学仍然努力于建设全球汉语中介语语料库,其规模预计达5000万字,包括笔语语料、口语语料和多模态子库。笔语语料规模预计达4500万字,其中2000万字将加工成为熟语料;口语语料450小时,约合400万字;多模态语料110小时,约合100万字。