Presentation Creating Open Data for New Scholarship : HathiTrust Research Center Case

Downie, J. Stephen

Description
HathiTrustリサーチセンター(HTRC)の Extracted Features( EF:抽出された特徴素)データセットパージョン1 .0. (https://analytics.hathitrust.org/datasets)は最近公開されたオープンデータセットである。EFデータセットは、HathiTrustコーパス内の冊子それぞれのページの語数や行数、品詞等に関する定量的な情報を提供している。EF データセットは、2兆を超えるトークン(単語)、50億ページ以上を含む13,744,765 冊から抽出されたものであり、著作権の制限のために利用できない800万冊以上の特徴へのアクセスを提供するものとして、研究者にとって非常に価値がある。本講演では、この重要なオープンセットの構築について概説し、この貴重な情報源によって可能になった一連の研究プロジェクトを紹介する。
Full-Text

http://catalog.lib.kyushu-u.ac.jp/handle/2324/1794497/handouts_downie_htrc_kyushu_2017_withJapanese.pdf

Number of accesses :  

Other information