第9回 Webとデータベースに関するフォーラム
2016年9月13日(火) ~ 9月15日(木) 慶應義塾大学 日吉キャンパス
時刻 | A会場前 (協生館 2階) |
B会場前 (来往舎 2階) |
A会場 藤原洋記念ホール (協生館 2階) |
B会場 シンポジウムスペース (来往舎 1階) |
C会場 大会議室 (来往舎 2階) |
D会場 中会議室 (来往舎 2階) |
E会場 小会議室 (来往舎 2階) |
大会議室前 (来往舎 2階) |
遊遊キッチン (食堂棟 1階) |
|
---|---|---|---|---|---|---|---|---|---|---|
09:20 | ||||||||||
09:30 | ||||||||||
09:40 | ||||||||||
09:50 | ||||||||||
10:00 | ||||||||||
10:10 | ||||||||||
10:20 | ||||||||||
10:30 | ||||||||||
10:40 | ||||||||||
10:50 | ||||||||||
11:00 | ||||||||||
11:10 | ||||||||||
11:20 | ||||||||||
11:30 | ||||||||||
11:40 | ||||||||||
11:50 | ||||||||||
12:00 | ||||||||||
12:10 | ||||||||||
12:20 | ||||||||||
12:30 | ||||||||||
12:40 | ||||||||||
12:50 | ||||||||||
13:00 | ||||||||||
13:10 | ||||||||||
13:20 | ||||||||||
13:30 | ||||||||||
13:40 | ||||||||||
13:50 | ||||||||||
14:00 | ||||||||||
14:10 | ||||||||||
14:20 | ||||||||||
14:30 | ||||||||||
14:40 | ||||||||||
14:50 | ||||||||||
15:00 | ||||||||||
15:10 | ||||||||||
15:20 | ||||||||||
15:30 | ||||||||||
15:40 | ||||||||||
15:50 | ||||||||||
16:00 | ||||||||||
16:10 | ||||||||||
16:20 | ||||||||||
16:30 | ||||||||||
16:40 | ||||||||||
16:50 | ||||||||||
17:00 | ||||||||||
17:10 | ||||||||||
17:20 | ||||||||||
17:30 | ||||||||||
17:40 |
時刻 | A会場前 (協生館 2階) |
B会場前 (来往舎 2階) |
A会場 藤原洋記念ホール (協生館 2階) |
B会場 シンポジウムスペース (来往舎 1階) |
C会場 大会議室 (来往舎 2階) |
D会場 中会議室 (来往舎 2階) |
E会場 小会議室 (来往舎 2階) |
大会議室前 (来往舎 2階) |
遊遊キッチン (食堂棟 1階) |
|
---|---|---|---|---|---|---|---|---|---|---|
10:00 | ||||||||||
10:10 | ||||||||||
10:20 | ||||||||||
10:30 | ||||||||||
10:40 | ||||||||||
10:50 | ||||||||||
11:00 | ||||||||||
11:10 | ||||||||||
11:20 | ||||||||||
11:30 | ||||||||||
11:40 | ||||||||||
11:50 | ||||||||||
12:00 | ||||||||||
12:10 | ||||||||||
12:20 | ||||||||||
12:30 | ||||||||||
12:40 | ||||||||||
12:50 | ||||||||||
13:00 | ||||||||||
13:10 | ||||||||||
13:20 | ||||||||||
13:30 | ||||||||||
13:40 | ||||||||||
13:50 | ||||||||||
14:00 | ||||||||||
14:10 | ||||||||||
14:20 | ||||||||||
14:30 | ||||||||||
14:40 | ||||||||||
14:50 | ||||||||||
15:00 | ||||||||||
15:10 | ||||||||||
15:20 | ||||||||||
15:30 | ||||||||||
15:40 | ||||||||||
15:50 | ||||||||||
16:00 | ||||||||||
16:10 | ||||||||||
16:20 | ||||||||||
16:30 | ||||||||||
16:40 | ||||||||||
16:50 | ||||||||||
17:00 | ||||||||||
17:10 | ||||||||||
17:20 | ||||||||||
17:30 | ||||||||||
17:40 | ||||||||||
17:50 | ||||||||||
18:00 | ||||||||||
18:10 | ||||||||||
18:20 | ||||||||||
18:30 | ||||||||||
18:40 | ||||||||||
18:50 | ||||||||||
19:00 | ||||||||||
19:10 | ||||||||||
19:20 | ||||||||||
19:30 | ||||||||||
19:40 | ||||||||||
19:50 | ||||||||||
20:00 |
時刻 | A会場前 (協生館 2階) |
B会場前 (来往舎 2階) |
A会場 藤原洋記念ホール (協生館 2階) |
B会場 シンポジウムスペース (来往舎 1階) |
C会場 大会議室 (来往舎 2階) |
D会場 中会議室 (来往舎 2階) |
E会場 小会議室 (来往舎 2階) |
大会議室前 (来往舎 2階) |
遊遊キッチン (食堂棟 1階) |
|
---|---|---|---|---|---|---|---|---|---|---|
10:00 | ||||||||||
10:10 | ||||||||||
10:20 | ||||||||||
10:30 | ||||||||||
10:40 | ||||||||||
10:50 | ||||||||||
11:00 | ||||||||||
11:10 | ||||||||||
11:20 | ||||||||||
11:30 | ||||||||||
11:40 | ||||||||||
11:50 | ||||||||||
12:00 | ||||||||||
12:10 | ||||||||||
12:20 | ||||||||||
12:30 | ||||||||||
12:40 | ||||||||||
12:50 | ||||||||||
13:00 | ||||||||||
13:10 | ||||||||||
13:20 | ||||||||||
13:30 | ||||||||||
13:40 | ||||||||||
13:50 | ||||||||||
14:00 | ||||||||||
14:10 | ||||||||||
14:20 | ||||||||||
14:30 | ||||||||||
14:40 | ||||||||||
14:50 | ||||||||||
15:00 | ||||||||||
15:10 | ||||||||||
15:20 | ||||||||||
15:30 | ||||||||||
15:40 | ||||||||||
15:50 | ||||||||||
16:00 | ||||||||||
16:10 | ||||||||||
16:20 | ||||||||||
16:30 | ||||||||||
16:40 | ||||||||||
16:50 |
特に学生や教員の方,今年は交流会が2日間予定されています.ぜひご参加ください! 企業の研究者や採用担当者等と直接知り合い,情報交換できる貴重な機会です. 交流会は昼休みに行うため,昼食が出ます. なお,数に限りがあるため,申し込み多数の際は,学生の方を優先することがございます.
本講演では、まず、情報処理学会誌2015年10月号に掲載された「ビッグデータ関連プログラム-米国とEUにおける動向-」から、最近のビッグデータ関連プログラムを紹介する。続いてビッグデータが社会に与えるプライバシー問題に触れ、昨今話題となっているクラウド上での秘密計算に関する技術動向を紹介する。医療情報など厳重な秘匿情報管理が必要なデータを対象としてビッグデータ解析を行うためには、k-匿名化、l-多様性、差分プライバシーといった出力データの保護だけでなく、計算過程においても高い秘匿性が求められる。これを実現する技術として、完全準同型暗号(FHE: Fully Homomorphic Encryption)が提案され、データを暗号化したままの状態で四則計算、すなわち秘密計算を行うことができるようになった。しかし、暗号化しない場合に比較して10桁も計算が遅くなるため、実用化には至っていない。本講演では、秘密計算が持つ問題とそれを解決するための様々な技術について紹介する。
Understanding short texts is crucial to many applications, but challenges abound. First, short texts do not always observe the syntax of a written language. As a result, traditional natural language processing methods cannot be easily applied. Second, short texts usually do not contain sufficient statistical signals to support many state-of-the-art approaches for text processing such as topic modeling. Third, short texts are usually more ambiguous. We argue that knowledge is needed in order to better understand short texts. In this work, we use lexical-semantic knowledge provided by a well-known semantic network for short text understanding. Our knowledge-intensive approach disrupts traditional methods for tasks such as text segmentation, part-of-speech tagging, and concept labeling, in the sense that we focus on semantics in all these tasks. We conduct a comprehensive performance evaluation on real-life data. The results show that knowledge is indispensable for short text understanding, and our knowledge-intensive approaches are effective in harvesting semantics of short texts. We also extend our work to handle entity linking in microblogs.
株式会社富士通交通・道路データサービスは、2015年7月に設立された、富士通グループの中でも特に交通・道路系のデータ分析サービスに特化した会社です。“for Data Oriented Innovation”のキャッチフレーズのもと、日々交通・道路系データの分析を行っています。
ビッグデータは、単に量が多ければ良いわけではありません。「データの品格」を高めるためには様々の工夫が必要です。本日は、データ分析の具体的事例として、交通の様子を見える化する「商用車プローブデータサービス」を中心に、様々の事例をご紹介致します。データの価値を高めることの大切さ、重要さをお伝えできれば幸いです。
IoT技術の進化に伴い,ネットワークを介して通信し,安全かつ効率的に走行できる次世代の自動車(コネクティッド・カー)が注目されている.一方で,電気自動車の普及により,車の "走る・曲がる・止まる" 機能のコモディティ化が進んでおり,自動運転のような,より高付加価値なサービスの創出が求められている.こうした中,大量の車両走行データから得られる集合知が新価値創造のブレークスルーになりえると我々は考える.本講演では,大量の車両データから集合知を得る運転行動解析技術の研究事例を紹介する.
デバイス、クラウド、データ解析など要素技術の成熟により、IoTシステムの活用の障壁は下がり、IoTにより取得されたデータは、様々な分野で利用が始まっています。しかし、IoTの本格化には、セキュリティやデバイス管理などの課題もあります。
本セッションでは、IoTシステムの課題を整理し、それらの課題を解決する、モバイル通信とクラウドを融合したIoT通信プラットフォームSORACOMのサービスと、お客様事例をご紹介します。
本稿では,料理のレシピデータのような永続性が高い情報をユーザが利用する際の時間的特性を利用して,同じ時間的状況下で他の多くの人によって作られたレシピを発見して情報推薦や情報検索を行うための,まったく新しい手法を検討する. 提案手法では,レシピやユーザが入力した時間的状況を表す言語・数値表現を,時間的な特性を表す特徴ベクトルに変換し,調理される時間的状況が類似したレシピや,ユーザが想定した時間的状況で作られるレシピを発見する. レシピの時間的特性の抽出のために,レシピを作った感想を投稿して作者への感謝を示すCookpadの「つくれぽ」の利用履歴を用いる. 時間的状況を示す定性的な言語表現から導かれる日付の開始日と終了日の組を入力として,指定した期間の時間特性を表す特徴ベクトルを生成し,実際のレシピとのコサイン類似度を計算する実験を行った. 特徴ベクトルを生成する際,季節性を示すレシピの場合は正規分布,一年中調理されるレシピの場合は一様分布に従うことを仮定した. 実験によって得られたレシピの内容や特徴ベクトルの分布,生成した特徴ベクトルとのコサイン類似度の値を評価し,入力した時間的状況に合致したレシピが推薦できていることを確認した.
本研究では,楽曲の音響特徴に着目し連続する楽曲間での音響特徴を滑らかに遷移するように,プレイリストを推薦する手法を提案する.具体的には楽曲群を音響特徴に基づき2次元空間に配置し,与えられた2曲を結ぶ直線上の近くにある楽曲をプレイリストに追加する.909曲の実際の楽曲データセットを用いて,10名の被験者による評価実験を行った.実験結果より,提案手法はランダム選曲手法や最近傍手法と比べ 有用性を示すことを確認した.
多数のデジタルアーカイブの公開により,文化財に関するデータを誰でも扱うことができるようになった.しかしながら,文化財に対する理解を深めるためには,その背景にある文化的知識も必要となる.例えば,服飾文化財の代表である「小袖屏風」には,吉祥の文様や植物の文様など様々な文様があしらわれており,それらはおめでたさや季節感を表現するために用いられている.一方,このような文様に関する知識は,小袖屏風とは直接関連しない専門書などに記載されており,「小袖屏風」と「文様」に関するデータを統合的に扱うことは難しい.そこで我々は,「小袖屏風」と「文様」それぞれに関する情報源を統合したデータベースを構築した.これにより,文様に関する知識に基づいた検索が可能となった.
自然言語処理手法の1つで注目を集めるword2vec。リクルートテクノロジーズ ビッグデータ部ではビジネスとしての利用を目的としてword2vecの研究開発にいち早く取り組んで参りました。そして、一般的にはテキスト解析に用いられるこの技術を、ユーザーの行動履歴解析に応用することでリクルートのサービスへの実装を実現し、コンバージョンを大幅に向上させることに成功しました。本講演ではその取り組みの内容についてご紹介致します。
不動産情報サイトに掲載されている情報の中でも、物件画像は物件選びの判断材料として非常に重視されています。しかし,どのような画像を掲載するかは、物件を取り扱う不動産会社に委ねられており、画像の種類や品質、多様性には大きなばらつきがあるのが現状です。本発表では,「HOME’Sデータセット」に含まれる物件画像データを対象として、深層学習の一種であるconvolutional neural network (CNN)を適用する試みを紹介します。キッチンや居間、トイレといった画像の種類や、住まいの利便性や雰囲気などをCNNによって学習、判別させることで、ユーザに新たなサービス価値を提供できる可能性を示唆する結果が得られています。
GPU にクエリ処理をオフロードするデータベース管理システム(DBMS)において,リソース競合を踏まえてクエリをCPU,GPUに割り振ることで性能を改善するクエリスケジューラを提案する.
社会インフラシステムなどにおいて、制御データをRDBMSで管理し、低レイテンシでアクセスできることが求められている。しかし、通常のRDBMSでは要求を満たすことができない場合がある。そこで、RDBMSのクライアントモジュールに、組み込み型のメモリDBを配置することでRDBMSの一部のテーブルをキャッシュして参照を高速化する手法を提案する。クライアントモジュールに配置するメモリDBとして、SQLiteのメモリDB機能を用いて実装・評価を行い、その有効性を確認した。
近年まで状況把握等の画像としての利用が主であった気象レーダは,レーダ技術の向上により比較的正確な観測が可能となり数値としての利用が可能となってきている.一方,ウェブ上の複数の情報源から様々なデータを組み合わせることで,新しいデータの価値を創出し一つのウェブサービスとするマッシュアップが普及してきており,特に時間及び場所をキーとして組み合わせたサービスが多く有用とされている.そこで我々は社会影響の大きい雨に注目し,国土交通省が都市圏を中心に日本各地で広域に整備したXBandMPレーダネットワークであるXRAINのデータを元にマッシュアップに適したWebAPIとしてXRAIN WebAPIシステムを開発し,その評価を行った.
近年では大量のセンシングデータを収集し,機械学習技術を用いてそれらを解析する動きが盛んである.センシングデータを機械学習により解析したとき,結果は不確実性を含む確率的データストリームとなる.そこで,本稿では確率的データストリームに対してパターン照合を適用し,適当な照合結果(マッチ)の取得を目指す.確率的データストリームでは,クリーネ閉包を含むパターンを照合したとき,単純な方法では最長一致のマッチが得られない点が問題となる.本稿では最長一致に基づくマッチを検出するための指標としてマッチの情報利得を定義し,情報利得を最大化することで最長一致のマッチを検出する手法を提案する.また,no-overlapセマンティクスを用いることで,Viterbiアルゴリズムにより効率的なパターン照合が行えることを示す.最後に,実データ及び人工データに基づく実験により,提案手法の有効性と効率性を示す.
各オブジェクトがある種のベクトルとして与えられるケースのクラスタリングの解法は種々存在しているが,共通する問題の一つとして,計算コストや必要なメモリ容量がオブジェクト数に依存することが挙げられる.よって,計算過程において探索するべきオブジェクトの特徴,または探索するべきでないオブジェクトの特徴を見出し,それらを事前にオブジェクト集合から得られる情報から推定できれば,計算コストや使用メモリ容量の削減を図ることができると考えられる.今回我々は,各オブジェクトから見たときの他のオブジェクトとの距離総和と,距離分布の歪度と尖度に着目し,クラスター分析において重要となるオブジェクトの特徴を数値化することを試みる.
MathML (Mathematical Markup Language)には数式の表記を表すPresentation Markup形式と,数式の意味を表すContent Markup形式が存在する.Webページ等に数式を記述する際に用いられ,普及しているのはPresentation Markupであるが,数式を計算するにはContent Markupが適している.そのため,Presentation MarkupからContent Markupへの変換が可能になれば,MathML式の柔軟な利用が可能になる.本稿では,数式の属するクラス情報を元に形式変換を行うために,前段階として多層パーセプトロンを用いてPresentation Markup形式のMathML式の分類を行った.評価実験の結果,本手法を用いてMathML式の分類を高精度に行えることが示せた.
問合せ最適化器による問合せ実行プラン生成の最適性は、データベースシステムの性能に極めて大きな影響を与えるにも関わらず、その評価を系統的に行う手法は十分に確立されているとはいえない。本論文では、問合せ実行プラン生成の最適性評価のための指標に関して、実験結果を基に議論する。
近年、クラウドによるデータ管理が注目を集めている。特に、変動する可能性の高い一般的なデータをパブリッククラウドに保管し、会社内部の機密情報を含むデータをプライベートクラウドに保管するようなハイブリッドなクラウドの使い方が注文を集めている。そこで本研究では複数のクラウドからなるシステムを構築し、クラウド間でデータの自動転送を行うシステムを検討する。本研究ではデータベースの扱い方に着目した。
災害時には膨大なトラフィックが発生し,重要なアプリケーションのパケットを優先的に転送するようなトラフィック制御が求められると考えられる.そのためには,トラフィックの分類を行う必要がある.しかし,同じサイトや同一IPアドレスのホストのサービスでも,サービス内容が多岐に渡ることがある.よって,アプリケーションや接続サイトの同定に加え,サービスの同定を行うことが重要であると考えられる.本研究では,暗号化された複数コネクションのペイロード解析に基づくサービス同定手法を提案し,他手法との比較によりその有効性の評価を行う.
現在、ヤフーを含む多くのインターネット企業にとって広告事業はビジネスの柱である。ヤフーの広告配信では、秒間数万回に上るリクエストに対し、ユーザのニーズにできるだけマッチした広告を極めて短時間で配信する必要がある。また、配信する広告には多くの場合、広告主により多様な配信制御(配信ユーザの興味の指定等)が課されている。このような高度で複雑な要件を満たすため、ヤフーでは独自の疎ベクトル検索エンジンSenjuの開発を行なった。本発表では、Senjuの開発の背景及び利用したアルゴリズムについて紹介する。
株式会社プレイドは、Webサイト上での来訪者の行動を分析し、来訪者の分析結果に合わせた多様なアクションを可能にするプラットフォームKARTEを提供しています。KARTEのバックエンドとして、アクションにつなげる解析をリアルタイムに行うエンジン「Brook」を開発しています。数秒で大規模の蓄積データを解析するバッチ処理システムと,秒間で短いスパンのデータを解析するストリーミング処理システムと比較して、Brookは、あらかじめ解析軸を一つだけ定義しておくことによって秒間で大規模な蓄積データの解析結果を返すこと、またその結果を使ったアクションの実行を可能にします。本報告では、 解析エンジンの概要や、リアルタイム化、分散化を実現する仕組みについて報告します。
ニューラルネットワークとは何か? ディープラーニングはなぜ注目を集めているのか? 実開発での利用の課題は? このセッションでは、これらの疑問について議論し、さらにGoogleフォトやAndroid、Google検索等で利用されているGoogleにおける大規模なニューラルネットワーク導入事例を紹介します。また後半では、Cloud Vision API、Speech API、TensorFlow、CloudMLなど、Googleが提供するスケーラブルでフルマネージドのクラウドサービスについて解説し、Googleの機械学習技術を活用する方法を紹介します。
本研究では,ジオタグ付ツイートデータを時間と場所と言語に基づき分析し,ユーザ行動に対する認知特性の解明を目指す.本稿では,発信場所と言語の形態の相違に着目し,特に多言語であるヨーロッパのツイートを対象とし,場所と言語の分析結果を可視化し,検証する.具体的には,ツイッターユーザが登録時に設定した言語(母国語)とし,ツイートで言及した言語(言及言語),さらに発信場所の3つを抽出し,それら3つの差異を抽出し,ヒートマップとして可視化・提示する.これら母国語と言及言語,母国語と発信位置,言及言語と発信位置の3つをヒートマップ等から比較検証し,ヨーロッパにおけるツイートの言語形態について考察する.
防災・減災の情報を,インターネット上のブログ記事より取得しようとしても,記事が多数存在し,その内容が自分にとって有用であるかの判断は容易ではない.そこで,記事内容を推測できるような分類や,不適切な記事の検出および除去を行えば,効率よく情報の獲得や理解ができるのではないかと考え,これまで災害記事データベースの構築に携わってきた.平成28年熊本地震の前後のYahoo!ブログ災害カテゴリの記事を対象とし,潜在的ディリクレ配分法(LDA)を用いた記事のトピック分析を実施したので報告する.
本稿では,オリジナルコンテンツから次々と新しい派生コンテンツが制作されるN次創作活動において,派生コンテンツの制作を引き起こした要因を推定するためのモデルを提案する.提案モデルでは,クリエータが派生コンテンツを制作する際に次の3つの要因が影響すると考える:(1)オリジナルコンテンツの魅力,(2)オリジナルコンテンツの人気,(3)派生コンテンツの人気.オリジナルコンテンツと派生コンテンツの人気は,コンテンツのランキング情報および,クリエータがランキングを閲覧する際の振る舞いに基づいて求める.本研究の貢献は次の3点である.(1)N次創作活動のモデル化に取り組んだ初めての研究である.(2)音楽コンテンツに関する実世界のN 次創作活動データを用いて,提案モデルの有用性を定量的に示した.(3)提案モデルを用いることで,ドメインが持つ特性や,派生コンテンツの制作を引き起こした要因の時間的推移などの分析が可能になることを定性的に示した.
本研究ではMapReduceにおけるshuffleの性能に関して、ディスクI/Oとネットワーク通信の2つの観点から詳細な解析を行う。解析対象として現在一般に幅広く用いられているMapReduce処理系であるApache Sparkを採用し、shuffleフェーズにおける性能ボトルネックを検証する。また比較対象として独自のIn-memory MapReduce処理系に4種類のshuffle手法を実装した上で、効率的なshuffle手法の検討を行う。
Android OS向けに開発されるアプリケーションの増加に伴いアプリケーション動作観察の重要性が増している一方で,アプリケーションを実際に動作させる動的解析手法には長い時間を要する欠点がある.本研究ではAndroid端末および接続先サーバ端末双方の認識する時間の流れを実時間より速くすることにより高速なアプリケーション観察環境の構築を可能とする手法を提案する.
現在,世界中には莫大な数の書籍が存在しており,ユーザは自分の好みに合った書籍を発見することが困難になっている.こうした中で,書籍のレビューを閲覧可能な投稿型レビューサイトの役割が重要になっ ている.投稿型レビューサイトの機能の一つに,レビューを投稿したユーザを利用した協調フィルタリングがある.レビューを投稿したユーザを利用した協調フィルタリングでは,同一の書籍を読んだユーザは同等に扱われるのが一般的である.しかし,同一の書籍に対するレビューであったとしても,書籍を捉える観点には多様性があるため,ユーザは同等と考えられない場合がある.本論文では,ユーザの観点に対する嗜好に着目し,他のユーザに対する受容度を求めることで,よりユーザの好みに合った推薦を実現する手法を提案する.
近年のSNS の普及に伴い、新聞社を代表とするニュースソースがSNSなどを通し、ニュース記事を積極的に配信するようになった。ユーザはSNS上でリプライなどの形でニュースへ反応を行うことができる。本発表では、ユーザが日常的に行っているツイートから抽出したユーザの関心と反応したニュースの関連性について調査を行った結果を報告する。
近年、スマートフォン等でのWebページ閲覧に対応するために、レスポンシブWebデザインが普及しているが、これは画面サイズのみを考慮した対応で、ユーザの閲覧意図に対応したものではない。 本研究では、閲覧意図に基づいたWebページの最適化のための基礎として、Webページの文書セグメントの特徴抽出を行う。
情報推薦分野で用いる嗜好データは大部分が欠損値である.協調フィルタリングの処理にディープラーニング技術を応用するためには,嗜好データの欠損値の取り扱いが問題となる.本稿では嗜好データの欠損値を補完せずにディープラーニング技術を用いたオートエンコーダへの入力とする手法を提案する.また,提案手法と欠損値補完を行った場合を,学習過程と推薦精度について比較する.推薦精度は実データを用いて評価を行った.
材料科学分野では、最近「マテリアルズ・インフォマティクス」というITを用い研究開発を効率化する取り組みが活発化してきている。しかし、現在、材料科学分野の研究者の多くは、Fortranプログラムなどレガシーともいわれる環境を用い研究開発を行っており、RDBMSやKVSなどの最近のデータ工学の成果であるデータ管理システムにはいまだ定着していない。一方、計算機の黎明期より数値シミュレーションが行われていることが示すように本分野は元来ITリテラシーの高い人材が多くとも不思議はない分野である。ゆえにこそ、データ管理システムの導入による研究開発の加速が期待されるが、これまで導入を阻んできた技術的および環境的要因を明確化し解決しなければ、その状況を打破することはできないとも考えられる。
そこで今回、特にその技術的要因に着目し、実際の材料科学分野の研究現場において、データ管理システムがどのような場面で活用できるかを調査した。本報告では、そのひとつである大規模多次元データベースのデータ構造、およびそれに対する典型的なクエリをまとめ、そこに内在する技術的困難とその解決策について、既存研究との関連をふまえて報告する。また、その一例について、実際の材料科学研究のデータを管理するDBを構築し、そのフィージビリティを評価した結果について示す。
ダブル配列とは,文字列をキーとする辞書を実現するために広く用いられるデータ構造である.動的辞書として利用する場合,キーの削除に伴う記憶効率の低下が問題とされてきたが,ダブル配列の再構成により,この問題が解決されることが先行研究により示されている.本稿では,従来の再構成法に関して,その実行時間が実用において問題となる点について述べ,それを改善するための新しい再構成法を提案する.1,000万件以上のキーから構成される辞書を用いた実験により,従来手法では2分以上要した再構成を,提案手法では1秒未満でおこなえることを示す.加えて,提案手法による再構成は検索速度の向上にも繋がることを示す.
データマイニングにおいてデータセットの中で他と大きく異なる値をもつ外れ値を検出することは重要なタスクとなっている.代表的な外れ値検出手法の一つとして距離に基づく手法があるが,ユーザが求める外れ値を検出するための適切なパラメータの選択が容易でないことが知られている.この問題に対し,ユーザが求める外れ値検出に適切なパラメータ選択を支援する対話的な外れ値分析手法ONIONが提案されている.ONIONでは対象データ集合を事前に分析し索引構造を構築することで,種々の対話的分析を支援する.しかし,対象データ集合に更新がある場合の索引構造の更新については考慮されていない.本研究では,ONIONの索引構造に加えて,カウンタ付きグリッド索引を組み合わせて用いることで,データの動的な変化にも対応可能な対話的外れ値分析手法を提案し,実験によりその有用性を評価する.
Data stream management systems (DSMSs) are suitable to manage and process continuous data at high input rate with low latency. For advanced driver assistance including autonomous driving, embedded systems use a variety of sensor data and communications from outside the vehicle. Thus, the software developed for these systems must be able to handle large volumes of data and complex processing. We are developing a platform to integrate and manage data in an automotive embedded system using a DSMS. However, because the automotive data processing, which is distributed in in-vehicle networks of the embedded system, is time-critical with deadlines, and also requires reliability to reduce sensor noise, conventional DSMSs are difficult to meet those requirement. To address the new challenges, we developed an automotive embedded DSMS (AEDSMS). AEDSMS precompiles high-level queries into executable query plan when designing automotive systems (which demands time-criticality), and the data stream processing is distributed in in-vehicle networks appropriately, where real-time scheduling and senor data fusion are also applied to meet the deadlines and to enhance the reliability of sensor data. The main contributions of this paper are: (1) a clear understanding of the challenges faced when introducing DSMSs into the automotive field; (2) the proposal of AEDSMS to tackle these challenges; and (3) an evaluation of AEDSMS during runtime for advanced driver assistance.
クラウドコンピューティングにおけるマルチテナント型データベースはテナント間で市中製品を共有できるためコスト削減が実現でき,Database-as-a-serviceとして人気が上昇している.しかしながら,資源を共有することによって,予想外に負荷が増えることなどの理由でホットスポットを生み出すことがある.不幸なことに,ホットスポットはサービスレベルアグリーメントを満たせなかったり,顧客の満足度を下げたりすることにつながる.そこで,ホットスポットを解決するために,我々はデータベースライブマイグレーションを実行できるMadeusと呼ぶミドルウェアを提案する.効率良くマイグレーションを実現するために,我々はlazyスナップショット分離ルール(LSIR)と呼ぶルールを導入する.これは,スレーブデータベースとマスタデータベースをコンシステントにするためのクエリの集合を効率良くスレーブへ並行転送するルールである.我々のアプローチの優位性を示すために,PostgreSQLのミドルウェアを作成しTPC-Wベンチマークで実験を行った.その結果,Madeusは既存アプローチをベースとした3つのアプローチよりも短時間でマイグレーションが行えることが分かった.特にMadeusは高負荷の場合ほど有効であるため,ホットスポットを解決することができる.
Although long queries are still a small part of the queries submitted to Web search engines, their usage tends to gradually increase. However, the effectiveness of the retrieval decreases with the increase of query length. Long queries are very likely to have few Web pages returned. We target at sentential queries, a type of long queries, and propose a method called sentential query paraphrasing for improving their retrieval performance, especially on recall. We are motivated by the assumption that a sentence is an indivisible whole, which means that removing terms or phrases from a sentence would lead to the missing of some information or query drift. In this paper, we paraphrase sentential queries to avoid missing information and consequently ensure the completeness of the information. Take the sentential query “apples pop a powerful pectin punch,” for example. Its meaning will be changed if one or more terms are removed, and few Web pages are returned by conventional search engines. In contrast, querying by its paraphrases, such as “apples contain a lot of pectin” or “apples are rich in pectin,” can retrieve more Web pages. The experimental results show that our method can acquire more paraphrases from the noisy Web. Besides, with the help of paraphrases, more Web pages can be retrieved, especially for those sentential queries that could not find any answers with its original expression.
Dictionary learning is an unsupervised learning task that finds a set of template vectors that expresses input signals by sparse linear combinations. There are currently several methods for dictionary learning, for example K-SVD and MOD. In this paper, a new dictionary learning method, namely K-normalized bilateral projections (K-NBP), is proposed, which uses faster low rank approximation. Experiments showed that the method was fast and when the number of iterations was limited, it outperforms K-SVD. This indicated that the method was particularly suited to large data sets with high dimension, where each iteration takes a long time. K-NBP was applied to an image reconstruction task where images corrupted by noise were recovered using a dictionary learned from other images.
ソーシャルメディアでの言及量やウェブ検索エンジンでの検索頻度をもとに,トレンドキーワードを発見する研究開発が広く行われている.また,注目されているキーワードに対して情報を付与し,そのキーワードの理解を促すような試みもある.しかし,それらのトレンドキーワードが様々なウェブリソースでどのように振る舞うのかは必ずしも明らかではない.そこで本研究では,トレンドをとらえうるウェブリソースを対象に,収集したトレンドキーワードがどのように振る舞うのかを横断的に調査する.この調査により,大半のトレンドキーワードがオンライン辞書サービスに登録されていないこと,検索のトレンドは2日で50%未満の頻度に収束すること,ソーシャルメディア(Twitter)がほかのウェブリソースよりもトレンドに敏感であることなどを明らかにする.
ショッピングの楽しい体験の一つに、ウィンドウショッピング中に一目ぼれして衝動買いをしてしまったことはないだろうか? ECでもこのようなショッピング体験を実現するために、写真や画像からユーザーが目にした商品を購入できるアプリを開発した。コアとなる技術は、深層学習を用いた商品レコメンデーションエンジンである。ユーザーが撮影した写真には様々な物体が映っているため、所望するアイテム群を個別に識別できなくてはならない。本研究では、多様なモデルを活用して、複数のファッションアイテムを識別して商品マスタに紐づけるシステムについて説明する。
楽天市場のデータは、ユーザの特徴を推定する上で極めて有効な情報源である。本発表では、楽天グループ内のサービスの潜在顧客ユーザを、楽天市場のデータを用いて抽出する手法の紹介、およびその効果を報告する。
ユーザのデモグラフィック(性別や年齢など)情報を活用することで、例えば、性別や年齢毎に適した記事を配信することが可能となります。一方、デモグラフィック情報を登録しているユーザは一部に限られるため推定を行う必要があります。Gunosyでは畳み込みニューラルネットワークによるモデルを組み合わせることによって、既存手法よりも高い精度を実現しています。本セッションでは、Gunosyが用いているアルゴリズムやチューニング内容などについてご紹介します。
データ工学に関連する分野の博士課程学生(進学予定含む)および学位取得後数年の若手研究者を対象としたミニワークショップです.
発表者の研究テーマに関し,Professor Xiaofang Zhou をメンターとして,難関国際会議・ジャーナルを目指して自由闊達な議論を行います.
WebDBの参加者は誰でも聴講可能です.本稿では,学術情報検索であるCiNii Articlesのアクセスログを用いて,検索熟練度を考慮したユーザ行動の分析を行う.
従来,情報検索システムでは利用履歴の統計を得るための幾つかの指標が用いられてきたが,本稿ではこれらをユーザの検索熟練度を判定する4つの指標として再構築し,2つはユーザが入力したクエリの分析に,残りの2つはユーザの情報探索行動の分析に使用する.
実際にその有効性を,CiNii Articlesのアクセスログから同じIPアドレスとユーザエージェントの組をユーザ識別子と仮定して抽出したセッションを,書誌情報または著者情報に到達したか否かで成功と失敗に分類した場合に,指標に明らかな差があったことで確認した.
CiNii Articlesにおけるユーザ行動を,検索熟練度に関する4つの指標とその相関関係で分析した結果,クエリに関しては短い単語の組み合わせや長い文章を用いる2種類のパターンを,ユーザの情報探索行動に関してはクエリ選択指向と検索結果閲覧指向の2種類のパターンがあることを確認した.
近年,スマートフォンによるオンラインショッピングの利用者が増大している.オンラインショッピングでは,ユーザが興味を持たない商品も含む大量の商品から構成される商品リストを閲覧して,購入する商品を決定することが多い.しかし,スマートフォンは画面が小さく,操作性が高くないため,このリストから商品を効率的に選別できないという問題がある.本論文では,ユーザによるスマートフォン上の効率的な商品選別を支援することを目的に,スマートフォン上で閲覧する際の振舞いに基づいて,商品リストの未読部分を動的に最適化する手法を提案する.本手法では,商品リストの最適化を実現するために,(1)ユーザの閲覧時の振舞いを利用して既読商品に対するユーザの評価を自動的に推定し,(2)推定された評価に基づいてユーザの購買意図を推定し商品リストの未読部分においてユーザの興味がある可能性が高い商品を優先的に提示する.開発したプロトタイプシステムを用いた被験者実験に基づき,本手法の有効性を評価した結果,商品リストの未読部分の最適化において,提案手法は既存手法よりも効率的にスマートフォン上で商品を選別可能であることが示された.
ツイッターは自ら情報を発信するだけで無く、フォローによって他ユーザを自らのタイムラインに表示する情報源とすることができる。本研究では、フォローされたユーザであるフォロウィーの役割を、フォローの順序関係から推定する手法を提案する。提案法は、ユーザが作成するフォローリストをフォロー順によるフォロウィーのランキングとみなしてBradley-Terryモデルを適用することを特徴とする。複数のフォローリストを、フォロウィーがユーザによってフォローされる順序関係を表す1つのランキングへと統合し、その位置によってフォロウィーの役割を推定する。
活発に利用されている実際のツイッターユーザに提案法を適用した結果、早い段階からユーザからフォローされているフォロウィーは、幅広い話題をつぶやく傾向が強いメディエータとしての役割が大きく、後になってフォローされるフォロウィーには、専門特化した話題をつぶやくユーザが多い傾向が見られた。
The problem of similarity search is a crucial task in many real-world applications such as multimedia databases, data mining, and bioinformatics. In this work, we investigate the similarity search on uncertain data modeled in Gaussian distributions. By employing Kullback-Leibler divergence (KL-divergence) to measure the dissimilarity between two Gaussian distributions, our goal is to search a database for the top-k Gaussian distributions similar to a given query Gaussian distribution. Especially, we consider non-correlated Gaussian distributions, where there are no correlations between dimensions and their covariance matrices are diagonal. To support query processing, we propose two types of novel approaches utilizing the notions of rank aggregation and skyline queries. The efficiency and effectiveness of our approaches are demonstrated through a comprehensive experimental performance study.
We present a method for selecting good locations, each of which is close to desirable facilities such as stations, warehouses, promising customers' house, etc. and is far from undesirable facilities such as competitors' shops, noise sources, etc. Skyline query, which selects non- dominated objects, is a well known method for selecting small number of desirable objects. We use the idea of skyline queries to select good locations. However, locations are two dimensional data, while objects in the problem of conventional skyline queries are zero dimensional data. Comparison of two dimensional data is much more complicated than that of zero dimensional data. In this paper, we solve the problem of skyline query for two dimensional data, i.e., areas in a map. Experimental evaluations of the proposed method shows that our approach is able to find reasonable number of desirable skyline areas.
観光ルート推薦の問題は,なんらかの目的関数を最大化する最適化問題として定式化することができる.たとえば旅行者の興味や満足度をスコアとして表した関数の値を最大化する観光ルートを求める問題として定式化することができる.この最適なルートを求める問題はTravelling Salesman Problem(TSP)と類似した整数計画問題として記述することができる.しかしTSPと同様の定式化をすると不適切な解が頻繁に計算される問題が生じる.たとえば一筆書きにならない途切れたルートが頻繁に計算される問題が生じる.この問題を解決する制約条件を本研究では提案する.提案する制約条件には計算時間が大幅に増大する問題がある.そこで計算時間を短縮する制約条件をさらに追加する手法を提案する.提案手法の有効性を示すために2種類の目的関数を使った実験を行った.1つ目は訪問する観光スポットの人気度の総和,2つ目は旅行者をマルコフ遷移モデルで表した場合の対数尤度を目的関数として設定し実験を行った.どちらの目的関数を使用した実験でも,提案手法によって計算される観光ルートは,Greedyな解法で計算したルートと比べておおよそ2倍の目的関数の値を与えることを確認した.
近年,旅番組やバラエティ番組,教育番組など多種多様なテレビ番組が放送されている.
これらのテレビ番組の中には歴史的な場所や観光名所などを紹介している映像が存在する.視聴者に映像におけるトピックとなるスポットの地理情報を提示することが可能であるが,視聴者はスポットの詳細や周辺状況などを把握することが困難な場合がある.そこで,本研究では,映像に付与している字幕データから地名を抽出し,Wikipediaのカテゴリ構造を用いることにより,その地名に関する詳細情報や補足情報を抽出する.それらの地名に関するInstagramの投稿写真やハッシュタグを視聴者に提示するシステムを提案する.また,評価実験により,映像に出現している地名に関する詳細情報や補足情報を直感的に視聴者に提供することが確認できた.
通販サイトの商品レビューは,商品に対する評判や使用感などが記載されており,商品購入を検討しているユーザの助けになる.しかし,商品によってはレビューの数が多く,有用な情報のみを効率よく見つけることは難しい.そこで,本研究では評価値付きレビューからその評価値の根拠となる語を抽出することを目的とする.根拠となる語は評価値との関係が深いと考えられる.そこで,根拠語の候補を素性として用いた評価値の予測タスクにおいて重要な素性を根拠語として抽出する.本研究では予測にSupport Vector Machineを用いる.素性の重要性としては,線形カーネルを用いた場合における語に対応する重みの絶対値と,各素性を除外した場合における予測精度の低下の大きさの2つを提案する.また,根拠語の抽出精度を向上させるため,これらの2つの重要性と頻度を組み合わせる手法を検討する.
近年、オンラインショッピングの拡大に伴い、膨大な顧客購買データが利用できるようになっている。
本研究では、ユーザが投稿したレビュー履歴から有向グラフを構築、購買パターンの抽出を試みる。購買パターンは3ノードモチーフパターンの組み合わせによって表現できると考え、以下の手法を提案する。
まず、ユーザのレビュー順序に基づき、purchased history graph(PHG)を構築し弱連結成分(WCC)分解を行う。
各WCC毎にモチーフベクトルを構築、K-means法によりクラスタリングすることで、購買パターンの抽出を抽出する。
本研究では楽天市場のレビューデータを使用し、8つの購買パターンが抽出された。これらの購買パターンに対する考察する。
UMLは,クラス図の「関連 (association)」を「意味論的な関連性を示す」と定義している.しかし,この定義では,エンジニアの具体的設計指針とするのは難しい.この課題を解決するため,本論文では,「クラス図の『関連』は関係データベースの関数従属と等価であるべき」,との視点に立脚する.そして,この観点からクラス図の構成を理論的に分析する.関連が関数従属と等価となるには,関連の片側の多重度は「1」となる必要がある.その場合,多重度0は,1)オブジェクトの生成タイミング,又は,2)オブジェクトのライフタイムを,関数の入力側オブジェクトの属性として持たせることにより表現できる.更に,関数従属の関連は,ライフタイムの短いオブジェクトから,長いオブジェクトにのみ張り得る.以上の理論的分析から,関数従属の「関連」を持つクラス図の構成が規定される.本提案によるクラス図の構成は,Chenの存在従属クラス図と等価であり,併せて,椿・渡辺によるER図設計手法の正当性を理論的に傍証する.本提案によれば,存在従属クラス図の作成ガイドラインとして,1)存在従属クラス図の独立クラスと従属クラスを分けて認識,2)オブジェクトのライフタイムに着目して,従属クラスを同定し,3)特定タイミングのデータ状態を記録する「タイミング型」と,ある時間的期間におけるオブジェクトの存在を表現する「期間型」の2種類の従属クラスを設けた設計を行う,が示される.
近年,いくつかのLinked Data (LD) のデータセットを組み合わせてシステムを作り上げることが増えてきた.その際,開発者はLD のスキーマを確認しながらSPARQLクエリを組立て検索するが,スキーマ定義が記述されていない場合,開発者はスキーマを推定しながらSPARQLクエリを組立てるため,手間がかかる.そこで,本研究はその手間を減らすため,LDからクエリ組立に役立つ情報を抽出し,ヒントとして開発者に提示するための手法の確立を目的とする.入力された情報要求から検索クエリのグラフの生成と,そのグラフに基づくLDからの情報抽出の試みについて報告する.
社会的な電力削減要求の高まりから,再生可能エネルギーを用いた発電設備や蓄電池を構成要素としたマイクログリッドの導入が進んでいる.しかし需要量や発電量は日々変動すること,また移動するバッテリーである電気自動車(EV: Electric Vehicle)が登場したことにより,電力の需給バランスを制御することが複雑になっている.そこで我々は,自動車での通勤ログや建物の需要電力のようなライフログと,気象ログや社会的な電力需要量のようなオープンデータを蓄積する統合データベースを設計し,太陽光パネルとEVを構成要素としたマイクログリッドの導入効果を事前に検討可能なシステムを構築してきた.本稿では,横浜国立大学を例にマイクログリッドの導入シミュレーションを行い,太陽光パネルやEVの導入量に応じた需給マッチング効果を提示し,日ごとや季節ごとに異なるマイクログリッド導入効果を提示可能であることを示す.
2016年4月にインターネット上でテレビ番組を無料で視聴できるサービス「AbemaTV」をリリースした。リリース後4ヶ月で700万ダウンロード突破と好調な滑り出しとなっているが、その好調さを裏から支えているデータ分析の事例について報告する。
Hadoopにとってネットワークはクラスタのパフォーマンスに出す上で重要なものです。また、大規模なクラスタに合わせてネットワークもスケールアウトできることが必要です。Yahoo! JAPANではその問題を解決するために ip clos network を採用しました。今回はネットワーク構成や運用で起きたネットワークに関するトラブル、Hadoopジョブを用いてのネットワークパフォーマンステストについてお話します。
デジタルイノベーションを実現するためには、SoRとSoEのシステムをデータで紐付けることが重要。弊社のPostgreSQLをベースにした3つの独自技術(インメモリカラムナ、高速データロード、外部データラッパー)によって、デジタルイノベーションを実現する取り組みをご紹介します。
現在、ご覧いただいているページはテストページです。 URL を知っている人しかアクセスできませんので、取り扱いにご注意ください。 公開前に内容等の確認をするためのページで、公開の承諾を頂く前に公開されることはありません。
ご覧のページの URL は以下となっておりますが、
http://db-event.jpn.org/webdbf2016/index.html
公開時のURL は以下となりますので、ご注意ください。
http://db-event.jpn.org/webdbf2016/index.html